Charlie的世界

错误记录

发表于2023-12-14 错误记录

错误记录错误描述 1HDFS集群卡顿原因 1加载混乱解决方案 12345先启动主结点，再启动从结点- Master- node1- node2- node3 错误描述 1id乱码原因 1id以数字开头了解决方案 1234在id前面加入_# id命名规则字母数字下划线，数字不能开头错误描述 123# 更改location后，数据没有和表一起迁移# 内部表修改表路径# 外部表修改表路径解决方案 12345678910111213141516171819需要配合其他方式迁移数据 1、移动hdf中的文件（cut & patse） 2、通过hdfs命令迁移 # 内部表1、设置新路径alter table tb_test set location 'hdfs://user/tset'2、移动文件地址hdfs dfs -mv 源文件路径新文件路径# 外部表1、删除旧表drop table 表名；（删除元数据）2、移动文件到新路径hdfs dfs -mv 源文件路径新文件路径3、新建表，并指定为新路径cr ...

大数据

未读

Zookeeper入门

发表于2023-12-14 大数据

Zookeeper入门集群角色 leader：管理follower，处理所有事务请求（仅有一个） follower：选举leader，和数据的同步及获取 observer：复制数据的同步及获取（需要配置生效）配置环境变量 12345678910111213# 进入zookeeper的bin目录cd /export/server/zookeeper/bin# 查看zookeeper状态。/zkServer.sh status# shell 脚本配置环境变量!#usr/bin bashecho 'export ZOOKEEPER_HOME=/export/server/zookeeper' >> /etc/profileecho 'export PATH=$PATH:$ZOOKEEPER_HOME/bin' >> /etc/profilesource /etc/profile 启动Zookeeper服务 12345678# 查看状态（最少启动两台才会显示角色相关信息）zkServer.sh status# 启 ...

大数据

未读

Hadoop生态架构

发表于2023-12-14 大数据

Hadoop生态架构 HDFS:可提供高吞吐量的分布式文件系统 yarn：用于任务调度和集群资源管理的框架 MapReduce：用于大型数据集并行处理的系统 ZooKeeper：高性能的分布式应用程序协调服务 Flume：日志搜集系统，将日志文件从不同源收集、聚合移动到一个集中的数据中心存储 Sqoop： 2. 数据仓库

数仓实战

未读

数仓核心优化

发表于2023-12-14 数仓实战

数仓核心优化1. 数据采样1.1. 分桶表（hash算法）作用数据采样测试SQL是否可以正常运行校验数据可行性统计分析（相对性指标：比率）提升join的查询效率减少join次数 1.2. 采样函数 tablesample（bucket x out of y [on column]） X 表示从第几个桶开始 y 表示抽样比例 column 表示抽样字段 2. join优化1. 可能出现的问题数据倾斜所有的数据都在同一个reduce运算，reduce压力过大 2. 解决方案2.1 map join （大表+小表）将小表放一份到每个mapTask的内存中设置参数 set hive.auto.convert.join = True (开启map Join) set hive.euto.coonvert.join.noconditionaltask.size = 29321937838 (设置小表的最大阈值) 缺点比较消耗内存要求join中必须有小表，否则无法放入内存中 2.2 bucket map join （中型 ...

未读

无题

发表于2023-12-14

数仓实战

未读

总结

发表于2023-12-14 数仓实战

总结1. ADS层2. DWD层3. DWM层4. DWS层5. 公共维度DIM6. ODS层

数仓实战

未读

指标和需求分析

发表于2023-12-14 数仓实战

指标和需求分析1. 指标分类原子指标派生指标衍生指标 2. 需求分析2.1 ADS层分析商品确认指标确定维度：时间维度、区域维度、类别维度确定表字段、建表：维度字段+指标结果字段销售商品销售topn分析区域+时间：区域天表城市+时间：城市天表门店+时间：门店天表门店订单各类指标分布情况门店2类商品天表经营 2.2 DWS层分析商品销售商品销售topn分析门店+时间：门店时刻表门店订单各类指标分布情况经营 2.3 DWM层分析2.4 DWD层分析

数仓实战

未读

数仓工具的使用

发表于2023-12-14 数仓实战

数仓工具的使用数仓工具DataX的使用1. 概述与架构阿里推出的==异构数据源离线同步工具== 官方文档：https://github.com/alibaba/DataX/blob/master/README.md Framework+plugin Framework:数据传输的管道，处理缓冲、流量控制、并发、数据转换 Reader:数据采集模块，采集数据源数据 Writer:数据写入模块，将数据写入下沉地（sink）HDFS 数据源 2. 写入hdfs MySQL创建表 123456create database if not exists test character set utf8;use test;create table student(id int,name varchar(20),age int,createtime timestamp );insert into `student` (`id`, `name`, `age`, `createtime`) values('1',&#x ...

数仓实战

未读

数仓设计

发表于2023-12-14 数仓实战

数仓设计1. 数仓的基本概念1数据仓库: 存储数据的仓库, 主要用于存储过去历史发生过的数据,面向主题, 对数据进行统计分析的操作, 从而能够对未来提供决策支持特点：不生产数据也不消耗数据四大特性面向主题数据集成相对稳定（非易失的）时变的 OLAP和OLTP OLAP：面向分析处理（On-line Analytical Processing） OLTP：面向事务处理（On-line Transcation Processing）区别： OLAP OLTP 功能面向分析查询面向交易的事务处理数据最新数据，二维数据历史数据，多维设计面向主题面向业务响应时间慢快存储 TB\PB\EB MB\GB 用户业务人员管理决策人员 ETL extract抽取 transfer数据转换 load数据加载 1ETL: 指的数据从ODS层抽取出来, 对ODS层的数据进行清洗转换处理的操作, 将清洗转换后的数据加载到DW层过程数据集市 12345数据仓库是包含数据集市的, 在一个数据仓库中可以有 ...

数仓实战

未读

数仓项目介绍

发表于2023-12-14 数仓实战

数仓项目介绍1. 岗位数仓开发用户画像实时开发 2. 架构—工具 CDH DataX FineReport 3. 项目纯SQL开发 SQL调优 4. 项目分析1234graph LRa(需求分析) --> b[项目准备]b --> c(项目开发)c --> d(验收) 数仓架构的优缺点需求销售需求会员需求供应链需求商品需求技术架构项目介绍项目内容项目架构技术架构：语言、工具数据流向：数据从哪到哪，各个组件的作用本人主要负责的内容全栈架构图 123456789101112graph LR1[mysql] --> a[数据采集]2[sql server] --> a[数据采集]3[excel] --> a[数据采集]4[...] --> a[数据采集]a --> b[数据存储]b -.计算引擎.-> 5[Hive]b -.交互式查询.-> 6[presto]5 --> c[数据导出]6 --> c[数据导出]c --> d[指标结果库:pos ...

你我皆温柔