错误记录
错误
描述
1HDFS集群卡顿
原因
1加载混乱
解决方案
12345先启动主结点,再启动从结点- Master- node1- node2- node3
错误
描述
1id乱码
原因
1id以数字开头了
解决方案
1234在id前面加入_# id命名规则字母数字下划线,数字不能开头
错误
描述
123# 更改location后,数据没有和表一起迁移# 内部表修改表路径# 外部表修改表路径
解决方案
12345678910111213141516171819需要配合其他方式迁移数据 1、移动hdf中的文件(cut & patse) 2、通过hdfs命令迁移 # 内部表1、设置新路径alter table tb_test set location 'hdfs://user/tset'2、移动文件地址hdfs dfs -mv 源文件路径 新文件路径# 外部表1、删除旧表drop table 表名;(删除元数据)2、移动文件到新路径hdfs dfs -mv 源文件路径 新文件路径3、新建表,并指定为新路径cr ...
Zookeeper入门
集群角色
leader:管理follower,处理所有事务请求(仅有一个)
follower:选举leader,和数据的同步及获取
observer:复制数据的同步及获取(需要配置生效)
配置环境变量
12345678910111213# 进入zookeeper的bin目录cd /export/server/zookeeper/bin# 查看zookeeper状态。/zkServer.sh status# shell 脚本配置环境变量!#usr/bin bashecho 'export ZOOKEEPER_HOME=/export/server/zookeeper' >> /etc/profileecho 'export PATH=$PATH:$ZOOKEEPER_HOME/bin' >> /etc/profilesource /etc/profile
启动Zookeeper服务
12345678# 查看状态(最少启动两台才会显示角色相关信息)zkServer.sh status# 启 ...
大数据
未读Hadoop生态架构
HDFS:可提供高吞吐量的分布式文件系统
yarn:用于任务调度和集群资源管理的框架
MapReduce:用于大型数据集并行处理的系统
ZooKeeper:高性能的分布式应用程序协调服务
Flume:日志搜集系统,将日志文件从不同源收集、聚合移动到一个集中的数据中心存储
Sqoop:
2. 数据仓库
数仓核心优化1. 数据采样1.1. 分桶表(hash算法)
作用
数据采样
测试SQL是否可以正常运行
校验数据可行性
统计分析(相对性指标:比率)
提升join的查询效率
减少join次数
1.2. 采样函数
tablesample(bucket x out of y [on column])
X 表示从第几个桶开始
y 表示抽样比例
column 表示抽样字段
2. join优化1. 可能出现的问题
数据倾斜
所有的数据都在同一个reduce运算,reduce压力过大
2. 解决方案2.1 map join (大表+小表)
将小表放一份到每个mapTask的内存中
设置参数
set hive.auto.convert.join = True (开启map Join)
set hive.euto.coonvert.join.noconditionaltask.size = 29321937838 (设置小表的最大阈值)
缺点
比较消耗内存
要求join中必须有小表,否则无法放入内存中
2.2 bucket map join (中型 ...
数仓工具的使用数仓工具DataX的使用1. 概述与架构
阿里推出的==异构数据源离线同步 工具==
官方文档:https://github.com/alibaba/DataX/blob/master/README.md
Framework+plugin
Framework:数据传输的管道,处理缓冲、流量控制、并发、数据转换
Reader:数据采集模块,采集数据源数据
Writer:数据写入模块,将数据写入下沉地(sink)HDFS
数据源
2. 写入hdfs
MySQL创建表
123456create database if not exists test character set utf8;use test;create table student(id int,name varchar(20),age int,createtime timestamp );insert into `student` (`id`, `name`, `age`, `createtime`) values('1', ...
数仓设计1. 数仓的基本概念1数据仓库: 存储数据的仓库, 主要用于存储过去历史发生过的数据,面向主题, 对数据进行统计分析的操作, 从而能够对未来提供决策支持
特点:不生产数据也不消耗数据
四大特性
面向主题
数据集成
相对稳定(非易失的)
时变的
OLAP和OLTP
OLAP:面向分析处理(On-line Analytical Processing)
OLTP:面向事务处理(On-line Transcation Processing)
区别:
OLAP
OLTP
功能
面向分析查询
面向交易的事务处理
数据
最新数据,二维数据
历史数据,多维
设计
面向主题
面向业务
响应时间
慢
快
存储
TB\PB\EB
MB\GB
用户
业务人员
管理决策人员
ETL
extract抽取
transfer数据转换
load数据加载
1ETL: 指的数据从ODS层抽取出来, 对ODS层的数据进行清洗转换处理的操作, 将清洗转换后的数据加载到DW层过程
数据集市
12345数据仓库是包含数据集市的, 在一个数据仓库中可以有 ...
数仓项目介绍1. 岗位
数仓开发
用户画像
实时开发
2. 架构—工具
CDH
DataX
FineReport
3. 项目
纯SQL开发
SQL调优
4. 项目分析1234graph LRa(需求分析) --> b[项目准备]b --> c(项目开发)c --> d(验收)
数仓架构的优缺点
需求
销售需求
会员需求
供应链需求
商品需求
技术架构
项目介绍
项目内容
项目架构
技术架构:语言、工具
数据流向:数据从哪到哪,各个组件的作用
本人主要负责的内容
全栈
架构图
123456789101112graph LR1[mysql] --> a[数据采集]2[sql server] --> a[数据采集]3[excel] --> a[数据采集]4[...] --> a[数据采集]a --> b[数据存储]b -.计算引擎.-> 5[Hive]b -.交互式查询.-> 6[presto]5 --> c[数据导出]6 --> c[数据导出]c --> d[指标结果库:pos ...