数仓项目介绍
数仓项目介绍
你我皆温柔数仓项目介绍
1. 岗位
- 数仓开发
- 用户画像
- 实时开发
2. 架构—工具
- CDH
- DataX
- FineReport
3. 项目
- 纯SQL开发
- SQL调优
4. 项目分析
1 | graph LR |
数仓架构的优缺点
需求
- 销售需求
- 会员需求
- 供应链需求
- 商品需求
技术架构
项目介绍
- 项目内容
- 项目架构
- 技术架构:语言、工具
- 数据流向:数据从哪到哪,各个组件的作用
- 本人主要负责的内容
- 全栈
架构图
1
2
3
4
5
6
7
8
9
10
11
12graph LR
1[mysql] --> a[数据采集]
2[sql server] --> a[数据采集]
3[excel] --> a[数据采集]
4[...] --> a[数据采集]
a --> b[数据存储]
b -.计算引擎.-> 5[Hive]
b -.交互式查询.-> 6[presto]
5 --> c[数据导出]
6 --> c[数据导出]
c --> d[指标结果库:postgreSQL]
d --> e[报表分析展示]- CDH:集群管理
- Apache DolphinScheduler:调度系统
项目人员
开发周期
架构选型
传统数仓(比尔·恩门 1991年)
自上而下
1
2
3
4
5graph LR
a[数据源] --> b[ETL]
b --> c[数据仓库]
c --> d[主题]
d --> e[分析结果]3NF
- 1NF:每一列具备原子性,不可再分
- 2NF:消除完全依赖(非主属性对主属性的依赖)
- 3NF:消除传递依赖(非主属性对主属性的传递依赖)
自下而上(从需求到数据源,业务驱动)
1
2
3graph LR
1[主题] --> 2[数据仓库]
2--> 3[分散异构的数据源]
离线数仓
- 数仓分层
- 经典三层架构
- ODS
- DW
- DM
- 五层架构
- ODS
- DWD
- DWM
- DWS
- DM
- 经典三层架构
- 数仓分层
服务器规划
- Hadoop发行版选择
- 服务器配置
- 集群数据规模
- 软件版本
搭建环境
- cloudera Manager的介绍和架构
- 环境部署(操作)
- 业务数据介绍
- 数据源
- MySQL
- 维度数据
- 销售数据
- 会员数据
- SQLserver
- 订单数据
- 库存数据
- MySQL
- 业务数据导入
- 数据源