数仓设计
数仓设计
你我皆温柔数仓设计
1. 数仓的基本概念
1 | 数据仓库: 存储数据的仓库, 主要用于存储过去历史发生过的数据,面向主题, 对数据进行统计分析的操作, 从而能够对未来提供决策支持 |
特点:不生产数据也不消耗数据
四大特性
- 面向主题
- 数据集成
- 相对稳定(非易失的)
- 时变的
OLAP和OLTP
OLAP:面向分析处理(On-line Analytical Processing)
OLTP:面向事务处理(On-line Transcation Processing)
区别:
OLAP OLTP 功能 面向分析查询 面向交易的事务处理 数据 最新数据,二维数据 历史数据,多维 设计 面向主题 面向业务 响应时间 慢 快 存储 TB\PB\EB MB\GB 用户 业务人员 管理决策人员
ETL
- extract抽取
- transfer数据转换
- load数据加载
1
ETL: 指的数据从ODS层抽取出来, 对ODS层的数据进行清洗转换处理的操作, 将清洗转换后的数据加载到DW层过程
数据集市
1
2
3
4
5数据仓库是包含数据集市的, 在一个数据仓库中可以有多个数据集市
数据仓库: 一般指的构建集团数据中心, 基于业务形成各种业务的宽表或者统计宽表
数据集市: 基于部门或者基于主题, 形成主题或者部门相关的统计宽表数仓分层
1 | ODS: 源数据层(临时存储层) 贴源层 |