无题

离线数仓项目介绍(一)

项目介绍

1
到目前为止电商已经经历了初创阶段、发展阶段、成熟阶段以及新零售阶段,目前电商最主要有线上、线下以及新物流的模式;基于我们公司的调查,目前生鲜行业有着高频、刚需、即时性的特点、以及目前该行业仍然处于线下销售量要远大于线上销售量的现状,人们对于线上模式仍然抱有一种怀疑的目光,还是更愿意在线下购买该类商品;基于这样的一个现状,我们研发了黑马甄选项目,致力于解决当下的问题;我们公司成立于2016年,至今已有将近7年的历史了,公司目前的业务有门店、批发、团购等,这个项目呢主要是做生鲜,目前随着公司的数据规模越来越大,于是衍生出了黑马甄选这样的一个项目,想要通过大数据的方式对公司的整体运营情况有一个总体上的把握,为公司领导提供一些决策支持为公司发展添砖加瓦,那么下面我来具体介绍一下我们这个项目。

项目背景

1
2
3
4
5
6
我们这个项目呢,目前主要有4个总体需求:
1、销售需求2、会员需求3、商城相关的需求4、供应链相关的需求
对于销售需求,主要是对于销售额、订单、成本、利润等做一些统计分析
对与会员需求,主要是会员的注册、消费、余额等做一些分析
对于商城相关的需求,主要是实时的处理,数仓在这方面设计不多
对于供应链相关的需求,主要对库存以及订单方面做一些分析

项目成果

1
2
3
4
5
那么我们这个项目的架构主要用的是大数据离线数仓架构,我们是基于CDH这样一个apache的一个发行版来做的,
我们的集群管理工具使用的CM,数据源主要有两个,一个是我们的MySQL数据库,另一个是我们的SQLserver数据库,
数据抽取我们用的是阿里开发的一款Datax,通过他来实现我们的数据双向同步,数据我们主要是存储在Hadoop的HDFS文件系统中,计算引擎用的是HIVE,调度系统我们用的是DolphinScheduler海豚调度系统,那么最后我们是用的帆软report来将我们的统计数据进行一个可视化的展示,形成报表系统;
那么我们的维度、会员、销售主要是从我们的MySQL数据库中抽取,然后导入到我们的HDFS中,我们的订单以及库存相关信息是从我们的SQL server中进行抽取,导入到HDFS中;数据导入后,我们就会对这些数据进行一个分析,从不同维度、不同主题以及指标中进行分析,然后将分析后的数据通过帆软Report进行一个报表形式的可视化展示,提供给我们的领导以及相关人员查看
那么我们的项目大概就是这么一个情况,我就介绍到这里了。