二、业务数据采集平台

article/2025/9/20 7:16:37

第1章 电商业务简介

1.1 电商业务流程

电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。

当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。

订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。

电商的主要业务流程包括用户前台浏览商品时的商品详情的管理,用户商品加入购物车进行支付时用户个人中心&支付服务的管理,用户支付完成后订单后台服务的管理,这些流程涉及到了十几个甚至几十个业务数据表,甚至更多。

1.2 电商常识

1.2.1 SKU和SPU

SKU = Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。

SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。

例如:iPhoneX手机就是SPU。一台银色、128G内存的、支持联通网络的iPhoneX,就是SKU。

SPU表示一类商品。同一SPU的商品可以共用商品图片、海报、销售属性等。

1.2.2 平台属性和销售属性

1)平台属性

2)销售属性

第2章 业务数据介绍

2.1 电商系统表结构

以下为本电商数仓系统涉及到的业务数据表结构关系。这34个表以订单表、用户表、SKU商品表、活动表和优惠券表为中心,延伸出了优惠券领用表、支付流水表、活动订单表、订单详情表、订单状态表、商品评论表、编码字典表退单表、SPU商品表等,用户表提供用户的详细信息,支付流水表提供该订单的支付详情,订单详情表提供订单的商品数量等情况,商品表给订单详情表提供商品的详细信息。本次讲解以此34个表为例,实际项目中,业务数据库中表格远远不止这些。

2.1.1 活动信息表(activity_info)

字段名

字段说明

id

活动id

activity_name

活动名称

activity_type

活动类型(1:满减,2:折扣)

activity_desc

活动描述

start_time

开始时间

end_time

结束时间

create_time

创建时间

2.1.2 活动规则表(activity_rule)

id

编号

activity_id

活动ID

activity_type

活动类型

condition_amount

满减金额

condition_num

满减件数

benefit_amount

优惠金额

benefit_discount

优惠折扣

benefit_level

优惠级别

2.1.3 活动商品关联表(activity_sku)

字段名

字段说明

id

编号

activity_id

活动id

sku_id

sku_id

create_time

创建时间

2.1.4 平台属性表(base_attr_info)

字段名

字段说明

id

编号

attr_name

属性名称

category_id

分类id

category_level

分类层级

2.1.5 平台属性值表(base_attr_value)

字段名

字段说明

id

编号

value_name

属性值名称

attr_id

属性id

2.1.6 一级分类表(base_category1)

字段名

字段说明

id

编号

name

分类名称

2.1.7 二级分类表(base_category2)

字段名

字段说明

id

编号

name

二级分类名称

category1_id

一级分类编号

2.1.8 三级分类表(base_category3)

字段名

字段说明

id

编号

name

三级分类名称

category2_id

二级分类编号

2.1.9 字典表(base_dic)

字段名

字段说明

dic_code

编号

dic_name

编码名称

parent_code

父编号

create_time

创建日期

operate_time

修改日期

2.1.10 省份表(base_province)

字段名

字段说明

id

id

name

省名称

region_id

大区id

area_code

行政区位码

iso_code

国际编码

iso_3166_2

ISO3166编码

2.1.11 地区表(base_region)

字段名

字段说明

id

大区id

region_name

大区名称

2.1.12 品牌表(base_trademark)

字段名

字段说明

id

编号

tm_name

属性值

logo_url

品牌logo的图片路径

2.1.13 购物车表(cart_info)

字段名

字段说明

id

编号

user_id

用户id

sku_id

skuid

cart_price

放入购物车时价格

sku_num

数量

img_url

图片文件

sku_name

sku名称 (冗余)

is_checked

是否已经下单

create_time

创建时间

operate_time

修改时间

is_ordered

是否已经下单

order_time

下单时间

source_type

来源类型

source_id

来源编号

.......

2.1.34 用户信息表(user_info)

字段名

字段说明

id

编号

login_name

用户名称

nick_name

用户昵称

passwd

用户密码

name

用户姓名

phone_num

手机号

email

邮箱

head_img

头像

user_level

用户级别

birthday

用户生日

gender

性别 M男,F女

create_time

创建时间

operate_time

修改时间

status

状态

2.1 MySQL安装

详情参考:MySQL高级部分

2.2 业务数据模拟

2.2.1 连接MySQL

2.2.2 建表语句

1)通过SQLyog创建数据库

2)设置数据库名称为gmall,编码为utf-8,排序规则为utf8_general_ci

3)导入数据库结构脚本(gmall.sql)

注意:完成后,要记得右键,刷新一下对象浏览器,就可以看见数据库中的表了。

2.2.3 生成业务数据

1)在hadoop102的/opt/module/目录下创建db_log文件夹

2)把gmall2020-mock-db-2021-11-14.jar和application.properties上传到hadoop102的/opt/module/db_log路径上。

3)根据需求修改application.properties相关配置

logging.level.root=infospring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://hadoop102:3306/gmall?useUnicode=true&characterEncoding=utf-8&useSSL=false&serverTimezone=GMT%2B8
spring.datasource.username=root
spring.datasource.password=123456logging.pattern.console=%m%nmybatis-plus.global-config.db-config.field-strategy=not_null#业务日期
mock.date=2020-06-14
#是否重置  注意:第一次执行必须设置为1,后续不需要重置不用设置为1
mock.clear=1
#是否重置用户 注意:第一次执行必须设置为1,后续不需要重置不用设置为1
mock.clear.user=1#生成新用户数量
mock.user.count=100
#男性比例
mock.user.male-rate=20
#用户数据变化概率
mock.user.update-rate:20#收藏取消比例
mock.favor.cancel-rate=10
#收藏数量
mock.favor.count=100#每个用户添加购物车的概率
mock.cart.user-rate=50
#每次每个用户最多添加多少种商品进购物车
mock.cart.max-sku-count=8 
#每个商品最多买几个
mock.cart.max-sku-num=3 #购物车来源  用户查询,商品推广,智能推荐, 促销活动
mock.cart.source-type-rate=60:20:10:10#用户下单比例
mock.order.user-rate=50
#用户从购物中购买商品比例
mock.order.sku-rate=50
#是否参加活动
mock.order.join-activity=1
#是否使用购物券
mock.order.use-coupon=1
#购物券领取人数
mock.coupon.user-count=100#支付比例
mock.payment.rate=70
#支付方式 支付宝:微信 :银联
mock.payment.payment-type=30:60:10#评价比例 好:中:差:自动
mock.comment.appraise-rate=30:10:10:50#退款原因比例:质量问题 商品描述与实际描述不一致 缺货 号码不合适 拍错 不想买了 其他
mock.refund.reason-rate=30:10:20:5:15:5:5

4)并在该目录下执行,如下命令,生成2020-06-14日期数据:

[atguigu@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-11-14.jar

5)查看gmall数据库,观察是否有2020-06-14的数据出现

2.2.4 业务数据建模

可借助EZDML这款数据库设计工具,来辅助我们梳理复杂的业务表关系。

1)下载地址

http://www.ezdml.com/download_cn.html

2)使用说明

参考官网

第3章 业务数据采集模块

3.1 采集通道

3.2 采集工具

1)安装使用

参考Maxwell文档

3.3 采集通道Maxwell配置

1)修改Maxwell配置文件config.properties

[atguigu@hadoop102 maxwell]$ vim /opt/module/maxwell/config.properties

2)配置参数如下

log_level=infoproducer=kafka
kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092#kafka topic配置
kafka_topic=topic_db# mysql login info
host=hadoop102
user=maxwell
password=maxwell
jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai

3)重启Maxwell

4)通道测试

(1)启动Zookeeper以及Kafka集群

(2)启动一个Kafka Console Consumer,消费topic_db数据

[atguigu@hadoop103 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic topic_db

(3)生成模拟数据

[atguigu@hadoop102 bin]$ cd /opt/module/db_log/
[atguigu@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-11-14.jar 

(4)观察Kafka消费者是否能消费到数据

{"database":"gmall","table":"cart_info","type":"update","ts":1592270938,"xid":13090,"xoffset":1573,"data":{"id":100924,"user_id":"93","sku_id":16,"cart_price":4488.00,"sku_num":1,"img_url":"http://47.93.148.192:8080/group1/M00/00/02/rBHu8l-sklaALrngAAHGDqdpFtU741.jpg","sku_name":"华为 HUAWEI P40 麒麟990 5G SoC芯片 5000万超感知徕卡三摄 30倍数字变焦 8GB+128GB亮黑色全网通5G手机","is_checked":null,"create_time":"2020-06-14 09:28:57","operate_time":null,"is_ordered":1,"order_time":"2021-10-17 09:28:58","source_type":"2401","source_id":null},"old":{"is_ordered":0,"order_time":null}}

http://chatgpt.dhexx.cn/article/njMuW628.shtml

相关文章

从0到1搭建大数据平台之数据采集系统

关于从0到1搭建大数据平台,之前的一篇博文《如何从0到1搭建大数据平台》已经给大家介绍过了,接下来我们会分步讲解搭建大数据平台的具体注意事项。 一、“大”数据 海量的数据 当你需要搭建大数据平台的时候一定是传统的关系型数据库无法满足业务的存储计…

大数据之数据采集

本篇主要介绍目前网站数据采集的主流方式,之后篇章会介绍客户端数据采集目前主流的实现方式。 目前有很多数据采集云平台,如Google anylytics,百度统计,腾讯统计等等,还有一些平台也非常不错: 一.友盟&…

3. 业务数据采集平台概述

3. 业务数据采集平台概述 电商业务简介电商业务流程电商常识SKU和SPU平台属性和销售属性 电商业务数据电商系统表结构活动信息表(activity_info)活动规则表(activity_rule)活动商品关联表(activity_sku)平台…

测量数据采集分析平台

青创智通科技测量数据采集分析平台,改变传统纸张方式,快速实现生产质量管理的数字化、智能化、平台化。 产品优势: 1、检测智联与精益生产:实现产品制造过程各部位的尺寸测量、测量信息采集、实时传输及数据分析。 2、与各种智…

数据运营平台-数据采集

目录 行为数据采集 业务数据采集与转换 第三方系统API对接 用户数据关联 人工数据采集 数据输出 行为数据采集 1.埋点采集 ①跨平台打通 确定性方法识别 利用用户帐号体系中,可以是系统生成的 UserID,可以是手机号,也可以是邮箱&am…

大数据采集概述

文章目录 大数据采集概述1.互联网大数据与采集1.1互联网大数据来源1.社交媒体2.社交网络3.百科知识库4.新闻网站5.评论信息6.位置型信息 1.2 互联网大数据的特征1.大数据类型和语义更加丰富2.数据的规范化程度弱3.数据的流动性更大4.数据的开放性更好5.数据的来源更加丰富6.互联…

大数据项目离线数仓(全 )一(数据采集平台)

搭建用户行为数据采集平台、搭建业务数据采集平台、搭建数据仓库系统、制作可视化报表 本篇博客包括搭建用户行为数据采集平台、搭建业务数据采集平台 搭建数据仓库系统在大数据项目离线数仓(全 )二 制作可视化报表在大数据项目离线数仓(全…

采集平台-大数据平台数据采集系统

随着社会的发展。人们也是越来越离不开互联网,今天小编就给大家盘点一下免费的采集平台,只需要点几下鼠标就能轻松爬取数据,不管是导出excel还是自动发布到网站都支持。详细参考图片一、二、三、四! 企业人员 通过爬取动态网页数…

4. 业务数据采集平台搭建

4. 业务数据采集平台搭建 业务数据采集模块Hive安装部署业务数据同步概述数据同步策略概述数据同步策略选择数据同步工具概述 DataX 数据同步工具Maxwell 数据同步工具全量表数据同步数据通道DataX 配置文件DataX 配置文件生成脚本生成文件生成全部配置文件脚本测试生成的 Data…

奇点云数据中台技术汇(二)| DataSimba系列之数据采集平台

继上期数据中台技术汇栏目发布DataSimba——企业级一站式大数据智能服务平台,本期介绍DataSimba的数据采集平台。 DataSimba采集平台属于DataSimba的数据计算及服务平台的一部分, 负责数据的导入, 从而支持上层的数据处理。 DataSimba的定…

六大主流大数据采集平台架构分析

日志收集的场景 DT时代,数以亿万计的服务器、移动终端、网络设备每天产生海量的日志。 中心化的日志处理方案有效地解决了在完整生命周期内对日志的消费需求,而日志从设备采集上云是始于足下的第一步。 随着大数据越来越被重视,数据采集的挑战…

简单谈谈Redis中的几种java客户端以及优缺点!

一、摘要 相对于其他的分布式中间件,Redis 支持的客户端种类非常繁多,涵盖更加全面,除了支持比较流行的 c、c、java、C#、php、Python 等语言以外,还支持 Objective-C、Swift、Node.js 等等,以下是来自于 Redis 支持的…

Redis介绍、安装、客户端

1. Redis介绍 1.1 什么是NoSql 为了解决高并发、高可用、高可扩展,大数据存储等一系列问题而产生的数据库解决方案,就是NoSql。NoSql,叫非关系型数据库,它的全名Not only sql。它不能替代关系型数据库,只能作为关…

redis安装+客户端

redis安装客户端 1.安装redi2.安装redis客户端 1.安装redi 1)资源下载地址 Redis安装包:https://github.com/MicrosoftArchive/redis/releases 2) 下载,解压安装包到相应的文件夹,任一盘符都可以。 接下来对文件夹中的…

Redisson--最好用的Redis客户端--介绍

原文网址:Redisson--最好用的Redis客户端--介绍_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Redisson这款最好用的Redis客户端。 官网 官网:Redisson: Redis Java client with features of In-Memory Data Grid git:https://github.co…

redis的客户端

关系型数据库存储在磁盘当中&#xff0c;非关系型数据库存储在内存中 Jedis 第一步&#xff1a;导入依赖包 <dependencies><dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>3.7.0</vers…

【Redis】客户端RedisClient

0. 目录 1. 下载2. 运行 RedisClient3.1. 链接服务器 1. 下载 官网下载&#xff1a;https://github.com/caoxinyu/RedisClient 因为我已经安装了jdk或者jre&#xff0c;所以我只用jar包版本。 我用迅雷下载&#xff0c;比较快。当然你可以用我下载好的。 百度云盘&#xff1a;…

redis:客户端管理

机制 redis提供了一些操作客户端的命令&#xff0c;比如查询所有已连接到服务端的客户端数量&#xff0c;控制客户端的连接状态&#xff08;关闭或者挂起&#xff09;等。通过客户命令我们可以轻松实现对客户端的管理、控制。 redis服务器通过监听TCP端口的方式来接收客户端连…

windows下redis可视化客户端

Redis是一个超精简的基于内存的键值对数据库(key-value)&#xff0c;一般对并发有一定要求的应用都用其储存session&#xff0c;乃至整个数据库。 redis的可视化客户端目前较流行的有三个&#xff1a;Redis Client ; Redis Desktop Manager ; Redis Studio. Redis Desktop Ma…

Redis(四) - Redis的Java客户端

文章目录 一、Redis的Java客户端二、Jedis客户端1. 快速入门&#xff08;1&#xff09;引入依赖&#xff08;2&#xff09;创建jedis对象&#xff0c;建立连接&#xff08;3&#xff09;测试&#xff0c;方法名与Redis命令一致&#xff08;4&#xff09;释放资源 2. Jedis连接池…