传统数据仓库 DW/EDW/BI/ODS/DM/ETL

article/2025/8/25 12:01:31

DW 数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

EDW 企业数据仓库

数据仓库(DW)概念的创始人W. H.Inmon对数据仓库下了这样的定义:“数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。”数据仓库将大量用于事物处理的传统数据库数据进行清理、抽取和转换,使原始数据发生了质的变化,转化为适合分析的导出型数据,并按照决策主题的需要进行重新组织。

BI 商业智能

BI软件是商业智能(Business Intelligence)软件的英文缩写。目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商务智能系统中的数据来自企业其他业务系统。例如商贸型企业,其商务智能系统数据包括业务系统的订单、库存、交易账目、客户和供应商信息等,以及企业所处行业和竞争对手的数据、其他外部环境数据。而这些数据可能来自企业的CRM、SCM、进销存等业务系统。

ODS 操作数据存储

操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。

DM 数据集市

数据集市(Data Mart),也叫数据市场,为满足特定的部门或者用户需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
数据集市,迎合了专业用户群体的特殊需求,包括分析、内容、表现,以及易用性方面。
数据集市,是企业级数据仓库的一个子集,主要面向部门级业务,只面向某个特定的主题。
数据集市数据来源于企业范围的数据库、专业的数据仓库。

ETL 数据仓库技术

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

获取—转换【清洗,合并,复制】–加载【事实表,维度表】

维度表,事实表

维度表:【维度】从哲学角度看,人们观察、思考与表述某事物的“思维角度”,简称“维度”。例如,人们观察与思考“月亮”这个事物,可以从月亮的“内容、时间、空间”三个思维角度去描述;也可以从月亮的“载体、能量、信息”三个思维角度去描述。
从时间角度出发,年月日这样去考虑。
事实表:最终需要的数据抽取,由多条数据或者或多表总结汇成一条数据或者一个表组成的。

单独的数据集市架构

在这里插入图片描述在这里插入图片描述

传统数据仓库劣势

  1. 不能满足海量数据存储需求
  2. 不能处理不同类型的数据
  3. 计算与处理能力差

http://chatgpt.dhexx.cn/article/WvdjVJdq.shtml

相关文章

范式理解(0范式,1范式,2范式)

https://www.zhihu.com/question/20473040 可以从函数、几何与矩阵的角度去理解范数。 我们都知道,函数与几何图形往往是有对应关系的,这个很好想象,特别是在三维以下的空间内,函数是几何图像的数学概括,而几何图像是…

数据库(四):函数依赖和数据库异常,第一范式,第二范式,第三范式,第四范式

文章目录 前言一、函数依赖二、异常三、第一范式四、第二范式五、第三范式六、BC范式 前言 本文转载于:https://zhuanlan.zhihu.com/p/20028672 在阅读本文时,可以把“关系”理解为数据表。此外还有一个“关系模式”的概念。“关系”和“关系模式”的区…

数据库4范式

范式与公理系统 前言一、函数依赖1.部分函数依赖2.完全函数依赖3.传递函数依赖4.码 二、范式1.第一范式(1nf)2.第二范式(2nf)判断是否是第二范式 3.第三范式(3nf)4.BCNF范式6.第四范式多值依赖 总结 前言 …

数据库的第一范式,第二范式,第三范式,BCNF范式理解

第一范式 属性的原子性 所谓的第一范式就是数据库中的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性,如果出现重复的属性则需要重新构建实体,新的实体由重复的属性构…

第四范式冲刺IPO:4年亏13亿收入逐年翻番,研发工资人均2万

边策 梦晨 发自 凹非寺量子位 | 公众号 QbitAI 知名AI独角兽第四范式,内部详情今天有了完整公开。 中国首个ACM世界冠军戴文渊创办、腾讯红杉加持,股东和客户集齐五大国有银行,创办7年累计吸金66亿,主打的是技术包括“黑魔法”Aut…

数据库六大范式详解

候选码 某一属性组的值能唯一标识一个元组,而其子集不能,则称该属性组为候选码。若一个关系中有多个候选码,则选定其中一个为主码。 例如下图所示的学生表中,学号和姓名都可以唯一标识一个元组,故该表的候选码为学号和…

[数据库] 第一范式、第二范式、第三范式、BC范式

要搞清楚常见范式,需得先了解以下概念 数据描述术语对应表 关键码 1) 超键:在关系中能唯一标识元组的属性或属性集称为关键模式的超键。 2) 候选键:不含有多余属性的超键称为候选键。也就是在候选键中在删除属性就不是键了。 3) 主键…

第一范式,第二范式,第三范式,BCNF范式理解

第一范式、第二范式、第三范式 参考了https://www.zhihu.com/question/24696366 https://www.cnblogs.com/lca1826/p/6601395.html 基础知识 实体:现实世界中客观存在并可以被区别的事物。比如“一个学生”、“一本书”、“一门课”等等。值得强调的是这里所说的“…

数据库|第一范式、第二范式、第三范式、BC范式、第四范式简单理解

数据库|第一范式、第二范式、第三范式、BC范式、第四范式简单理解 在设计数据库的时候,虽说将我们要的数据正确完整导入数据库是很关键的,但是对于数据库的设计者来说,如何将大量数据合理有效正确地导入数据库中也是极其关键的,好…

简单了解第一,二,三范式(图文详细)

简单了解第一,二,三范式 什么是范式第一范式第二范式第三范式 什么是范式 范式:范式是符合某一种级别的关系模式的集合,表示一个关系内部属性之间的联系何合理化程度 粗略理解:就是一张数据表的表结构所符合的某种设…

第一范式、第二范式、第三范式、BCNF范式详解

文章目录 0. 范式(NF)1. 第一范式(1NF)2. 第二范式(2NF)2.1 函数依赖2.1.1完全函数依赖2.1.2 部分函数依赖2.1.3 传递函数依赖 2.2 码2.3 非主属性 3. 第三范式(3NF)4. BCNF范式5. 小结6. 参考文献 0. 范式…

详解第一范式、第二范式、第三范式、BCNF范式

GITHUB: https://github.com/wenkechen 文章目录 什么是”范式(NF)”1. 第一范式(1NF)2. 第二范式(2NF)2.1 函数依赖2.1.1完全函数依赖2.1.2 部分函数依赖 2.2 码2.3 非主属性 3. 第三范式(3NF)4. 小结 什么…

范式说明:第四范式

4NF取决于多值依赖的概念。 FD函数依赖(X→Y表示:X函数决定Y,或Y函数依赖于X),主要解决了关系R中属性值之间的“多对一”联系,即属性X与属性Y是“多对一”。而多值依赖主要是解决属性值之间的“一对多”联系…

数据库关系范式——第一范式、第二范式、第三范式、BC范式【通俗易懂,博主会讲人话】

范式:是符合某一种级别的关系模式的集合。 说白了,就是对关系模式的一种规范化。 范式分为:第一范式、第二范式、第三范式、BC范式、第四范式、第五范式。后面两种在这里不讨论。 1、第一范式(1NF):关系模式S中的所有属性都是不…

数据库三大范式、BC范式、第四范式

目录 第一范式(1NF):原子性(存储的数据应该具有“不可再分性”)第二范式(2NF):唯一性 (消除非主键部分依赖联合主键中的部分字段)(一定要在第一范式已经满足的情况下&…

【高效学数据库】第一范式、第二范式、BCNF范式、第三范式、第四范式概念及举例

本专栏将从基础开始,循序渐进的讲解数据库的基本概念以及使用,希望大家都能够从中有所收获,也请大家多多支持。 专栏地址: 数据库必知必会 如果文章知识点有错误的地方,请指正!大家一起学习,一起进步。 …

数据库-第一范式、第二范式、第三范式、BC范式、第四范式简析

在设计与操作维护数据库时,最关键的问题就是要确保数据能够正确地分布到数据库的表中。使用正确的数据结构,不仅有助于对数据库进行相应的存取操作,还可以极大地简化应用程序中的其他内容(查询、窗体、报表、代码等),按照“数据库…

专访戴文渊:第四范式(现在)是一家怎样的公司?

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI △ 第四范式创始人及CEO戴文渊 第四范式是一家备受关注的公司。 仅创始团队成员来看,哪一个不是计算机、机器学习领域响当当的名字? 戴文渊是ACM2005全球冠军,百度机器学习系统带队打造者&…

Spark数据倾斜优化

Spark数据倾斜 就是数据分到各个区的数量不太均匀,可以自定义分区器,想怎么分就怎么分。 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。 例如,reduced端一共…

Flink中的数据倾斜与解决方案实践

什么是数据倾斜 在使用一些大数据处理框架进行海量数据处理的过程中,可能会遇到数据倾斜的问题,由于大数据处理框架本身架构的原因,在框架层面,数据倾斜问题是无法避免的,只能在业务层面来缓解或者避免。 因为要处理…