数据模型篇之大数据领域建模综述

article/2025/10/22 5:16:01

第8章 大数据领域建模综述

1.为什么需要数据建模

为了更好的将数据进行有序、有结构地分类组织和存储。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。
数据建模的好处:

性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的 110 吞吐。
成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

2.关系数据库系统和数据仓库

E . F .Codd是关系数据库的鼻祖,它首次提出了数据库系统的关系模型,开创了数据库关系方法和关系数据理论的研究。

两者的关系:大量的数据仓库系统依托强大的关系数据库能力存储和处理数据,其采用的数据模型发放也是基于关系数据库理论的。

3.从OLTP和OLAP系统的区别看模型方法论的选择

On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
On-Line Analytical Processing联机分析处理过程(OLAP)。OLAP对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模的能力。它主要用于支持企业决策管理分析,是许多商务智能(BI)应用程序背后的技术。OLAP使最终用户可以对多个维度的数据进行即席分析,从而获取他们所需知识,以便更好地制定决策。OLAP技术已被定义为实现“快速访问共享的多维信息”的能力。

OLTP 系统通常面向的主要数据操作是随机读写,主要采用满足3NF 实体关系模型存储数据,从而在事务处理中解决数据的冗余和一致性问题。
OLAP 系统面向的主要数据操作是批量读写,事务处理一致性不是 OLAP 关注的,其主要关注数据的整合,以及在的复杂大数据查询和处理中的性能,因此它需要采用一些不同的数据模方法。

4. 典型的数据仓库建模方法论

  • ER模型

数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF 。
特点

需要全面了解企业业务和数据
实施周期非常长。
对建模人员的能力要求非常高

建模步骤

高层模型:一个高度抽象的模型,描述主要的主题以及主题间的关系,用于描述企业的业务总体概况。
中层模型:在高层模型的基础上,细化主题的数据项。
物理模型(也叫底层模型):在中层模型的基础上,考虑物理存储,同时基于性能和平台特点进行物理属性的设计,也可能做一些表的合并、分区的设计等。

  • 维度模型

维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data rehouse Tolkit-The Complete Guide to Dimensional Modeling数据仓库工程领域最流行的数据仓库建模的经典。
建模步骤

选择需要进行分析决策的业务过程。业务过程可以是单个业务事件,比如交易的支付、退款等;也可以是某个事件的状态,比如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程,具体需要看我们分析的是某些事件发生情况,还是当前状态,或是事件流转效率。
选择粒度。在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。
识别维表。选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选。·选择事实。确定分析需要衡量的指

  • Data Vault模型

Data Vault Dan Linstedt 发起创建的一种模型,它是ER模型的衍生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分析决策。
组成

Hub :是企业的核心业务实体,由 实体 key 、数据仓库序列代理键、装载时间、数据来源组成。
Link :代表 Hub 之间的关系。这里与 模型最大的区别是将关系作为一个独立的单元抽象,可以提升模型的扩展性。它可以直接描述 : :n n:n 的关系,而不需要做任何变更。它由 Hub的代理键、装载时间、数据来源组成。
Satellite :是 Hub 的详细描述内容, 一个 ub 可以有多个 Satellite它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述信息组成。

模型实例
在这里插入图片描述

  • Anchor模型

Anchor Data Vault 模型做了进一步规范化处理, Lars. Ri:innback 的初衷是设计 个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,因此将模型规范到 6NF ,基本变成了 k-v 结构化模型。

组成

Anchors :类似于 Data Vault Hub ,代表业务实体,且只有主键。
Attributes :功能类似于 Data Vault Satellite ,但是它更加规范化,将其全部 k-v 结构化, 个表只有 Anchors 的属性描述。
Ties :就是 Anchors 之间的关系,单独用表来描述,类似于 DataVault Link ,可以提升整体模型关系的扩展能力。
Knots :代表那些可能会在 Anchors 中公用的属性的提炼,比如性别、状态等这种枚举类型且被公用的属性

模型图
在这里插入图片描述


http://chatgpt.dhexx.cn/article/TbywEUjl.shtml

相关文章

大数据学习(七)一分钟了解数据建模

何为大数据建模,我们从3个W(什么、为什么、如何)出发来详解下大数据建模。 一、什么是数据建模(what) 数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成…

[数学建模] 大数据建模五步法

目录传送门 概要第一步:选择模型或自定义模式第二步:训练模型第三步:评估模型第四步:应用模型第五步:优化模型最后语 概要 PS: 本文转载自 https://www.sohu.com/a/198093510_783844 本文将尝试来梳理一下数据建模的…

人工智能知识体系大全

知识的搬运工,转从https://blog.csdn.net/j2iayu7y/article/details/79709420 转自:https://blog.csdn.net/wyx100/article/details/80950499

史上最全的人工智能知识图谱

史上最全的人工智能知识图谱 转载于公众号: 数邦客 人工智能知识图谱 1 知识图谱 知识图谱(Knowledge Graph)又称为科学知识图谱,由Google与2012年5月提出,目的是提高搜索引擎的能力,改善用户的搜索质量及搜索体验。随着人工智能…

人工智能之知识表示

人工智能之知识表示 人工智能课程复习笔记专题 人工智能绪论 人工智能之知识表示 人工智能之搜索方法 人工智能之经典逻辑推理 人工智能之专家系统 人工智能之不确定推理方法 人工智能之机器学习 一、知识 知识是人们在改造客观世界的实践活动中积累起来的认识和经验…

新一代人工智能知识体系大全

新一代人工智能知识体系大全,如下图:

人工智能基础知识(一)

目录 1.起源和定义 2.人工智能的流派 2.1 符号主义 2.2 连接主义 2.3 行为主义 3. 知识和知识表示的概念 3.1 知识的特性 3.2 产生表示法 3.3 产生式系统 4. 框架表示法 5. 状态空间表示法 1.起源和定义 如果不做很远的追溯,现代人工智能的起源就非常明…

人工智能知识

启发式搜索 一般需要某些有关具体问题的领域的特性信息,把此种信息叫做启发信息。 需定义一个评价函数,对当前的搜索状态进行评估,找出一个最有希望的节点来扩展。 重排OPEN表,选择最有希望的节点加以扩展 一、A算法 1 2局部择优搜索(瞎子爬山法) …

人工智能知识表达

2.1概述 2.1.1知识及知识的分类 知识是人们在改造客观世界的实践中积累起来的认识和经验。这些经验的描述又需要涉及数据和信息的概念。数据是记录信息的符号,是信息的载体和表示。信息是对数据的解释,是数据在特定场合下的具体含义。信息仅是对客观事…

人工智能的知识表示

文章目录 一、绪论人工智能研究的基本内容人工智能的主要研究领域 二、知识表示知识的概念知识的特性知识的表示1.一阶谓词逻辑表示法1.连接词(连词)2. 量词3.谓词公式4.量词的辖域谓词公式的性质一阶谓词逻辑表示法的特点 2.产生式表示法产生式系统产生…

人工智能知识图谱研究

1、研究背景及意义 随着互联网技术的发展以及大数据、人工智能等新科技时代的来临,我国高校教育改革、高校人才培养也面临着新的机遇与挑战。一方面,为了实现国家战略、支撑快速发展的新经济,需要高校变革发展培养新型人才,满足社…

【人工智能】知识表示

目录 一、知识表示(Knowledge Representation)的基本概念二、谓词逻辑(Predicate Logic)表示法三、产生式(Production Rule)表示法四、语义网络(Semantic Network)表示法五、框架&am…

人工智能之知识图谱

人工智能之知识图谱 知识图谱(knowledge graph )是人工智能领域的重要分支技术,概念最初由谷歌于2012年提出,成为创建大规模知识应用的必要技术,在自然语言处理,电子商务,搜索,智能…

一张图看懂新一代人工智能知识体系

关于人工智能的前世今生、内涵意义,下图可以说是相当清楚全面了。人工智能是未来一大热点,连腾讯、阿里、百度这些科技公司都各自成立了人工智能实验室,如果你也看好这一趋势,不妨把这张图收藏起来慢慢看。 来源:智能…

【人工智能】知识图谱

文章目录 一、知识图谱的概况二、知识图谱的基本概念三、知识图谱构建技术四、知识图谱主要应用 一、知识图谱的概况 知识(Knowledge):合理性(Justified)、真实性(True)、被相信(Be…

人工智能知识图谱

1 知识图谱 知识图谱(Knowledge Graph)又称为科学知识图谱,由Google与2012年5月提出,目的是提高搜索引擎的能力,改善用户的搜索质量及搜索体验。随着人工智能技术的发展和应用,知识图谱逐渐成为关键技术之一,现已被广…

人工智能之知识图谱概述(一)

文章目录 碎碎念第一章 概念一、知识图谱概念和分类1、知识图谱的概念2、知识图谱的分类 二、知识工程发展历程三、知识图谱的知识图谱 第二章 技术人才篇1、知识表示与建模(1)知识表示模型(2)知识表示学习(3&#xff…

人工智能基础知识

📢博客主页:盾山狂热粉的博客_CSDN博客-C、C语言,机器视觉领域博主📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢努力努力再努力嗷~~~✨ 💡本次给大家分享的是什么是人工智能&a…

人工智能 —— 知识图谱

引言 初学者刚开始学习人工智能时,面对铺天盖地的概念,如,人工智能、机器学习、深度学习、计算机视觉等等,一时间可能就被这些“高深”的名称给唬住了,不知道如何下手。 又或者有些同学在学习了很长时间后&#xff0c…

人工智能知识体系

阶段一、人工智能基础 - 高等数学必知必会 本阶段主要从数据分析、概率论和线性代数及矩阵和凸优化这四大块讲解基础,旨在训练大家逻辑能力,分析能力。拥有良好的数学基础,有利于大家在后续课程的学习中更好的理解机器学习和深度…