数据仓库基本知识

article/2025/9/30 19:08:05

目录

1.数据仓库

1.1 数据仓库起源

1.1.1 联机事务处理系统(On-Line Transaction Processing,OLTP)

1.1.2 联机分析处理系统(On-Line Analytical Processing,OLAP)

1.1.3 建立DW的基本条件

1.2 数据仓库基本概念

1.2.1 面向主题

1.2.2 集成

1.2.3 随时间变化

1.2.4 OLTP与OLAP的差异

1.3 数据仓库技术要求

1.3.1 ETL(Extract-Transform-Load)概念

1.3.2 ETL技术概念

1.3.3 集成平台

1.3.4 存储和管理

1.4 数据仓库体系结构

1.5 构造数据仓库方式

1.6 其他

1.6.1 BI的含义

1.6.3 BI的关键

1.6.4 BI的选型


1.数据仓库

1.1 数据仓库起源

1.1.1 联机事务处理系统(On-Line Transaction Processing,OLTP)

OLTP系统也称生产系统,是为了协助业务生产建设的系统,它是事件驱动、面向需求的。例如MES系统、WMS系统等就是典型的OLTP系统。OLTP系统在使用过程中积累了大量数据,存储在DB中。自从关系型数据库概念被提出后,联机事务处理一直是数据库应用的主流。

OLTP系统的特点:1、时间响应要求高;2、用户数据量庞大,主要是操作用户;3、数据库各种操作基于索引进行。

1.1.2 联机分析处理系统(On-Line Analytical Processing,OLAP)

OLAP系统也称分析系统,是基于数据仓库的信息分析处理的系统。OLAP系统是数据仓库的用户接口部分,它是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的。例如Report系统。OLAP系统在建设时及建设后,积累了不同业务系统的海量数据,存储在DW(Data WareHouse,数据仓库)中。OLAP系统的出现晚于OLTP系统,而且只有数据规模较大的企业才会投资建设。

OLAP系统的特点:1、基础数据来源于生产系统的操作数据;2、用户数据量较小,主要是业务决策和管理人员;3、需要对数据的时间进行合理规划。

1.1.3 建立DW的基本条件

  1. 该行业有较为成熟的OLTP系统,OLAP系统的建设提供了内部客官条件;
  2. 该行业面临较大的市场竞争压力,为DW建设提供了外部驱动力;
  3. 该行业为数据密集型产业。

1.2 数据仓库基本概念

        数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。

1.2.1 面向主题

        指用户使用数据仓库进行决策时所关心的重点方向,例如原材料、成品、WIP、Hold、废品、良品等;所谓面向主题,指数据仓库内的信息是按主题进行组织的,而非业务支撑系统那样按业务功能进行组织。

注:分析和明确企业所涵盖的业务范围,并对企业业务进行高度概括性描述,把密切线管业务对象进行归类,没有同一标准,主要根据设计者的经验,不同行业会有不同主题域划分。

1.2.2 集成

        指数据仓库中的信息不是从各个业务系统见但抽取出来的,二十经过一起列加工、整理和汇总的过程,消除源数据中的不一致型,因此数据仓库中的信息是关于整个企业的一致性全局信息。

注:各个业务系统可能由不同厂家独立创建,他们之间的数据模型设计、编码规则都是不相同的,这些数据加载到数据仓库之后,需要进行一个加工转换的过程。

1.2.3 随时间变化

        指数据仓库内的信息不只是反应企业当前的信息,二十记录了过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展力成和未来的趋势做出定量的分析和预测。

注:业务系统只记录当前的最新状态,数据仓库可以反应一个用户的状态变化过程及分析变化的原因。

1.2.4 OLTP与OLAP的差异

  1. 面向对象:OLTP面向应用;OLAP面向主题
  2. 数据内容:OLTP记录详细数据;OLAP记录综合的或汇总的数据。
  3. 存储介质:OLTP是数据库DB;OLAP是数据仓库DW
  4. 服务对象:OLTP服务业务生产;OLAP服务管理决策
  5. 数据状态:OLTP数据可更新;OLAP数据不可更新
  6. 驱动方式:OLTP由事务驱动;OLAP由分析驱动
  7. 冗余数据:OLTP非冗余数据;OLAP经常有冗余数据
  8. 处理数量:OLTP一次处理很少数据;OLAP一次处理大量数据
  9. 访问度:OLTP高访问度;OLAP适量的访问度
  10. 数据时效:OLTP当前数据;OLAP历史数据

1.3 数据仓库技术要求

1.3.1 ETL(Extract-Transform-Load)概念

        ETL:用户从数据源抽出所需数据,经过清洗/转换,最终按预先定义好的数据仓库模型,将数据加载到数据仓库;ETL是数据仓库中最重要的概念之一,ETL在一个数据仓库的项目建设中至少要消费一半以上的时间,也是后期运维工作的重头戏。

1.3.2 ETL技术概念

        增量、全量、定时、调度、监控

  • 增量数据:流水类数据,操作历史的抽取方式。
  • 全量数据:用户信息类数据,产品信息类数据,状态会更新发生变化的数据全部采用全量抽取方式。
  • 定时抽取:数据抽取一般在生产系统相对闲暇的时候进行,尤其针对大规模数据抽取,需要安排在晨间情况较多,且需按照数据周期进行。
  • 作业调度:由于涉及到的业务系统数据量庞大,需要分批抽取以及抽取后的一系列计算。
  • 作业监控:对所有ETL JOB状态进行监控。

1.3.3 集成平台

1.3.4 存储和管理

注:DW关键核心技术

需要注意的问题:

  1. 大数据量的存储和管理;
  2. 并行处理;
  3. 针对决策支持的查询优化;
  4. 支持多维分析的查询方式。

1.4 数据仓库体系结构

1.5 构造数据仓库方式

  1. 自上而下:一个企业建立唯一数据中心,其中数据经过整合、清洗,得到标准的可统一的视图。(注:需要从整个企业环境入手,从总结中获取完整的概念)
  2. 自下而上:数据仓库应按照实际需求加载数据,摒弃不需要的数据。(注:建设周期短,快速建成果)
  3. 注:两种方式结合使用

1.6 其他

1.6.1 BI的含义

BI(Business Intelligence):商业智能。技术层面上讲,是将数据仓库、联机分析处理工具(OLAP)、数据挖掘等技术结合在一起分析数据。业务层面上讲,是将企业数据进行清洗、分析、挖掘,以获得企业经营所需的决策数据。

1.6.2 BI的发展

  1. 第一阶段:业务报表。静态信息。
  2. 第二阶段:数据仓库。建立数据仓库存储业务数据、建立数据集市解决特定专题分析、提供OLAP和统计分析。
  3. 第三阶段:商务智能解决方案。客户中心型数据仓库和数据集市、集成复杂的管理工具(OLAP、数据挖掘、评估)、业务模式、客户反馈渠道。

1.6.3 BI的关键

将来自不同企业的系统数据进行清洗、整合提取正确数据。然后,通过抽取(Extraction)、转换(Transformation)、装载(Load)等ETL过程,将数据合并到一个数据仓库中,获得企业数据全局视图。最后,通过查询分析工具、数据挖掘工具、OLAP工具对数据进行分析,获得辅助生产经营的决策数据。

1.6.4 BI的选型

  • 数据库:DB2、Oracle、SQL Server、Teradata
  • ETL工具:DataStage、PowerCenter(另,SAS(ETL Server\BO Data Integrator))
  • OLAP工具:MOLAP\ROLAP

 

 

 

 

 

 


http://chatgpt.dhexx.cn/article/ToqVe5WS.shtml

相关文章

数据仓库框架指导

目录 1, 数据仓库 DW 2, 数据库 vs 数据仓库 3,数据仓库历史 3.1,历史 4,维度建模 4.1,概念 4.2,建模模型 4.3,结构 4.4,事实表 4.5&#xff…

Oracle 数据仓库详解

文章目录 1 概述2 数据仓库2.1 数仓分层2.2 维度建模 1 概述 数据库 VS 数据仓库 数据库是面向事务设计的,属于 OLTP(在线事务处理)系统,主要操作是随机读写;在设计时尽量避免冗余,常采用范式规范来设计数…

数据仓库原理

1.简介 1.1诞生背景 历史数据积存:历史数据使用频率 低,堆积在业务科中,导致性能下降;企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致; 1.2基本概述(Data …

数据仓库入门介绍

🍊最近很多学弟学妹问我,我实习的工作是内容是什么?有没有一些可参考的学习路线?每次我都说是数仓开发,但是很多同学不太了解什么是数据仓库,于是我就写一篇博客,来介绍一下数据仓库&#xff0c…

大数据开发---数据仓库技术

1、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提…

【简介】数据仓库技术实现

数据仓库建设方案有两种,一种是传统架构的数据仓库,一种是大数据架构的数据仓库。 传统数据仓库 传统数据仓库是由单机数据库发展而来的。业务数据库一般是关系型数据库(RDBMS),那数据仓库在建设初期,也会…

数据仓库需要的技术

数据仓库和技术 首先对于数仓我们应该知道,相比较于传统数据库来说,它需要的操作要相对简单一些,在数仓中没有联机更新数据的需要,只有一些非常少的锁定需要 然后了解一下数据仓库都有什么需求 1、管理大量的数据 对于数仓而言…

使用fprobe生成Netflow

可以在https://sourceforge.net/projects/fprobe/下载fprobe ubuntu deb下载地址 http://ftp.uni-bayreuth.de/debian/pool/main/f/fprobe/ centos rpm下载地址,可以使用以下地址搜索fprobe http://rpm.pbone.net/index.php3 fprobe的使用 假设eth2为流量镜像口&am…

Netflow、Netstream、sflow

理论性概念自行百度即可。 Netflow是cisco搞出来的,Netstream是HW搞出来的。不一定的点:netflow只能进行入方向的分析,Netstream可以进行出入方向的分析。Sflow是基于芯片的,降低了设备的CUP的压力。 NetFlow更多的是在路由器上得…

NetFlow网络流量分析

NetFlow是思科开发的协议。它用于记录有关穿越网络设备(如路由器,交换机或主机)的IP流量的元数据。启用NetFlow的设备会在接口级别生成元数据,并将此信息发送到流收集器,在流收集器中存储流记录以启用网络流量分析。网…

NetFlow学习总结

NetFlow学习总结 标签: netflow 由于工作需要,对NetFlow做了一些学习和调研,并总结成文档以供学习分享。 背景:随着系统的升级与漏洞的修补,入侵主机进而进行破坏的病毒攻击方式在攻击中所占比例逐渐减少,…

CentOS 7部署nfsen监控netflow

转载来源 :部署nfsen监控netflow : https://www.jianshu.com/p/011258907081 介绍 netflow和sflow可以帮助我们分析网络中的流量构成,抓取实施带宽使用情况,帮我们找出"hog"。作为collector的软件一般都是收费的&…

【NetFlow】NetFlow V9协议详细分析

无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。 摘自百度百科 Netflow技术最…

NETFLOW 与 SNMP两种不同的网络监控方法

SNMP(简单网络管理协议)和Netflow都是管理员常用的协议,因其能够提供网络可见性以及在某些情况下识别网络性能问题、网络瓶颈、系统资源分配问题等的原因而备受赞誉。在Netflow方面,像ManageEngine这样的第三方软件供应商可以极大…

NetFlow Analyzer无线网络管理

无线网络在机构中变得更加重要,因为它们越来越多地采用自带设备 (BYOD) 文化。机构环境中设备数量的增加使得保持最佳互联网性能变得困难。虽然有线网络监控很重要,但也有必要监控无线网络,因为它们更重要。 无论是处理安全问题还是网络性能…

网络协议之Netflow与sFlow协议

《NetFlow 与sFlow理解及比较》 (注:本文是个人对两种协议的理解,没有太多概念性的东西,适合对两种协议有一些基本了解的同学阅读。当然,本人知识有限,文章中的内容不保证没有知识错误,如若发现…

linux下netflow软件,NetFlow Analyzer下载

NetFlow Analyzer官方版是一款高效实用的网站流量监控软件,NetFlow Analyzer最新版功能强悍,为用户带来了强大的流量构成、协议分布和用户活动分析功能,NetFlow Analyzer软件支持多种Flow格式,可解析多达100K Flow/秒的大流量数据…

Netflow相关技术

数据包和数据流 数据包是网络中传输的数据单位,每个数据段经过网络层层封装成为-个可以在网络中流动的包, 从源头到达目的地之后,被目标设备层层解析出来,获得里面的数据。 数据流是一个有序的数据包系列,它需要用一定的顺序进行读取。可以认为,数据流是…

Netflow及其及配置案例

NetFlow 是Cisco发布的一款用于分析网络数据包信息的工具包; 根据不同的需要定制不同的方案; 典型的是对网络数据的源地址、目的地址的分析,对流量各种应用的分析或者路由器上各个端口的负载等; addr、dstaddr、port、dstport、pr…

路由器安全-NetFlow

1、NetFlow介绍 提供高层次的诊断,分类和识别网络异常。使用NetFlow来检查哪些行为改变明显的攻击是非常有效的。就像Wiretap一样捕获数据包。NetFlow像电话账单。(谁和谁在通话,通过什么协议和端口,多长时间,速度如何…