Types of Data

article/2025/11/6 19:17:02
企业中的数据都如何分类?

粗略的分类
如果粗略点的分类话,可以分为两类数据:主数据和事务型数据。
主数据(Master Data)
“Master Data is your business critical data that is stored in disparate systems spread across your Enterprise.”
Master data describe the people, places, and things that are involved in an organization’s business.
Because these data tend to be used by multiple business processes and IT systems,standardizing master data formats and synchronizing values are critical for successful system integration.
通常主数据可以分为四类:
  • Parties(参与方): represents all parties the enterprise conducts business with such as customers, prospects, individuals, suppliers, partners, etc.
  • Places: represents the physical places and their segmentations such as geographies, locations, subsidiaries, sites, areas, zones, etc.
  • Things: usually represents what the enterprise actually sells such as products, services, packages, items, financial services, etc.
  • Financial and Organizational: represents all roll-up hierarchies used in many places for reporting and accounting purposes such as organization structures, sales territories, chart of accounts, cost centers, business units, profit centers, price lists, etc.
事务型数据(Transactional Data)
Such as purchase orders, invoices or financial statements, is not usually considered master data since it actually registers a “fact” that happened at a certain point in time. 
Transactional Data is really what drives the business indicators of the enterprise and it relies entirely on Master Data.
Examples: include sales orders, invoices, purchase orders, shipping documents, passport applications, credit card payments, and insurance claims.
These data are typically grouped into transactional records, which include associated master data.

两种类型数据的关系

--------------------------------------------------------------------------------------------------------------------------------------------
更详细的分类

也有人把数据的类型分的更细一些。如上图中的六类,数据模型中的蓝色越深代表语义相关性越强和数据质量越重要,黄色越深代表数据的数据数量越多、更新的频率越快、实时抓取的数据越快、数据的生命越短。
从中可以看到,元数据的数据语义性最强,几乎不更新,数据量最少,生命周期最长。

Metadata
This is data that describes the data held in the enterprise information architecture,
e.g. definitions of tables and columns in the system catalog of a database, or entities and attributes in a data model. 

Reference Data
Tables in databases that are also called "domains", or "lookup tables". These are used to hold information about entities the enterprise does manage in its business (e.g. countries and currencies), or hold information that categorizes the enterprise's information. We define reference data this way: Reference data is any kind of data that is used solely to categorize other data found in a database, or solely for relating data in a database to information beyond the boundaries of the enterprise.

Master Data
详细的解释见上面。

Enterprise Structure Data
Data that describes the structure of the enterprise, e.g. organizational structure or chart of accounts. This information is used to track business activities by responsibility. Formal definition: Data that permits business activity to be reported or analyzed by business responsibility.

Transaction Activity Data
This is the traditional focus of IT. It is the data that forms the transactions processed by the operational systems of the enterprise, e.g. sales, trades, etc.

Transaction Audit Data
An individual transaction may pass through several steps. in each step its state may change. Audit information tracks these state changes. Web logs and database logs also track this kind of data.

--------------------------------------------------------------------------------------------------------------------------------------------
按存储形式来划分
结构化数据:即存储在数据库中的数据。
非结构化数据:顾名思义,是存储在文件系统的信息,而不是数据库,如文件,邮件,社交媒体等。 据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

结构化数据:先有结构后有数据。
非结构化数据:有数据,无结构。

大数据时代最大的挑战也是来自非结构化数据的处理。并且很多时候结构化数据并不是决策最关键点。传统的BI(商业智能)分析类软件还主要是基于结构化数据,只回答一些问题 Who,What,When,Where,但是没有回答Why,How。要回答Why和How,未来可能将依赖于针对非结构化数据的分析。
比如:从传统BI中,你能看到一个产品的销量比较差,但是你可能很难知道销量差的原因,针对非结构化数据的BI可以分析社交网络中的产品相关负面关键词,最终知道销量差的根结。




参考:
Definitions of Data Categories
数据集成之主数据管理(一)基础概念篇 
What Is Master Data?
What is Master Data - Semarchy


http://chatgpt.dhexx.cn/article/Gpon0I6q.shtml

相关文章

Python DataType(数据类型)

简述 变量:指代任意一个数,或其他数据类型 变量名:大小写英文、数字和下划线(_)的组合,且不能用数字开头 Python主要的数据类型有如下:(允许自定义数据类型) 整数&…

条件随机场适用于无监督学习吗?

条件随机场适用于无监督学习吗? 在网上搜到的资料比较少。 HMM模型可以用EM算法来进行无监督学习。

深入理解机器学习——概率图模型(Probabilistic Graphical Model):条件随机场(Conditional Random Field,CRF)

分类目录:《深入理解机器学习》总目录 条件随机场(Conditional Random Field,CRF)是一种判别式无向图模型,在《概率图模型(Probabilistic Graphical Model):隐马尔可夫模型&#xff…

概率图模型之条件随机场

条件随机场(CRF)是一种判别式无向图模型。生成式模型是直接对联合分布进行建模,而判别式模型是对条件分布进行建模。前面提到的隐马尔可夫模型和马尔可夫随机场都是生成式模型,而条件随机场则是判别式模型。条件随机场试图对多个变…

马尔可夫随机场与条件随机场

文章目录 马尔可夫随机场1. 引言2. 团与极大团3. MRF联合概率4. MRF的条件独立性(有向分离)条件随机场 马尔可夫随机场 1. 引言 马尔可夫随机场(Markov Random Field,简称MRF),是马尔可夫网的一种,生成式模型,是一种著名的无向图…

通俗易懂条件随机场CRF

条件随机场CRF 条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。本系列主要关注于CRF的特殊形式:线性链(Linear chain) CRF。本文关注与CRF的模型基础。…

条件随机场(2)——概率计算

1.CRF简化表示 先回顾一下线性链CRF参数化形式 和都可以表示为随机变量的函数,因此,可以将和统一成 其中,是转移特征的个数,是状态特征的个数。特征函数所代表的特征集合一共有K个值,。 用来表示特征的权重&am…

条件随机场详细推导

条件随机场 条件随机场简介1.条件随机场简介 条件随机场举例2.条件随机场举例 条件随机场三个基本问题及推导3.条件随机场三个基本问题及推导 参考文献 条件随机场简介 1.条件随机场简介 马尔可夫随机场:设有联合概率分布P(Y),由无向图G(V,E)表示&…

经典算法: 条件随机场(conditional random field, CRF)

1. 引言 条件随机场,conditional random field,CRF,是给定一组输入随机变量的条件下,输出随机变量的条件概率分布模型。 条件随机场和隐马尔可夫模型的联系: 可以看到,条件随机场是一种无向图。 2. 概…

条件随机场原理介绍

1. 引言 条件随机场(Conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场常用于序列标注问题,比如命名实体识别…

条件随机场(CRF)概述

转自:原文链接 条件随机场是一种判别模型,用于预测序列。他们使用来自先前标签的上下文信息,从而增加了模型做出良好预测所需的信息量。在这篇文章中,我将讨论一些将介绍 CRF 的主题。我会过去: 什么是判别分类器&am…

条件随机场CRF的理解

1.个人理解和总结 对比HMM的状态转移概率矩阵和发射概率矩阵CRF有自己的定义在边上的特征函数(相当于转移概率)和定义在节点上的特征函数(相当月发射概率)序列标注HMM可以根据转移概率矩阵和发射概率矩阵计算出隐状态序列概率&am…

条件随机场的简单理解

目录 什么是条件随机场 条件随机场长怎么样 如何构建特征函数 前向—后向算法 条件随机场的概率计算问题 条件随机场的预测问题 什么是条件随机场 条件随机场的定义 条件随机场总的来说就是只要满足“条件随机场”这个条件,就可以根据定义的模型去求解我们需…

nlp基础—9.条件随机场模型(CRF算法)

文章目录 引言一、概率无向图模型1. 概率无向图模型的定义2. 概率无向图模型的因子分解 二、条件随机场的定义与形式1. 条件随机场的定义2. 条件随机场的参数化形式3. 条件随机场的简化形式4.条件随机场的矩阵形式 三、条件随机场的三个基本问题1.概率计算问题2. 学习问题3. 预…

条件随机场模型

条件随机场模型(Conditional Random Fields, CRF) 条件随机场是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。线性链条件随机场,是输入序列对输出…

CRF 条件随机场

目录 1. 基本概念 1.1 各种随机场 1.2 CRF模型的训练原理 1.3 条件随机场的参数化形式 1.4条件随机场对应的简化概率表达 2. 例子 定义CRF中的特征函数 从特征函数到概率 CRF与逻辑回归的比较 CRF与HMM的比较 HMM和CRF区别 3. Tensorflow实现 tf.contrib.c…

NLP之条件随机场

条件随机场(conditional random fields, CRFs)由J. Lafferty等人(2001)提出,近几年来在自然语言处理和图像处理等领域中得到了广泛的应用。 CRF是用来标注和划分序列结构数据的概率化结构模型。言下之意,就…

条件随机场CRF

1 条件随机场CRF:从条件随机场到线性链条件随机场 条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。 1.1 什么样的问题需要CRF模型 这里举一个简单的…

条件随机场的肤浅理解

条件随机场(Conditional Random Field,CRF)是自然语言处理的基础模型,是一个无向图概率模型。经过长期的发展目前已经广泛应用于词性标注、图像分类等众多场景。 一、基本概念 随机场 : 给定一组随机变量: X { X 1 , X 2 , X …

条件随机场详解

为了更好地理解条件随机场,这里主要以命名实体识别为例子,介绍如何和LSTM结合,进行NER。 首先什么是NER,就是针对一句话的每个词,都标注出它们的词性,比如输入一句"Dog play football"&#xff…