数据治理专栏

article/2025/9/19 21:45:03

随着数字化转型大趋势发展浪潮以及数据作为新的生产要素,数据在企业的发展中扮演越来越重要的角色。然而数据本身不会自动产生价值,一般来说数据价值变现有两种方式:一种是通过数据治理将数据资源转化为数据资产,再把数据资产链接到提供数据资产交易的平台上进行交易,让数据资产具有直接变现的能力;第二种是通过数据治理实现数据资产的汇集和预处理,通过基于场景的算法将数据应用到业务中去,让数据产生洞察力,为管理和业务的创新提供支撑,让数据具备间接变现的能力。

以上两种方式都离不开数据治理,数据治理则是保障数据质量和实现数据价值的基础,其目的是输出高质量数据,并保证数据使用过程中的安全合规。本文将对数据治理做一个概述,主要结构包括什么是数据治理,为什么要数据治理,数据治理包含哪些内容以及企业如何做数据治理。

1. 什么是数据治理

DAMA对数据治理定义:数据治理是对数据资产的管理活动行使权利和控制活动的集合。简单来说,数据治理就是实现数据价值的过程。

这个过程是怎么实现的呢?通过采集、传输、存储等一系列流程,讲原本散乱的数据变成格式规范、结构统一的数据,并通过监控手段,保证数据质量。然后对这些标准数据进行加工分析,形成具有指导意义的业务数据,帮助企业决策。

数据治理和数据管理、数据管控又什么不同?

数据治理偏向于战略层面、组装层面、制度层面,确定决策需要什么样的数据做支持,所以数据治理是一个相对高阶的概念,需要建立对应的组织架构,定义清楚职责。

数据管理是操作和实施层面的概念,通过一些列的手段办法实现“治理数据”的具体过程。数据管理对应一个职能部门+各个相关部门的矩阵化组织,通过内部组织机构和工作机制,有条理的在各自的职能领域去完成数据管理的具体任务。

数据管控是对“数据管理”要求在业务过程、产品设计、开发实现的具体实施。管控离不开“制度”+“规范”+“工具”+“考核反馈”。

 2. 为什么要数据治理

我国各行业数字化程度水平并不均衡,对于传统的制造业、地产、农业等还刚刚起步,从互联网化程度比较前沿的电商、直播、互联网金融等总结出规律:企业信息化经历前期竖烟囱、中期集成式和后期的数据管理模式三个阶段,可参考阿里one data设计理念。 发展阶段不统一也由此产生了一些问题:

数据治理参差不齐:并不是所有的数据都是数据资产。企业各个业务系统自行录入原始数据,由于没有统一的录入口径、统一的业务规范和数据出口,可能导致相同的数据在不同的系统中有不同属性,数据录入信息冗余,甚至有的业务系统录入数据不全,数据完整性得不到保障。

数据孤岛化,流通受阻:企业信息化建设指出,大部分是以业务部门驱动的单体架构,数据分散在各个独立域,浙西域开发语言不统一、数据库形式多样,导致数据在企业内部形成鼓捣,缺乏有效的链接通道,数据价值不能充分发挥。

缺乏有效管理机制:企业通过业务系统来孔子数据流程,在缺乏有效管理机制情况下,数据标准不统一,流转过程中来回引用复制,造成大量垃圾数据。并且数据流转过程中,数据产权、职责不明确,导致管理和使用流程不清晰,引发数据治理问题。

存在数据安全隐患:随着数据安全法和个人隐私宝保护法生效,数据在采集、加工、存储、分析和过程中,数据泄露、数据全责不统一等问题暴露越来越多,最终也会导致数据信息共享程度低、资源难整合。

3. 数据治理的目标

数据治理本身不是目标,是组织实现战略的一个手段,最终达到通过数据帮组决策目的。从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,例如,集团企业总部和政府大数据管理局的目标是:制定数据政策、保障数据安全、促进数据在组织内无障碍共享,其重点目标是推进和保障数据战略的顺利实施。而企业和政府业务部门的目标是:通过提升信息管理能力,提升组织精细化管理水平,提高业务运营效率,增强组织决策能力和核心竞争力,从而为实现组织战略目标提供能力支撑,其重点目标是数据价值获取、业务模式创新和经营风险控制。

数据治理的推进方式,常见的有:

  • 面向源端业务系统做数据治理,解决的是流程-数据一体化治理的问题,保证各个业务系统和职能之间的流程贯通;
  • 面向大数据平台的建设阶段或运营阶段的数据治理,这个时候考虑的是数据之间的拉通,数据标准的统一,数据质量的监控,数据平台各层之间的数据血缘关系,数据流;
  • 面向数据涉外合作治理,针对需要共享的数据,企业更多优先关注数据权属问题,考虑如何通过多方计算,联邦学习等技术从数据安全的角度保证数据的共享。

对数据治理切入点归纳总结有:

4. 如何做数据治理

在不同行业企业中数据治理切入点有所不同,包含的内容也有对应变化,但数据管理的方式可以较为统一起来,目前主流的数据管理方式是以元数据为主,建设内容围绕元数据、数据标准、数据质量、数据集成、数据资产、数据交换、数据生命周期和数据安全。

元数据

元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,并面向开发人员、最终用户提供元数据服务,满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。元数据管理能帮助控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。

元数据分为业务元数据、技术元数据和管理元数据,三者之间关系紧密。

  • 业务元数据:定义和业务相关数据的信息,主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。
  • 技术元数据:可以分成结构性技术元数据和关联性技术元数据。
    • 结构性技术元数据提供了架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等;
    • 关联性技术元数据描述了数据之间的关联和数据在架构组织中的流转情况。

技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。技术元数据一般以已有的业务元数据作为参考设计的。

  • 管理元数据:主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的数据,包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业等。

数据标准

数据标准适用于业务数据描述、信息管理及应用系统开发,包括基础标准和指标标准,作为系统中数据规范化定义和统一解释,也是应用系统开发是进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。

数据标准的主要由业务定义、技术定义和管理信息三部分构成。

(1)业务定义:主要是明确标准所属业务主题以及业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到定义统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。

(2)技术定义:是指描述数据类型、数据格式、数据长度以及来源系统等技术属性,从而能够对信息系统的建设和使用提供指导和约束。

(3)管理信息:指明确标准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。

数据质量

高质量的数据是进行分析决策、业务发展规划的重要基础,通过建立完整的数据质量管理体系,明确数据质量管理目标、控制对象、指标、定义数据质量检验规则、执行数据质量核检,保障数据质量稳定性。

(1)制度和规范:从技术层面上,全方位定义数据质量的评估维度,包括完整性、时效性等,按照已定义的维度,系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。

(2)明确相应的管理流程:数据质量问题会发生在各个阶段,因此需要明确各个阶段的数据质量管理流程。例如,在需求和设计阶段就需要明确数据质量的规则定义,从而指导数据结构和程序逻辑的设计;在开发和测试阶段则需要对前面提到的规则进行验证,确保相应的规则能够生效;最后在投产后要有相应的检查,从而将数据质量问题尽可能消灭在萌芽状态。数据质量管理措施,宜采用控制增量、消灭存量的策略,有效控制增量,不断消除存量。

数据集成

定义清楚元数据、标准和数据质量工作后,系统做数据集成,主要包括对数据进行清洗、转换、整合、模型管理等处理工作。如常用组件、输入输出、转换组件、数仓组件、脚本组件等,可高效快速完成数据的传输、清洗转换、装载落地等处理过程,保证数据可靠性。

数据资产

数据资产是指由个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。数据资产是拥有数据权属(勘探权、使用权、所有权)、有价值、可计量、可读取的网络空间中的数据集。 

数据资产的概念很大,本文主要指能够帮助企业快速决策和智能化判断的业务数据形成资产。对于企业来讲,运用相关的流程、技术和解决方案,将业务系统中的核心数据抽取出来,集中进行管理,并且以服务的方式把统一、完整的、准确的、有业务价值的数据资产统一对外。

数据交换

用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。

数据生命周期

业务随着时间的变化,产生的数据也会随之发生转变,对于陈旧的、不再使用的数据需要及时消亡,减少数据管理系统中的无效数据,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。

数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段)、销毁阶段三大阶段,管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。

数据安全

数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识;技术上,数据安全包括存储安全、传输安全和接口安全等。

数据使用安全需结合管理和技术两方面建设,管理上加强业务系统层面的控制,防范非授权访问下载,敏感数据防范隐私泄密或非法访问等。技术上建立客户端安全控制工具,建立完善的客户端信息防泄漏机制,防范将客户端上存储的个人客户信息非授权传播;建立完善的数据安全管理体系,建立数据安全规范制度体系,组建数据安全管理组织机构,建立有效的数据安全审查机制;

当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。

5. 企业如何做数据治理

数据治理是一个复杂的系统工程,涉及到企业多个领域,既要做好顶层设计,又要解决好统一标准、统一流程、统一管理体系等问题,同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题,这时就要注意以下方面:

(1)跨组织的沟通协调问题

数据治理是组织战略层面的全局性项目,需要技术部门和业务部门进门合作支持,拉齐各个部门之间的数据价值认知,所以数据治理需要组织高层背书,在条件允许情况下,成立高层牵头的专项项目小组,有效率推进。

(2)长期战略价值

综合性的数据治理成效并不能立马体现,它更像一个基础设施,是以支撑组织战略和长期发展为目标,所以导致此类项目无法界定明确的边界和目标,需要组织长时间价值战略投资。

(3)工作的持续推进

数据治理是以支撑组织战略和长远发展为目标,应当不断吸收新的数据来源,持续追踪数据问题并不断改进,所以数据治理工作不应当是一锤子买卖,应当建立长效的数据改进机制,并在有条件的情况下,尽量自建数据治理团队。

(4)技术选型

技术选择上结合当前企业数据量以及企业未来发展趋势,再加上组织对数据治理的定位,作出合理的技术选择标准。市场上可参考的数据治理框架较多,可结合实际选择。

其他

数据治理在行业内讨论很多,本文仅根据自己经验和外部参考做一个粗略描述,感兴趣可以进一步探讨。

参考:https://www.zhihu.com/question/458720249/answer/2446689386


http://chatgpt.dhexx.cn/article/id1MpixZ.shtml

相关文章

数据治理简介

参考文章:数据治理到底能治什么,怎么治 浅谈数据治理 数据治理的定义,挑战和最佳实践 1. 数据治理的背景 狭义上讲,数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理…

数据治理问题

01前言 为什么想开这个话题,一是因为目前业内数据产品也基本完成了从0-1的建设工作,但主要集中在数据生产加工和数据应用分析两侧,对于数据管治方向的建设多分散在了包括安全、指标元数据、SLA等在内的各个环节,缺乏统一的规划统…

【数据治理】数据治理8种方法

今天给大家推荐的是数据治理套路8法,个人觉得这8种方法中监管驱动法和利益驱动法是最常见的,也是一直在治,但只能局部治理的方法,未来是数字时代,必须体系构建(顶层设计)价值驱动(利…

浅谈数据治理(什么是数据治理)

浅谈数据治理 数据治理是一个对企业数字化转型至关重要的一个环节,关乎着企业核心数据是否能被规范化管理、数据的价值是否能被充分发挥等等。说白了能给企业实现降本增效、业务精细化运营、重要决策制定、产品优化迭代等多方面的收益。 说到数据治理,…

什么是数据治理?(目的、方法、流程)

文章目录 1、什么是[数据治理]2、数据治理的目的3、数据治理的方法4、数据质量8个衡量标准5、数据治理流程 1、什么是[数据治理] 数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制…

bpftrace 段错误 bpf_prog_load_deprecated

调试 (gdb) 672 return bpf_prog_load(load_attr->prog_type, load_attr->name, load_attr->license, (gdb) p load_attr->prog_type $5 BPF_PROG_TYPE_TRACING (gdb) s bpf_prog_load_deprecated (file0x1a <error: Cannot access memory at address 0…

BPF介绍

Thank Zhihao Tao for your hard work. The document spent countless nights and weekends, using his hard work to make it convenient for everyone. If you have any questions, please send a email to zhihao.taooutlook.com 文章目录 1. 概述1.1 发展1.2 优势1.3 限制1…

BPF-JIT中bug归类

文章目录 前言BPF-JITs中的bugs分类Subtle architectural semantics(微妙的架构语义)Subtle machine state(微妙的机器状态)Subtle instruction encoding(微妙的指令编码) Bug-fixing commits in BPF JITs in the Linux kernel (May 2014–April 2020)其他 前言 本篇内容来自&…

bpf的加载流程分析

文章目录 前言elf结构简介load_bpf_file函数准备工作创建map处理所有的重定向section加载ebpf程序 参考 前言 我们知道&#xff0c;使用clang/llvm编译生成的target为bpf的elf文件&#xff0c;使用load_bpf_file函数加载进入内核。 所以&#xff0c;这里&#xff0c;我们需要…

深入理解 BPF map 实现机制

揭秘 BPF map 前生今世 目录 揭秘 BPF map 前生今世1. 前言2. 简单的使用样例用户空间与内核 BPF 辅助函数参数对比 3. 深入指令分析3.1 查看 BPF 指令3.2 加载器创建 map 对象3.3 第一次变身&#xff1a; map fd 替换3.4 第二次变身&#xff1a; map fd 替换成 map 结构指针 4…

bpf简介1

文章目录 前言prefaceIntroduction历史发展结构 推荐阅读 前言 来源&#xff1a;Linux Observability with BPF 这里整理下该书第一章&#xff1a;preface && Introduction 这本书有中文版的《Linux内核观测技术BPF》。这个链接里面的资料也是很好的&#xff0c;可以…

BPF技术学习分享

什么是BPF程序&#xff1a; BPF is a highly flexible and efficient virtual machine-like construct in the Linux kernel allowing to execute bytecode at various hook points in a safe manner. BPF程序 ----LLVMClang----> BPF字节码 ----JIT----> BPF指令集&…

BPF之事件源

基础 1. BPF和eBPF概念 BPF 原是 Berkeley Packet Filter&#xff08;伯克利数据包过滤器&#xff09;的缩写&#xff0c;1992诞生&#xff0c;用于网络包过滤。2014经过修改并入 Linux 内核主线&#xff0c;从此 BPF 变成了一个更通用的执行引擎&#xff0c;主要用于网络、可…

DPDK BPF

DPDK BPF DPDK 自版本 18.05 已集成了 librte_bpf, 主要利用rte_eth_rx_burst/rte_eth_tx_burst 回调函数机制, 执行eBPF字节码. 当前支持以下特性: base eBPF ISA (except tail-pointer)JIT (x86_64 and arm64 only)eBPF code verifieruser-defined helper functions (64-bi…

Linux超能力BPF技术介绍及学习分享

近两年BPF技术跃然成为了一项热门技术&#xff0c;在刚刚结束的KubeCon 2020 Europe会议上有7个关于BPF的技术分享&#xff0c; 而在KubeCon 2020 China会议上也已有了3个关于BPF技术的中文分享&#xff0c;分别来自腾讯和PingCAP&#xff0c;涉足网络优化和系统追踪等领域。在…

bpf原理与入门

一、bpf架构 如上图所示,bpf由六部分构成,以下为其在bpf中的作用: bpf工具:该部分涉及bpf用户态程序、bpf的编译工具,通过bpf编译工具如Clang、LLVM将bpf用户态程序编译成bpf字节码; 加载器:可以简单理解为bpf系统调用,将bpf字节码加载到内核; 验证器:对bpf程序的…

BPF入门1:BPF技术简介

目录 cbpf 介绍ebpf 介绍ebpf 和 cbpf对比ebpf和内核模块的对比 ebpf应用ebpf架构Why BPF is FAST指令虚拟机JIT How BPF extends KernelLLVM 编写ebpf程序BCCBPFTraceC 语言原生方式 国内大厂使用ebpf的实践经验参考 cbpf 介绍 BPF&#xff08;Berkeley Packet Filter &#…

增广拉格朗日函数

对于优化问题 arg ⁡ min ⁡ z E ( z ) ( 1 a ) s . t . C z − b 0 ( 1 b ) \mathop{\arg\min}_{z} \ E(z)\qquad(1a)\\ s.t. \quad Cz-b0 \qquad(1b) argminz​ E(z)(1a)s.t.Cz−b0(1b) 其增广拉格朗日函数被定义为&#xff1a; L ( z , α , μ ) E ( z ) α T ( C z −…

约束优化:PHR-ALM 增广拉格朗日函数法

文章目录 约束优化&#xff1a;PHR-ALM 增广拉格朗日函数法等式约束非凸优化问题的PHR-ALM不等式约束非凸优化问题的PHR-ALM对于一般非凸优化问题的PHR-ALM参考文献 约束优化&#xff1a;PHR-ALM 增广拉格朗日函数法 基础预备&#xff1a; 约束优化&#xff1a;约束优化的三种…

matlab编写拉格朗日插值代码函数

要求&#xff1a;根据拉格朗日多项式插值法原理&#xff0c;设计算法流程并且编写拉格朗日插值代码函数。 代码如下&#xff1a; function[y]lagrange(x0,y0,x) %建立一个函数名为lagrange的函数&#xff0c;输入x0,y0为插值点的坐标&#xff0c;均为数组&#xff0c;x为要…