数据治理要点

article/2025/9/19 20:57:06

目录

  • 数据治理-ods
    • 治理前言-确定表主键
    • 数据治理-行政区划
    • 数据治理-字段拆分
    • 数据治理-必去的脏数据
    • 数据治理-全角转半角

已经在公司待了有一段时间了,自己也亲身接触和实践了一些项目,最近发现自己一直没有进步,想了想或许是自己一直没有反思总结,自己这段时间也经常在做数据治理,这里记录并且持续更新自己对于一些数据治理的体会,以下仅是我自己的个人拙见。

数据治理-ods

我一直在做的都是离线数仓,整个的大体框架是数据接入的stg层,经过治理到ods,这里的治理可以是对数据进行相应的解码,或者是对不同规则的数据进行统一规则,比如某一个描述日期的字段,具体内容中出现了“天”、“小时”、“分钟”等,需要进行统一规则,比如对这一字段进行拆分,还可以是对某些老的行政区划编码进行再更新等等,这里治理的地方非常庞杂,具体情况具体对待。

治理前言-确定表主键

一个标准的表进行数据治理要包含几部分,首先表一定要有主键,表里的每一条数据都要能够唯一确定这一条数据,对主键的选择至关重要,有时候,数据来源方会在表注释中将主键标注出来,比如这张表中就将主键是哪个字段标识了出来,之后与来源发沟通一下,确定无误,就可以直接选取。如果一张表是描述有关人员的信息,里面涉及到身份证号等字段,那就可以直接对身份证号加密,并直接当选主键,在治理之后的ods表中,再将身份证号为空的内容剔除,因为为空,我们在之后的数据供给中用不到它。如果表数据内容是有关在建项目等内容,那就需要进行尝试,并配置联合主键,比如将具体项目代码信息与项目名称或者建设单位,监工单位,设计单位,施工单位,勘察单位等进行联合拼接,确定主键
在这里插入图片描述

数据治理-行政区划

在进行治理行政区划时,有时会出现左侧这种行政区划,出现“下城区”这类字眼,杭州目前已没有下城区,那是老的行政区划,这里我们就需要对行政区划做新的更新,比如像这样加两列,将新的行政区划编码与对应的行政区划名称列出来
在这里插入图片描述

数据治理-字段拆分

由于数据安全的一些限制,这里我不能展示过多的数据条目和具体内容,只能大致用文字描述其含义,比如这里我们在获取元数据的时候,是一条描述项目工期的数据,这里原值存在直来直往的数字,存在数字与汉字并存,存在数字与英文字母,这里我们就需要对数据进行拆分,比如将具体的数字拿出来单做一列,将剩余的文字描述信息单做一列,并且还有一列直接取原值,因为我们并不知道需求方需要什么样的数据,他们可能会看到我们的表结构与一些具体的数据条目,对我们提需求,那我们就需要将完全的数据展示给他们,他们做抉择
在这里插入图片描述

数据治理-必去的脏数据

对表进行数据治理说到底就是对表里面的每一个字段都进行治理,我们经常会对表中的每一个字段都看一遍,有时候我们会看到类似项目内容描述这样的字段,但它的具体内容可能是“测试”,或者“ceshi”这样的字眼,并且这一条数据后续的数据项都没有具体的含义,那么像这样的字段我们都需要进行去除,这里可以用一些好用的正则表达式来进行过滤,一些简单的正则表达式并不难,这里是几个很常用的正则表达式的例子

REGEXP ‘[0-9]+’ THEN NULL 包含数字置空

REGEXP ‘[0-9]+$’ THEN NULL 全为数字置空

REGEXP ‘0|00000000’ THEN NULL 为0或者8个0置空

正则表达式只提取数字
REGEXP_REPLACE(bargaindays,‘[^0-9]’,‘’)

正则表达式只提取中文
REGEXP_REPLACE(bargaindays,‘[\u4e00-\u9fa5]’,‘’)

数据治理-全角转半角

这里涉及到的就是一些中英文状态下的一些字符的规范,比如中文状态下的引号冒号:,和英文状态下的冒号:,两者可能会同时出现在某一个字段中,这里我们就需要对其进行统一格式转换

数据治理还有许多情况和规范,来日再更。

感谢阅读,我是啊帅和和,大数据专业刚刚毕业的应届生。


http://chatgpt.dhexx.cn/article/UbEY6k5c.shtml

相关文章

数据治理

数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。 数据治理是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工…

主数据治理项目前期调研

随着企业的不断发展进步,业务部门的需求不断增加,企业逐渐上了很多应用系统以及硬件设备,如OA办公协同系统、ERP企业资源管理系统、HR人力资源管理系统、CRM客户关系管理系统等,也在业务发展中沉淀了大量数据,但是这些…

通俗理解数据治理之主数据

1)如需数据治理-元数据材料可前往(狗头.gif) https://download.csdn.net/download/u010763324/87589200https://download.csdn.net/download/u010763324/875892002)如需数据治理-主数据材料可前往(狗头.gif&#xff0…

数据治理概述

一、 首先认识一些名词 在学习数据治理知识之前,首先要明白治理的对象都有哪些,什么才是数据?是1,2,3,4这种纯数字类型的才算数据吗?还是所有的文本数据都是数据? 请往下看。 1.1…

数据治理:数据治理框架和标准

参考《一本书讲透数据治理》、《数据治理》等 数据治理并不是新概念,在国内外都有实践,这里重点介绍下国内外对数据治理的主流框架和标准 国际数据治理框架 国际上,主流的数据治理框架主要有:ISO数据治理标准、GDI数据治理框架、…

数据治理项目经验分享

绝大多数互联网公司没时间建模、治理,直接拖宽表。业务变更频繁、建模缺位、指标爆炸,是导致互联网大数据环境中数据质量的低下的根本原因。 而在部委、集团中,时间相对充裕一些,标准更规范一些,但是同样面临部委和省…

谈谈数据治理

数据治理的本质是组织对数据的可用性、完整性和安全性的整体管理。 1.数据治理的本质 可用性指数据可用、可信且有质量保证,不会因为分析结果的准确性造成偏差,从业者可以放心地根据数据结果做业务决策;完整性分为两个方面,一方面…

数据治理:企业数据治理蓝图

参考《一本书讲透数据治理》、《数据治理》等 文章目录 企业数据治理体系企业数据治理9个要素企业数据治理4个层面 企业数据治理之道企业数据治理之法企业数据治理之术企业数据治理之器 企业数据治理体系 数据治理、数据管理、数据管控三者是什么关系?很多人都搞混…

也谈数据治理

1.数据治理的概念 数据治理,对于有数据的企业来说,是一个非常重要的内容。数据治理,之所以重要,是因为当前,数据已成为一种重要的资产,是组织进行管理、生产和行动的重要职称。 笔者结合了多方资料&#…

数据治理专栏

随着数字化转型大趋势发展浪潮以及数据作为新的生产要素,数据在企业的发展中扮演越来越重要的角色。然而数据本身不会自动产生价值,一般来说数据价值变现有两种方式:一种是通过数据治理将数据资源转化为数据资产,再把数据资产链接…

数据治理简介

参考文章:数据治理到底能治什么,怎么治 浅谈数据治理 数据治理的定义,挑战和最佳实践 1. 数据治理的背景 狭义上讲,数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理…

数据治理问题

01前言 为什么想开这个话题,一是因为目前业内数据产品也基本完成了从0-1的建设工作,但主要集中在数据生产加工和数据应用分析两侧,对于数据管治方向的建设多分散在了包括安全、指标元数据、SLA等在内的各个环节,缺乏统一的规划统…

【数据治理】数据治理8种方法

今天给大家推荐的是数据治理套路8法,个人觉得这8种方法中监管驱动法和利益驱动法是最常见的,也是一直在治,但只能局部治理的方法,未来是数字时代,必须体系构建(顶层设计)价值驱动(利…

浅谈数据治理(什么是数据治理)

浅谈数据治理 数据治理是一个对企业数字化转型至关重要的一个环节,关乎着企业核心数据是否能被规范化管理、数据的价值是否能被充分发挥等等。说白了能给企业实现降本增效、业务精细化运营、重要决策制定、产品优化迭代等多方面的收益。 说到数据治理,…

什么是数据治理?(目的、方法、流程)

文章目录 1、什么是[数据治理]2、数据治理的目的3、数据治理的方法4、数据质量8个衡量标准5、数据治理流程 1、什么是[数据治理] 数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制…

bpftrace 段错误 bpf_prog_load_deprecated

调试 (gdb) 672 return bpf_prog_load(load_attr->prog_type, load_attr->name, load_attr->license, (gdb) p load_attr->prog_type $5 BPF_PROG_TYPE_TRACING (gdb) s bpf_prog_load_deprecated (file0x1a <error: Cannot access memory at address 0…

BPF介绍

Thank Zhihao Tao for your hard work. The document spent countless nights and weekends, using his hard work to make it convenient for everyone. If you have any questions, please send a email to zhihao.taooutlook.com 文章目录 1. 概述1.1 发展1.2 优势1.3 限制1…

BPF-JIT中bug归类

文章目录 前言BPF-JITs中的bugs分类Subtle architectural semantics(微妙的架构语义)Subtle machine state(微妙的机器状态)Subtle instruction encoding(微妙的指令编码) Bug-fixing commits in BPF JITs in the Linux kernel (May 2014–April 2020)其他 前言 本篇内容来自&…

bpf的加载流程分析

文章目录 前言elf结构简介load_bpf_file函数准备工作创建map处理所有的重定向section加载ebpf程序 参考 前言 我们知道&#xff0c;使用clang/llvm编译生成的target为bpf的elf文件&#xff0c;使用load_bpf_file函数加载进入内核。 所以&#xff0c;这里&#xff0c;我们需要…

深入理解 BPF map 实现机制

揭秘 BPF map 前生今世 目录 揭秘 BPF map 前生今世1. 前言2. 简单的使用样例用户空间与内核 BPF 辅助函数参数对比 3. 深入指令分析3.1 查看 BPF 指令3.2 加载器创建 map 对象3.3 第一次变身&#xff1a; map fd 替换3.4 第二次变身&#xff1a; map fd 替换成 map 结构指针 4…