Data Quality Services

article/2025/10/25 19:11:34

Data Quality Services 简介

SQL Server 2012
其他版本

使用 Data Quality Services (DQS) 提供的数据质量解决方案,数据专员或 IT 专业人员可以维护数据的质量并确保数据满足业务使用的要求。 DQS 是一种知识驱动型解决方案,该解决方案通过计算机辅助方式和交互方式来管理数据源的完整性和质量。 使用 DQS 可以发现、生成和管理有关您数据的知识。 然后可以使用该知识执行数据清理、匹配和事件探查。 还可以在 DQS 数据质量项目中利用引用数据访问接口的基于云的服务。

本主题内容

  • 针对 DQS 的业务需要

  • 使用 DQS 满足需求

  • 知识驱动型解决方案

  • DQS 组件

  • Integration Services 和 Master Data Services 中的数据质量功能

针对 DQS 的业务需要

用户输入错误、传输或存储过程中的数据损坏、不匹配的数据字典定义以及其他数据质量和处理问题都会导致不正确的数据。从使用不同数据标准的不同来源聚合数据可能导致数据不一致,因为可以应用任意规则或覆盖历史记录数据。 不正确的数据会影响企业履行各项企业职能,影响为客户提供服务,导致名誉和收入受损,招致客户不满以及引起遵从性问题。 自动化的系统通常无法处理不正确的数据,需要另外花费时间和人力进行人工处理。 不正确的数据会对数据分析、报告、数据挖掘和仓库造成不良影响。

高质量的数据对任何企业和机构的效率都是至关重要的。 任何规模的组织都可以使用 DQS 来提高数据的信息价值,使数据更符合实际使用的需要。 数据质量解决方案可以使数据更可靠、更易于访问和可重用。 它可以提高您的数据的完整性、准确性、遵从性和一致性,解决商业智能或数据仓库工作负荷以及运行的 OLTP 系统中不正确数据导致的各种问题。

利用 DQS,企业用户、信息工作者或 IT 专业人员(既不是数据库专家,也不是编程人员)可以创建、维护并执行组织的数据质量操作,而不会花费较长的安装或准备时间。

用于“返回首页”链接的箭头图标 [返回页首]

使用 DQS 满足需求

不采用绝对字词来定义数据质量。 它取决于数据对于其使用方式是否适用。 DQS 标识可能不正确的数据,并向您提供数据确实不正确的可能性评估。 DQS 向您提供数据的语义理解,以便您确定它的适合程度。 使用 DQS,您可以解决涉及不完整、不遵从、不一致、不准确、无效和数据重复的问题。

DQS 提供以下功能来解决数据质量问题。

  • 数据清理:使用计算辅助方式和交互方式修改、删除或充实不正确或不完整的数据。 有关详细信息,请参阅数据清理。

  • 匹配:使用基于规则的过程标识语义重复项,使您可以确定哪些项是匹配项并消除重复项。 有关详细信息,请参阅数据匹配。

  • Reference Data Services:使用引用数据访问接口的服务验证数据的质量。 可以使用 Windows Azure Marketplace DataMarket 的 Reference Data Services 来轻松地清理、验证、匹配和充实数据。 有关详细信息,请参阅 DQS 中的 Reference Data Services。

  • 事件探查:分析数据源以在知识发现、域管理、匹配和数据清理过程的每个阶段了解数据的质量。 事件探查是 DQS 数据质量解决方案中的强大工具。 您可以创建一个数据质量解决方案,在该方案中事件探查与知识管理、匹配或数据清理同等重要。 有关详细信息,请参阅 DQS 中的数据事件探查和通知。

  • 监视:跟踪和确定数据质量活动的状态。 通过监视,您可以验证数据质量解决方案是否达到设计目的。 有关详细信息,请参阅 DQS 管理。

  • 知识库:Data Quality Services 是知识驱动型解决方案,它根据您使用 DQS 生成的知识分析数据。 这使您可以创建数据质量过程,这些过程不断增强有关您的数据的知识,从而不断提高数据质量。

下图显示了 DQS 过程:

DQS 进程

用于“返回首页”链接的箭头图标 [返回页首]

知识驱动型解决方案

DQS 知识库是包含三种类型的知识的存储库:现有知识、数据质量服务器生成的知识和用户生成的知识。 DQS 使您可以在知识库中存储有关您的数据的知识,在适当的时候添加业务规则和修改知识,然后应用它以测试数据的完整性和正确性。 在生成知识库后,可以不断改进它,然后在多个数据质量改进过程中重用它。

知识库中的知识标识可能不正确的数据并提供对该数据的更改建议。 它可以查找数据匹配项,使您能够消除重复数据。 它会将源数据与数据质量访问接口维护和保护的基于云的引用数据进行比较。 数据专员或 IT 专业人员验证知识库中的知识和要对数据进行的更改,然后执行清理、消除重复和 Reference Data Services。

知识库存储与特定类型的数据源有关的所有知识。 例如,您可以为客户数据库维护一个知识库,为员工数据库维护另一个知识库。 知识包含在一个或多个数据域中,每个数据域都是数据字段中某种数据类型的语义表示。 客户数据库的知识库可能包含公司名称、地址、联系人、联系信息等的域。 域包含可信值、无效值和错误数据的列表。 域知识包括同义词关联、字词关系、验证和业务规则以及匹配策略。 利用这些知识,数据专员可以做出关于是否更正域中值的特定实例的明智决策。

DQS 允许您执行知识库的导入和导出操作。 可以使用 DQS 文件导入或导出域或知识库。 可以从 Excel 文件导入值或域。 还可以根据知识库将清理过程找到的值导入回域。 通过这些操作,您可以不断改进知识库,确保通过决策和发现获得的知识传送回知识库。

DQS 知识驱动型解决方案使用两个基本步骤来清理数据:

  • 用于生成知识库的“知识管理”过程

  • 根据知识库中的知识提出源数据更改建议的“数据质量项目”。

有关详细信息,请参阅 DQS 知识库和域和数据质量项目 (DQS)。

用于“返回首页”链接的箭头图标 [返回页首]

DQS 组件

Data Quality Services 由数据质量服务器和数据质量客户端组成。 这些组件使您可以单独执行 Data Quality Services,与其他 SQL Server 操作分隔开。 这两个组件都通过 SQL Server 安装程序来安装。

数据质量服务器作为三个 SQL Server 目录实现,您可以在 SQL Server Management Studio 中管理和监视它们(DQS_MAIN、DQS_PROJECTS 和 DQS_STAGING_DATA)。 DQS_MAIN 包括 DQS 存储过程、DQS 引擎和已发布的知识库。 DQS_PROJECTS 包括知识库管理和 DQS 项目活动所需的数据。 DQS_STAGING_DATA 提供临时数据库,您可以从中复制源数据来执行 DQS 操作,然后导出已处理的数据。

数据质量客户端是一个独立的应用程序,使您可以在一个用户界面中执行知识管理、数据质量项目以及进行其他管理。 该应用程序设计用于数据专员和 DQS 管理员。 它是一个独立的可执行文件,负责执行知识发现、域管理、匹配策略创建、数据清理、匹配、事件探查、监视和服务器管理。 数据质量客户端既可与数据质量服务器安装和运行在同一台计算机上,也可以远程安装和运行在不同的计算机上。 数据质量客户端中的很多操作由向导指引,易于执行。

用于“返回首页”链接的箭头图标 [返回页首]

Integration Services 和 Master Data Services 中的数据质量功能

Data Quality Services 提供的数据质量功能内置到 SQL Server Integration Services (SSIS) 的一个组件和 Master Data Services (MDS) 的功能中,使您可以在这些服务中执行数据质量过程。

Integration Services 中的 DQS 清理组件

Integration Services 中的 DQS 清理组件使您可以将数据清理作为 Integration Services 包的一部分执行。 运行该包时,数据清理作为批处理文件运行。 这是在数据质量客户端应用程序中运行清理项目的一个替代方法。 您可以自动确保您的数据的质量。 不必在数据质量客户端应用程序内执行数据清理项目的交互式步骤。 您可以在包含其他 Integration Services 组件的数据流中纳入数据清理过程。 有关详细信息,请参阅DQS 清除转换。

Master Data Services 中的数据质量过程

Data Quality Services 功能已集成到 Master Data Services (MDS),因此您可以在 Microsoft SQL Server 2012 Master Data Services Microsoft Excel 外接程序中对源数据和主数据执行消除重复操作。 要执行匹配,请将 MDS 管理的数据加载到 Excel 工作表,将它与不受 MDS 管理的数据合并,然后在 Excel 内执行匹配。 数据质量服务器组件必须随 MDS 一起安装。 有关详细信息,请参阅用于 Excel 的 MDS 外接程序中的数据质量匹配。


Data Quality Services 概念

SQL Server 2012
其他版本

本文简要概括知识管理、数据质量项目和数据质量管理中的 Data Quality Services (DQS) 概念。

本主题内容

  • 知识管理概念

  • 数据质量项目概念

  • 数据质量管理概念

知识管理概念

DQS 知识库是一种元数据存储库,它由数据专员或 IT 专业人员创建,旨在通过数据清理或数据匹配提高数据质量。 DQS 知识管理包括用于在计算机辅助方式和交互式方式中创建和管理知识库的过程。

知识发现

知识发现是分析您组织的数据样本以建立有关数据的知识的计算机辅助过程。 一旦得到了分析结果,您就可以验证并改进知识,然后应用知识来执行数据清理、数据匹配和事件探查。 有关详细信息,请参阅 DQS 知识库和域。

域管理

通过域管理过程,您可以更改或增加由知识发现过程生成的知识。 您可以通过交互方式编辑、更新和查看知识库中的知识。知识库由数据域构成,这些数据域包含域值及其状态、域规则、基于字词的关系以及引用数据。 在域管理中,您可以更改域属性、将引用数据附加到域、管理域规则、管理域值并输入数据关系以及创建、删除、导入或导出域。 还可以使用聚合多个单一域的复合域。 有关详细信息,请参阅 DQS 知识库和域。

匹配策略

匹配策略包含用于消除数据重复的匹配规则。 通过匹配策略过程,您可以创建匹配规则、基于匹配结果和事件探查数据优化规则,并将策略添加到知识库。 有关详细信息,请参阅数据匹配。

Reference Data Services

可以使用引用数据来验证、更正和丰富您的数据,同时利用可保证其引用数据质量的公司所提供的服务。 您可以使用 Windows Azure MarketPlace 的服务连接到引用数据提供程序,也可以直接连接到提供程序。 有关详细信息,请参阅DQS 中的 Reference Data Services。

有关 DQS 中的知识管理的详细信息,请参阅DQS 知识库和域。

用于“返回首页”链接的箭头图标 [返回页首]

数据质量项目概念

数据专员在数据质量客户端应用程序中使用数据质量项目来执行数据质量操作(清理和匹配)。

数据清理

DQS 中的数据清理需要根据 DQS 知识库中的知识来执行。 DQS 中的数据清理是一个两步过程:

  • 计算机辅助清理:DQS 对清理项目使用所选知识库中的知识,用来对数据源中的值提出更正/建议。

  • 交互式清理:数据专员可以执行交互式清理过程,以更改或增强由计算机辅助数据清理过程提出的数据更正。 为此,数据专员将使用由数据清理过程确定的置信度和统计信息,或在项目中手动输入自己的更改。

完成数据清理后,数据专员可以将已处理的数据导出到 SQL Server 数据库、.csv 文件或 Excel 文件。 有关详细信息,请参阅数据清理。

数据匹配

借助匹配过程,数据专员可以比较数据,以便通过消除重复过程整理类似但稍有不同的数据。 DQS 基于知识库中包含的匹配规则执行消除重复操作;数据专员从数据质量项目中为匹配过程指定参数。 有关详细信息,请参阅数据匹配。

事件探查和通知

数据事件探查可为数据专员提供有关正由 DQS 处理的数据的实时统计信息和其他信息,可帮助在运行数据质量项目期间执行清理和匹配活动。 数据事件探查可帮助您评估数据质量项目中的清理或匹配活动的有效性,并且提供通知,帮助用户采取措施来改善数据清理和数据匹配活动。 有关详细信息,请参阅DQS 中的数据事件探查和通知。

有关 DQS 中的数据质量项目的详细信息,请参阅数据质量项目 (DQS)。

用于“返回首页”链接的箭头图标 [返回页首]

数据质量管理概念

DQS 管理员可以使用数据质量客户端应用程序执行各种管理任务。

活动监视

活动监视可显示在数据范围内执行的每个活动的状态,提供每个活动的数据,并使 DQS 管理员能够控制活动。 有关详细信息,请参阅监视 DQS 活动。

配置

配置选项支持您:

  • 配置引用数据服务设置。 有关详细信息,请参阅将 DQS 配置为使用引用数据。

  • 设置清理和匹配活动的阈值。 有关详细信息,请参阅配置清理和匹配活动的阈值。

  • 启用/禁用事件探查通知。 有关详细信息,请参阅在 DQS 中启用/禁用事件探查通知。

  • 在基于活动的级别或基于更高级模块的级别配置 DQS 日志文件的严重性级别。 有关详细信息,请参阅为 DQS 日志文件配置严重级别。

DQS 安全性

您可以使用 SQL Server 安全机制中的角色来确保 DQS 安全。 有三种 DQS 角色决定数据质量客户端应用程序中用户的访问级别:dqs_administrator、dqs_kb_editor 和 dqs_kb_operator。 您不能使用数据质量客户端应用程序向用户授予角色;角色是通过 SQL Server Management Studio 授予的。 有关详细信息,请参阅 DQS 安全性。


Data Quality Services 功能和任务

SQL Server 2012
其他版本

查找任何人(数据管理人员、Data Quality Services 管理员或 SQL Server 管理员)为准备和执行数据质量项目所需的信息。

小文件文件夹图标  设计和实现数据质量解决方案

数据质量客户端应用程序

DQS 知识库和域

数据质量项目 (DQS)

数据清理

数据匹配

DQS 中的 Reference Data Services

DQS 中的数据事件探查和通知

小文件文件夹图标  管理 Data Quality Services

DQS 管理

DQS 安全性



http://chatgpt.dhexx.cn/article/y8fsXhyY.shtml

相关文章

MySql: In aggregated query without GROUP BY...;this is incompatible with sql_mode=only_full_group_by

错误原因 这是MySql5.7以上的版本特性导致的。 解决方案 执行下面这段代码 SET sql_mode(SELECT REPLACE(sql_mode,ONLY_FULL_GROUP_BY,));运行一下然后就可以了,完。

Terms-level Query之Exists Query

​Exists Query属于Term-level Query查询, 查询某字段值不为空的文档。脑图如下: 内容说明: 本文内容同微信公众号【凡登】,关注不迷路,欢迎加入一起共同学习。原文链接:Terms-level Query之Exists Query 目录 一、语法&#xf…

Android Query managedQuery

今天说一下以下两种方式query数据: Java代码 Cursor c1 mContext.getContentResolver().query(uri, projection, selection, selectionArgs, sortOrder); Cursor c2 mActivity.managedQuery(uri, projection, selection, sortOrder); 使用方法一&#xf…

Android开发managedQuery方法过时如何解决

今天在获取手机相册照片的时候用到了managedQuery,然后发现managedQuery过时了,如下图所示: 于是就百度了一下解决办法,其实也挺简单的。用getContentResolver().query()来代替managerQuery(),参数什么的都一样。 如上…

括号匹配的检验

[TO在这/.按“3.2.2 括号匹配的检验”中的思路&#xff0c;写一个函数“bool check(char* line)” //检查输入的字符串line中的括号是否匹配&#xff0c;不匹配则check函数返回false&#xff0c;否则返回true #include <stdio.h> #include <stdlib.h> #include &l…

括号匹配C语言实现

若你掌握以下知识&#xff0c;你可以更好地理解此篇文章&#xff1a; 1.C语言基本语法。 2.栈的核心思想与栈的构建。 分割线/ 相信看此篇文章的朋友很多是从书本过来的&#xff0c;书本那段描述真的晦涩难懂&#xff0c;什么紧迫性123456的&#xff0c;什么被需要&#xff0…

c语言括号匹配的检验,检验括号匹配的算法

用栈实现检验括号匹配的算法没啥具体描述&#xff0c;数据结构的知识&#xff0c;急用&#xff0c;有重赏 思想是 先进栈&#xff0c;获取第一个半边括号&#xff0c;标记一下&#xff0c;继续进栈直到获取到第二个与之匹配的另一外括号&#xff0c;然后出栈&#xff0c;取出内…

栈和括号匹配

栈是一种符合先进后出原则的数据结构 主要操作氛围进栈和弹栈。规则是栈顶元素先弹出而后进栈&#xff0c;进栈就是一个新的元素取代原本的栈顶元素。 栈可以用来进行最基本的括号匹配操作&#xff0c;栈的图示为&#xff1a;&#xff08;转载&#xff09; 具体代码如下 //定…

C++ 括号匹配

给定一个只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串&#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。 示例…

栈以及括号匹配

栈以及括号匹配 一、栈&#xff1a;二、定义&#xff1a;三、入栈&#xff1a;四、出栈&#xff1a;五、测试代码&#xff1a;六、括号匹配七、测试代码八、总代码九、测试结果 一、栈&#xff1a; 栈&#xff08;stack&#xff09;又名堆栈&#xff0c;它是一种运算受限的线性…

括号匹配问题详解

直接看题&#xff01;&#xff01; typedef char STDataType;typedef struct Stack {STDataType* a;int top; //栈顶的位置int capacity; //容量 }ST;void StackInit(ST* ps) {assert(ps);ps->a NULL;ps->top 0;ps->capacity 0;}void StackDestroy(ST* ps) {asse…

括号匹配

题目 给定一个只包括 (&#xff0c; )&#xff0c; {&#xff0c; }&#xff0c; [&#xff0c; ] 的字符串&#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 左括号必须用相同类型的右括号闭合。 左括号必须以正确的顺序闭合。 注意空字符串可被认为是有效…

数据结构——括号匹配问题

括号匹配 给定一个字符串&#xff0c;其中的字符只包含三种括号&#xff1a;花括号{ }、中括号[ ]、圆括号( )&#xff0c;即它仅由 “( ) [ ] { }” 这六个字符组成。设计算法&#xff0c;判断该字符串是否有效&#xff0c;即字符串中括号是否匹配。括号匹配要求括号必须以正…

C语言详解括号匹配问题(栈的应用 )

文章目录 问题概述算法思路不匹配的情况实现流程图C语言代码结果测试 问题概述 检测括号是否成对出现 最后出现的左括号最先匹配&#xff08;LIFO&#xff09;&#xff0c;和栈的后进先出异曲同工 每出现一个右括号&#xff0c;就抵消&#xff08;出栈操作&#xff09;掉一个…

括号匹配(c++)

20. 有效的括号&#xff08;力扣&#xff09; 给定一个只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 左括号必须用相同类型的右括号闭合。 左括号必须以正确的顺序闭…

【数据结构】【栈】括号匹配算法(可直接运行)

文章目录 1.算法问题2.算法思路3.算法实现4.完整代码5.运行结果 1.算法问题 假设表达式中允许包含三种括号&#xff1a;()、[]、{}&#xff0c;其嵌套的顺序任意&#xff0c;即([]{})或[()[]{}]等均为正确的格式&#xff0c;实现一个算法&#xff0c;完成对表达式中括号的检验…

CronTrigger(重要,非常强大)

&#xff0c;&#xff1a;表示或的关系 - &#xff1a;表示至的关系 * &#xff1a;表示每的关系 / &#xff1a;表示每的关系 # &#xff1a;表示第的关系 L &#xff1a;表示最后的关系 6 &#xff1a;表示星期五

CronTrigger定时任务

1、CronTrigger的作用&#xff1a;基于日历的作业调度器&#xff0c;而不是像SimpleTrigger那样精确指定间隔时间&#xff0c;比SimpleTrigger更常用。 2、Cron表达式 用于配置CronTrigger实例 是由7个子表达式组成的字符串&#xff0c;描述了时间表的详细信息 格式&#x…

Quartz(02) 两种Trigger(SimpleTrigger/CronTrigger)

上一章讲了Quartz 的几个核心概念(上一章节地址Quartz快速入门).接下来看看Quartz的两种Trigger. SimpleTrigger/CronTrigger. 简单的定时任务,可以采用SimpleTrigger,复杂的任务一般采用CronTrigger. 源码下载地址 1.SimpleTrigger   SimpleTrigger是Quartz中最简单Trig…

Quartz CronTrigger最完整触发时间配置说明

CronTrigger配置格式: 格式: [秒] [分] [小时] [日] [月] [周] [年] 序号说明 是否必填 允许填写的值允许的通配符 1 秒 是 0-59 , - * / 2 分 是 0-59 , - * / 3小时 是 0-23 , - * / 4 日 是 1-31 , - * ? / L W 5 月 是 1-12 or JAN-DEC , - * / 6 周 是 1-7 or SUN-…