什么是MPP数据库?

article/2025/11/9 4:13:23

大规模并行分析(MPP)数据库(Analytical Massively Parallel Processing (MPP) Databases)是针对分析工作负载进行了优化的数据库:聚合和处理大型数据集。MPP数据库往往是列式的,因此MPP数据库通常将每一列存储为一个对象,而不是将表中的每一行存储为一个对象(事务数据库的功能)。这种体系结构使复杂的分析查询可以更快,更有效地处理。

这些分析数据库将其数据集分布在许多机器或节点上,以处理大量数据(因此得名)。这些节点都包含自己的存储和计算功能,从而使每个节点都可以执行查询的一部分。

在过去的十年中,分析MPP数据库的激增和成本下降为数据驱动型组织提供了巨大的机会来运营和分析比以往更大的数据集。这些数据库是不断壮大的分析师工具包的绝妙补充,但同时也为体系结构带来了额外的复杂性。

数据仓库真正适合什么?

典型的分析工作量

MPP数据库非常擅长最常见的分析工作负载,这些工作负载通常以对子集的查询为特征,并在广泛的行范围内进行汇总。这是由于它们的列式体系结构允许他们仅访问完成查询所需的字段(与事务性数据库相反,事务性数据库必须连续访问所有字段)。

列式体系结构还为MPP数据库提供了对分析工作负载有用的其他功能。这些功能因数据库而异,但通常包括压缩类似数据值,有效索引非常大的表以及处理宽的非规范化表的功能。

数据集中化

组织通常使用分析型MPP数据库作为数据仓库或集中式存储库,其中包含组织内部生成的所有数据,例如交易销售数据,Web跟踪数据,营销数据,客户服务数据,库存/后勤数据,人力资源/招聘数据以及系统日志数据。由于分析MPP数据库可以处理大量数据,因此组织可以轻松地依靠这些数据库来存储数据,还可以支持来自这些各种业务功能的分析工作负载。

线性可伸缩性

通过向系统添加更多服务器,分析MPP数据库可以轻松地线性扩展其计算和存储功能。这与垂直扩展计算和存储功能相反,后者涉及升级到更大,功能更强大的单个服务器,并且通常会在规模上遇到障碍。分析型MPP数据库能够如此快速,轻松和高效地进行横向扩展,以使按需数据库供应商能够根据查询的大小自动执行该过程来按比例放大或缩小系统。

数据仓库解决方案

自我管理的MPP数据库

 



HPE Vertica



MemSQL



Teradata

按需MPP数据库

 



Amazon Redshift



Azure SQL数据仓库



Google BigQuery



雪花

MPP分析架构

大规模并行处理一词指的是装入这些数据库的表分布在群集中的每个节点上的事实,以及发出查询时每个节点同时工作以处理驻留在其上的数据的事实。

分布式架构

分析性MPP数据库旨在在许多单独的服务器或节点上并行运行查询。这意味着,通过将更多节点添加到群集,可以将相同的工作负载分配给更多服务器并更快地完成。

尽管分析型MPP数据库有时可以在某些方面进行扩展,但它们的最大优点是通过向系统中添加更多节点,可以相对轻松地水平扩展数据库系统。

大规模并行处理(MPP)

尽管不同的系统采用不同的方法来耦合数据存储和计算查询,采用不同的策略将数据从一个节点移动到另一个节点,但是所有MPP系统都非常快,因为“领导者”可以制定查询计划,然后分配数据的实际工作量。对许多工作人员执行查询。

托管与本地实施

分析型MPP数据库已经存在了几十年,但是在过去十年中,它们的成本和管理它们的复杂性已大大降低。直到最近,唯一的选择是自我托管这些数据库。但是最近,它们已经迁移到云中。

某些分析数据仓库仅可通过托管体系结构使用。例如,Amazon Redshift,Snowflake和Google BigQuery仅通过云提供。像Teradata这样的其他产品则可以在内部部署,打包为设备(捆绑软件和硬件)或通过云中的托管模型进行部署。

HPE Vertica是分析MPP数据库类别中唯一提供软件的数据库,您可以使用该软件在商品硬件之上构建自己的分析数据库。对于大规模实施,这种类型的解决方案为特殊用例提供了更大的灵活性和定制性。

MPP分析数据库的约束

复杂

与分布式MPP数据库相关的主要约束是,与事务性数据库相比,它们需要的规划和设置类型不同。设置初始的Extract-Transform-Load(ETL)管道来将数据从其源移动到数据仓库可能是一个相当大的项目(尽管许多供应商现在都提供服务来简化此过程)。

可扩展性

在处理多个数据源时,尤其是在无法完全控制这些数据源中的数据量时,规划群集内所需的资源也具有挑战性。许多云托管的mpp数据库技术都提供了自动扩展功能,但并非全部都可以。

批量加载/延迟

通常,由于分析MPP数据库的构建方式,您想要数据越接近“实时”,数据工程任务就越具有挑战性。这是因为这些技术通常针对批量加载进行了优化。针对整个集群中的分布式读取优化数据存储是一项劳动密集型任务。一些分布式MPP数据库专门提供混合存储或其他服务来解决此问题。许多组织维护其事务数据库的副本只是为了能够实时访问数据集的这一部分。

优化分析MPP数据库

根据您使用的是按需MPP数据库解决方案还是托管MPP数据库解决方案以及使用的是哪种,针对分析MPP数据库进行性能调整的注意事项会大不相同。

重要的是要注意,与类似成本的事务数据库相比,MPP数据库解决方案通常可以处理更大的数据量,因此在开始考虑优化和调整之前,将能够处理更多的数据。

就是说,当您到达需要调整性能的阶段时,与自托管解决方案相比,托管MPP解决方案将为您处理更多的细节,这将需要您做更多的工作。


http://chatgpt.dhexx.cn/article/F3MulkOc.shtml

相关文章

MPP数据库简介

1、先了解下OLTP与OLAP区别 OLTP(OnLine Transaction Processing ,联机事务处理)系统 例如mysql。擅长事务处理,在数据操作中保持着很强的一致性和原子性 ,能够很好的支持频繁的数据插入和修改 ,但是,一旦数据量过大…

MPP(大规模并行处理)

1、 什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体…

MPP架构

MPP架构 0x01 摘要 本文综合各家看法,再加上个人理解,介绍下对MPP架构的理解以及一些其他架构的对比。 0x02 MPP架构基本概念 2.1 什么是MPP MPP,全称为Massively Parallel Processor,翻译过来就是大规模并行处理。MPP系统是由…

MPP(大规模并行处理)简介

1、 什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节…

基于WiFi的Android局域网即时通讯软件

基于WiFi的Android局域网即时通讯软件,通过自建WiFi热点的方式与其他移动设备进行通信,实现了文字聊天、语音留言、文件互传等功能,满足基本的日常使用需求。 下载地址:http://www.devstore.cn/code/info/670.html 运行截图&…

基于WiFi的Android局域网即时通讯软件——Android源码

基于WiFi的Android局域网即时通讯软件 基于WiFi的Android局域网即时通讯软件,通过自建WiFi热点的方式与其他移动设备进行通信,实现了文字聊天、语音留言、文件互传等功能,满足基本的日常使用需求。 下载地址:http://www.devstore.…

局域网即时通讯软件_企业即时通讯软件需要符合哪些要求?

随着网络信息的发展,市面上出现了大量的企业即时通讯软件,旨在帮助企业打通信息化的道路。很多企业不知道该如何正确选择一款符合要求的通讯软件,选择的标准应该从哪些方面入手。下面企达小编为大家详细介绍一下。 1、数据安全性 企业的商业部…

局域网即时通讯软件_远程桌面监控软件好不好用?哪个好?

远程桌面监控软件好不好用?哪个好?有时候经常需要进行远程协助,大家第一时间想到的就是QQ远程协助了,没错,QQ可以,但是 QQ远程协助很卡顿,响应不及时。电脑自带应用不会设置,这可怎么办?超级眼远程监控软…

局域网即时通讯软件_做企业即时通讯软件,我们是认真的

协同办公无非分为外部沟通和内部沟通两种局势,内部沟通则是企业协同工作的一部分,注重效率;外部沟通为企业社交,注重便捷,从而实现内部沟通的高效性,是协同办公工具所要解决的基础性问题。真心特别羡慕那些…

局域网即时通信软件都有哪些?要如何选择?

近些年来,由于企业内部敏感信息通过即时通信软件和互联网泄露的事件频发,许多企业对于内部信息安全保护越来越重视。除了使用局域网环境办公以外,还会采用局域网即时通信软件来作为内部沟通工具,降低信息泄露的风险。那么局域网即…

c语言即时通讯软件源码,即时通讯软件源码-基于c语言即时通讯软件代码实现

我不知道哪种语言无关紧要。开源,我不知道该用什么。 即时通讯软件源代码为JAVA语言 对于即时通讯软件源代码最好是用C语言编写的,想学一下,感谢您即时通讯软件有什么。 includewinscock2、h# includewinscock2、h# includesting。h# includewindows。h# includePROCESS。h#…

基于Qt的局域网即时通讯软件

以前写的一篇日志,不小心删了,竟然没得恢复。万恶的CSDN,重排版。 第一个写的软件。基本上还是很粗糙,而且代码也大多不是自己写的,不过也着实让我过了一把瘾。接下来简单地讲讲整个过程和学到的东西吧。 首先是软件的…

企业的财务部门为什么要用内网即时通讯软件

1、内网即时通讯可以提高内部沟通效率 财务部是企业中一个非常重要的部门,与其他部门进行沟通协调的频率非常高。使用内网即时通讯可以快速方便地与其他部门沟通,帮助快速解决问题。 2、内网即时通讯更加安全 财务部的工作涉及到财务数据,需…

Python 局域网即时通讯工具

刚刚接触Python, 小白一个 为了学习Python, 所以试着写了一个局域网聊天的小工具 如果代码有什么问题,希望大家能给予指正,非常感谢 源代码连接(GitHub)已生成EXE文件,可在Windows下直接运行。Python 版本 3.7.3GUI编程,需要安装…

为什么企业选择局域网即时通讯软件?局域网即时通讯软件哪家好?

在当今互联网普及的时代,企业内部的沟通对企业管理有着非常重要的意义,即时通讯软件已成为企业工作中广泛采用的沟通工具。 然而,随着企业内部敏感信息通过互联网泄露的频繁发生,例如在工作期间,企业员工自发地频繁使…

企业局域网即时通讯软件存在是必然趋势

自从21世纪以来,经济全球化趋势越来越明显,尤其是发展中国家。我国经济发展更是迅猛,各行各业之间的竞争也是日益激烈。 如果不想被飞速发展的社会淘汰,现代企业就必须以最快的速度应对复杂又变化莫测的市场环境。企业内部的沟通对…

企业选择局域网即时通讯软件的必要性是什么?

在互联网时代,很多企业不断进行数字化升级,想要摆脱沟通麻烦、流程复杂、资源利用率低的传统办公模式,推进线上办公或远程办公信息化建设,而这就离不开我们常说的“即时通讯软件”来进行连接。 那什么是即使通讯软件呢&#xff1f…

局域网即时通讯软件可以保护数据安全吗?

根据调查显示,出于安全考虑,现在很多企业已禁止使用个人即时通讯软件。因为个人通讯软件缺乏完善安全机制,容易出现内部资料泄漏问题。只有安全的通讯软件—局域网即时通讯软件才能提高企业工作效率,增强员工协同办公能力&#xf…

局域网即时通讯软件_什么样的企业即时通讯软件好用?应该如何选择?

企业即时通讯是目前最为流行的通讯方式,市场上的即时通讯软件层出不穷,种类繁多,我们一时也不知道怎么选择。为了方便企业更好的选择即时通讯软件,我对目前市面上的一些即时通讯软件进行了分类和总结,希望对大家有帮助…

局域网即时通讯软件应该怎么选择

现在,国内外做即时通讯软件的公司很多,产品也是多种多样。在国内,数得上名字的有腾讯QQ,微信,新浪UC,网易泡泡等等,国外比较排的上名的有著名的MSN以及跨平台Gaim等。这几种即时通讯软件都是需要…