MPP架构是什么?看这一篇就行了。。

article/2025/11/9 4:13:21

文章目录

  • MPP是什么
    • SMP- Symmetric Multi-Processor 对称多处理器结构
    • NUMA -Non-Uniform Memory Access 非一致存储访问结构
    • MPP -Massive-Parallel Processing 海量并行处理架构
  • MPP DB
    • - Share Disk
    • - Share Nothing
  • 典型MPP DB
    • Greenplum
    • Teradata
    • Impala
    • Presto
    • ElasticSearch
    • Vertica
  • MPP架构的应用场景
    • 搜索架构
    • 查询服务

学习笔记:大数据架构详解:从数据获取到深度学习

MPP是什么

  • 系统架构层面的服务器分类,如下三类:

SMP- Symmetric Multi-Processor 对称多处理器结构

  • 特点
    Uniform Memory Access
    共享存储:cpu,内存,io
  • 不足
    扩展能力有限
    内存总线限制访问内存的效率

NUMA -Non-Uniform Memory Access 非一致存储访问结构

  • 特点
    拥有多个CPU模块,每个模块由多个CPU组成,有独立的本地内存,io槽口
    节点之间通过互联模块进行连接和信息交互:同一台物理服务器内部实现,cpu异地访问时必须等待
    较好解决SMP系统的扩展问题
  • 不足
    互联模块访问效率和本地内存访问不在一个效率层级,系统性能无法和cpu数线性增加

MPP -Massive-Parallel Processing 海量并行处理架构

另一种系统扩展的方式

  • 特点
    • SMP组合的方式:每台SMP服务器(节点)通过节点互联网络连接。
      节点互联网络:MPP内部使用,对用户透明,在不同SMP服务器外部通过IO实现,每个节点只访问本地内存和存储,节点信息交互和节点本身是并行处理的。
    • 每个节点只访问本地资源(内存,存储),Share Nothing结构。
    • 对等节点:所有数据节点角色一样。可以提升并行计算能力
    • 汇总节点:数据汇总节点的稳定性,可用性影响整体的性能
  • 不足
    • 复杂的机制来调度和平衡各个节点的负载和并行处理过程。
    • 短板效应。
      如果一个节点总是执行的慢于集群中其他的节点,整个集群的性能就会受限于这个故障节点的执行速度(所谓木桶的短板效应),无论集群有多少节点,都不会有所提高。
      当MPP系统中某个节点的RAID由于磁盘问题导致的性能很慢,或者硬件或者系统问题带来的CPU性能问题等等,都会产生这样的问题。所有的MPP系统都面临这样的问题。
    • MPP集群规模不能过大。
    • 并发度不能过高,数据查询汇总节点的并发查询数限制在10+数量级,用户数有限制。

MPP DB

- Share Disk

使用独立的cpu,内存,,共享硬盘系统,不存在数据同步问题,有存储瓶颈问题
OracleRac

- Share Nothing

水平扩展灵活,元数据同步、故障恢复问题

典型MPP DB

了解MPP的架构特点,再来看看有代表性的一些产品,是不是有一种大同小异、豁然开朗的感觉。

Greenplum

PostgreSQL的基础上 、MPP架构
关系型分布式数据仓库
兼容Hadoop生态,-》HAWQ,存储层改用HDFS.

  • 架构
    在这里插入图片描述
  • 大规模存储
    Hash分片,表分区:数据到各个Segment Host
  • 并行处理
  • 支持索引
    B-Tree
    Bitmap
    Hash

Teradata

暂无了解,原理细节及使用介绍参考这位仁兄的文章

Impala

在这里插入图片描述

Presto

Distributed SQL Query Engine for Big Data
在这里插入图片描述
官方文档

  • presto目标定位
    Presto is a tool designed to efficiently query vast amounts of data using distributed queries. If you work with terabytes or petabytes of data, you are likely using tools that interact with Hadoop and HDFS. Presto was designed as an alternative to tools that query HDFS using pipelines of MapReduce jobs such as Hive or Pig, but Presto is not limited to accessing HDFS. Presto can be and has been extended to operate over different kinds of data sources including traditional relational databases and other data sources such as Cassandra.

    Presto was designed to handle data warehousing and analytics: data analysis, aggregating large amounts of data and producing reports. These workloads are often classified as Online Analytical Processing (OLAP).

  • presto组件

  • presto使用

  • presto 与 Impala区别

ElasticSearch

在这里插入图片描述
es版本变更很快,与java spring体系集成方面,产生了一些第三方组件库,
比较高效的一种方案参考 bboss

Vertica

Vertica 采用无共享的MPP 架构,基于工业标准的x86 服务器,拥有高可扩展性。
Vertica 集群中的所有节点100%对等,集群中没有主节点或其他共享资源,详细资料见百度百科的介绍

MPP架构的应用场景

搜索架构

查询服务

client节点,数据汇总节点(协调节点),并行计算节点。

协调节点也是集群中任意同构的计算节点,其性能、稳定性、可用性决定了集群的整体表现。

MPP与Batch的优缺点比较


http://chatgpt.dhexx.cn/article/aEraeoka.shtml

相关文章

MPP数据库

MPP数据库定义 MPP即大规模并行处理(Massively Parallel Processor )。 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网…

MPP数据库简介及架构分析

目录 什么是MPP?特性并行处理超大规模 数据仓库真正适合什么典型的分析工作量数据集中化线性可伸缩性 MPP架构技术特性数据库架构分析Shared EverythingShared DiskShare MemoryShared NothingShared Nothing数据库架构优势 什么是MPP? MPP (Massively P…

什么是MPP数据库?

大规模并行分析(MPP)数据库(Analytical Massively Parallel Processing (MPP) Databases)是针对分析工作负载进行了优化的数据库:聚合和处理大型数据集。MPP数据库往往是列式的,因此MPP数据库通常将每一列存…

MPP数据库简介

1、先了解下OLTP与OLAP区别 OLTP(OnLine Transaction Processing ,联机事务处理)系统 例如mysql。擅长事务处理,在数据操作中保持着很强的一致性和原子性 ,能够很好的支持频繁的数据插入和修改 ,但是,一旦数据量过大…

MPP(大规模并行处理)

1、 什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体…

MPP架构

MPP架构 0x01 摘要 本文综合各家看法,再加上个人理解,介绍下对MPP架构的理解以及一些其他架构的对比。 0x02 MPP架构基本概念 2.1 什么是MPP MPP,全称为Massively Parallel Processor,翻译过来就是大规模并行处理。MPP系统是由…

MPP(大规模并行处理)简介

1、 什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节…

基于WiFi的Android局域网即时通讯软件

基于WiFi的Android局域网即时通讯软件,通过自建WiFi热点的方式与其他移动设备进行通信,实现了文字聊天、语音留言、文件互传等功能,满足基本的日常使用需求。 下载地址:http://www.devstore.cn/code/info/670.html 运行截图&…

基于WiFi的Android局域网即时通讯软件——Android源码

基于WiFi的Android局域网即时通讯软件 基于WiFi的Android局域网即时通讯软件,通过自建WiFi热点的方式与其他移动设备进行通信,实现了文字聊天、语音留言、文件互传等功能,满足基本的日常使用需求。 下载地址:http://www.devstore.…

局域网即时通讯软件_企业即时通讯软件需要符合哪些要求?

随着网络信息的发展,市面上出现了大量的企业即时通讯软件,旨在帮助企业打通信息化的道路。很多企业不知道该如何正确选择一款符合要求的通讯软件,选择的标准应该从哪些方面入手。下面企达小编为大家详细介绍一下。 1、数据安全性 企业的商业部…

局域网即时通讯软件_远程桌面监控软件好不好用?哪个好?

远程桌面监控软件好不好用?哪个好?有时候经常需要进行远程协助,大家第一时间想到的就是QQ远程协助了,没错,QQ可以,但是 QQ远程协助很卡顿,响应不及时。电脑自带应用不会设置,这可怎么办?超级眼远程监控软…

局域网即时通讯软件_做企业即时通讯软件,我们是认真的

协同办公无非分为外部沟通和内部沟通两种局势,内部沟通则是企业协同工作的一部分,注重效率;外部沟通为企业社交,注重便捷,从而实现内部沟通的高效性,是协同办公工具所要解决的基础性问题。真心特别羡慕那些…

局域网即时通信软件都有哪些?要如何选择?

近些年来,由于企业内部敏感信息通过即时通信软件和互联网泄露的事件频发,许多企业对于内部信息安全保护越来越重视。除了使用局域网环境办公以外,还会采用局域网即时通信软件来作为内部沟通工具,降低信息泄露的风险。那么局域网即…

c语言即时通讯软件源码,即时通讯软件源码-基于c语言即时通讯软件代码实现

我不知道哪种语言无关紧要。开源,我不知道该用什么。 即时通讯软件源代码为JAVA语言 对于即时通讯软件源代码最好是用C语言编写的,想学一下,感谢您即时通讯软件有什么。 includewinscock2、h# includewinscock2、h# includesting。h# includewindows。h# includePROCESS。h#…

基于Qt的局域网即时通讯软件

以前写的一篇日志,不小心删了,竟然没得恢复。万恶的CSDN,重排版。 第一个写的软件。基本上还是很粗糙,而且代码也大多不是自己写的,不过也着实让我过了一把瘾。接下来简单地讲讲整个过程和学到的东西吧。 首先是软件的…

企业的财务部门为什么要用内网即时通讯软件

1、内网即时通讯可以提高内部沟通效率 财务部是企业中一个非常重要的部门,与其他部门进行沟通协调的频率非常高。使用内网即时通讯可以快速方便地与其他部门沟通,帮助快速解决问题。 2、内网即时通讯更加安全 财务部的工作涉及到财务数据,需…

Python 局域网即时通讯工具

刚刚接触Python, 小白一个 为了学习Python, 所以试着写了一个局域网聊天的小工具 如果代码有什么问题,希望大家能给予指正,非常感谢 源代码连接(GitHub)已生成EXE文件,可在Windows下直接运行。Python 版本 3.7.3GUI编程,需要安装…

为什么企业选择局域网即时通讯软件?局域网即时通讯软件哪家好?

在当今互联网普及的时代,企业内部的沟通对企业管理有着非常重要的意义,即时通讯软件已成为企业工作中广泛采用的沟通工具。 然而,随着企业内部敏感信息通过互联网泄露的频繁发生,例如在工作期间,企业员工自发地频繁使…

企业局域网即时通讯软件存在是必然趋势

自从21世纪以来,经济全球化趋势越来越明显,尤其是发展中国家。我国经济发展更是迅猛,各行各业之间的竞争也是日益激烈。 如果不想被飞速发展的社会淘汰,现代企业就必须以最快的速度应对复杂又变化莫测的市场环境。企业内部的沟通对…

企业选择局域网即时通讯软件的必要性是什么?

在互联网时代,很多企业不断进行数字化升级,想要摆脱沟通麻烦、流程复杂、资源利用率低的传统办公模式,推进线上办公或远程办公信息化建设,而这就离不开我们常说的“即时通讯软件”来进行连接。 那什么是即使通讯软件呢&#xff1f…