究竟什么是数据即服务(DaaS)

article/2025/9/16 3:37:54

2c23a49ee4253b2a2ae02c1a3cfe676f.png

导读:

DaaS的概念一直以来在国内都比较冷门,前段时间阿里巴巴整合了数据中台、业务中台、服务系统等多个核心部门,推出数据智能服务新公司瓴羊,才给这个冷门词汇带来了热度。

602c80c86bd7cfd2f287e1db0d27d3fb.png

但其实阿里定义的DaaS(Data intelligence as a Service)不是我们传统意义上的“数据即服务”,而是围绕企业经营生产提供的一整套智能软件服务,正如阿里巴巴集团副总裁、瓴羊CEO朋新宇所说的:“瓴羊就是将过去阿里内部沉淀的数字化技术与产品的一次“打包”,包括数据中台、业务中台、客服系统、营销服务、供应链服务等。”

所以也有一些专家指出:为了博取眼球,对一些数据概念乱定义或随意扩大内涵容易混淆大众,不利于数据知识的普及,关于DaaS的内涵,国内外业界是有一些共识的,今天我们就详细讲讲。

b26fea76753d2e40469c82cb53354fc0.jpeg

数据即服务(DaaS)侧重于以数据 API 的方式按需提供各种来源的数据,一般DaaS 平台还包括元数据管理,数据治理,数据开发等功能,其根本作用是帮助企业将数据资产便捷地转化成业务能力(应对企业应用之间、系统之间数据即时交换、共享、使用的需求),最终解决企业最核心的增长问题。

一、DaaS出现的背景:

拥有足够的数据不再是当今公司的主要问题,对于数据的管理和数据的便捷消费成为了企业面临的难题。

以车企为例:像大众、戴姆勒、丰田这样的全球大型车企公司很早就开始了全面数字化建设,想将数据转化为公司重要的战略资产,如今基本都构建了一套相对比较完善且复杂的数字化系统架构。

outside_default.png

本地有本地部署和私有云、公有云等混合云架构的数据库;数据库类型包含供应商的Oracle数据库、微软的MSSQL和IBM、MySQL的数据平台,及Hadoop集群等;业务系统包含经销商管理系统、客户管理系统、财务系统等等。

但随着数据应用需求越来越多,像:企业内部数据分析、BI、业务使用以及企业外部的发票查询、服务订单查询等等。

而数据分散在不同业务系统和数据库,数据的获取主要依靠开发团队针对各个业务需求和所需取数的平台单独开发数据接口,就会出现以下问题:

  • 开发的效率和数据传输稳定性都取决于开发团队的能力。

  • 每次出现新的需求或前后台出现变化,都需要技术团队重新开发,导致IT员工需要花费大量时间和经理去做繁琐而重复的工作,员工做的疲累、公司也付出了许多无效成本。

  • 此外:各自开发接口也会导致管理混乱,没有全局的权限管控,数据安全隐患众多。

  • 而且就算所有的应用需求都能快速开发,计算性能还不一定稳定,遇到高并发的请求系统很可能崩溃。

业界对让数据应用更高效简单产品的需求迫切而必要。

二、DaaS要解决的问题:

第一,接口规范化定义。对各个数据应用屏蔽了不同的中间存储,提供的是统一的API。

第二,数据网关部署。作为网关服务,数据服务必须要具备认证、授权、限流、监控四大功能,这是数据和接口复用的前提。

  • 认证。为了解决接口安全的问题,数据服务首先会为每个注册的应用分配一对accesskey和secretkey,应用每次调用API接口,都必须携带。

  • 授权。对于每个已发布的 API,API 负责人可以对应用进行授权,只有权限的应用才可以调用该接口。

  • 限流。API 接口的负责人可以对应用进行限流(例如限制每秒QPS不超过 200),如果超过设定的阈值,就会触发熔断,限制接口的访问频率。需要注意的是,对于接口复用来说,限流功能非常必要,否则会造成不同应用之间的相互影响。

  • 监控。例如,接口的 90% 的请求响应时间、接口调用次数、失败次数等相关的监控。同时,对于长时间没有调用的API ,应该予以下线。

第三,数据全链路打通。服务很难避免出现问题或者故障,一旦出现问题,及早发现及早介入是非常重要的,因此,数据服务必须负责维护数据模型到数据应用的链路关系,构建服务平台的全链路监控,包括:

  • 数据同步:对数据资产同步至高速存储的过程进行监控,包括数据质量检测(过滤脏数据)、同步超时或者失败检测等;

  • 服务稳定性:构建一个独立的哨兵服务,来监测每个API的运行指标(如延迟、可用性等),客观的评估健康度;

  • 业务正确性:数据服务需要确保用户访问的数据内容和数据资产表内容是一致的,因此,哨兵服务会从数据一致性层面去探查,确保每个API的数据一致性。

8fc3c48a8a953703972ab1a3fd77b67a.jpeg

第四,基于逻辑模型发布API,实现数据的复用。逻辑模型是解决数据复用的一个策略,在相同的物理模型之上,应用可以根据自己的需求,构建出不同的逻辑模型。我们可以在数据服务中定义逻辑模型,然后基于逻辑模型发布API。

逻辑模型实际是多个物理表,从用户的视角,一个接口可以访问多张不同的物理表。逻辑模型类似数据库中的视图,相比于物理模型,逻辑模型只定义了表和字段的映射关系,数据是在查询时动态计算的,因此,不占用大量的物理存储空间。

第五,构建API超市,实现接口复用。为了实现接口的复用,我们需要构建API 超市,应用开发者可以直接在API集市发现已有的数据接口,直接申请该接口的 API权限,即可访问该数据,不需要重复开发。

数据服务通过元数据中心,可以获得接口访问的表关联了哪些指标。使用者可以基于指标的组合,筛选接口,这样就可以根据想要的数据,查找可以提供这些数据的接口,形成闭环。

此外,需要关注的是,在当前最新的应用中,API已超越了技术范畴,从对技术的要求转变为商业战略和商业模式的需求,许多企业开始启动API战略,构建API生命周期管理。

三、DaaS平台的功能优势:

DaaS平台的主要功能如下:

(1)数据服务开发:

  • API开发:开发人员通过配置或代码的方式快速生成数据服务API;配置模式主要由选择框选取所需数据库表以及输入输出参数字段,代码模式主要由SQL编写更复杂的数据访问需求。已经创建好的API能够升级迭代、下线删除。使得开发人员工作效率大大增加,能够立即响应企业地数据应用需求。

  • SQL工具:开发人员用SQL编写更复杂的数据访问需求。

ace2ba70f40db2c62206dd9fa56b2280.jpeg

开发、业务人员都能开发使用数据API,让数据应用不再困难

(2)数据服务共享:

  • 数据超市:开发人员已经开发的API可以放在数据超市,供业务人员申请使用。以消费者角度出发,更人性化的让业务人员对于API接口随时消费,随时调用。数据API生成的数据可以轻松下载,或者以加密链接的方式分享。

  • 高级搜索:系统提供类Google方式的检索,对企业数据进行模糊查找,快速定位用户所需数据。即方便用户通过自己对业务的理解来查看相关数据。

outside_default.png

数据市场

(3)数据服务管理:

    • 数据目录:跨异构平台集成数据、企业数字资产一目了然。(按照公司业务、部门或者其他标签方式将企业数据以目录形式展现出来)

    • 数据质量:自定义质量评估标准,自动诊断企业数据质量。

    • 行为分析:企业内部的API调用行为也会被记录,开发人员和高层能分析数据使用情况来进一步优化运营。

(4)系统管理监控:

    • 安全便捷:传统数据使用时需要在原系统数据库给相关用户创建账号或赋予权限,操作复杂且有隐患。麦聪有完整的审批流程和细化到表级别的全局权限管控,可以屏蔽底层数据库变更影响,更加方便安全。

31bad9d1704143a7fd996fd84dd4a3c3.jpeg

数据使用安全合规,让企业数据风险降低

DaaS平台的优势:

(1)支持数据源多——连接孤岛集成全域数据:

  • 麦聪DaaS平台可以支持所有主流大数据平台、数据库(唯一企业级支持Oracle数据库,CDH/HDP Hadoop数据湖,华为MRS),集成全域数据,支持从多种云、碎片化的数据库提供统一的数据服务。

  • 借助麦聪DaaS平台,完全开放的技术体系,客户可以延用最适合自己的业界产品,无需改变已有数据框架,有新的业务系统拓展也能兼容。

  • 整体TCO优化,升级简单运维方便。

b509a9ffaadce7569a6ad2ca1dd68ba8.jpeg

统一数据服务平台打破数据孤岛

(2)稳定优良——高性能体验佳

    • 面对现在越来越多的实时性数据应用场景需求,高并发数据查询无可避免,麦聪DaaS平台单机版本即可支持400以上用户并发查询,每个用户查询返回条目数可以达到数千万-亿级数据量。

    • 麦聪DaaS平台的数据下载支持流式数据写入,无线数据量csv下载,本地笔记本下载3000万行数据,仅需150S;极大地促进了数据工程师等工作人员的工作效率。

23a0d5b9e19fe1730d9716aaf5b5593d.jpeg

a4e3dd27b151074154247088858ae5bd.png


http://chatgpt.dhexx.cn/article/wfgkxU8J.shtml

相关文章

虚拟机中linux连网,虚拟机Linux上网的方法

好久以前记得用RedHat做过,不过现在好久没用虚拟机了,并且用的是Ubuntu,竟然忘了怎么上网了,刚才一个同学让我过去帮他,真的很窘啊 1)选用虚拟机--配置--网络适配器--NAT,选择后虚拟机不用做任何配置&#…

ubuntu 虚拟机设置无线上网

ubuntu 虚拟机设置无线上网 一、电脑是采用连接无线wifi上网的情况下 二、电脑是采用宽带有线连接的情况下 电脑主机虚拟机VMware Workstation11安装Ubuntu14.04.3 LTS 一、电脑是采用连接无线wifi上网的情况下 这种情况是VMware Workstation11里面的Ubuntu14.04.3 连接上网…

VMware虚拟机设置上网及与本地计算机通信

我们在装完VMware虚拟机之后,经常需要虚拟机与本地计算机通信,或者需要虚拟机上网,下面我们详解来了解下原理及设置流程。 在安装完成VMware之后,软件会在系统中创建两个虚拟的网卡,分别是VMnet1和VMnet8,其…

VMware虚拟机网络设置(超详细,必看)

一.centors网络配置说明 虚拟机网络配置有三种模式:Brigded桥接模式、NAT模式、Host-only模式 1.Bridge桥接模式: 默认使用Vmnet0,不提供DHCP服务 虚拟机与外部主机在一个网段上,相当于一个主机 既能与局域网外进行通信&#…

VM 14 CentOS 7.0虚拟机上网设置方法

这两天利用VM14,装了个CentOS进行Qt学习,为了实现CentOS能够直接上网,折腾了老半天才终于找到正确的方法,在此做一记录。环境:1)VMware-workstation-full-14.0.0; 2)CentOS 7.0&…

Vmware 虚拟机 网络设置

弄了很久,每次重启虚拟机都会网络连接不上 于是,这次弄好了之后,决定记录一下 我的虚拟机 主要用于PHP swoole 需要装在linux 上面,不得不通过虚拟机安装。学习一下 一、关于虚拟机的设置 1.选择NAT 模式 2.设置NAT模式相关 3…

vmware虚拟机网络设置方法(轻松版)

引子 我们在使用vmware虚拟机时,配置频度最高的往往是网络配置,最让人困惑的往往也是网络设置,虚拟机如何实现和宿主机的通信?虚拟机如何实现与宿主机之外的外部主机通信?同一个宿主机内的多个虚拟机之间如何通信&…

vmware虚拟机怎么设置上网

点击物理主机 2-右键 点击属性 找到ipv4 3 在设置vmware虚拟机 4-在使用命令 ifconfig 查看虚拟机的ip 里面含有 inet addr ip 就是现在虚拟机的IP地址 5-在使用XShell 链接该ip地址 就可以链接的

虚拟机上网设置——桥接模式 NAT模式

1、桥接模式和NAT模式 (1)NAT模式:虚拟机通过PC机的网卡去通信,虚拟机依赖PC机上网,可以理解成虚拟机被包含在PC机中,对外还是只有PC机一台电脑; (2)桥接模式&#xff1a…

VMWare虚拟机网络配置

Bridged(桥接模式) 桥接模式相当于虚拟机和主机在同一个真实网段,VMWare充当一个集线器功能(一根网线连到主机相连的路由器上),所以如果电脑换了内网,静态分配的ip要更改。图如下: NAT(网络地址转换模式) NAT模式和桥接模式一样可以上网,只不过,虚拟机会虚拟出一个…

vmware虚拟机上网设置教程(vmware虚拟机设置网络)

安装vmware后,一般都会有虚拟机能连互联网的需求(如虚拟机中Linux想访问百度),vmware为我们提供了几种连接网络的方式,它们分别是:Bridged(桥接模式)、NAT(网络地址转换模…

Virtualbox虚拟机网络配置详解

目录 1. 使用桥接(Bridged Adapter)模式。 2. 使用HostOnly模式网络共享的方式。 3. 使用双网卡,HostOnly模式NAT转换。 在默认情况下,Virtualbox虚拟机选择的上网方式是:网络地址转换(NAT)&…

Python—多线程编程(一)线程的创建,管理,停止

Python—多线程编程(一)线程的创建,管理,停止 先简单介绍一下线程的概念(以下内容来源于百度): 线程(英语:thread)是操作系统能够进行运算调度的最小单位。…

多线程编程——基础语法篇

多线程编程 文章目录 多线程编程一、Thread1.1 Thread用法一1.2、Thread用法二 (Runnable)1.3、Thread用法三1.4、Thread用法四1.5、Thread用法五(lambda) 二、run 和 start 的区别三、并发编程有何用?四、Thread的方法和属性五、…

Java中的多线程编程(超详细总结)

文章目录 Java中的多线程编程(超详细总结)一、线程与多线程的概念二、线程与进程之间的关系三、一个线程的生命周期四、多线程的目的和意义五、线程的实现的方式 Java中的多线程编程(超详细总结) 一、线程与多线程的概念 线程&a…

Qt实现多线程编程的两种方式

Qt实现多线程编程的两种方式 方式一&#xff1a; 继承自QThread类&#xff0c;覆写run函数。此实现方法只有run函数内的代码是运行在子线程内。 代码示例&#xff1a; #ifndef QDEMOTHREAD_H #define QDEMOTHREAD_H#include <QThread> #include <QDebug>class QD…

Java 多线程编程 实验题

Java 多线程编程 实验二 1.创建键盘操作练习2. 双线程猜数字3. 月亮围绕地球 1.创建键盘操作练习 题目描述&#xff1a; 编写一个Java应用程序&#xff0c;在主线程中再创建两个线程&#xff0c; 一个线程负责给出键盘上字母键上的字母&#xff0c;另一个线程负责让用户在命令…

Python多线程编程(详细:适合小白入门)

目录 前言 一、进程 1.多任务 2.进程 3.多进程完成多任务 3.1进程的创建步骤 3.2通过进程类创建进程对象 3.3创建进程和启动的代码 4. 进程执行带有参数的任务 5.获取进程编号 6.进程的注意点 6.1主进程会等待所有的子进程执行结束后再结束 6.2设置守护主进程&…

使用qt实现多线程编程

目录 1、线程基础 1.1、GUI线程与工作线程 1.2、数据的同步访问 2、QT多线程简介 3、QThread线程类 4、创建并启动线程 QThread类提供不依赖于平台的管理线程的方法。一个QThread类的对象管理一个线程&#xff0c;一 般从QThread继承一个自定义类&#xff0c;并重定义虚函…

ZMQ之多线程编程

使用ZMQ进行多线程编程&#xff08;MT编程&#xff09;将会是一种享受。在多线程中使用ZMQ套接字时&#xff0c;你不需要考虑额外的东西&#xff0c;让它们自如地运作就好。 使用ZMQ进行多线程编程时&#xff0c;不需要考虑互斥、锁、或其他并发程序中要考虑的因素&#xff0c;…