AIOps产品与架构浅析

article/2025/8/30 5:45:59

【摘要】 本文简要介绍AIOps系统主要组成部分,介绍该系统在企业级IT运维场景下的作用和地位。

我们已经成功地应用了人工智能和机器学习来自动化传统的人工任务和IT操作过程。从异常检测到自动修复,现在将前沿算法融入到易于使用的工具中,允许组织通过从时间消耗和容易出错的过程中解放人力简化操作。

运维人员可能需要几个小时才能完成的事情,基于AIOps只需几秒钟就能完成,而且精度更高。这正被世界500强企业所认可,这些企业正在迅速采用这些技术,以及Gartner等领先的分析师公司,这些公司越来越关注这个问题。在过去几年中,为了应对数字化转型给企业带来的日益增加的系统复杂性,市场上也出现了很多AIOps或者ITOA的产品。

1      AIOps VS ITOA

正如Flercher所解释的那样,AIOps本质上是技术的演进,这些技术以前被归类为IT运营分析。虽然AIOps与ITOA非常相关,但它代表了一组相当广泛的功能,主要集中于分析IT操作数据,包括监控、日志分析、安全等。ITOA领域的供应商包含来自CA、EMC、Solarwinds和Zenoss等厂商,但他们在其核心ITOA产品中没有这种原生的机器学习能力,因此这些厂商并不算是AIOps。

AIOps平台接收从不同数据源发送过来的IT日志数据,并应用各种形式的算法。通过使用AIOps平台,IT组织可以实现运维自动化并提升运维实践,并对其业务服务的性能进行持续的洞察。

2      AIOps是否重要?

在这篇论文中, “Applying AIOps to Broader Datasets Will Create Unique Business Insights” Gartner报告说,2015年全球AIOps支出超过$ 17亿。此外,到2020年,大约50%的企业将积极使用AIOps平台来提供对业务执行和IT运营的洞察,而今天还不足10%。

随着企业在数字化转型的过程中经历了巨大的变化和扩张,企业将被迫在加大运营人数或采用AIOps平台之间做出选择。

3      AIOps平台关键部件

Gartner在论文中描述了AIOps平台的逻辑架构 “Innovation Insight for Algorithmic IT Operations”,这里我们使用一个简化的版本以理解AIOps平台的不同部分如何适合您更广泛的IT运营需求。

从众多大公司的IT运维实践中可以看到,一个企业级IT运营工具链的关键部件包括:监控生态系统、一个智能检测系统、一个工单与知识管理系统、一个自动化系统和一个数据湖。

Screen-Shot-2016-08-09-at-11.25.00-AM.png

监控生态系统,提供可视化和创建跨物理和虚拟堆栈的日志收集能力。这些工具包括AppDynamic至Solarwinds。一个好的日志收集平台对于提升运维服务质量非常重要,但是过度负责的日志收集系统有时也会带来大量的数据噪声影响IT团队的工作效率。

数据智能检测系统,降低数据噪音,实时将分析结果推送给相关运维人员。这是运营团队在响应运维事件时的第一选项。事实上,运用智能检测系统能够让你在第一时间知道系统内发生了哪些预料之外的问题,并且在最短时间内告诉你如何消除影响,通过应用机器学习和实时计算,智能检测系统可以做到早发现早响应,比如Moogsoft AIOps

工单与知识库实现用户对IT需求的交互式响应,以及IT服务的文档化管理,通常我们用工单管理所有的问题单,并且会绑定资产库和服务目录以及案例库,从而实现知识积累和能力的不断提升。之类系统包括诸如ServiceNow和Jira。

自动化系统可以根据具体事件自动应用脚本,以便减少繁重的重复性的劳动。常见的动作包括编排、运行库自动化和IT自动化。自动化系统包括ansible和Puppet等工具。

最后,数据湖用于故障诊断、ad-hoc查询以及监控仪表盘。数据湖应包含所有与IT系统相关的数据和日志,数据湖对进行更深入的分析至关重要。数据湖工具包括Splunk版本和ELK。

4      AIOps平台是IT运营的下一代解决方案

IT平台的复杂度和集成度将继续以指数级增长,而人的能力相对保持不变,从而变成制约业务发展的内在原因,而AIOps可以真正提升运维效率,提升洞察力,让运维人员关注真正需要关注的事情-用户满意度

 来源:华为云社区  作者:菊花茶


http://chatgpt.dhexx.cn/article/SagFDhaA.shtml

相关文章

AIOps变革

图片摘自灵犀官网 目前稍微有点规模的公司都走到了2.0和3.0,之后4.0会逐渐普及 AIOps目前主要是应用数据发现故障,由于AI目前无法理解业务,所以很多故障处理依然需要依靠人工完成。深度的AI自动发现和故障处理需要智能AI组件的加入&#xf…

AIoT是什么?

AIoT是AI人工智能与IoT物联网的缩写,指的是人工智能物联网,即通过物联网收集来自不同维度的海量数据,存储于云端、边缘端,再根据大数据分析以及AI等技术,实现万物数据化、万物智联化。 谈到物联网,出现频率…

AIops相关算法

文章目录 根因分析清华FOCUS:找影响系统性能瓶颈的原因Adtributor:根因定位MSRA iDice:多维指标突变定位清华Hotspot:多维根因定位 智能变更清华FUNNEL:评估变更影响 异常检测雅虎EGADS:KPI异常检测框架清华…

智能运维AIOps,aiops对比传统运维工具的优势

在智能化、智能化时代,IT从手工制作到完全自动化,从传统的运维流程管理到智能化。“运维智能”这将是行业的发展趋势。  目前,许多用户机房选择传统运维模式、日常运维服务、检查维护工作需要手工记录和报告,检查质量难以保证&a…

探索可观测性:AIOps中的时序数据应用

01. 背景 随着科技的发展,时序数据在我们的认知中占据越来越多的位置,小到电子元件在每个时刻的状态,大到世界每天的新冠治愈人数,一切可观测,可度量,可统计的数据只要带上了时间这个重要的因素就会成为时…

AIOps(智能运维)中的指标算法场景分享 | 内附视频ppt资料

本文转录自:北大博士后严川在云智慧AIOps社区举办的Meetup上进行的《AIOps指标相关算法体系》分享。 直播回放:戳此查看在线回放 PPT下载:戳此下载资料 智能运维算法场景概览 传统运维VS智能运维 传统运维: 特点:…

2022 AIOps挑战赛方案总结

文章目录 挑战赛赛题:微服务架构电商系统下的故障识别和分类一、赛季关键字二、赛题背景1、开源的微服务系统2、丰富的故障类型3、多模态监控数据 三、方法汇总1、特征工程(1)时序预处理(2)时序特征提取方案&#xff0…

AIOps:企业运维新力量!

摘要:企业运维需求及挑战,来看看华为AIOps如何解决! 本文分享自华为云社区《【云驻共创】AIOps?企业运维新力量!》,原文作者:启明。 国际惯例,我们先介绍一下AIOps的概念&#xff1…

智能运维(AIOps)系列之二:什么是人工智能

大众对人工智能认识的误区 很多计算机从业人员,对人工智能的理解 数据挖掘和深度学习。 另一部分对人工智能的理解,则多了知识图谱。 其实,人工智能的理论基础和技术分支,都极其广泛。具体详见下文。 揭开人工智能的神秘面纱 —…

运维数智化时代——京东数科AIOps落地实践(一)

一、背景 自从2016年Gartner提出AIOps概念以来,平台化和智能化已经成为了运维体系发展的大趋势。从整体来看,运维发展可以分为5个阶段,分别为手工及脚本运维、工具标准化运维、平台自动化运维、DevOps和AIOps。 自动化运维给手工及脚本运维…

智能运维(AIOps)系列之三:什么是智能运维

现阶段的研究方向 智能运维框架(以质量保障为例) 大家可以对照 系列二 的人工智能框架 以质量保障为例,详情 时序指标 根因分析 根因的场景可以区分为:实时场景、准实时场景、以及离线场景。具体取决于 技术限制、业务需求以及…

AIOps在美团的探索与实践——故障发现篇

AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领域&…

DataOps、MLOps 和 AIOps,你要的是哪个Ops?

作者 | Merelda Wu 策划 | 田晓旭 如何在 DataOps、MLOps 和 AIOps 之间进行选择?大数据团队应该采取哪种 Ops? 两年前,由于笔者领导的运维团队效率低下,“赢得”了耻辱的勋章。要说明的是笔者具有数据科学和机器学习的背景&#…

2021百万年薪AI职位趋势:数据科学、Python、自动驾驶、AIOps你关注了么?

本文转载自 新智元,编辑 小匀 毫无疑问,今年,人工智能一直是个流行语。它已被确立为新兴技术(例如大数据,机器人技术和物联网)的主要驱动力。 那么,未来12个月的AI将会如何? 如果20…

智能运维 VS 传统运维|AIOps服务管理解决方案全面梳理

云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题&…

AIOps中的四大金刚

作者简介 运小青 百度云资深研发工程师 负责百度云智能监控、智能故障自愈方向架构设计与研发,推动AIOps的实践与落地。 干货概览 AIOps(Artificial Intelligence for IT Operations ),即智能运维,是将人工智能的能…

什么是AIOT?

AIoT(人工智能物联网)AI(人工智能)IoT(物联网)。AIoT融合AI技术和IoT技术,通过物联网产生、收集来自不同维度的、海量的数据存储于云端、边缘端,再通过大数据分析,以及更…

AIOps:实现运维智能化的一大利器

出品 | CSDN云原生 AIOps由Gartner于2016年提出,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。 CSDN云原生系列在线峰会第16期“AIOps峰会”由用友畅捷通助理总裁熊昌…

AIOT介绍

百度词条的解释:AIoT(人工智能物联网)AI(人工智能)IoT(物联网)。AIoT融合AI技术和IoT技术,通过物联网产生、收集来自不同维度的、海量的数据存储于云端、边缘端,再通过大…

AIOps

自 Gartner 于 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标是自动化复杂的 IT 系统解决方案,同时简化其操作。 简单地说,AIOps是一种转型方法,它使用机器学习和AI技术来运行诸如事件关联、监控…