AIOps

article/2025/8/30 7:27:00

自 Gartner 于 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标是自动化复杂的 IT 系统解决方案,同时简化其操作。

简单地说,AIOps是一种转型方法,它使用机器学习和AI技术来运行诸如事件关联、监控、服务管理、可观察性和自动化等操作。

借助 AIOps,您可以收集和汇总从可观察性和监控系统、不同应用程序或基础架构生成的不断增加的数据,过滤噪音以识别系统性能和可用性问题的事件和模式,并确定根本原因并经常自动解决它们或将警报发送给 IT 团队。

如果您不使用 AIOps 来完成该过程,那么将很难与快速发生的技术创新一起运行。此外,如果您依赖传统知识和旧系统,您的 IT 运营更有可能变得不可预测和不可扩展。

正如 Gartner 预测的那样,到 2023 年,40% 的 DevOps 团队可能会在其应用程序和基础设施监控工具中实施 AIOps,以实现更好的平台性能和功能。

AIOps 架构

AIOps 架构提供了有助于无缝集成企业监控、服务管理和自动化的方法和技术,以提供完整的 AIOps 解决方案。

AIOps 架构支持跨操作监控的洞察力。

如上图所示,AIOps 在 IT 运营方面具有三个关键领域,即 Monitor(Observe)、Engage 和 Act。

与传统的事件管理和监控工具不同,在可观察性方面, 基于机器学习的功能用于确保在满足组织的监控需求的同时,无论其架构如何,都不会留下空白或盲点。

在可观察性阶段,发生的主要过程包括数据摄取、数据集成、事件抑制、事件去重、基于规则的关联、机器学习关联(包括异常检测、事件关联、根本原因分析和预测分析)、可视化、协作和反馈。

AIOps 架构的参与部分与 IT 服务管理 (ITSM) 及其通过不同指标和功能处理流程及其执行的功能相关。 

由于 Engage 部分处理服务管理的数据,它充当 ITSM 中发生的所有活动或操作的存储库,包括问题管理、配置管理、事件管理、变更管理、容量管理、可用性和服务级别协议.

在可观察性事件中,指标、跟踪和日志充当主要数据;在 Engage 中,主要数据仍然围绕在不同流程中的操作执行情况,其中数据是按需和实时分析的混合。

Engage 的主要阶段包括事件创建、任务分配、任务分析、代理分析、变更分析、流程分析、可视化、协作和反馈。

最后,在Act阶段,实际的技术任务执行发生。该行为是执行所有技术任务的最后阶段,例如变更执行、事件解决、服务请求执行等。在这里发现的所有事件都得到解决,系统恢复正常状态。

AIOps 是如何工作的?

您可以通过查看支持其流程的技术组件(机器学习、大数据和自动化)来简单地了解 AIOps 的工作原理。AIOps 在独立部署时效果最佳,并提供一个集中式系统来协作收集和分析来自多个监控源的数据。

注意: 数据可以包括流式实时事件、网络数据、历史性能事件、系统日志和指标、事件相关或票务。

收集数据后,AIOps 实施机器学习和分析功能,以:

  • 从大量数据中识别和分离重要的异常事件警报。
  • 发现异常事件的根本原因并提出解决方案。
  • 自动向运营分析师发出警报以及建议的解决方案。
  • 根据问题的性质为异常事件创建补救措施并实时解决问题。

最后,基于分析结果,AIOps 的机器学习有助于调整算法,甚至创建新算法来确定早期阶段的问题并提出极具影响力的解决方案。简而言之,鉴于之前的结果,AIOps 模型继续改进。

AIOps 的核心要素

说到这里,你一定知道,AIOps 背后的核心要素是大数据和机器学习

为了理解这两个术语,我们将在这里更好地了解它们。

1. 大数据

由于 AIOps 从众多资源中获取数据,因此基于大数据技术构建AIOps平台至关重要。大数据是指使用传统软件进行数据处理无法处理的复杂、庞大的数据集。它包含的数据种类更多、数量增加且速度快,也被称为大数据的三个 V。

随着 AIOps 将来自不同来源的大型、复杂、多变的数据集集成到数据仓库中,如果不使用大数据平台,处理如此大量数据的速度可能会变得难以管理。

2.机器学习

AIOps 的第二个也是最重要的部分是机器学习,这是人工智能的一个关键方面。机器学习的核心是研究人类行为,以使用算法和数据来复制它们。当 ML 在获取信息以解决任务后实施时,它可以提供比人类本身更好的结果准确性。

同样,ML 帮助 AIOps 平台利用其能力来分析数据并检测模式和异常,同时监控事件和实体。然后使用分析的数据来提供见解并找到根本原因警报。

AIOps 的好处和挑战

AIOps 的主要优势如下:

  • 更高的系统可用性:由于 AIOps 确保现代混合基础设施的最大应用程序可用性,它已成为潜在的游戏规则改变者。
  • 在修复的同时更好地遵守 SLA:与 IT 服务管理功能集成,AIOps 可以找到事件模式,识别有用的见解,并允许自动化解决方案。所有这些都减少了平均修复时间,同时超出了 SLA 合规性。
  • 最小的人为错误:由于 AIOps 自动化了 IT 团队处理的大多数日常和迭代的操作任务,它同时减少了人为错误。
  • 更好的自动化事件检测:AIOps 节省了大量时间,因为它通过引导事件分析来验证事件,从而减少了由于伪事件而产生的噪音。
  • 预测和愤怒预防:AIOps 使用基本 KPI 来衡量运营绩效,创建智能建议以帮助IT 运营完成其目标。
  • 成本优化:成熟的 AIOps 系统可以通过将任务从人类转移到算法来有效地降低运营成本,从而引导人力资源将时间花在其他重要任务上。
  • 更好的环境可见性:使用 AIOps,企业可以识别机会、制定战略决策并识别 IT 运营中的低效率。

AIOps 面临的一些挑战是:

  • 困难的组织变革管理。
  • 不匹配的期望。
  • 刚性过程。
  • 数据可用性和监控困难。
  • 缺乏领域输入。
  • 不准确的预测分析。
  • 由于数据漂移,历史数据的最低准确度。
  • 难以理解机器学习。

AIOps 的用例

众所周知,AIOps 旨在收集和分析 IT 运营数据。AIOps 的一些流行用例是:

  • 异常检测

AIOps 不断分析数据并将其与有助于检测潜在问题的历史事件进行比较。

  • 事件事件关联

您可以将 AIOps 用于事件事件关联,因为它可以快速处理和分析事件数据,同时在问题失控之前提供解决方案。

  • 预测分析

除了早期错误检测外,具有数据收集和分析功能的 AIOps 还可以帮助机器学习算法了解当前和历史数据趋势,同时提供对未来结果的可行见解。

  • 数字化转型

随着 AIOps 从 ITOps 中消除新技术的复杂性,创造了一个不受限制的转换的新空间。它可以帮助组织利用灵活性来实现新的进步来处理他们的战略目标。

  • 根本原因分析

人们还可以使用 AIOps 通过关联大量数据点、跟踪事件模式等来分析根本原因。AIOps 的根本原因分析可帮助企业及其用户更有效地识别和解决问题,从而改善客户体验。

  • 云采用/迁移

借助 AIOps,可以清楚地了解云采用和迁移正在转变的相互依赖关系,从而最大限度地降低与这种转变相关的风险。

AIOps 的未来

鉴于技术的进步,大多数组织正在从传统基础架构转变为在虚拟化环境中运行的动态基础架构,可以根据需要进行重新配置和扩展。

但是,正如我们所知,这些系统往往会无休止地生成大量数据。甚至 Gartner 也表示,IT 基础设施更有可能每年创建两到三倍的运营数据。

毋庸置疑,传统解决方案无法跟上这样的数据量,无法对周围环境中的事件进行分类或关联数据以提供对 IT 运营的实时分析和洞察以满足客户需求。

但是,由于AIOps在分析数据、提取异常事件或自动向 IT 团队发出警报时提供对整个基础架构的依赖关系和性能的可见性,它成为现代组织的最佳解决方案。

毫无疑问,AIOps 是利用现代机器学习和大数据以及其他高级分析技术的平台,通过找到问题的根本原因并提供推荐的解决方案,通过动态、主动和个性化的洞察力来改进 IT 运营。

 


http://chatgpt.dhexx.cn/article/GU4NbtwT.shtml

相关文章

AIOps是什么?为什么用它?

由于快速的数字化转型给 IT 企业组织带来了很大的压力,要求他们更加主动和敏捷,DevOps 原则和实践一直是宝贵的资源。但是,为了保持领先地位,企业需要更强大的解决方案。那么,答案是什么?当然是 AIOps&…

AIOPS是什么,它的未来如何?

AIOps,也就是基于算法的IT运维(Algorithmic IT Operations),是由Gartner定义的新类别,源自业界之前所说的ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科…

AIOps基本概念以及能力分级

一、概念 AIOps是Artificial Intelligence for IT Operations,智能化运维。 简单说, AIOps AI 运维数据 自动化处理 AI Devops 终极目标:“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最…

AIOps介绍

AIOps介绍 AIOps是指人工智能运维(Artificial Intelligence for IT Operations)的缩写。它是将人工智能(AI)和机器学习(ML)技术应用于IT运维领域的一种方法。 传统的IT运维通常需要人工监测和管理大量的系…

智能运维(AIOps)系列之一:个人对智能运维的理解

前序 本人从事了 5年 的智能运维开发,把这几年的想法和思路在此跟大家分享一下,主要是为了起到抛砖引玉的作用。该序列总共5部分: 智能运维系列之一 — 概述:主要是讲述自己对智能运维的理解;智能运维系列之二 — 什…

使用TimerTask的坑

使用TimerTask可以方便的实现定时任务的功能,但是如果使用不当,反而会带来隐患。 在使用TimerTask时,TimerTask中的代码必须要做异常处理,否则产生异常的时候,就挂掉了。 特别像使用MQ发送数据的时候,不会…

Timer和TimerTask与线程的关系

1. Timer是一个定时器,它可以根据指定的时间,指定的执行周期来执行固定的任务TimerTask,例子如下: Timer与线程的关系,在Timer源代码中可现如下代码: 1. 以下为Timer的默认构造方法,起调用了自…

Java通过Timer与TimerTask实现定时任务调度

java通过Timer、TimerTask实现定时任务调度 文章目录 java通过Timer、TimerTask实现定时任务调度前言一、什么Timer类二、什么TimerTask类三、代码实现定时调度1.创建DuTask类2.创建测试TestDuTask类 总结 前言 在实际的工作当中,经常要用到定时去操作一下任务&…

Java的Timer和TimerTask怎么结束

java中自带的定时器有Timer和TimerTask,但是运行起来要结束任务用cancel方法可以结束该任务,此时Timer线程还在运行,程序并没有退出,那么怎么结束Timer呢? 示例代码如下 public class Test {public static void main…

TimerTask类和Timer类的cancel()方法详解

无论是TimerTask类还是Timer类,其cancel()方法都是为了清除任务队列中的任务。虽然都是清除任务队列中的任务,却有一些不同:TimerTask类中的cancel()方法侧重的是将自身从任务队列中清除,其他任务不受影响,而Timer类中…

java 定时器Timer和TimerTask的详解(执行和暂停)

目录 1:java.util.Timer定时器的常用方法如下: 2:参数含义: 3.暂停任务: 4.例子: 1:java.util.Timer定时器的常用方法如下: schedule(TimerTask task, long delay) // 延迟delay…

Java定时任务Timer、TimerTask与ScheduledThreadPoolExecutor详解

目录 一、Timer和TimerTask 1、快速入门 2、schedule与scheduleAtFixedRate使用方法 3、schedule与scheduleAtFixedRate区别 4、终止Timer线程 5、Timer线程的缺点 二、ScheduledThreadPoolExecutor 1、构造方法    2、调度方法 3、与Timer相比,优点 定…

TimerTask

详解java定时任务 在我们编程过程中如果需要执行一些简单的定时任务,无须做复杂的控制,我们可以考虑使用JDK中的Timer定时任务来实现。下面LZ就其原理、实例以及Timer缺陷三个方面来解析java Timer定时器。 一、简介 在java中一个完整定时任务需要由Time…

Java Timer TimerTask示例

Java java.util.Timer是一个实用程序类,可用于调度将来某个时间执行的线程。Java Timer类可用于计划要一次运行的任务或定期运行的任务。 Java TimerTask java.util.TimerTask是一个实现Runnable接口的抽象类,我们需要扩展这个类来创建我们自己的Timer…

Timer+TimerTask实现数字时钟

成果展示 布局 布局主题背景颜色采用#000000(纯黑色),各TextView字体颜色采用#FFFFFF(纯白色)。 使用五个TextView,分别实现小时:分钟,秒钟,am,pm,周日,具体…

Timer + TimerTask 实现数字时钟

任务: 自己完成的: 遇到的问题: 1.Android Studio 中 calendar设置系统时区无效的问题 14:50它显示为06:50,时间显示错误,这是因为时区不同。 在8.0以后设置时区,有所改动&#xf…

java定时器-Timer和TimerTask详解

1、例子入手 package pers.growing.test;import java.util.Timer; import java.util.TimerTask;public class Main {/*** 延迟100ms后,间隔1s打印出:hello world** param args* throws InterruptedException*/public static void main(String[] args) t…

定时器Timer与TimerTask的使用

一:简介 在JDK类库中Timer主要负责计划任务的功能,也就是在指定时间执行某一任务,执行时候会在主线程之外起一个单独的线程执行指定的任务。该类主要是设置任务计划,但封装的类是TimerTask类。 TimerTask是一个实现了Runnable接口…

Java的定时器Timer和定时任务TimerTask应用以及原理简析

记录:272 场景:Java JDK自带的定时器Timer和定时任务TimerTask应用以及原理简析。在JDK工具包:java.util中可以找到源码,即java.util.Timer和java.util.TimerTask。TimerTask实现Runnable接口的run方法。Timer的属性TimerThread …

原码、补码、反码的转换

1.原码 (1)一个正数,他的原码就是它对应的二进制数字。 (2)一个负数,按照绝对值大小转换成的二进制数,然后最高位补1,就是负数的原码。 2.反码 (1)正数的反…