AIOps(智能运维)中的指标算法场景分享 | 内附视频ppt资料

article/2025/8/30 5:39:45

本文转录自:北大博士后严川在云智慧AIOps社区举办的Meetup上进行的《AIOps指标相关算法体系》分享。

直播回放:戳此查看在线回放

PPT下载:戳此下载资料

智能运维算法场景概览

传统运维VS智能运维

传统运维:

特点:处理速度慢,人力需求大;在海量监控数据下,传统运维效率低下。

  • 故障发现时间久

  • 故障定位时间长

  • 故障修复时间长

智能运维

特点:处理速度快、人力需求小;在海量监控数据下,智能运维效率高。

  • 故障发现时间快

  • 故障定位时间短

  • 故障修复时间短

运维场景系统分析

智能运维场景系统分析

智能运维:运维场景+智能技术,其围绕着指标/日志/追踪/告警四要素及其转化的AI使能。

故障发现VS指标算法场景

指标异常检测场景

智能运维中指标异常检测的意义

在运维领域中,指标异常检测是其他智能运维场景建设的基础,异常检测的结果将为后续的告警压缩、故障定位、故障自愈等场景提供重要输入。

  • 现有的监控告警系统大部分采用人工设定规则或阈值的方式来实现

  • 中大型业务系统中会面临更多的KPI数量,更复杂的KPI间的关联关系,以及更多样性的KPI型态

  • 运维领域中,人工设定规则或阈值的方法耗时且容易误报和漏报

智能运维中指标异常检测的应用场景

业务指标

  • 接口访问量

  • 用户数

  • 响应时间

基础监控指标

  • 主机系统指标:CPU利用率、内存利用率、IO利用率、温度、电压

  • 数据库指标:慢sql数量、连接响应时长、缓冲区命中率、表空间使用率

  • 中间件指标:socket数量、服务器响应时间、线程池使用情况

  • 存储设备指标:磁盘使用率、控制器信息、风扇信息

运营指标

  • 银行跑批业务

  • 乘车码主被扫业务

时序异常监测在运维领域落地的困难

海量监控指标

企业的设备数、系统数众多,运维系统需要对海量指标进行监控,以保证企业服务的稳定运行。

KPI 的多样性

有监督异常检测算法对海量监控指标的成本高,当前只能从无监督视角进行检测,这对异常检测的准确性带来了更大的挑战。

某气象相关数据

异常类型多

异常类型包括“点异常”、“上下文异常”、“群体异常”、“缺失值”等

某银行系统业务数据

异常标准不一致

不同指标、资源配置、运维人员,对同一模式,可能会有不同的判断标准、不同的ground truth。算法需要适配不同的敏感度需求。

节假日活动管理

节假日和运营活动时,监控指标常会生成与常态不一致的模式,增加异常检测难度 。

 

指标异常检测的挑战

单一算法难以适配多种数据类型

数据异常vs业务异常vs调参

单指标异常检测常见算法

简单统计类

时序分解类

指标分类与指标异常检测相结合

解决单一算法无法适配多种数据类型问题

指标分类

常见的数据类型

指标分类中周期性检验的重要性

周期性数据在所有数据中占比不高(25%), 但通常具有较高价值

检测数据:

1 是否具有周期

2 具有多少周期

3 每个周期成分如何

对于简化时序异常检测问题至关重要

单指标异常检测在真实数据上的应用

内存使用率数据

交易量数据

指标预测场景

运维领域时序预测的意义

运维领域:

是其他智能运维场景建设的基础(容量规划、异常检测、告警压缩、故障定位、故障自愈等场景)

运营和网络安全: 关注增长和需求

 

运维领域预测典型的应用场景

基础监控指标

  • 主机系统指标:CPU利用率、内存利用率、IO利用率、温度、电压

  • 数据库指标:缓冲区命中率、表空间使用率

  • 中间件指标:socket数量、服务器响应时间、线程池使用情况

  • 存储设备指标:磁盘使用率

运营指标

  • 银行业务量

  • 网络容量规划

  • 乘车码主被扫业务

指标预测面临的挑战

单一算法难以适配多种数据类型

数据质量对预测结果的影响

常见的预测算法

统计类:

时序分解类:

指标预测分类的重要性

不同种类算法适用的数据类型不同 ,是否需要集成学习?

指标预测实例

磁盘占用率

系统CPU使用率

指标预测实际案例

某运营商运用实例

cpu使用率预测

关于Meetup

AIOps Developer Meetup是由AIOps社区推出的,面向广大开发者的系列线上直播及线下分享活动,我们将汇聚AIOps社区专家团的力量给你提供优质的技术内容,无论是技术解读、开源治理、行业解决方案,相信广大developers总能在这里找到你想要的内容。

AIOps社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播AIOps技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题、推动AIOps技术在企业中落地、建设健康共赢的AIOps开发者生态。

最新Meetup预告

戳此可进行报名


http://chatgpt.dhexx.cn/article/hJSIHmDn.shtml

相关文章

2022 AIOps挑战赛方案总结

文章目录 挑战赛赛题:微服务架构电商系统下的故障识别和分类一、赛季关键字二、赛题背景1、开源的微服务系统2、丰富的故障类型3、多模态监控数据 三、方法汇总1、特征工程(1)时序预处理(2)时序特征提取方案&#xff0…

AIOps:企业运维新力量!

摘要:企业运维需求及挑战,来看看华为AIOps如何解决! 本文分享自华为云社区《【云驻共创】AIOps?企业运维新力量!》,原文作者:启明。 国际惯例,我们先介绍一下AIOps的概念&#xff1…

智能运维(AIOps)系列之二:什么是人工智能

大众对人工智能认识的误区 很多计算机从业人员,对人工智能的理解 数据挖掘和深度学习。 另一部分对人工智能的理解,则多了知识图谱。 其实,人工智能的理论基础和技术分支,都极其广泛。具体详见下文。 揭开人工智能的神秘面纱 —…

运维数智化时代——京东数科AIOps落地实践(一)

一、背景 自从2016年Gartner提出AIOps概念以来,平台化和智能化已经成为了运维体系发展的大趋势。从整体来看,运维发展可以分为5个阶段,分别为手工及脚本运维、工具标准化运维、平台自动化运维、DevOps和AIOps。 自动化运维给手工及脚本运维…

智能运维(AIOps)系列之三:什么是智能运维

现阶段的研究方向 智能运维框架(以质量保障为例) 大家可以对照 系列二 的人工智能框架 以质量保障为例,详情 时序指标 根因分析 根因的场景可以区分为:实时场景、准实时场景、以及离线场景。具体取决于 技术限制、业务需求以及…

AIOps在美团的探索与实践——故障发现篇

AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领域&…

DataOps、MLOps 和 AIOps,你要的是哪个Ops?

作者 | Merelda Wu 策划 | 田晓旭 如何在 DataOps、MLOps 和 AIOps 之间进行选择?大数据团队应该采取哪种 Ops? 两年前,由于笔者领导的运维团队效率低下,“赢得”了耻辱的勋章。要说明的是笔者具有数据科学和机器学习的背景&#…

2021百万年薪AI职位趋势:数据科学、Python、自动驾驶、AIOps你关注了么?

本文转载自 新智元,编辑 小匀 毫无疑问,今年,人工智能一直是个流行语。它已被确立为新兴技术(例如大数据,机器人技术和物联网)的主要驱动力。 那么,未来12个月的AI将会如何? 如果20…

智能运维 VS 传统运维|AIOps服务管理解决方案全面梳理

云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题&…

AIOps中的四大金刚

作者简介 运小青 百度云资深研发工程师 负责百度云智能监控、智能故障自愈方向架构设计与研发,推动AIOps的实践与落地。 干货概览 AIOps(Artificial Intelligence for IT Operations ),即智能运维,是将人工智能的能…

什么是AIOT?

AIoT(人工智能物联网)AI(人工智能)IoT(物联网)。AIoT融合AI技术和IoT技术,通过物联网产生、收集来自不同维度的、海量的数据存储于云端、边缘端,再通过大数据分析,以及更…

AIOps:实现运维智能化的一大利器

出品 | CSDN云原生 AIOps由Gartner于2016年提出,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。 CSDN云原生系列在线峰会第16期“AIOps峰会”由用友畅捷通助理总裁熊昌…

AIOT介绍

百度词条的解释:AIoT(人工智能物联网)AI(人工智能)IoT(物联网)。AIoT融合AI技术和IoT技术,通过物联网产生、收集来自不同维度的、海量的数据存储于云端、边缘端,再通过大…

AIOps

自 Gartner 于 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标是自动化复杂的 IT 系统解决方案,同时简化其操作。 简单地说,AIOps是一种转型方法,它使用机器学习和AI技术来运行诸如事件关联、监控…

AIOps是什么?为什么用它?

由于快速的数字化转型给 IT 企业组织带来了很大的压力,要求他们更加主动和敏捷,DevOps 原则和实践一直是宝贵的资源。但是,为了保持领先地位,企业需要更强大的解决方案。那么,答案是什么?当然是 AIOps&…

AIOPS是什么,它的未来如何?

AIOps,也就是基于算法的IT运维(Algorithmic IT Operations),是由Gartner定义的新类别,源自业界之前所说的ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科…

AIOps基本概念以及能力分级

一、概念 AIOps是Artificial Intelligence for IT Operations,智能化运维。 简单说, AIOps AI 运维数据 自动化处理 AI Devops 终极目标:“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最…

AIOps介绍

AIOps介绍 AIOps是指人工智能运维(Artificial Intelligence for IT Operations)的缩写。它是将人工智能(AI)和机器学习(ML)技术应用于IT运维领域的一种方法。 传统的IT运维通常需要人工监测和管理大量的系…

智能运维(AIOps)系列之一:个人对智能运维的理解

前序 本人从事了 5年 的智能运维开发,把这几年的想法和思路在此跟大家分享一下,主要是为了起到抛砖引玉的作用。该序列总共5部分: 智能运维系列之一 — 概述:主要是讲述自己对智能运维的理解;智能运维系列之二 — 什…

使用TimerTask的坑

使用TimerTask可以方便的实现定时任务的功能,但是如果使用不当,反而会带来隐患。 在使用TimerTask时,TimerTask中的代码必须要做异常处理,否则产生异常的时候,就挂掉了。 特别像使用MQ发送数据的时候,不会…