JAVA开发运维(云基础设备监控)

article/2025/10/2 19:11:23

在大型的商用系统中,经常需要监控云设备的健康状态,性能情况,流量数据等。及时发现系统问题,及时修复,以确保系统的高可用。检查云资源的工作内容主要包括基础监控、主动拨测、用户体验、APM监控、指标体系、业务分析、智能警告 等。

一、基础监控

主机监控 提供操作系统的CPU、内存、磁盘、文件系统、网络的监控;同时提供进程级的监控;支持容器和进程的纵向调用,支持进程和组件的关联分析。

组件监控 支持Nginx、Apache、Redis、RabbitMQ、ActiveMQ、Zookeeper、Kafka、MySQL、Oracle、PostgreSQL、SQLServer、MongoDB、Elasticsearch等组件的指标监控,同时关联进程、主机、容器、APM提供纵向关联分析。

容器监控 支持Docker、Kubernetes的监控,自动发现容器进程,监控容器的CPU、内存、磁盘、网络;自动发现容器下运行的关键进程并与之关联,快速查看进程和容器的调用关系。

内网监控 从外部对应用或主机提供服务监控,支持ICMP监控、TCP监控、HTTP(s)监控。帮助用户监测局域网内网络的联通性和延迟。

二、主动拨测

拨测从用户视角,依托全球高质量布点网络,模拟用户的访问路径与习惯,能够让企业了解自身用户,无论何时何地,使用何种设备,能否顺畅进行访问,实时掌握用户体验,确保企业的数字化业务平稳运营。

移动应用拨测是基于自研自动化测试引擎和独一无二部署技术,模拟用户操作将核心业务流程脚本化并持续运行在生产环境中,实时采集业务性能数据,自动进行汇总分析的全方位自动化平台。能够让企业了解自身业务在用户视角下的实际情况:何时何地、使用何种设备、能否顺畅进行访问,实时掌握用户体验,确保企业的数字化业务平稳运营。

三、用户体验

采用SDK方式实现对App的崩溃、卡顿、超时等性能问题进行采集,并能对真实用户体验进行量化,实现版本迭代过程中的用户体验优化。

提供Web前端性能的监控与分析,量化前端用户体验指标,采集网页JS错误及网络请求错误,快速定位Web前端的性能问题,辅助进行Web前端性能优化。

提供对微信小程序、支付宝小程序的性能监控能力,并能够对小程序接口及小程序访问路径进行追踪,帮助开发人员有效进行小程序性能优化。 

 

四、APM监控

全栈拓扑

自动发现业务系统之间、应用与业务系统之间、应用与服务组件之间的关联关系。通过拓扑可快速梳理业务调用逻辑,快速发现与定位问题。

业务接口分析

对业务系统中完成某一业务操作的动作事件进行相关事务级别的监控与分析,这也是应用性能管理的最小监控单元,帮助用户细粒度定位问题。

代码级别定位

针对某事务实例,对其进行代码级别的堆栈分析,精确定位到某一行业务逻辑代码,观察其因为什么报错或是由于什么原因导致执行缓慢,帮助研发和运维人员快速定位问题。

异常分析

统计当前系统内所有应用错误、代码异常、数据库错误类型等,对业务的影响分析,包括影响的用户数、影响的业务指标等,帮助研发、运维、业务人员分析系统性能影响范围。

故障主动预警

支持多维度、灵活的配置预警策略,提供7*24小时主动预警能力,主动运维,VIP用户保障,第一时间发现性能问题,降低异常时长,减少运维人力投入

五、指标体系

指标管理可以接入自有系列产品监控的指标,以及诸如Zabbix、Prometheus等多个数据源、多种协议的外部指标数据,贯穿业务到IT系统的全方位立体化可观测能力。 

 

重要指标:

业务层

通用指标:业务可用性、业务错误数、完成业务数、报错业务数、活跃用户数、错误影响用户数、业务流可用性、完成业务流、报错业务流、在途业务流、活跃用户数、错误影响用户数、平均执行周期、操作可用性、操作成功次数、操作失败次数、同比环比 自定义指标:交易金额、订单总数、top10商家销售排名、top10热销商品等。

用户层

重要指标: 可用性:崩溃、卡顿、请求错误、操作可用性 网络性能:响应时间、网络时间、 用户体验性能:应用启动时间、页面可交互时间、页面首屏时间、操作时间。

网络层

重要指标: 页面监控:首屏时间、总下载时间、DNS时间、建连时间、首包时间、可用性等 文件监控:平均下载速度、DNS时间、建连时间、首包时间 Ping监测:延迟、丢包 事务:总下载时间、可用性、总下载字节数。

应用层

重要指标: 追踪:响应时间、执行时间、独占时间、投影时间、数据库响应时间 服务组件-数据库:吞吐率、响应时间、调用次数、异常次数、追踪次数 连接池:最大连接数、初始连接数、最小连接数、最大连接数、连接数使用率、连接数空闲率、平均连接时间 实例:吞吐率、响应时间、错误率、堆内存使用、非堆内存使用、GC time、GC count、线程数 应用:吞吐率、响应时间、错误率、错误数。

基础组件层

重要指标: 数据库:QPS、TPS、连接数、打开文件数、表容量、表行数、主从延迟、主从同步状态、SGA、PGA、表空间等 进程:CPU使用率、内存使用量、磁盘吞吐、网络吞吐,打开文件数、进程数等 容器:CPU使用率、内存使用量、磁盘吞吐、网络吞吐 主机:CPU使用率、内存使用率、磁盘分区使用率、磁盘读写吞吐量、磁盘读写IOPS、磁盘读写延迟、磁盘IOutil、网络吞吐率,网络错误等 网络或安全设备:CPU、内存、风扇、温度、电源等。

六、业务分析

 

七、智能告警

 

 


http://chatgpt.dhexx.cn/article/ocm6JFHd.shtml

相关文章

JAVA开发运维(CI/CD)

CI :持续性集成 CD:持续性部署 SIT:系统集成测试 UAT:用户验收测试 研发流程的变化,因为用户永远一开始不知道自己想要什么样的东西,导致了软件无法从一而终的进行设计,用户需要能立刻运行的软件和功能。 &…

Hi,运维,你懂Java吗--No.4:JVM-概述

作为运维,你不一定要会写Java代码,但是一定要懂Java在生产跑起来之后的各种机制。 本文为《Hi,运维,你懂Java吗》系列文章 第四篇,敬请关注后续系列文章 欢迎关注 龙叔运维(公众号) 持续分享运…

JAVA开发与运维(docker运维常规操作)

使用docker来安装软件步骤。 1、先装好docker环境。 1.4 docker环境及部署 1.4.1 版本 Client: Docker Engine – Community version: 20.10.12 Server: Docker Engine – Community version: 20.10.12 1.4.2 部署 1.用yum拉取阿里云镜像: yum-config-manager --add-repo …

JAVA开发运维(扁鹊见齐桓公之系统运维之痛)

引言: 扁鹊见蔡桓公,立有间,扁鹊曰:“君有疾在腠理,不治将恐深。”桓侯曰:“寡人无疾。”扁鹊出,桓侯曰:“医之好治不病以为功!” 居十日,扁鹊复见&#xff0…

死磕原理!java运维工程师做什么

前言 今天中午收到我司安全部发了一封邮件:Jackson存在安全漏洞。查了一下,这件事并不算很新鲜了(已经过了5天的样子),本文来聊聊吧。 说起来还蛮戏剧化:阿里云向Jackson官方提交了一个Jackson序列化安全漏洞。众所周知,在国内关于JSON库使用有两大主要阵营:国际著名…

java项目运维手册

1、生成dump文件 jmap -dump:live,formatb,fileheap-dump-1829.bin 32171 2、查看子文件夹磁盘空间占用情况 du -sh * 3、实时监控gc情况: jstat -gcutil pid interval(ms) 4、开启jmx远程监控: 执行foo.jar启动命令 java -Dcom.sun.management.j…

java运维调优的神器Arthas---入门

Arthas Arthas是一款阿里巴巴开源的 Java 线上诊断工具,功能非常强大,可以解决很多线上不方便解决的问题 一、安装启动arthas 1.下载arthas-boot.jar 官网:https://arthas.aliyun.com/doc/quick-start.html Maven下载: com.taobao.arthas arthas-sp…

JAVA开发运维(系统上到生产环境准备工作)

一、前言 java项目在开发环境开发完成,在测试环境测试没有问题后,就需要发布到生产环境,如果系统是对公众的,那就需要很多工作了。比如服务器申请,域名申请,渗透测试,漏洞扫描,公网…

Hi,运维,你懂Java吗-No.1:初识Java

作为运维,你不一定要会写Java代码,但是一定要懂Java在生产跑起来之后的各种机制。 本文为《Hi,运维,你懂Java吗》系列文章 第一篇,敬请关注后续系列文章 欢迎关注 龙叔运维(公众号) 持续分享运…

JAVA开发运维(软件一体化可观测平台的功能)

软件可观测是软件度量的一种。旨在对软件的数字体验、业务运营、网络性能、应用性能、基础设施、IT流程进行监控和数据刻画。使开发人员和运维人员更好的对软件进行优化维护。 一、数字体验: 用户会话 了解用户使用路径,追查使用过程中影响用户体验的…

JAVA开发运维(DevOps过程)

DevOps开发运维的一套方法论。这边文章主要借鉴万达的DevOps的建设过程。谈谈DevOps主要解决那些问题和怎么解决。 DevOps的是一种IT项目开发管理方法论,它旨在提供全面的持续集成、持续交付等能力,并持在续进行过程度量和改进,不断提升 IT 运…

Java项目运维总结记录

一、常见故障 1.1、Java项目CPU耗用突增100%分析定位 1)执行top命令确认当前占用cpu的的java进程;以下是一些快捷键: ?:显示在top当中可以输入的命令 P:以CPU的使用资源排序显示 M:以内存的使用资源排序…

初级车道线检测

前言 上一期的无人驾驶技术入门,我们以障碍物的跟踪为例,介绍了卡尔曼滤波器的原理、公式和代码的编写。接下来的几期无人驾驶技术入门,我会带大家接触无人驾驶技术的另一个重要的领域——计算机视觉。 在无人驾驶技术入门(五&a…

c++ 车道线检测

利用概率霍夫变换,进行车道线的简单检测 1、首先编写一个头文件(也可以在源文件中写一个类,一样的) #ifndef LANE_H //头文件的写法格式 if not define #define LANE_H //_LANE_H_ 为头文件Lane.h的大写,防止被重复…

简述车道线检测

针对车道线检测的任务,我们需要弄清楚几个问题: 1. 车道线的表示形式? 输出类型:掩码/点集/矢量线条实例化:每个车道线是否形成实例分类:是否对车道线进行了分类(单白、双黄等)提前定…

PaddleSeg:车道线检测

向AI转型的程序员都关注了这个号👇👇👇 0.1 任务 要求参赛者利用提供的训练数据,设计一个车道线检测和分类模型,来检测测试数据中车道线的具体位置和类别。样例示范: 0.2 数据集描述 本次赛题数据集包括x张…

3D车道线检测杂记

3D车道线检测相关论文学习 单目 一、3D-LaneNet: End-to-End 3D Multiple Lane Detection-ICCV2019 0 前言 这篇文章是第一篇通过单目前视相机直接预测3D车道线的论文。 一般想得到3D车道线信息有两种途径: 一种是利用离线高精度地图以及准确的自车定位信息&a…

车道线检测-LSTR-论文学习笔记

论文:《End-to-end Lane Shape Prediction with Transformers》代码:https://github.com/liuruijin17/LSTR地址:https://arxiv.org/abs/2011.04233v2内容:使用 CNNTransformer,基于三次曲线拟合车道线 整体结构 模型输…

车道线检测学习总结

之前学习了一个非常酷炫的车道线检测项目:Advanced Lane Finding Project 现在写一个学习笔记,备注一下,方便以后复习: 项目总体流程如下: 第一步,采用棋盘对相机进行校正: 第二步,对…

2D车道线检测算法总结

关于2D车道线检测算法的总结主要分为两类:一类基于语义分割来做,一类基于anchor和关键点来做。还有基于曲线方程来做的,但是落地的话还是上面两种为主。 一、基于语义分割的车道线检测算法 1.LaneNet 论文创新点: 1.将车道线检…