使用NMT和pmap解决JVM资源泄漏问题

article/2025/8/26 9:58:51

NMT

NMT是Native Memory Tracking的缩写,一个JDK自带的小工具,用来跟踪JVM本地内存分配情况(本地内存指的是non-heap,例如JVM在运行时需要分配一些辅助数据结构用于自身的运行)。
NMT功能默认关闭,可以在Java程序启动参数中加入以下参数来开启:
-XX:NativeMemoryTracking=[summary | detail]
其中,“summary”和“deatil”的差别主要在输出信息的详细程度。
开启NMT功能后,就可以使用JDK提供的jcmd命令来读取NMT采集的数据了,具体命令如下:
jcmd <pid> VM.native_memory [summary | detail | baseline | summary.diff | detail.diff | shutdown]
NMT参数的含义可以通过“jcmd <pid> help VM.native_memory”命令查询。通过NMT工具,我们可以快速区分内存泄露是否源自JVM分配。

pmap

对于非JVM分配的内存,经常需要用到pmap这个工具了,这是一个linux系统自带工具,能够从系统层面输出目标进程内存使用的详细情况,用法非常简单:
pmap [参数] <pid>
常用的选项是“-x”或“-X”,都是用来控制输出信息的详细程度。

这个也可以通过 cat /proc/[pid]/smaps获取
上图是pmap部分输出信息,每列含义为

Address每段内存空间起始地址
Kbytes每段内存空间大小(单位KB)
RSS每段内存空间实际使用内存大小(单位KB)
Dirty每段内存空间脏页大小(单位KB)
Mode每段内存空间权限属性
Mapping可以映射到文件,也可以是“anon”表示匿名内存段,还有一些特殊名字如“stack”

现象:

某业务集群中,多个节点出现业务进程内存消耗缓慢增长现象,以其中一个节点为例:

cat /proc/[pid]/status |grep VmPeak -A 14
如图所示,这个业务进程当前占用了4.7G的虚拟内存空间,以及2.2G的物理内存。已知正常状态下该业务进程的物理内存占用量不超过1G。

分析:

使用命令“jcmd <pid> VM.native_memory detail”可以看到所有受JVM监控的内存分布情况:

上图只是截取了nmt(Native Memory Tracking)命令展示的概览信息,这个业务进程占用的2.2G物理内存中,受JVM监控的大概只占了0.7G(上图中的committed),意味着有1.5G物理内存不受JVM管控。JVM可以监控到Java堆、元空间、CodeCache、直接内存等区域,但无法监控到那些由JVM之外的Native Code申请的内存,例如典型的场景是,一个第三方so库中调用malloc了一片内存的行为就无法被JVM感知到。
nmt除了会展示概览之外,还会详细罗列每一片受JVM监控的内存,包括其地址,将这些JVM监控到的内存布局跟用pmap得到的完整的进程内存布局做一个对比筛查,这里忽略nmt和pmap(下图pmap命令中25600是进程号)详细内存地址的信息,直接给出最可疑的那块内存:

由图可知,这片1.7G左右的内存区域属于系统层面的堆区。
备注:这片系统堆区之所以稍大于上面计算得到的差值,原因大概是nmt中显示的committed内存并不对应真正占用的物理内存(linux使用Lazy策略管理进程内存),实际通常会稍小。

系统堆区主要就是由libc库接口malloc申请的内存组合而成,所以接下来就是去跟踪业务进程中的每次malloc调用,上GDB:


实际上会有大量的干扰项,这些干扰项一方面来自JVM内部,比如:


这部分干扰项很容易被排除,凡是调用栈中存在“os::malloc”这个栈帧的干扰项就可以直接忽视,因为这些malloc行为都会被nmt监控到,而上面已经排除了受JVM监控内存泄漏的可能。
另一部分干扰项则来自JDK,比如:


有如上图所示,不少JDK的本地方法中直接或间接调用了malloc,这部分malloc行为通常是不受JVM监控的,所以需要根据具体情况逐个排查,还是以上图为例,排查过程如下:

注意图中临时中断的值(0x0000ffff5fc55d00)来自于第一个中断b malloc中断发生后的结果。
这里稍微解释一下上面GDB在做的排查过程,就是检查malloc返回的内存地址后续是否有通过free释放(通过tb free if $x0 ==$X3这个命令,具体用法可以参考gdb调试),显然在这个例子中是有释放的。
通过这种排查方式,几经筛选,最终找到了一个可疑的malloc场景:


从调用栈信息可以知道,这是一个JDK中的本地方法sun.nio.fs.UnixNativeDispatcher.opendir0,作用是打开一个目录,但后续始终没有进行关闭操作。进一步分析可知,该可疑opendir操作会周期性执行,而且都是操作同一个目录“/xxx/nginx/etc/nginx/conf”,看来,是有个业务线程在定时访问nginx的配置目录,每次访问完却没有关闭打开的目录。
分析到这里,其实这个问题已经差不多水落石出。跟业务方确认,存在一个定时器线程在周期性读取nginx的配置文件,代码大概是这样子的:

翻了一下相关JDK源码,Files.list方法是有在末尾注册一个关闭钩子的:

也就是说,Files.list方法返回的目录资源是需要手动释放的,否则就会发生资源泄漏。
由于这个目录资源底层是会关联一个fd的,所以泄漏问题还可以通过另一个地方进行佐证:

该业务进程目前已经消耗了51116个fd!
假设这些fd都是opendir关联的,每个opendir消耗32K,则总共消耗1.6G,显然可以跟上面泄漏的内存值基本对上。

总结:

稍微了解了一下,发现几乎没人知道JDK方法Files.list是需要关闭的,这个案例算是给大家都提了个醒。

为了研究透Linux和JVM 的内存结构,写了一个小程序,如下

public class MemoryTest {private static final byte[] array = new byte[1024*1024];private static final long size = 1024*1024*10 ;public static void main(String[] args) {File file = new File("/webapp/test/mmap.buf");try {RandomAccessFile randomAccessFile = new RandomAccessFile(file,"rw");MappedByteBuffer mappedByteBuffer = randomAccessFile.getChannel().map(FileChannel.MapMode.READ_WRITE,0,1024*1024*10);long count = size/1024/4;for(int i = 0 ;i< count;i+=(1024*4)){mappedByteBuffer.put(i,(byte)0);}System.out.println("this is array size :"+array.length);} catch (Exception e) {throw new RuntimeException(e);}ThreadPoolUtils.getThreadPool().execute(()->{System.out.println("start  execute task.");int i = 0 ;while(true){System.out.println("this is "+i+" times");try {Thread.sleep(60*1000);} catch (InterruptedException e) {e.printStackTrace();}}});System.out.println("main method is complete.");}}

分别运行jmap -heap , jstack -l , jcmd   VM.native_memory detail ,pmap -X  pid ,cat /proc/pid/smaps, 以及cat /proc/[pid]/status |grep VmPeak -A 14  分别得到以下文件:

下载链接:https://download.csdn.net/download/dw147258dw/85726190


http://chatgpt.dhexx.cn/article/lIPK51lB.shtml

相关文章

机器翻译-subword-nmt预处理语料

在机器翻译中&#xff0c;目前都采用的方法是bpe切分子词的方法来处理翻译中的未登录词。 如何使用&#xff1f; https://github.com/rsennrich/subword-nmt这里面已经写了详细的方法&#xff0c;本文主要记录我处理中英语料时的步骤。 1.共享词典 直接clone了这个项目&…

学习CANopen --- [3] NMT报文

本文主要讲述CANopen中的NMT报文&#xff0c;即网络管理&#xff08;Network ManagemenT&#xff09;&#xff0c;该服务可以用于启动网络和监控设备。 NMT报文由NMT主机发送&#xff0c;对从机进行启动、监控和重启&#xff0c;在CANopen网络中只允许有一个活动的NMT主机。如…

论文引介 | NMT with Conditional Sequence Generative Adversarial Nets

文章原名&#xff1a;Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets 作者&#xff1a;Zhen Yang, Wei Chen, Feng Wang and Bo Xu 单位&#xff1a;Institute of Automation, Chinese Academy of Sciences 译者&#xff1a;韩旭…

NMT对抗训练的三部曲

来自&#xff1a;天宏NLP 进NLP群—>加入NLP交流群 本文主要介绍NMT模型鲁棒性的相关改进工作&#xff0c;介绍一下对抗训练的三部曲&#xff0c;一作皆是ChengYong&#xff0c;分别中了2018&#xff0c;2019和2020的ACL。 第一项工作为 Towards Robust Neural Machine Tran…

手把手教你用fairseq训练一个NMT机器翻译系统

以构建英-中NMT为例&#xff0c;在linux上运行&#xff0c;fairseq版本为0.8.0 环境准备 Requirements&#xff1a; fairseq&#xff1a;pytorch包&#xff0c;包括许多网络结构&#xff0c;https://github.com/pytorch/fairseqmosesdecoder&#xff1a;机器翻译的标准数据处…

00_NMT网络管理的模块控制

目录 NMT服务 NMT错误控制 NMT 节点守护 HeartBeat Message 心跳报文 NMT Boot-up 在can网络中&#xff0c;只有主站可以发送控制信息&#xff0c;来控制从站&#xff0c;从站不需要发送对网络控制消息的响应消息。 网络管理系统负责初始化、启动及停止网络及网络中的设备…

Canopen协议 (1):网络状态管理(NMT)

工控应用中&#xff0c;常常会遇到一些设备&#xff1a;电机或者其他传感器需要通过Can 这个硬件接口来通信&#xff0c;而且往往通信协议都是走的都是Canopen协议。自己当初搞的时候对协议也是云里雾里&#xff0c;为了大家不走歪路&#xff0c;早日走上人生巅峰&#xff0c;这…

canopen学习总结(一)——NMT网络管理

[1] NMT网络管理 [1-1]概念&#xff1a; NMT到底是啥&#xff1f; 答&#xff1a;简单理解就是由一台主机来管理从机&#xff0c;主机可以控制从机的状态。 那么机器到底有哪些状态呢&#xff1f; 答&#xff1a;看下面这图&#xff0c;总共就这些状态 [1-2]命令&#xff1…

NMT

1&#xff09;刚开始时&#xff0c;在RNN的基础上引入attention&#xff0c;即将两者结合应用&#xff0c;完整解释并附上完整code。详见下链接&#xff1a; 基于RNNAttention的机器翻译 2&#xff09;接着&#xff0c;Facebook在CNN的基础上引入attention&#xff0c;参见论…

Neural Machine Translation(NMT)技术概述

在神经网络语言模型处理NLP领域&#xff0c;我做的研究一直都和文本分类相关&#xff0c;其实还有很多其他的应用领域&#xff0c;比方说&#xff1a;语言翻译、词性标注、命名实体识别等。感觉还是有必要了解一下如何用神经网络语言模型对这些应用进行建模的。因此&#xff0c…

NMT with Attention

1.数据准备 termcolor.colered 对输出进行染色&#xff0c;凸显。colored(f"tokenize(hello): ", green) from termcolor import colored import random import numpy as npimport trax from trax import layers as tl from trax.fastmath import numpy as fastnp …

CANopen通信之NMT通信

在介绍NMT通信机制之前&#xff0c;先介绍一下NMT这个通信对象的定义。在以下部分中COB-ID使用的是 CANopen 预定义连接集中已定义的缺省标志符。 1) NMT 模块控制&#xff08; NMT Module Control&#xff09; 只有 NMT-Master 节点能够传送 NMT Module Control 报文。 所有从…

NMT:神经网络机器翻译

前言 SMT是在神经网络之前最主流的翻译模式&#xff0c;统计机器翻译&#xff1b;NMT则是基于神经网络的翻译模式&#xff0c;也是当前效果最好的翻译模式。现在基于几篇paper来梳理下神经网络下的翻译模型。 NMT based RNN 1) First End-to-End RNN Trial   2014年&…

神经机器翻译(Neural machine translation, NMT)学习笔记

神经机器翻译&#xff08;Neural machine translation, NMT&#xff09;是最近提出的机器翻译方法。与传统的统计机器翻译不同&#xff0c;NMT的目标是建立一个单一的神经网络&#xff0c;可以共同调整以最大化翻译性能。最近提出的用于神经机器翻译的模型经常属于编码器-解码器…

Java本机内存跟踪NMT实战详解

JVM通常会额外分配内存。这些额外的分配&#xff0c;会导致java程序占用的内存&#xff0c;超出-Xmx的限制。让我们使用NMT查看内存的使用情况 NMT 是什么 NMT 是一种 Java Hotspot VM 功能&#xff0c;用于跟踪 HotSpot VM 的内部内存使用情况。您可以使用该jcmd实用程序访问…

fastText模型

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 目标一、fastText的模型架构1. N-gram的理解1.1 bag of word 2. fastTex模型中层次化的softmax2.1 哈夫曼树和哈夫曼编码2.1.1 哈夫曼树的定义2.1.2 哈夫曼树的相关…

fastText Python 教程

诸神缄默不语-个人CSDN博文目录 fastText Python官方GitHub文件夹网址&#xff1a;fastText/python at main facebookresearch/fastText 本文介绍fastText Python包的基本教程&#xff0c;包括安装方式和简单的使用方式。 我看gensim也有对fasttext算法的支持&#xff08;ht…

玩转Fasttext

Fasttext是Facebook AI Research最近推出的文本分类和词训练工具&#xff0c;其源码已经托管在Github上。Fasttext最大的特点是模型简单&#xff0c;只有一层的隐层以及输出层&#xff0c;因此训练速度非常快&#xff0c;在普通的CPU上可以实现分钟级别的训练&#xff0c;比深度…

FastText详解

词向量对比word2vec https://zhuanlan.zhihu.com/p/75391062 0、实战经验 word2vec vs fastText区别&#xff1f; 思想&#xff1a;将整篇文档的词及n-gram向量叠加平均得到文档向量&#xff0c;然后使用文档向量做softmax多分类。 word2vec vs fastText区别&#xff1f; …

FastText原理

一、简介 fasttext是facebook开源的一个词向量与文本分类工具&#xff0c;在2016年开源&#xff0c;典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法&#xff0c;性能比肩深度学习而且速度更快。 fastText结合了自然语言处理和机器学习中最…