手把手教你用fairseq训练一个NMT机器翻译系统

article/2025/8/26 16:40:09

以构建英-中NMT为例,在linux上运行,fairseq版本为0.8.0

环境准备

Requirements:

  • fairseq:pytorch包,包括许多网络结构,https://github.com/pytorch/fairseq
  • mosesdecoder:机器翻译的标准数据处理工具, https://github.com/moses-smt/mosesdecoder
  • subword-nmt:bpe分词工具,https://github.com/rsennrich/subword-nmt
  • jieba:中文分词工具,https://github.com/fxsjy/jieba

除了jieba,其它我习惯是下载包在本地运行

Data:
准备raw双语数据,一句一行,英中各存为三个文件,分别是训练集,验证集,测试集,如下:
在这里插入图片描述
目录结构:
在这里插入图片描述
以下的命令都是在主目录下运行

数据预处理

1.序列化处理
用MOSES对句子进行序列化处理,说白了就是在每个句子的单词和标点符号之间插入空格:

perl requirements/mosesdecoder-master/scripts/tokenizer/tokenizer.perl \
-l en < data/en-zh/train.en-zh.en > data/en-zh/train.en-zh.tok.en

类似的,英中的剩下几个文件都作同样的处理(可以观察一下处理前后文件内容的不同之处)

2.中文分词
进行分词,只有中文数据需要进行此步骤,在这里用jieba分词工具:

python -m jieba -d " " data/en-zh/train.en-zh.tok.zh > data/en-zh/temp.txt
mv data/en-zh/temp.txt  data/en-zh/train.en-zh.tok.zh  
# 和英的文件名进行统一,方便后续操作

3.bpe分词
bpe分词是更细粒度的分词,可以减少词表大小,此外对性能也有帮助。
首先用双语数据学习bpecode(这个过程时间比较长,可以用别人学习好的):

Python requirements/subword-nmt/learn_joint_bpe_and_vocab.py \
-i data/en-zh/train.en-zh.tok.en -o data/en-zh/bpecode.en --write-vocabulary data/en-zh/voc.en

然后用bpecode对数据进行bpe分词:

python requirements/subword-nmt/apply_bpe.py \
-c data/en-zh/bpecode.en < data/en-zh/train.en-zh.tok.en > data/en-zh/train.en-zh.tok.bpe.en
# 对 valid、test进行同样操作 

类似的,对中文数据进行上述的bpe分词处理

4.生成词表以及二进制数据
用fairseq提供的数据预处理脚本进行预处理,以生成词表文件和可以直接输入模型的二进制文件:

PYTHONPATH=fairseq-0.8.0 python fairseq-0.8.0/preprocess.py  \
--source-lang en--target-lang zh --workers 4 --trainpref data/en-zh/train.en-zh.tok.bpe \
--validpref data/en-zh/valid.en-zh.tok.bpe --testpref data/en-zh/test.en-zh.tok.bpe --destdir data/en-zh/data-bin 

处理完可以看到在data/en-zh/data-bin 目录下生成了词表和许多二进制文件:
在这里插入图片描述
以上就是数据预处理的过程,比较繁琐,建议用脚本完成,详情见 github

训练

数据处理完后,接下来就是训练,训练的参数实在太多了,github上脚本的参数是大家都通用的,下面列了几个常用的,具体看官方文档:

PYTHONPATH=fairseq-0.8.0 CUDA_VISIBLE_DEVICES=1 nohup python fairseq-0.8.0/train.py \
data/en-zh/data-bin  -a transformer --optimizer adam  -s en -t zh --dropout 0.3 --max-tokens 4096  \
--criterion label_smoothed_cross_entropy  --num-workers 8 --save-dir model/en-zh &

可以指定多卡,训练完成之后,会在model/en-zh下生成许多.pt的模型文件

解码

训练完成后就可以用模型文件来进行预测,称之为解码

PYTHONPATH=fairseq-0.8.0 CUDA_VISIBLE_DEVICES=1  python fairseq-0.8.0/generate.py \
data/en-zh/data-bin --path model/en-zh/checkpoint_best.pt --batch-size 128 --beam 5  > temp.txt

默认用测试集进行解码,解码得到的文件是这样的:
在这里插入图片描述
其中,
S 源语
T 目标语(答案)
H 预测的句子,H前的数字是这个句子的预测概率的log再除总长度
P 每个单词的预测概率的log,全部相加除句子总长度等于H

后处理

解码得到的文本中有bpe符号和许多的train过程中的输出信息,进行后处理提取预测文本。
首先得到所有的预测句子:

grep ^H temp.txt | cut -f3- > temp2.txt

在这里插入图片描述

然后去除bpe符号

sed -r 's/(@@ )| (@@ ?$)//g' < temp2.txt  > temp3.txt

在这里插入图片描述
可以计算一下bleu,答案是用tokenized后的文件,不是原生文件:

perl requirements/mosesdecoder-master/scripts/generic/multi-bleu.perl data/en-zh/test.en-zh.tok.zh < temp3.txt 

如果要提取纯预测文本,需要进行detokenizer:

perl requirements/mosesdecoder-master/scripts/tokenizer/detokenizer.perl -l zh < temp3.txt  > predict.txt

在这里插入图片描述
项目github


http://chatgpt.dhexx.cn/article/9s9QwUIU.shtml

相关文章

00_NMT网络管理的模块控制

目录 NMT服务 NMT错误控制 NMT 节点守护 HeartBeat Message 心跳报文 NMT Boot-up 在can网络中&#xff0c;只有主站可以发送控制信息&#xff0c;来控制从站&#xff0c;从站不需要发送对网络控制消息的响应消息。 网络管理系统负责初始化、启动及停止网络及网络中的设备…

Canopen协议 (1):网络状态管理(NMT)

工控应用中&#xff0c;常常会遇到一些设备&#xff1a;电机或者其他传感器需要通过Can 这个硬件接口来通信&#xff0c;而且往往通信协议都是走的都是Canopen协议。自己当初搞的时候对协议也是云里雾里&#xff0c;为了大家不走歪路&#xff0c;早日走上人生巅峰&#xff0c;这…

canopen学习总结(一)——NMT网络管理

[1] NMT网络管理 [1-1]概念&#xff1a; NMT到底是啥&#xff1f; 答&#xff1a;简单理解就是由一台主机来管理从机&#xff0c;主机可以控制从机的状态。 那么机器到底有哪些状态呢&#xff1f; 答&#xff1a;看下面这图&#xff0c;总共就这些状态 [1-2]命令&#xff1…

NMT

1&#xff09;刚开始时&#xff0c;在RNN的基础上引入attention&#xff0c;即将两者结合应用&#xff0c;完整解释并附上完整code。详见下链接&#xff1a; 基于RNNAttention的机器翻译 2&#xff09;接着&#xff0c;Facebook在CNN的基础上引入attention&#xff0c;参见论…

Neural Machine Translation(NMT)技术概述

在神经网络语言模型处理NLP领域&#xff0c;我做的研究一直都和文本分类相关&#xff0c;其实还有很多其他的应用领域&#xff0c;比方说&#xff1a;语言翻译、词性标注、命名实体识别等。感觉还是有必要了解一下如何用神经网络语言模型对这些应用进行建模的。因此&#xff0c…

NMT with Attention

1.数据准备 termcolor.colered 对输出进行染色&#xff0c;凸显。colored(f"tokenize(hello): ", green) from termcolor import colored import random import numpy as npimport trax from trax import layers as tl from trax.fastmath import numpy as fastnp …

CANopen通信之NMT通信

在介绍NMT通信机制之前&#xff0c;先介绍一下NMT这个通信对象的定义。在以下部分中COB-ID使用的是 CANopen 预定义连接集中已定义的缺省标志符。 1) NMT 模块控制&#xff08; NMT Module Control&#xff09; 只有 NMT-Master 节点能够传送 NMT Module Control 报文。 所有从…

NMT:神经网络机器翻译

前言 SMT是在神经网络之前最主流的翻译模式&#xff0c;统计机器翻译&#xff1b;NMT则是基于神经网络的翻译模式&#xff0c;也是当前效果最好的翻译模式。现在基于几篇paper来梳理下神经网络下的翻译模型。 NMT based RNN 1) First End-to-End RNN Trial   2014年&…

神经机器翻译(Neural machine translation, NMT)学习笔记

神经机器翻译&#xff08;Neural machine translation, NMT&#xff09;是最近提出的机器翻译方法。与传统的统计机器翻译不同&#xff0c;NMT的目标是建立一个单一的神经网络&#xff0c;可以共同调整以最大化翻译性能。最近提出的用于神经机器翻译的模型经常属于编码器-解码器…

Java本机内存跟踪NMT实战详解

JVM通常会额外分配内存。这些额外的分配&#xff0c;会导致java程序占用的内存&#xff0c;超出-Xmx的限制。让我们使用NMT查看内存的使用情况 NMT 是什么 NMT 是一种 Java Hotspot VM 功能&#xff0c;用于跟踪 HotSpot VM 的内部内存使用情况。您可以使用该jcmd实用程序访问…

fastText模型

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 目标一、fastText的模型架构1. N-gram的理解1.1 bag of word 2. fastTex模型中层次化的softmax2.1 哈夫曼树和哈夫曼编码2.1.1 哈夫曼树的定义2.1.2 哈夫曼树的相关…

fastText Python 教程

诸神缄默不语-个人CSDN博文目录 fastText Python官方GitHub文件夹网址&#xff1a;fastText/python at main facebookresearch/fastText 本文介绍fastText Python包的基本教程&#xff0c;包括安装方式和简单的使用方式。 我看gensim也有对fasttext算法的支持&#xff08;ht…

玩转Fasttext

Fasttext是Facebook AI Research最近推出的文本分类和词训练工具&#xff0c;其源码已经托管在Github上。Fasttext最大的特点是模型简单&#xff0c;只有一层的隐层以及输出层&#xff0c;因此训练速度非常快&#xff0c;在普通的CPU上可以实现分钟级别的训练&#xff0c;比深度…

FastText详解

词向量对比word2vec https://zhuanlan.zhihu.com/p/75391062 0、实战经验 word2vec vs fastText区别&#xff1f; 思想&#xff1a;将整篇文档的词及n-gram向量叠加平均得到文档向量&#xff0c;然后使用文档向量做softmax多分类。 word2vec vs fastText区别&#xff1f; …

FastText原理

一、简介 fasttext是facebook开源的一个词向量与文本分类工具&#xff0c;在2016年开源&#xff0c;典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法&#xff0c;性能比肩深度学习而且速度更快。 fastText结合了自然语言处理和机器学习中最…

Fasttext

Fasttext Paper Fasttext特点 模型简单&#xff0c;只有一层的隐层以及输出层&#xff0c;因此训练速度非常快不需要训练词向量&#xff0c;Fasttext自己会训练两个优化&#xff1a;Hierarchical Softmax、N-gram Fasttext模型架构 fastText模型架构和word2vec中的CBOW很相…

[NLP]文本分类之fastText详解

Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding 一、fastText简介 fastText是一个快速文本分类算法&#xff0c;与基于神经网络的分类算法相比有两大优点&#xff1a; 1、fastText在保持高精度的情况下加快了训练速度和测试速度 2、fastText不需要预…

FastText:高效的文本分类工具

❤️觉得内容不错的话&#xff0c;欢迎点赞收藏加关注&#x1f60a;&#x1f60a;&#x1f60a;&#xff0c;后续会继续输入更多优质内容❤️ &#x1f449;有问题欢迎大家加关注私戳或者评论&#xff08;包括但不限于NLP算法相关&#xff0c;linux学习相关&#xff0c;读研读博…

FastText的简单介绍

0、引言 FastText是facebook开源的一款集word2vec、文本分类等一体的机器学习训练工具。在之前的论文中&#xff0c;作者用FastText和char-CNN、deepCNN等主流的深度学习框架&#xff0c;在同样的公开数据集上进行对比测试&#xff0c;在保证准确率稳定的情况下&#xff0c;Fa…

快速文本分类(FastText)

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…