机器翻译-subword-nmt预处理语料

article/2025/8/26 16:38:18

在机器翻译中,目前都采用的方法是bpe切分子词的方法来处理翻译中的未登录词。

如何使用?

https://github.com/rsennrich/subword-nmt这里面已经写了详细的方法,本文主要记录我处理中英语料时的步骤。

1.共享词典

直接clone了这个项目,但是没有安装的情况下,我们使用python命令来处理。否则参考原文给出的命令处理语料。

如果我们进行翻译的双语是共享字母表的,那么我们可以为这两种语言建立一个共享词典,比如:

python subword-nmt/learn_joint_bpe_and_vocab.py --input corpus.tc.en corpus.tc.de -s 32000 -o bpe32k --write-vocabulary vocab.en vocab.de

通过上述方法我们可以得到bpe32k这个子词词表和 vocab.en,vocab.de的双语词典(里面是这两种语言的子词及其出现的频率)

接下来我们使用以下命令来对双语的语料进行subword切分处理,以下是对训练集进行处理,我们使用相同的命令来对验证集和测试集进行处理。

python subword-nmt/apply_bpe.py -c bpe32k --vocabulary vocab.en --vocabulary-threshold 50 < corpus.tc.en > corpus.bpe32k.en
python subword-nmt/apply_bpe.py -c bpe32k --vocabulary vocab.de --vocabulary-threshold 50 < corpus.tc.de > corpus.bpe32k.de

2.不共享词典

对于中英翻译,中文和英文的字母表是不共享的,所以我们需要单独处理这两类语料。

step1:生成子词词典

subword-nmt learn-joint-bpe-and-vocab -i ./train.en -s 32000 -o ./use_bpe/bpe32k.en --write-vocabulary ./use_bpe/vocab.en
subword-nmt learn-joint-bpe-and-vocab -i ./train.zh -s 32000 -o ./use_bpe/bpe32k.zh --write-vocabulary ./use_bpe/vocab.zh

step2:根据第一步生成的词典过滤双语语料

subword-nmt apply-bpe -c bpe32k.en --vocabulary vocab.en --vocabulary-threshold 50 < ../train.en > train.BPE.en
subword-nmt apply-bpe -c bpe32k.zh --vocabulary vocab.zh --vocabulary-threshold 50 < ../train.zh > train.BPE.zh
subword-nmt apply-bpe -c bpe32k.en --vocabulary vocab.en --vocabulary-threshold 50 < ../valid.en > valid.BPE.en
subword-nmt apply-bpe -c bpe32k.zh --vocabulary vocab.zh --vocabulary-threshold 50 < ../valid.zh > valid.BPE.zh
subword-nmt apply-bpe -c bpe32k.en --vocabulary vocab.en --vocabulary-threshold 50 < ../test.en > test.BPE.en
subword-nmt apply-bpe -c bpe32k.zh --vocabulary vocab.zh --vocabulary-threshold 50 < ../test.zh > test.BPE.zh

然后我们就可以使用bpe切分后的双语语料进行nmt训练了。


http://chatgpt.dhexx.cn/article/poY8VH1b.shtml

相关文章

学习CANopen --- [3] NMT报文

本文主要讲述CANopen中的NMT报文&#xff0c;即网络管理&#xff08;Network ManagemenT&#xff09;&#xff0c;该服务可以用于启动网络和监控设备。 NMT报文由NMT主机发送&#xff0c;对从机进行启动、监控和重启&#xff0c;在CANopen网络中只允许有一个活动的NMT主机。如…

论文引介 | NMT with Conditional Sequence Generative Adversarial Nets

文章原名&#xff1a;Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets 作者&#xff1a;Zhen Yang, Wei Chen, Feng Wang and Bo Xu 单位&#xff1a;Institute of Automation, Chinese Academy of Sciences 译者&#xff1a;韩旭…

NMT对抗训练的三部曲

来自&#xff1a;天宏NLP 进NLP群—>加入NLP交流群 本文主要介绍NMT模型鲁棒性的相关改进工作&#xff0c;介绍一下对抗训练的三部曲&#xff0c;一作皆是ChengYong&#xff0c;分别中了2018&#xff0c;2019和2020的ACL。 第一项工作为 Towards Robust Neural Machine Tran…

手把手教你用fairseq训练一个NMT机器翻译系统

以构建英-中NMT为例&#xff0c;在linux上运行&#xff0c;fairseq版本为0.8.0 环境准备 Requirements&#xff1a; fairseq&#xff1a;pytorch包&#xff0c;包括许多网络结构&#xff0c;https://github.com/pytorch/fairseqmosesdecoder&#xff1a;机器翻译的标准数据处…

00_NMT网络管理的模块控制

目录 NMT服务 NMT错误控制 NMT 节点守护 HeartBeat Message 心跳报文 NMT Boot-up 在can网络中&#xff0c;只有主站可以发送控制信息&#xff0c;来控制从站&#xff0c;从站不需要发送对网络控制消息的响应消息。 网络管理系统负责初始化、启动及停止网络及网络中的设备…

Canopen协议 (1):网络状态管理(NMT)

工控应用中&#xff0c;常常会遇到一些设备&#xff1a;电机或者其他传感器需要通过Can 这个硬件接口来通信&#xff0c;而且往往通信协议都是走的都是Canopen协议。自己当初搞的时候对协议也是云里雾里&#xff0c;为了大家不走歪路&#xff0c;早日走上人生巅峰&#xff0c;这…

canopen学习总结(一)——NMT网络管理

[1] NMT网络管理 [1-1]概念&#xff1a; NMT到底是啥&#xff1f; 答&#xff1a;简单理解就是由一台主机来管理从机&#xff0c;主机可以控制从机的状态。 那么机器到底有哪些状态呢&#xff1f; 答&#xff1a;看下面这图&#xff0c;总共就这些状态 [1-2]命令&#xff1…

NMT

1&#xff09;刚开始时&#xff0c;在RNN的基础上引入attention&#xff0c;即将两者结合应用&#xff0c;完整解释并附上完整code。详见下链接&#xff1a; 基于RNNAttention的机器翻译 2&#xff09;接着&#xff0c;Facebook在CNN的基础上引入attention&#xff0c;参见论…

Neural Machine Translation(NMT)技术概述

在神经网络语言模型处理NLP领域&#xff0c;我做的研究一直都和文本分类相关&#xff0c;其实还有很多其他的应用领域&#xff0c;比方说&#xff1a;语言翻译、词性标注、命名实体识别等。感觉还是有必要了解一下如何用神经网络语言模型对这些应用进行建模的。因此&#xff0c…

NMT with Attention

1.数据准备 termcolor.colered 对输出进行染色&#xff0c;凸显。colored(f"tokenize(hello): ", green) from termcolor import colored import random import numpy as npimport trax from trax import layers as tl from trax.fastmath import numpy as fastnp …

CANopen通信之NMT通信

在介绍NMT通信机制之前&#xff0c;先介绍一下NMT这个通信对象的定义。在以下部分中COB-ID使用的是 CANopen 预定义连接集中已定义的缺省标志符。 1) NMT 模块控制&#xff08; NMT Module Control&#xff09; 只有 NMT-Master 节点能够传送 NMT Module Control 报文。 所有从…

NMT:神经网络机器翻译

前言 SMT是在神经网络之前最主流的翻译模式&#xff0c;统计机器翻译&#xff1b;NMT则是基于神经网络的翻译模式&#xff0c;也是当前效果最好的翻译模式。现在基于几篇paper来梳理下神经网络下的翻译模型。 NMT based RNN 1) First End-to-End RNN Trial   2014年&…

神经机器翻译(Neural machine translation, NMT)学习笔记

神经机器翻译&#xff08;Neural machine translation, NMT&#xff09;是最近提出的机器翻译方法。与传统的统计机器翻译不同&#xff0c;NMT的目标是建立一个单一的神经网络&#xff0c;可以共同调整以最大化翻译性能。最近提出的用于神经机器翻译的模型经常属于编码器-解码器…

Java本机内存跟踪NMT实战详解

JVM通常会额外分配内存。这些额外的分配&#xff0c;会导致java程序占用的内存&#xff0c;超出-Xmx的限制。让我们使用NMT查看内存的使用情况 NMT 是什么 NMT 是一种 Java Hotspot VM 功能&#xff0c;用于跟踪 HotSpot VM 的内部内存使用情况。您可以使用该jcmd实用程序访问…

fastText模型

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 目标一、fastText的模型架构1. N-gram的理解1.1 bag of word 2. fastTex模型中层次化的softmax2.1 哈夫曼树和哈夫曼编码2.1.1 哈夫曼树的定义2.1.2 哈夫曼树的相关…

fastText Python 教程

诸神缄默不语-个人CSDN博文目录 fastText Python官方GitHub文件夹网址&#xff1a;fastText/python at main facebookresearch/fastText 本文介绍fastText Python包的基本教程&#xff0c;包括安装方式和简单的使用方式。 我看gensim也有对fasttext算法的支持&#xff08;ht…

玩转Fasttext

Fasttext是Facebook AI Research最近推出的文本分类和词训练工具&#xff0c;其源码已经托管在Github上。Fasttext最大的特点是模型简单&#xff0c;只有一层的隐层以及输出层&#xff0c;因此训练速度非常快&#xff0c;在普通的CPU上可以实现分钟级别的训练&#xff0c;比深度…

FastText详解

词向量对比word2vec https://zhuanlan.zhihu.com/p/75391062 0、实战经验 word2vec vs fastText区别&#xff1f; 思想&#xff1a;将整篇文档的词及n-gram向量叠加平均得到文档向量&#xff0c;然后使用文档向量做softmax多分类。 word2vec vs fastText区别&#xff1f; …

FastText原理

一、简介 fasttext是facebook开源的一个词向量与文本分类工具&#xff0c;在2016年开源&#xff0c;典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法&#xff0c;性能比肩深度学习而且速度更快。 fastText结合了自然语言处理和机器学习中最…

Fasttext

Fasttext Paper Fasttext特点 模型简单&#xff0c;只有一层的隐层以及输出层&#xff0c;因此训练速度非常快不需要训练词向量&#xff0c;Fasttext自己会训练两个优化&#xff1a;Hierarchical Softmax、N-gram Fasttext模型架构 fastText模型架构和word2vec中的CBOW很相…