attention模型

attention模型

article/2025/10/14 22:49:57

以机器翻译为例说明：
普通的RNN机器翻译模型:
在这里插入图片描述
次结构弱点在于当target句子太长时，前面encoder学习到的embedding vector(红边框)可能会被后面的decoder遗忘。因此改进版本如下:

这样，每次在输入target的word的时候，除了可以看到上一个word,还可以看到最开始encoder学习到的embedding vector.

但是次结构的问题有：

只用一个emebdding vector代替一整个sequence, 可能最开始读入encoder的word最后算embedding vector的时候被遗忘。即：如果输入的sequence很复杂，就不能使用一个vector来描述输入sequence.
每次输入decoder的东西都是一样的,得到的结果也不会太好。

在机器翻译的时候，输出的一个target的word很大程度上来源于输入sequence中的某一个或者几个word，而不是真个句子。如下:

在这里插入图片描述

这就是attention模型的来历。即计算输出中的某个word与输入的所有word之间的相似度，最后将相似度加权求和。计算过程如下:

在这里插入图片描述

$\alpha_0^1$ 有初始状态 $z^0$ 和 $h^1$ 计算得到。

然后用 $z^0$ 和每个输入计算matching score:

在这里插入图片描述

然后计算 $z_0$ 与输入的attention score
在这里插入图片描述

得到输出 $z^1$
在这里插入图片描述

接下来计算下个matching score $c^1$ :
在这里插入图片描述

然后一直重复下去。

图片来源于李宏毅课程。

http://chatgpt.dhexx.cn/article/kWrIuDFN.shtml

相关文章

【深度学习】Self-Attention 原理与代码实现

【深度学习】Self-Attention 原理与代码实现

1.Self-Attention 结构在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中，Self-Attention 接收的是输入(单词的表示向量x组成的矩阵X) 或者上一个 Encoder block 的输出。而Q,K,V正是通过 Self-Attention 的输入进行线性变换得到的。 2. Q, K, V 的计算 S…

阅读更多...

Self -Attention、Multi-Head Attention、Cross-Attention

Self -Attention、Multi-Head Attention、Cross-Attention

Self -Attention Transformer结构图上图是论文中 Transformer 的内部结构图，左侧为 Encoder block，右侧为 Decoder block。红色圈中的部分为 Multi-Head Attention，是由多个 Self-Attention组成的，可以看到 Encoder block 包含一…

阅读更多...

$Attention Rollout$

Attention Rollout

问题陈述从图1a中的原始attention可以看出，只有在最开始的几层，不同位置的attention模式有一些区别，但是更高层中的attention权重更加一致。这表示随着模型层数的增加，嵌入的内容变得更加情境化，可能都带有类似的信息…

阅读更多...

Attention可视化

Attention可视化

Attention matrix： https://github.com/rockingdingo/deepnlp/blob/r0.1.6/deepnlp/textsum/eval.py plot_attention(data, X_labelNone, Y_labelNone)函数 #!/usr/bin/python # -*- coding:utf-8 -*-""" Evaluation Method for summarization tas…

阅读更多...

Attention机制

Attention机制

文章目录一、Attention机制是什么？二、推荐论文与链接三、self-attention 一、Attention机制是什么？ Attention机制最早在视觉领域提出，九几年就被提出来的思想，真正火起来应该算是2014年Google Mind发表了《Recurrent Models o…

阅读更多...

Attention详解

Attention详解

1.背景知识 Seq2Seq模型：使用两个RNN，一个作为编码器，一个作为解码器。编码器：将输入数据编码成一个特征向量。解码器：将特征向量解码成预测结果。缺点：只将编码器的最后一个节点的结果进行了输出&am…

阅读更多...

浅析NLP中的Attention技术

浅析NLP中的Attention技术

Attention（注意力机制）在NLP、图像领域被广泛采用，其显而易见的优点包括： （1）从context中捕捉关键信息； （2）良好的可视性和可解释性。我们常用QKV模型来理解Attention&…

阅读更多...

Attention 机制

Attention 机制

文章目录 Attention 的本质是什么Attention 的3大优点Attention 的原理Attention 的 N 种类型转载来源：https://easyai.tech/ai-definition/attention/ Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。 Attention 到底有什么特别之处&#xff1f…

阅读更多...

详解Transformer中Self-Attention以及Multi-Head Attention

详解Transformer中Self-Attention以及Multi-Head Attention

原文名称：Attention Is All You Need 原文链接：https://arxiv.org/abs/1706.03762 如果不想看文章的可以看下我在b站上录的视频：https://b23.tv/gucpvt 最近Transformer在CV领域很火，Transformer是2017年Google在Computation an…

阅读更多...

Attention 一综述

Attention 一综述

近年来，注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的深入研究，各式各样的attention被研究者们提出，如单个、多个、交互式等等。去年6月，google机器翻译…

阅读更多...

从Attention到Bert——1 Attention解读

从Attention到Bert——1 Attention解读

下一篇从Attention到Bert——2 transformer解读文章目录 1 Attention的发展历史2015-2017年 2 Attention的原理3 Multi-Head Attention4 Self-Attention为什么需要self-attention什么是self-attention 5 Position Embedding 最早，attention诞生于CV领域&#xff0…

阅读更多...

Attention UNet

Attention UNet

Attention UNet论文解析 - 知乎Attention UNet论文地址： https://arxiv.org/pdf/1804.03999.pdf 代码地址： https://github.com/ozan-oktay/Attention-Gated-NetworksAttention UNet在UNet中引入注意力机制，在对编码器每个分辨率上的特征与解…

阅读更多...

attention

attention

文章目录 Attention基本的Attention原理参考 Hierarchical Attention原理实践参考 Self Attentionother Attention Attention Attention是一种机制，可以应用到许多不同的模型中，像CNN、RNN、seq2seq等。Attention通过权重给模型赋予了区分辨别的能力&am…

阅读更多...

史上最小白之Attention详解

史上最小白之Attention详解

1.前言在自然语言处理领域，近几年最火的是什么？是BERT！谷歌团队2018提出的用于生成词向量的BERT算法在NLP的11项任务中取得了非常出色的效果，堪称2018年深度学习领域最振奋人心的消息。而BERT算法又是基于Transformer&#xff0…

阅读更多...

一文看懂 Attention（本质原理+3大优点+5大类型）

一文看懂 Attention（本质原理+3大优点+5大类型）

Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。 Attention 到底有什么特别之处？他的原理和本质是什么？Attention都有哪些类型？本文将详细讲解Attention的方方面面。 Attention 的本质是什么 Attention（注意力&a…

阅读更多...

史上最直白之Attention详解（原理+代码）

史上最直白之Attention详解（原理+代码）

目录为什么要了解Attention机制Attention 的直观理解图解深度学习中的Attention机制总结为什么要了解Attention机制在自然语言处理领域，近几年最火的是什么？是BERT！谷歌团队2018提出的用于生成词向量的BERT算法在NLP的11项任务中取得了非常…

阅读更多...

关于Attention的超详细讲解

关于Attention的超详细讲解

文章目录一、动物的视觉注意力二、快速理解Attention思想三、从Encoder-Decoder框架中理解为什么要有Attention机制四、Attention思想步骤五、Self-Attention5.1 Self-Attention的计算步骤5.2 根据代码进一步理解Q、K、V5.3 再来一个例子理解六、缩放点积中为什么要除以根号d…

阅读更多...

hanj 36

hanj 36

阅读更多...

hanj15

hanj15

阅读更多...

浅聊古代————汉朝

浅聊古代————汉朝

文章目录西汉西汉建立：汉高祖刘邦西汉灭亡：王莽篡汉新朝建立：王莽篡汉改新新朝灭亡：绿林赤眉起义东汉东汉建立：起义军刘秀东汉灭亡：曹丕篡汉西汉西汉建立：汉高祖刘邦刘邦被项羽封为汉王。…

阅读更多...

推荐文章