词向量与语言模型

article/2025/9/21 16:54:15

本篇博客是对于

https://www.cnblogs.com/nickchen121/p/15105048.html#%E7%AC%AC%E4%B8%80%E7%AF%87-transformergptbert%E9%A2%84%E8%AE%AD%E7%BB%83%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%89%8D%E4%B8%96%E4%BB%8A%E7%94%9F%E7%90%86%E8%AE%BA

的归纳
先来了解一下什么是预训练
预训练的概念开始存在于图片领域
在这里插入图片描述
如果有一个比较大的模型,训练了各式各样的图片,他的约浅层拥有一个越通用的特征。而深层拥有比较特殊的特征。浅层的特征可以通用,深层的特征不能通用。
在这里插入图片描述
因此诞生了两种使用这种浅层参数的方法,分别是

  • 冻结(少用):深层参数随机初始化,浅层参数不变
  • 微调(主用):深层参数随机初始化,浅层参数参与训练,会发生改变

语言模型

其实bert gpt,本质上是一个语言模型。只不过他们是基于深度学习的语言模型。那么要了解bert、gpt基于深度学习的语言模型,那么你就要先了解什么是语言模型。
语言模型是一个计算成句概率的模型。他主要由两个作用

  1. 预测下一个词
  2. 判断成句概率
    例子:判断一个词的词性
    分词后变成 判断 一个 词 的 词性
    预测下一个词
    首先要明白什么是概率论中的链式法则
    P(w1w2) = P(w1) * P(w1|w2)
    P(w1w2w3…wn) = P(w1)*P(w1|w2)*P(w3|w1w2)
    这就是语言模型
    所以 判断 一个 词 的 词性
    概率大于 判断 一个 词 的 火星
    因为P(abcde)比较大
    如果是判断成句概率同理
    P(w1w2w3…wn)也比较大

但是最如果用全元模型,计算计算量太大了。因此考虑用n元模型

语言模型,统计语言模型了解之后,再来了解一下什么是
神经网络语言模型
在这里插入图片描述
输入的第一层是一个one-hot编码,我们假设它是1 * 7 (有七个字)
里面的输入矩阵为 7 * 7,那么隐藏层,1 * 7,汇集了这些信息之后,最后输出的矩阵为1 * 7的矩阵。表示为这七个字中,谁有可能出现在下一个词

在这里插入图片描述
这个词向量表示,岂不是可以把一个一个词表示的更加精确?

由此但是了Word2Vec这个研究
Word2Vec分为
CBOW
Skip-gram
在这里插入图片描述
注意他们的核心思想是得到这个Q矩阵,
假设one-hot是c
c * Q = W(词向量矩阵)
他的核心不是想去处理得到一个任务。他的核心是想更加精确的表示一个词。
CBOW是通过一上下文去预测一个词(和Bert的思想就很接近了)
Skip是同一过一个词去预测上下文
那么这种Word Embedding算的上是一种预训练模型吗?
怎么不算,在每一个下游任务之前,是不是要先把词语转化成词向量,用词向量表示一个词。那么,那么是不是可以通过这个Q矩阵去做这个事情


http://chatgpt.dhexx.cn/article/TdsYtNI5.shtml

相关文章

利用word2vec训练词向量

利用word2vec训练词向量 这里的代码是在pycharm上运行的,文件列表如下: 一、数据预处理 我选用的数据集是新闻数据集一共有五千条新闻数据,一共有四个维度 数据集:https://pan.baidu.com/s/1ewzlU_tBnuwZQxVOKO8ZiA 提取码: …

词向量(WordVector)

词向量(WordVector) 时间: 2015-06-12 22:01:12 阅读: 2120 评论: 0 收藏: 0 [点我收藏] 标签: Reference:http://licstar.net/archives/328 (比较综合的词向量研究现状分…

词向量表示方法及其语义相关性

关键字: 文档 句子 词语 单词 上下文单词 上下文窗口 向量 相似性 类比性 欧几距离 余弦距离 余弦相似度 相似度阀值 归于此类 创建新的类别 词向量 --- word2vec、glove 相似度 --- 欧几距离、余弦距离 聚类 --- kmeans 、词向量 是指将词转化成为稠密向量&…

词向量表示和句向量、文章向量计算方法

本文介绍一种计算句向量和文章向量的方法及参考代码,自然语言处理的第一步即是要进行文本的向量化,包括获得词向量,句向量或者文章向量,以便输入各种机器学习模型或者深度学习模型。 词向量 可以笼统的认为词向量是文本向量的基…

词袋模型和词向量模型

在自然语言处理和文本分析的问题中,词袋(Bag of Words, BOW)和词向量(Word Embedding)是两种最常用的模型。更准确地说,词向量只能表征单个词,如果要表示文本,需要做一些额外的处理。…

中文词向量的训练

最近在做毕设,需要对中文进行向量化表示,现有的最全中文词向量预训练向量有:最全中文词向量 part 1:以上链接中的词向量介绍: 格式 预先训练好的向量文件是文本格式。每行包含一个单词和它的向量。每个值由空格分隔。第一行记录…

如何训练一个词向量

现在在NLP领域,词向量是一切自然语言处理的基础,有了词向量我们就可以进行数据分析,文本聚类分类的一系列操作了。接下来我们就开始学习如何训练词向量,之前我们有介绍关于 word2vec 的博文 word2vec算法理解和数学推导&#xff0…

词向量训练

词向量训练 一、 实验目的 掌握课堂所讲词向量的基本概念和训练方法。加强对pytorch、tensorflow等深度学习框架的使用能力。 二、 实验要求 任选课上讲的一种词向量模型进行实现即可,如是其他模型则请写明模型结构,作业压缩文件中也提供给大家相关的…

语言模型+词向量

文章目录 统计语言模型神经语言模型词向量(浅层) 统计语言模型 语言模型基本概念 弗莱德里克贾里尼克提出用数学的方法描述语言规律(语言模型) 语言模型基本思想: 用句子 S w 1 , w 2 , . . . , w n Sw_{1},w_{2},..…

学习笔记:深度学习(5)——词向量的相关概念

学习时间:2022.04.21 自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机…

深度学习之词向量

一、词向量 自上世纪90年代开始,特征空间模型就应用于分布式语言理解中,在当时许多模型用连续性的表征来表示词语,包括潜在语义分析LSA、隐含狄利克雷分布LDA主题模型。Bengio et al.在2003年首先提出了词向量的概念,当时是将其与…

自然语言处理——使用词向量(腾讯词向量)

向量化是使用一套统一的标准打分,比如填写表格:年龄、性别、性格、学历、经验、资产列表,并逐项打分,分数范围[-1,1],用一套分值代表一个人,就叫作向量化,虽然不能代表全部,但至少是…

词向量Word2Vec(深度细致分析)

本文以博客园刘建平Pinard对于word2vec的解释为基础,同时参考了其他相关博客的分析并加入了自己的理解,希望站在巨人的肩膀上进行一定的学习输出。至于本片文章的属性,个人认为是伪原创吧,有需要的同学可以自行转到相应的链接。 w…

一、词向量模型

因为计算机不能理解词语,所以我们需要用词向量表示一个词。 词向量有一个发展历程:从one-hot到word embedding。 1 one-hot 设词典的大小为n(词典中有n个词),假如某个词在词典中的位置为k,则设立一个n维向…

词向量算法

https://www.cnblogs.com/the-wolf-sky/articles/10192363.html https://blog.csdn.net/weixin_37947156/article/details/83146141 基于神经网络的表示一般称为词向量、词嵌入(word embdding)或分布式表示。 神经网络的词向量和其他分布式类似,都基于分布式表达…

词向量(Word Embedding)

一、词的表示 在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hot representation和distribution representation。简而言之,词向量技术是将词转化成为稠密向量,并且对于相似的词&…

二、词向量

目录 一、什么是词向量 二、词向量的离散表示 1、one-hot编码 2、 Bag of Words表示 3、TF-IDF表示 4、 Bi-gram和N-gram 5、离散表示的问题: 三、词的分布式表示(Distributed representation) 1、Skip-Gram模型 2、代码 一、什么是…

【NLP】词向量

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

第四章(1):词向量定义与意义

第四章(1):词向量定义与意义 目录 第四章(1):词向量定义与意义前言1. 词的表示1.1 离散表示1.1.1 One-Hot独热编码1.1.2 ngram特征表示1.2 分布式表示2. 意义前言 在自然语言处理的领域中,每个单词都可以被表示为一个向量,这些向量叫做“词向量”。换句话说,每个单词…

什么是词向量?(NPL入门)

什么是词向量? 我们组实训选择的主题是与自然语言识别相关的,那么就不得不学习和了解一下自然语言识别中非常重要和基础的。于是我对于自己对词向量的学习进行了以下的总结。 简而言之,词向量技术是将词转化成为稠密向量,并且对…