embedding

embedding

article/2025/10/22 5:59:20

what is emdding

embedding就是把字词用向量表示出来，相当于是对字词做encoding

motivation

比如猫，狗，我们当然可以直接把他们表示为一些独立的离散符号，但是这样的表示毫无意义，而且会产生大量稀疏数据。使我们在训练统计模型时不得不寻求更多的数据。而词汇的向量表示将克服上述的难题。

background

VSM（vector space model）
核心思想就是把一些词用向量空间的表示方法。最基本的应用，就是tf-idf。
我们把一篇文档用一组向量表示，然后计算文档之间的余弦值来衡量文档相似度。

vsm在nlp有着非常丰富的应用历史，不过这一模型又是基于分布式假设的。
分布式假设
其核心思想是：认为出现在上下文情景中的词汇都有着相似的语义。
基于这一假设的方法，大致可以分为两类：
– 计数方法。潜在语义分析(latent sematics analysis)
– 预测方法。神经概率化模型
用神经网络训练语言模型，比较经典就是Bengio于2003年发表在JMLR上的《A Neural Probabilistic Language Model》
最简单的词向量，当属于one-hot的表示，这种表示并不是很理想，而distributed represention则比one-hot的好很多，一个猜测是：one-hot的表示相当于是空间中一个孤立的点，而distributed representation，则有种风险平摊的感觉，就像文档表示，被分摊到很多词上面。
神经概率语言模型
比较经典就是Bengio于2003年发表在JMLR上的《A Neural Probabilistic Language Model》，该论文提出的模型如下：

其中，w，u都是权重。p和q表示偏置项(bias)
输入的v是一个已经训练好的词向量。
输入的个数类似于n-gram，比如假设只跟其前n-1个词语有关于，那么输入层就是n-1，如果向量大小为m，那么投影层就是(n-1)*m的大小，隐层是由语料库的大小决定的，假设有C个。
那么神经网络语言模型和传统的n-gram的区别是什么呢？
(1) 词语之间的相似性可以通过词向量来体现。(句子层面)
(2) 自带平滑功能。(词层面)
【这里不是很懂，再看看原文章】
http://blog.csdn.net/itplus/article/details/37969817

Word2Vec

最初的提出者：Tomas Mikolov
经典文章：  
两种衍生：CBOW Skip-gram

http://chatgpt.dhexx.cn/article/qkyBgEO0.shtml

相关文章

Embeding编码方式

Embeding编码方式

Embeding编码方式概述独热码：数量大而且过于稀疏，映射之间是独立的，没有表现出关联性。 Embedding：是一种单词编码方法，用低维向量实现了编码，这种编码通过神经网络训练优化，能表达出单词间的…

阅读更多...

机器学习中的Embedding

机器学习中的Embedding

来自知乎的一个解释：（版权归原作者所有，仅供学习，禁止商用） https://zhuanlan.zhihu.com/p/46016518 解释还是有点感觉迷糊，数学解释： Embedding在数学上表示一个maping, f: X -> Y&#x…

阅读更多...

Embedding 编码方法

Embedding 编码方法

一、作用 Embedding 是一种单词编码，用低维向量实现了编码，这种编码通过神经网络训练优化，能表达单词之间的相关性。在是用独热码one_hot编码时，我们会发现单词的编码十分稀疏，以至于训练的效率不是很高。采用embeddi…

阅读更多...

nn.Embedding使用

nn.Embedding使用

nn.Embedding是一种词嵌入的方式，跟one-hot相似但又不同，会生成低维稠密向量，但是初始是随机化的，需要根据模型训练时进行调节，若使用预训练词向量模型会比较好。 1. one-hot one-hot是给定每个单词一个索引&#xf…

阅读更多...

深度学习中Embedding的解释

深度学习中Embedding的解释

转载于https://zhuanlan.zhihu.com/p/164502624 什么是Embedding？ 近年来，NLP自然语言处理、推荐系统，以及计算机视觉已成为目前工业界算法岗的主流方向，无论在哪个领域，对“Embedding”这个词概念的理解都是每个庞大知…

阅读更多...

Embedding理解+代码

Embedding理解+代码

目录 Embedding主要思想 Word2vec主要思想两种模型：目的： 算法一、定义超参数二、将语料库转换one-hot编码表示三、模型训练代码手动实现 skip-gram模型一、数据准备二、定义超参数三、定义word2vec模型数据清洗及生成词汇表训练模型四、获取词向量和…

阅读更多...

Embedding 基础

Embedding 基础

一、什么是Embedding 简单来说，Embedding 就是用一个数值向量“表示”一个对象（Object）的方法，这里说的对象可以是一个词、一个物品，也可以是一部电影等等。一个物品能被向量表示，是因为这个向量跟其他物品…

阅读更多...

终于有人把Embedding讲明白了

终于有人把Embedding讲明白了

导读：如果要总结深度学习大获成功的原因，那至少有两样东西必须入选：一样当然是很“深”的神经网络模型，这也是深度学习的“深度”的由来，另一样就是Embedding。在深度学习中，Embedding是个很重要的概念&am…

阅读更多...

计算机网络(二) | 网络编程基础、Socket套接字、UDP和TCP套接字编程

计算机网络(二) | 网络编程基础、Socket套接字、UDP和TCP套接字编程

目录一、网络编程基础1.1 为什么需要网络编程1.2 什么是网络编程1.3 网络编程中的基本概念二、Socket套接字2.1 概念2.2 分类2.3 Java数据报套接字通信模型2.4 Java流套接字通信模型2.5 UDP数据包套接字编程2.6 TCP流套接字编程一、网络编程基础 1.1 为什么需要网络编程丰…

阅读更多...

C#编程并实现网络UDP套接字

C#编程并实现网络UDP套接字

文章目录一、UDP介绍二、C#命令行/控制台hello world程序（一）创建项目（二）客户端程序（三）服务端程序（四）使用wireshark抓包三、C#Form窗口程序（一）创建项目…

阅读更多...

Linux C语言高级

Linux C语言高级

一、软件包管理及shell命令 1.流行的两种软件包管理机制 1.Deb软件包：由Debian Linux首先提出的软件包管理机制 2.RPM软件包：由Redhat Linux推出的软件包管理机制 2.Debian Linux开发了APT软件包管理器 1.检查和修复软件包依赖关系 2.利用Internet网络帮…

阅读更多...

精心收集了60个C语言项目源码，分享给大家

精心收集了60个C语言项目源码，分享给大家

C语言文章更新目录 C/C学习资源（百度云盘链接） 计算机二级资料（过级专用） C语言学习路线（从入门到实战） 编写C语言程序的7个步骤和编程机制 C语言基础-第一个C程序 C语言基础-简单程序分析 VS2019编写简单…

阅读更多...

python基于c语言开发_C高级编程：基于模块化设计思想的C语言开发 PDF 超清版

python基于c语言开发_C高级编程：基于模块化设计思想的C语言开发 PDF 超清版

给大家带来的一篇关于C语言相关的电子书资源，介绍了关于C高级编程、模块化、设计思想、C语言开发方面的内容，本书是由机械工业出版社出版，格式为PDF，资源大小80 MB，吉星编写，目前豆瓣、亚马逊、当当、京东等…

阅读更多...

【Linux】网络基础+UDP网络套接字编程

【Linux】网络基础+UDP网络套接字编程

只做自己喜欢做的事情，不被社会和时代裹挟着前进，是一件很奢侈的事。文章目录一、网络基础1.局域网和广域网2.协议初识和网络协议分层（TCP/IP四层模型）3.MAC地址和IP地址（子网掩码，路由表，I…

阅读更多...

C#使用TCP/UDP协议通信并用Wireshark抓包分析数据

C#使用TCP/UDP协议通信并用Wireshark抓包分析数据

目录一、Wireshark抓包软件下载安装二、控制台程序使用 UDP 通信1）创建新项目2）编写代码3）编译结果4）抓包分析数据三、Form窗口程序使用 TCP 通信1）创建新项目2）设计图形界面3）编写代码4&…

阅读更多...

SimpleFOC之ESP32（九）—— WIFI、UDP和TCP

SimpleFOC之ESP32（九）—— WIFI、UDP和TCP

目录说明一、网络通信1.1、准备工作1.2、UDP通信1.3、TCP通信二、硬件准备三、代码参考四、代码演示4.1、WIFI_AP模式UDP通信4.2、WIFI_STA模式TCP client通信五、UDP通信控制电机5.1、硬件准备5.2、代码演示5.2.1、串口通信更改为UDP通信5.2.2、笔记本连接AP5.2.3、UDP发送…

阅读更多...

如何进行网络编程（代码利用UDP socket实现）

如何进行网络编程（代码利用UDP socket实现）

目录一、什么是网络编程？ 二、那么在Java中能调用C语言的函数吗？ 三、操作系统提供的socket API主要有两类（实际上不止两类） 1.流套接字（底层使用TCP协议） TCP协议的特点： 2.数据报套接字…

阅读更多...

北斗系统学习—JT808协议用C语言解析

北斗系统学习—JT808协议用C语言解析

前言： 本人从事于Linux应用开发(音视频应用方向）,现在主要是负者AI摄像头的开发，在学音视频的途中，虽然是个小白，但是更愿意把自己所学音视频的一些知识分享给大家，以后每周都会更新哦！ 本期介绍…

阅读更多...

TCP/IP协议（一、自己动手实现udp）

TCP/IP协议（一、自己动手实现udp）

对TCP/IP协议都只是听过，没有仔细研究过，一些知识体系也比较零散，什么三次握手，四次挥手，滑动窗口，零拷贝技术等等，都是知识有这么个东西，而不知道具体是啥，这几天还是根…

阅读更多...

【Linux】传输层协议：UDP和TCP

【Linux】传输层协议：UDP和TCP

但人不能永远浪漫下去，那会走向自我毁灭的。浪漫都是水字旁，会把人淹死的。人最终还是要进入一个规则体系，所谓，随心所欲不逾矩嘛文章目录一、UDP协议1.端口号2.理解UDP报头3.UDP的特点（面向数据报，全双…

阅读更多...

推荐文章