向量空间模型

article/2025/9/8 10:19:59

实数域定义向量

设有一个数的集合 F,它满足“F 中任意两个数的加减乘除法(除数不为零)的结果仍然在这个 F 中”,我们就可以称 F 为一个“域”。我们处理的数据通常都是实数,所以这里我只考虑实数域。而如果域 F 里的元素都为实数,那么 F 就是实数域。

如果 x1​,x2​,……,xn​∈F,那么 F 上的 n 维向量就是,
在这里插入图片描述
向量中第 i 个元素,也称为第 i 个分量。Fn​ 是由 F 上所有 n 维向量构成的集合。

向量中第 i 个元素,也称为第 i 个分量。Fn​ 是由 F 上所有 n 维向量构成的集合。

向量空间

假设 V 是 Fn​ 的非零子集,如果对任意的向量 x、向量 y∈V,都有 (x+y)∈V,我们称为 V 对向量的加法封闭;对任意的标量 k∈V,向量 x∈V,都有 kx 属于 V,我们称 V 对标量与向量的乘法封闭。

如果 V 满足向量的加法和乘法封闭性,我们就称 V 是 F 上的向量空间。

向量空间除了满足这两个封闭性,还满足基本运算法则,比如交换律、结合律、分配律等等。

向量之间的距离

向量空间中两个向量的距离,就是这两个向量所对应的点之间的距离。

曼哈顿距离(Manhattan Distance)

城市街区距离,
在这里插入图片描述
从 A 点到 B 点有多条路径,但是无论哪条,曼哈顿距离都是一样的。
二维:
在这里插入图片描述

在这里插入图片描述
其中 n 表示向量维度,xi​ 表示第一个向量的第 i 维元素的值,yi​ 表示第二个向量的第 i 维元素的值。

欧氏距离(Euclidean Distance)

欧几里得距离,
指在 n 维空间中两个点之间的真实距离,

在这里插入图片描述

切比雪夫距离(Chebyshev Distance)

切比雪夫其实是在模拟国际象棋里国王的走法。国王可以走临近 8 个格子里的任何一个。
一开始,为了走尽量少的步数,国王走的一定是斜线,所以横轴和纵轴方向都会减 1,直到国王的位置和目标位置在某个轴上没有差距,这个时候就改为沿另一个轴每次减 1。所以,国王走的最少格子数是 ∣x1​−y1​∣ 和 ∣x2​−y2​∣ 这两者的较大者。

在这里插入图片描述

闵可夫斯基距离

闵氏距离

上述三种距离,都可以用一种通用的形式表示,就是闵氏距离。
在二维空间中,两个点 x(x1​,x2​) 与 y(y1​,y2​) 间的闵氏距离是:
在这里插入图片描述
在这里插入图片描述

其中 p 是一个变参数,尝试不同的 p 取值,你就会发现:当 p=1 时,就是曼哈顿距离;当 p=2 时,就是欧氏距离;当 p 趋近于无穷大的时候,就是切比雪夫距离。这是因为当 p 趋近于无穷大的时候,最大的 ∣xi​−yi​∣ 会占到全部的权重。

距离可以描述不同向量在向量空间中的差异,所以可以用于描述向量所代表的事物之差异(或相似)程度。

向量的长度

向量的长度,也叫向量的模,是向量所对应的点到空间原点的距离。
通常我们使用欧氏距离来表示向量的长度。

“范数”

范数满足非负性、齐次性、和三角不等式
范数常常被用来衡量某个向量空间中向量的大小或者长度。
L1​ 范数 ∣∣x∣∣ ,它是为 x 向量各个元素绝对值之和,对应于向量 x 和原点之间的曼哈顿距离。
L2​ 范数 ∣∣x∣∣2​ ,它是 x 向量各个元素平方和的 21​ 次方,对应于向量 x 和原点之间的欧氏距离。
Lp​ 范数 ∣∣x∣∣p​ ,为 x 向量各个元素绝对值 p 次方和的 1/p 次方,对应于向量 x 和原点之间的闵氏距离。
L∞​ 范数 ∣∣x∣∣∞​ ,为 x 向量各个元素绝对值最大那个元素的绝对值,对应于向量 x 和原点之间的切比雪夫距离。

向量之间的夹角

在这里插入图片描述
分子是两个向量的点乘,而分母是两者长度(或 L2 范数)的乘积,
L2 范数可以使用向量点乘自身的转置来实现。

向量空间模型(Vector Space Model)

向量空间模型假设所有的对象都可以转化为向量,然后使用向量间的距离(通常是欧氏距离)或者是向量间的夹角余弦来表示两个对象之间的相似程度。
由于夹角余弦的取值范围已经在 -1 到 1 之间,而且越大表示越相似,所以可以直接作为相似度的取值。相对于夹角余弦,欧氏距离 ED 的取值范围可能很大,而且和相似度呈现反比关系,所以通常要进行 1/(ED+1) 这种归一化。
当 ED 为 0 的时候,变化后的值就是 1,表示相似度为 1,完全相同。当 ED 趋向于无穷大的时候,变化后的值就是 0,表示相似度为 0,完全不同。所以,这个变化后的值,取值范围是 0 到 1 之间,而且和相似度呈现正比关系。

向量空间模型,可以用在K 近邻(KNN)分类、K 均值(K-Means) 聚类等基于相似度的机器学习算法中。


http://chatgpt.dhexx.cn/article/OOQeJILJ.shtml

相关文章

线性代数 --- 向量空间(vector space)与子空间(subspace)

Part I --- 向量空间: 向量空间就是由包含n个分量的列向量所组成的Rn的空间,其中R表示实数。例如,R2就代表了一般的x-y平面,其中包含两个分量的向量表示坐标系中的一个点(x,y)。同理,R3中的一个向量,包含三…

向量空间

向量空间的概念 定义:设 V 是 n 维向量的集合,如果满足 若 a ∈ V, b ∈ V,则a b ∈ V .(对加法封闭)若 a ∈ V,k∈ R,则ka ∈ V . (对数乘封闭…

http 500 错误总结

500: Internal server Error The server encountered an unexpected condition which prevented it from fulfilling the request. 应用代码出了问题,比如说空指针、数据库异常、访问其它服务的网络异常等等,被tomcat容器捕获后,返回500错误…

HTTP Status 500错误

HTTP Status 500 - java.lang.IllegalStateException: Neither BindingResult nor plain target object for bean name command available as request attribute 发生的错误&#xff1a;在请求域例没有command这样的属性 <form:input path"lastName"/> 要想显…

HTTP-500错误---原因一

在运行项目的时候产生了下面的错误&#xff0c;然后就开始找原因。最后发现是数据库名字与代码中的不一样导致的。修改数据库之后就可以正常运行了 HTTP状态 500 - 内部服务器错误类型 异常报告消息 Servlet执行抛出一个异常描述 服务器遇到一个意外的情况&#xff0c;阻止它…

500 Internal Server Error错误问题解决办法

这两天遇见两次页面报 500 Internal Server Error错误问题,网上找了许多答案都未能解决问题&#xff0c;如图&#xff1a; 最后找到原因&#xff1a; 本地服务端正常&#xff0c;由于该数据调用的是第三方接口&#xff0c;次数第三方接口服务已经停止运行&#xff0c;所有导致…

http 500错误解决_什么是HTTP错误500?如何解决?

http 500错误解决 Http is the world’s most popular protocol used on the internet to exchange data and run web applications. Http protocol also has standards. Http is a stateless protocol which means separate Http requests do not have any connection with ea…

有关于500的报错

关于500的报错&#xff0c;目前有两种原因&#xff1a; 1.后端数据库获取失败&#xff0c;后端原因 2.根据id上传响应的信息。首先&#xff0c;应该先把上一个页面传过来的id,赋值给本页面的id,然后进行save保存&#xff0c;如果不进行id的赋值&#xff0c;则会发生500报错

Nginx显示500错误原因和解决方法

文章目录 1.背景2.Nginx 常见的几种报错3. 解决500错误 1.背景 最近在操作nginx 的时候出现了 Nginx 500 内部错误&#xff0c;在此记录一下原因&#xff0c;项目采用的是前后端分离方式&#xff0c;后端SpringBoot &#xff0c;前端是Vue 部署到Nginx 下。 2.Nginx 常见的几…

“HTTP 错误 500.19”的错误解决方法

IIS发布网站 在使用windows系统发布网站时&#xff0c;采用IIS&#xff0c;见下图流程 有关IIS发布网站的详细步骤可参考&#xff1a;使用IIS创建Cesium本地服务器 HTTP 错误 500.19 我使用的为阿里云服务器&#xff0c;操作系统为:windows server 2019。 我采用ASP.Net We…

官网显示500内部服务器有错误代码,【500错误】http 500 - 内部服务器错误(错误代码500)解决方法...

在上网浏览网页的时候时不时的会遇到500错误&#xff0c;会提示内部服务器错误、你查找的资源存在问题&#xff0c;网页无法显示&#xff0c;一般来说这是网站的问题&#xff0c;对于浏览用户一般没办法解决&#xff0c;只有换个时间再试&#xff0c;但是对于站长来说就要着手解…

500错误原因

报500错误一般是业务代码的问题 典型的NoClassDefFoundError 尝试从页面提供的错误信息排除 比如&#xff1a;could not initializc XXXX&#xff0c;这是我编写的一个JDBC工具类。 显然是无法完成初始化&#xff0c;刚开始我以为是路径jar包错误&#xff0c;排查不是&#x…

微服务架构深度解析与最佳实践 - 第七部分:全文总结与引用材料

最佳实践的总结 林林总总说了这么多的微服务架构相关的知识也好&#xff0c;经验也罢&#xff0c;不一定适合每个希望做微服务系统的技术人员的实际需求。“道无常道&#xff0c;法无常法&#xff0c;君子审时度势&#xff0c;自可得而法”。实际项目里需要做哪些工作&#xff…

罗胖的用户招你了?

你说罗胖骗人。可得到的用户&#xff0c;真有你想象的那么傻吗&#xff1f; 往年&#xff0c;骂罗胖的文章&#xff0c;只是骂罗胖。 但是今年不同了&#xff0c;很多刷屏的文章&#xff0c;都来亲切关心和问候得到的用户了。 得到的用户&#xff0c;似乎很快就要和买假冒保健品…

统计学原理-----概率分布

0.大纲&#xff1a; 1.什么是概率分布&#xff1f; 概率分布就是随机变量与对应概率关系的函数。换句话说&#xff0c;概率分布就是随机变量和概率的映射&#xff0c;所有的事件都会对应一个概率。某个随机变量的所有概率形成的概率-事件分布就是该随机变量的概率分布&#xf…

晓之以理,不如动之以情——新书《以大致胜》解读(上篇)

《以大致胜&#xff1a;怎样在这个事实根本不重要的世界里使用说服力》&#xff08; Win Bigly: Persuasion in a World Where Facts Dont Matter &#xff09;这本书&#xff0c;是我很敬佩的一位作家斯科特亚当斯&#xff08;Scott Adams&#xff09;于今年10月31号刚刚出版的…

如何高效学习?现在有答案了。。。

先说答案&#xff1a;15.87% 15.87% 是什么意思&#xff1f;我来慢慢解释&#xff0c;先来看下面的一幅图&#xff1a; 绿色代表舒适区 紫色代表学习区 红色代表痛苦区 如果一项任务对你来说太简单了&#xff0c;很轻松就能搞定&#xff0c;那么你会觉得无聊&#xff0c;如果…

博弈论,你知多少

“无意中发现了一个巨牛的人工智能教程&#xff0c;忍不住分享一下给大家。教程不仅是零基础&#xff0c;通俗易懂&#xff0c;而且非常风趣幽默&#xff0c;像看小说一样&#xff01;觉得太牛了&#xff0c;所以分享给大家。点这里可以跳转到教程。” 在《从“名将之路”到“写…

如何成为一名专家?

这是傅一平的第345篇原创 【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群&#xff0c;加微信号frank61822702 为好友后入群。新开招聘交流群&#xff0c;请关注【与数据同行】公众号&#xff0c;后台回复“招聘”后获得入群方法。 正文…

排序不等式

文章来源&#xff1a;“万维钢精英日课4——排序不等式” “排序不等式”描述了无限制系统的“效率”和“公平”的本质关系。给我在如何分配资源上带来了很好的启发&#xff0c;这里记录一下大概内容&#xff0c;方便自已临时翻阅。 1.什么是排序不等式&#xff1f; 大数乘大…