搜索引擎的索引和搜索

article/2025/9/9 7:56:42
对于网络蜘蛛技术和排序技术请参考作者其它文章[1][2],这里以Google搜索引擎为例主要介绍搜索引擎的数据索引和搜索过程。

数据的索引分为三个步骤:网页内容的提取、词的识别、标引库的建立。

互联网上大部分信息都是以HTML格式存在,对于索引来说,只处理文本信息。因此需要把网页中文本内容提取出来,过滤掉一些脚本标示符和一些无用的广告信 息,同时记录文本的版面格式信息[1]。词的识别是搜索引擎中非常关键的一部分,通过字典文件对网页内的词进行识别。对于西文信息来说,需要识别词的不同 形式,例如:单复数、过去式、组合词、词根等,对于一些亚洲语言(中文、日文、韩文等)需要进行分词处理[3]。识别出网页中的每个词,并分配唯一的 wordID号,用于为数据索引中的标引模块服务。

标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引:文档标引和关键词标引。 文档标引分配每个网页一个唯一的docID号,根据docID标引出在这个网页中出现过多少过wordID,每个wordID出现的次数、位置、大小写格 式等,形成docID对应wordID的数据列表;关键词标引其实是对文档标引的逆标引,根据wordID标引出这个词出现在那些网页(用wordID表 示),出现在每个网页的次数、位置、大小写格式等,形成wordID对应docID的列表。

关于索引数据的详细数据结构,有兴趣的朋友可以参看文献[4]。

搜索的处理过程是对用户的搜索请求进行满足的过程,通过用户输入搜索关键字,搜索服务器对应关键词字典,把搜索关键词转化为wordID,然后在标引库中 得到docID列表,对docID列表进行扫描和wordID的匹配,提取满足条件的网页,然后计算网页和关键词的相关度,根据相关度的数值返回前K篇结 果(不同的搜索引擎每页的搜索结果数不同)返回给用户。如果用户查看的第二页或者第多少页,重新进行搜索,把排序结果中在第K+1到2*K的网页组织返回 给用户。其处理流程如下图所示:



 

http://chatgpt.dhexx.cn/article/jcI9pLEV.shtml

相关文章

轻松打造自己的站内搜索引擎

很多个人网站的站长都希望为自己的网站建立一个站内搜索引擎,但一不熟悉ASP、PHP、JSP等动态开发技术,另外自己建立站内搜索也需要空间支持相应的动态技术,所以常不得已放弃。其实,何不借用Google打造站内搜索引擎,来方…

搜索引擎SEO

一、定义 提高网站浏览量而做的优化手段。 二、与SEM的对比 (1)SEM高投入、SEO低投入 (2)SEM短、效益快,SEO长期投入、增长慢 (3)新广告法颁布之后SEM广告位减少、竞争压力大 三、衡量流量…

[C++项目] Boost文档 站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍...

项目背景 Boost库是C中一个非常重要的开源库. 它实现了许多C标准库中没有涉及的特性和功能, 一度成为了C标准库的拓展库. C新标准的内容, 很大一部分脱胎于Boost库中. Boost库的高质量代码 以及 提供了更多实用方便的C组件, 使得Boost库在C开发中会被高频使用 为方便开发者学…

巧用搜索引擎---如何在指定网站中搜索

子曰:“工欲善其事,必先利其器。”在平时工作和学习中,网络上查找各种资料是最浪费时间的。在查资料的时候搜索功能是经常要用到的,常规的做法是在搜索引擎中直接搜索关键词。 比如我想找一下以前写过的一篇关于通信协议的文章。…

Chrome浏览器添加自定义搜索引擎-快速进行站内搜索

在使用Chrome时,设置了默认搜索引擎后,如果要切换搜索引擎比较麻烦。下面介绍一种通过关键字快速切换Chrome搜索引擎的方法。 打开 “设置” --> “搜索引擎” --> “管理搜索引擎” 修改关键字 点击1,修改关键字就可以了。 设置后&a…

站内搜索SITE

有的网站是没有站内搜索框的,这是我们可以利用搜索引擎的站内搜索 例如,JAVA天堂是没有站内搜索的 Java天堂 - Java学习笔记 这是我们可以使用百度或者必应搜索引擎在浏览器地址栏 输入: Servlet实现文件上传,可多文件上传 sit…

创建自己的搜索引擎,利用google进行站内搜索

宽为限 紧用功 功夫到 滞塞通 什么是自定义搜索? Google自定义搜索可以为您的网站,博客或网站集合创建搜索引擎。您可以配置搜索引擎来搜索网页和图像。您可以调整排名,自定义搜索结果的外观,并邀请您的朋友或信任的用户来帮助您…

Google SEO 搜索中心

在公司发展还没有那么成熟的时候,也许你的测试网站是外网可以公开访问的,也许你网站中的机密图片在测试环境(不小心上到正式环境)却被搜索引擎无情抓取,以及有些内部用户才能使用的网址,你并不想被搜索引擎…

如何指定网站内搜索关键字(借用已有搜索引擎)

目标:某个网站内,输入关键字搜索出相关东西 处境:这个网站开发者自己不去写搜索算法 解决方法:让微软的必应搜索引擎来做这件事,怎么弄呢,就是在必应搜索引擎页面里输入: xx关键字 site:xx网站 …

搜索引擎搜索特定网站的方法 :site

前言 从13开始的贴吧时代,还记得当时在贴吧里要搜索某些特定的帖子或者关键字的时候,用的都是“吧内搜索”,但用过的人都知道,这个所谓的吧内搜索其实很难用,大家都是用关键字空格贴吧之类的办法去搜索相关的内容。我…

简易的站内搜索引擎 (万字长文!!绝对值得一看!!)

搜索引擎的实现 项目简介项目背景项目开始前开始前的准备 四个模块预处理模块索引模块搜索模块服务器模块 项目简介 这里所实现的并非如同百度、谷歌一样的全网搜索,我们的硬件条件达不到,并且技术实力也不够,但是我们可以按照搜索引擎的基本…

站内搜索引擎

1.什么是搜索引擎? 如图所示: 我用的是谷歌浏览器,但是我的搜索引擎可以跟换 。切换到bing主页 在搜索框中我们输入一段话,跳到一个带有搜索结果的页面如下: 搜索引擎的核心功能:查找用户输入的词/一句话 …

SecureCRT 软件完全汉化

在正常汉化包的基础上,删除一个菜单文件,然后再运行"SecureCRT_CHS.exe" 程序即可 注意:如果以前是英文版本,则需要删除菜单配置文件后才可以正常汉化。直接删除SecureCRT配置目录下的"...\Config\SCRTMenuToolbar…

secureCRT安装、破解

SecureCRT是最常用的终端仿真程序,简单的说就是Windows下登录UNIX或Liunx服务器主机的软件。本文讲解SecureCRT的安装、破解与使用。 下载&安装 1.从https://pan.baidu.com/s/1dGMKJF7下载 2.解压缩下载的文件,双击scrt736-x64.exe执行安装。 破解…

【工具】SecureCR-8.5下载、安装激活和使用教程(包含常用设置)

目录 一、安装包下载 二、安装教程 三、激活操作 四、使用教程 五、常用设置 一、安装包下载 SecureCRT8.5安装包: 链接:https://pan.baidu.com/s/1yy677I99ln_3evoHc5dMXg 提取码:9tyj 二、安装教程 1. 解压、双击进行安装 2. 安装进…

SecureCRT的下载、安装( 过程非常详细!!值得查看)

SecureCRT的下载、安装( 过程非常详细!!值得查看) 简单介绍下SecureCRT一、SecureCRT的下载二、SecureCRT的安装三、SecureCRT的使用 简单介绍下SecureCRT SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程…

SecureCRT和SecureFX的下载和安装2022

小编在新电脑上安装SecureCRT和SecureFX,按照之前写的文章步骤SecureCRT和SecureFX的下载和安装2021在使用注册机SecureFX.-kg.exe安装SecureFX的时候报错了,提示mfc100u.dll和msvcp100.dll两个文件找不到。(注册机keygen.exe安装SecureCRT可…

SecureCRT 64位 破解版v8.1.4及安装

securecrt 破解版是一款支持SSH1和SSH2的终端仿真程序,这个程序能够在windows系统中登陆UNIX或Linux的服务器主机并且还能进行管理设置,是一款非常强大的ssh传输软件,是用于连接运行包括Windows、UNIX和VMS的理想工具。并且它还有打印功能、可…

SecureCRT下载和破解

一. secureCRT下载 secureCRT是一款支持SSH的终端仿真程序,简单的说是Windows下登录Linux服务器的工具。下载时,需要下载scrt安装包和Keygen注册机包。下载链接secureCRT安装包。 1. 下载文件 2. 安装SCRT 按照指定步骤安装即可 二. 破解 安装完成之…

SecureCRT 8.5下载安装破解

SecureCRT 8.5下载安装破解 不用关闭防火墙,不用下载注册机,不用csdn下载积分 不用关闭防火墙,不用下载注册机,不用csdn下载积分 公司领导让我下载SecureCRT,网上找了很多教程,注册机也下载了,…