mysql全库搜索关键字_数据库 全文检索

article/2025/10/22 10:23:45

一、概述

MySQL全文检索是利用查询关键字和查询列内容之间的相关度进行检索,可以利用全文索引来提高匹配的速度。

二、语法

MATCH (col1,col2,...) AGAINST (expr [search_modifier])

search_modifier: { IN BOOLEAN MODE | WITH QUERY EXPANSION }

例如:SELECT * FROM tab_name WHERE MATCH ('列名1,列名2...列名n') AGAINST('词1 词2 词3 ... 词m');

即:MATCH 相当于要匹配的列,而 AGAINST 就是要找的内容。

这里的table需要是MyISAM类型的表,col1、col2 必须是char、varchar或text类型,在查询之前需要在 col1 和 col2 上分别建立全文索引(FULLTEXT索引)。

三、检索方式

1、自然语言检索: IN NATURAL LANGUAGE MODE

2、布尔检索: IN BOOLEAN MODE

剔除一半匹配行以上都有的词,譬如说,每个行都有this这个字的话,那用this去查时,会找不到任何结果,这在记录条数特别多时很有用,

原因是数据库认为把所有行都找出来是没有意义的,这时,this几乎被当作是stopword(中断词);但是若只有两行记录时,是啥鬼也查不出来的,

因为每个字都出现50%(或以上),要避免这种状况,请用IN BOOLEAN MODE。

● IN BOOLEAN MODE的特色:

·不剔除50%以上符合的row。

·不自动以相关性反向排序。

·可以对没有FULLTEXT index的字段进行搜寻,但会非常慢。

·限制最长与最短的字符串。

·套用Stopwords。

● 搜索语法规则:

+   一定要有(不含有该关键词的数据条均被忽略)。

-   不可以有(排除指定关键词,含有该关键词的均被忽略)。

>   提高该条匹配数据的权重值。

~   将其相关性由正转负,表示拥有该字会降低相关性(但不像 - 将之排除),只是排在较后面权重值降低。

*   万用字,不像其他语法放在前面,这个要接在字符串后面。

" " 用双引号将一段句子包起来表示要完全相符,不可拆字。

SELECT * FROM articles WHERE MATCH (title,content) AGAINST ('+apple -banana' IN BOOLEAN MODE);

+ 表示AND,即必须包含。- 表示NOT,即必须不包含。即:返回记录必需包含 apple,且不能包含 banner。

SELECT * FROM articles WHERE MATCH (title,content) AGAINST ('apple banana' IN BOOLEAN MODE);

apple和banana之间是空格,空格表示OR。即:返回记录至少包含apple、banana中的一个。

SELECT * FROM articles WHERE MATCH (title,content) AGAINST ('+apple banana' IN BOOLEAN MODE);

返回记录必须包含apple,同时banana可包含也可不包含,若包含的话会获得更高的权重。

SELECT * FROM articles WHERE MATCH (title,content) AGAINST ('+apple ~banana' IN BOOLEAN MODE);

~ 是我们熟悉的异或运算符。返回记录必须包含apple,若也包含了banana会降低权重。

但是它没有 +apple -banana 严格,因为后者如果包含banana压根就不返回。

SELECT * FROM articles WHERE MATCH (title,content) AGAINST ('+apple +(>banana

返回必须同时包含“apple banana”或者必须同时包含“apple orange”的记录。

若同时包含“apple banana”和“apple orange”的记录,则“apple banana”的权重高于“apple orange”的权重。

3、查询扩展检索: WITH QUERY EXPANSION

四、MySQL全文检索的条件限制

1、在MySQL5.6以下,只有MyISAM表支持全文检索。在MySQL5.6以上Innodb引擎表也提供支持全文检索。

2、相应字段建立FULLTEXT索引

五、与全文检索相关的系统变量:

ft_min_word_len = 全文检索的最小许可字符(默认4,通过 SHOW VARIABLES LIKE 'ft_min_word_len' 可查看),

中文通常是两个字就是一个词,所以做中文的话需要修改这个值为2最好。

六、总结事项

1、预设搜寻是不分大小写,若要分大小写,columne 的 character set要从utf8改成utf8_bin。

2、预设 MATCH...AGAINST 是以相关性排序,由高到低。

3、MATCH(title, content)里的字段必须和FULLTEXT(title, content)里的字段一模一样。

如果只要单查title或content一个字段,那得另外再建一个 FULLTEXT(title) 或 FULLTEXT(content),也因为如此,MATCH()的字段一定不能跨table,但是另外两种搜寻方式好像可以。

4、MySQL不支持中文全文索引,原因很简单:与英文不同,中文的文字是连着一起写的,中间没有MySQL能找到分词的地方,截至目前MySQL5.6版本是如此,但是有变通的办法,就是将整句的中文分词,并按urlencode、区位码、base64、拼音等进行编码使之以“字母+数字”的方式存储于数据库中。

七、实验部分

◆ 步骤1 配置my.ini,在my.ini末尾添加如下:

# 修改全文检索的最小许可字符为2个字符或汉字

ft_min_word_len = 2

完成后“重启 MySQL 服务”,并用 SHOW VARIABLES LIKE 'ft_min_word_len' 查询下是否得到了正确的结果值为2,如下图:

1b23ea44fbc42860aafd63eededd40c8.png

◆ 步骤2 创建数据库(视情况可跳过此步)

CREATE DATABASE search DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

◆ 步骤3 创建数据表

CREATE TABLE `zzx_articles` (

`id` int(10) unsigned NOT NULL auto_increment,

`title` char(254) default NULL COMMENT '标题',

`content` text COMMENT '内容',


http://chatgpt.dhexx.cn/article/02VB3MR9.shtml

相关文章

人文社科类文献去哪些数据库检索下载

查找下载人文社科类文献的数据库大盘点: 1、文献党下载器(wxdown.org) 大型文献馆,几乎整合汇集了所有中外文献数据库资源,可附带权限进入文献数据库查找下载文献,覆盖全科包括查找下载人文社科类文献的众…

数据库索引的实现原理

强烈建议参阅链接:http://www.linezing.com/blog/?p=798#nav-1 说白了,索引问题就是一个查找问题。。。 数据库索引,是数据库管理系统中一个排序的数据结构,以协助快速查询、更新数据库表中数据。索引的实现通常使用B树及其变种B+树。 在数据之外,数据库系统还维护着满足…

WoS数据库使用及检索示例

目录 快速了解一个领域的情况 1. 核心合集检索和所有数据库检索的区别 2. 检索结果分析 2.1 排序方式(日期,被引频次) 2.2 分析检索结果 2.3 精炼检索结果(二次检索) 2.4 创建引文报告 2.5 具体某一篇文献 快…

【MySQL】检索数据

每日鸡汤 : —— 若你困于无风之地,我将奏响高空之歌 要和我一起花 10 min 学一会 SQL 嘛? - 当然愿意,我美丽的小姐 (封寝期间练就的自言自语能力越来越炉火纯青了~~~) 前言: 本实验中所用数据…

数据库的检索(select)

今天我们学习一下数据库检索语句,由于经常用到,有需求的小伙伴欢迎来查看哦! 一、简单的查询 --获取所以列 select * from T_table --获取部分列 select id, title from T_table 效果展示: 在...之间:Between.. a…

《MySQL必知必会》学习笔记之“数据库的检索”

文章目录 第一章 SQL与MySQL1 数据库基础2 什么是SQL3 客户机—服务器软件4 MySQL工具mysql命令行实用程序(使用最多的实用程序之一)MySQL AdministratorMySQL Query Browser 第二章 使用MySQL1 连接2选择数据库3了解数据库和表4 注释 第三章 检索数据1 …

最全最易理解的数据库查询教程

数据库查询 检索数据表中一个字段的内容检索数据表中多个字段的内容检索数据表中所有字段的内容带限制条件的查询表达式查询使用 WHERE 语句和逻辑表达式使用WHERE语句检索单范围数据使用WHERE语句检索双范围数据使用WHERE语句检索不匹配某条件的语句使用通配符[]模糊匹配数据内…

数据库基础知识——SELECT 语句(检索数据)

SQL使用 SQL(发音为字母S-Q-L或sequel)是结构化查询语言(Structured Query Language)的缩写。SQL是一种专门用来与数据库通信的语言。 SQL 语言特点: SQL 语言不区分大小写;在命令行窗口的 SQL 语句要以…

Python爬虫获取数据保存到数据库中(超级详细,保证一看就会)

1.简介介绍 -网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动…

python数据爬取---简单页面的爬取

1、准备Requests和User Agent python中能实现爬虫功能的库有若干个,而最简单最容易上手的,要数Requests库,它是一个常用的http请求库,首先用pip install requests 进行安装才能使用。 User Agent一般翻译为用户代理,…

Python小姿势 - # 如何使用Python爬取网页数据

如何使用Python爬取网页数据 今天我们来学习一下如何使用Python来爬取网页数据。 首先,我们需要准备一个空白的文件,在文件中输入以下代码: import requests url http://www.baidu.com r requests.get(url) print(r.text) 上面的代码中&…

Python爬取数据

爬虫基本思路<通用> Response 服务器返回响应数据 Preview 预览 Payload 请求参数 Headers 头部信息&#xff1a;请求url地址、请求方式、响应头、请求头 一、数据来源分析 -抓包分析我们想要的数据内容&#xff0c;请求的那个网页 url地址得到。 -选中xhr 找到想要的内容…

手把手教会你用Python爬虫爬取网页数据!!

其实在当今社会&#xff0c;网络上充斥着大量有用的数据&#xff0c;我们只需要耐心的观察&#xff0c;再加上一些技术手段&#xff0c;就可以获取到大量的有价值数据。这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程&#xff1a; 什么是爬虫&a…

python-爬取网站数据

一、安装jar 找到python解释解释器的安装根目录&#xff0c;执行以下命令&#xff0c; pip install requests #如果这个BeautifulSoup这个安装不上&#xff0c;可以换成pip install BeautifulSoup4试试 pip install BeautifulSoup二、肯定就是敲代码了 import urllib.reques…

Python爬虫入门教程!手把手教会你爬取网页数据

其实在当今社会&#xff0c;网络上充斥着大量有用的数据&#xff0c;我们只需要耐心的观察&#xff0c;再加上一些技术手段&#xff0c;就可以获取到大量的有价值数据。这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程&#xff1a; 什么是爬虫?…

Python爬取整个网页的数据

本案例是基于PyCharm开发的&#xff0c;也可以使用idea。 在项目内新建一个python文件Test.py Test.py # 导入urllib下的request模块 import urllib.request # 导入正则匹配包 import re# -*- encoding:utf-8 -*- """ 作者&#xff1a;小思 文件名&#xff1a;…

python数据爬取及数据可视化分析

电影网站数据分析及可视化研究 本博客是一篇集数据爬取&#xff0c;存储为excel表格&#xff0c;将数据可视化为一体的博文&#xff0c;数据爬取采用request等方法&#xff0c;数据可视化会使用图表进行展示&#xff0c;有改进的地方还请大家多多指教。 目录 电影网站数据分析…

Python 爬取网页数据的两种方法

Python 爬取网页数据的两种方法 1. 概述2. 使用pandas 爬取网页数据2.1 打开网页2.2 打开 PyCharm 编译器 3.使用urllib爬取网页数据并写入Excel表3.1 下载 urllib 库3.2 代码如下3.3 运行结果如下 结束语 1. 概述 网络抓取是从任何网站或任何其他信息源中提取数据的过程&…

使用 Python 爬取网页数据

在需要过去一些网页上的信息的时候&#xff0c;使用 Python 写爬虫来爬取十分方便。 1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集网络数据的…

如何用Python爬数据?(一)网页抓取

你期待已久的Python网络数据爬虫教程来了。本文为你演示如何从网页里找到感兴趣的链接和说明文字&#xff0c;抓取并存储到Excel。 &#xff08;由于微信公众号外部链接的限制&#xff0c;文中的部分链接可能无法正确打开。如有需要&#xff0c;请点击文末的“阅读原文”按钮&a…