N-Gram 分词算法 Python 实现

article/2025/10/18 5:09:31

概述

N-Gram 算法是一种单词级别的窗口取词算法，N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。

N-Gram 算法具体过程：

过滤掉文本数据中的标点符号和其他特殊字符；
对所有单词执行小写转换，并删除单词之间的空格、换行符等标志位；
使用长度为 N 的窗口对文本内容执行字符级滑动取词，将结果存入有序列表。

如下图所示
在这里插入图片描述
程序分为两步：文本过滤、滑动取词

文本过滤

def text_filter(text: str) -> str:"""文本过滤器：过滤掉文本数据中的标点符号和其他特殊字符:param text: 待过滤的文本:return: 过滤后的文本"""result = str()for t in text:if t.isalnum():if t.isalpha():t = t.lower()result += str(t)return result

滑动取词

def slide_word(text: str, l: int = 5) -> list:"""滑动取词器Input: text='abcd',l=2Output: ['ab','bc','cd']:param text: 过滤后的文本 （只包含小写数字/字母）:param l: 滑动窗口长度，默认为 5:return:"""tf = text_filter(text)result = list()if len(tf) <= l:result.append(tf)return resultfor i in range(len(tf)):word = tf[i:i + l]if len(word) < l:breakresult.append(word)return result

测试

if __name__ == '__main__':banner = 'abcdefghigkLMN*^%$*   \r\n)021'print(slide_word(banner))

输出

['abcde', 'bcdef', 'cdefg', 'defgh', 'efghi', 'fghig', 'ghigk', 'higkl', 'igklm', 'gklmn', 'klmn0', 'lmn02', 'mn021']

N-Gram 分词算法 Python 实现

概述

文本过滤

滑动取词

测试

输出

相关文章

ElasticSearch学习随笔之分词算法

常用分词算法笔记

NLP 中文分词-双向匹配算法（理论+Python实现）

NLP ---分词详解（常见的五种分词技术二）

常用分词算法总结（字典、统计、神经网络）

分词算法----正向和逆向最大匹配算法(含Python代码实现)

自然语言处理——分词算法

分词算法介绍——千里之行，始于足下

C#分词算法

windows10家庭版打开组策略

【Windows】Win10家庭版启用组策略gpedit.msc

win10（家庭版）打开本地组策略失败的处理方法

win10找不到组策略，解决方法

如何停止Monkey测试

Android的monkey测试

android测试-monkey测试

Monkey测试工具使用

Android Monkey测试入门：安装sdk、studio、模拟器，并分析monkey日志

python+monkey实现app的monkey测试

最全的monkey测试过程及分析