NLTK(1.2)NLTK简介

article/2025/8/28 12:39:33

文章目录

  • NLTK库简介
    • NLTK库重要模块及功能
    • 安装NLTK库
  • NLTK中的语料库
    • 英文文本语料库
    • 标注文本语料库
    • 其他语言的语料库
    • 文本语料库常见结构
    • NLTK 中定义的基本语料库函数
    • 加载自己的语料库

NLTK库简介

Natural Language Toolkit(简称NLTK库),自然语言处理工具包,是一个当下流行的,用于自然语言处理的Python 库。
NLTK 包含大量的软件、数据和文档,所有这些都可以从http://nltk.org/ 免费下载。
NLTK 创建于2001 年,最初是宾州大学计算机与信息科学系计算语言学课程的一部分。从那以后,在数十名贡献者的帮助下不断发展壮大。如今,它已被几十所大学的课程所采纳,并作为许多研究项目的基础。

NLTK库重要模块及功能

在这里插入图片描述

安装NLTK库

pip install nltk

通过运行以下代码来安装NLTK扩展包

import nltknltk.download()

在这里插入图片描述

NLTK中的语料库

在自然语言处理的实际项目中,通常要使用大量的语言数据或者语料库。
一个文本语料库是一大段文本。
nltk.corpus包提供了许多语料库。

英文文本语料库

  • gutenberg 一个有若干万部的小说语料库,多是古典作品
  • webtext 网络和聊天文本
  • nps_chat 有上万条聊天消息语料库,即时聊天消息为主
  • brown 第一个百万词级的英语语料库,按文体进行分类
  • reuters 路透社语料库,上万篇新闻方档,约有1百万字,分90个主题,并分为训练集和测试集两组
  • inaugural 演讲语料库,几十个文本,都是总统演说

标注文本语料库

许多文本语料库都包含语言学标注,有词性标注、命名实体、句法结构、语义角色等
在这里插入图片描述

其他语言的语料库

udhr,是超过300种语言的世界人权宣言

更多语料库,可以用==nltk.download()==在下载管理器中查看corpus。

文本语料库常见结构

在这里插入图片描述

  • 最简单的一种语料库是一些孤立的没有什么特别的组织的文本集合;
  • 一些语料库按如文体(布朗语料库)等分类组织结构;
  • 一些分类会重叠,如主题类别(路透社语料库);
  • 另外一些语料库可以表示随时间变化语言用法的改变(就职演说语料库)。

NLTK 中定义的基本语料库函数

fileids()	#语料库中的文件
fileids([categories])	#这些分类对应的语料库中的文件
categories()	#语料库中的分类
categories([fileids])	#这些文件对应的语料库中的分类
raw()	#语料库的原始内容
raw(fileids=[f1,f2,f3])	#指定文件的原始内容
raw(categories=[c1,c2])	#指定分类的原始内容
words()	#整个语料库中的词汇
words(fileids=[f1,f2,f3])	#指定文件中的词汇
words(categories=[c1,c2])	#指定分类中的词汇
sents()	#整个语料库中的句子
sents(fileids=[f1,f2,f3])	#指定文件中的句子
sents(categories=[c1,c2])	#指定分类中的句子
abspath(fileid)	#指定文件在磁盘上的位置
encoding(fileid)	#文件的编码(如果知道的话)
open(fileid)	#打开指定语料库文件的文件流
root	#本地安装的语料库根目录的路径
readme()	#语料库的README 文件的内容

举个例子

import nltk
from nltk.corpus import reutersreuters.fileids()#查看文件
reuters.categories()#查看分类
reuters.fileids(['barley', 'corn'])#查看属于两个分类的文件

加载自己的语料库

如果你有自己收集的文本文件,可以在NLTK 中的PlaintextCorpusReader帮助下加载它们。
变量corpus_root [1]的值设置为文件储存目录。
第二个参数file_pattern[2]可以是一个如[‘a.txt’, ‘test/b.txt’]这样的fileids列表,或者一个正则表达式
如’[abc]/.*.txt’。

from nltk.corpus import BracketParseCorpusReader
corpus_root = r"C:\corpora\penntreebank\parsed\mrg\wsj"# [1]
file_pattern ='.*'ptb = BracketParseCorpusReader(corpus_root,file_pattern)#[2]
 ptb.fileids()

http://chatgpt.dhexx.cn/article/IknwciZp.shtml

相关文章

NLTK(5)词性标注

文章目录 如何确定一个词的词性1形态学线索2句法线索3语义线索 NLTK标注器标注语料库查看标注未简化标记集词性搜索 字典定义字典反转字典字典方法 自动标注默认标注器(不好) 标注效果评估正则表达式标注器查询标注器回退 N-gram标注一元标注器N-gram标注…

java构建词性词袋_NLTK包

在本章中,我们将学习如何开始使用自然语言工具包(软件包)。 前提条件 如果想用自然语言处理来构建应用程序,那么上下文中的变化就会使其变得非常困难。 语境因素影响机器如何理解特定句子。 因此,我们需要通过使用机器学习方法来开发自然语言应用程序,以便机器也能够理解人…

NLTK安装

安装NLTK 1、安装NLTK包2、安装数据包3、测试 1、安装NLTK包 在Pycharm终端/Aanaconda Prompt依次执行如下命令: :升级pip-可根据自己的需求选择性执行本条命令: python -m pip install --upgrade pip:卸载旧版本nltk: pip uninstall nltk:安装nltk: pip install …

NLTK FreqDist

FreqDisk nltk FreqDisk函数能够统计数组当中单词出现的次数。 text [hadoop,spark,hive,hadoop,hadoop,spark,lucene,hadoop,spark,hive,hadoop,hadoop,spark,pig,zookeeper,flume,stream,hadoop,hadoop,spark,pig,zookeeper,flume,stream,hadoop,hadoop,spark,pig,zookeep…

nltk分词

先读入数据 import pandas as pd data pd.read_excel(rD:\python\zxzy\amazon_asin\review.xlsx) title data[review_revs] data.head(1) 对每条review进行分句 #分句 import nltk from nltk.tokenize import sent_tokenize sent [] for i in title:sent.append(sent_toke…

NLTK下载

方法1 先安装nltk库 pip install nltk然后下载 先进入python交互模式,输入下面的代码进行下载 import nltk nltk.download()方法2 方法1有可能下载会有各种错误,可以使用这个方法 去github下载:https://github.com/nltk/nltk_data&#…

自然语言处理库——NLTK

NLTK(www.nltk.org)是在处理预料库、分类文本、分析语言结构等多项操作中最长遇到的包。其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition…

NLTK 基础知识总结

什么是 NLTK NLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是…

自然语言处理NLTK(一):NLTK和语料库

对于文本的研究,对于语言主要是中文,英文的研究反而会少了很多,主要还是因为应用的问题,而现在对于海外的产品来说,英文的语言处理,会越来越显得重要,其实对英文语言处理资料会比中文的来得多&a…

NLTK库安装教程(详细版)

NLTK,Natural Language Toolkit(Python自然语言工具包) 安装步骤 1.打开cmd命令,输入: pip install nltk 运行安装 2.安装完成后,搜索IDLE打开python shell,输入 import nltk 引用该工具包&…

NLTK使用方法总结

目录 1. NLTK安装与功能描述 2. NLTK词频统计(Frequency) 3. NLTK去除停用词(stopwords) 4. NLTK分句和分词(tokenize) 5. NLTK词干提取 (Stemming) 6. NLTK词形还原&#xff0…

行人重识别reid数据集

有需要的人,请在评论区留下你的邮箱。 本人,双非学校小硕。研究方向行人重识别。收集了一些常用数据集。 Market-1501-v15.09.15 dukemtmc-reid 顺便附上一个根据相机id划分数据集的代码 import os import shutil import os.path as osp import numpy…

转化类操作符:map、mapTo和pluck

map介绍: import {Observable} from rxjs/Observable; import rxjs/add/observable/of; import rxjs/add/operator/map;// 第一种 const source$ Observable.of(3, 1, 4); const mapFunc function(value, index) { return ${value} ${this.separator} ${index}; …

VulnHub - Pluck靶机

VulnHub - Pluck靶机 arp-scan -l 探测靶机地址 nmap -sV -Pn -A x.x.x.230 dirb http://x.x.x.230 扫描目录 发现index.php 目录下存在文件包含漏洞 直接修改page参数,经几次修改,发现可读本地文件../../../etc/passwd 从上图看到passwd文件最下方有个b…

Pluck Cms文件上传结合命令执行复现

本漏洞影响 Pluck CMS Pluck CMS <4.7.10 部分解释来自零组文库 安装模版文件包含导致任意命令执行 很多CMS都会在安装模版的时候getshell&#xff0c;那么这里笔者也发现了类似的漏洞。 在阅读自己下载下来得源码之后看到 目录下有.htaccess文件&#xff0c;直接把php设置…

春秋云境:CVE-2022-26965(后台RCE)

目录 一、题目 二、 利用cms主题构造木马 一、题目 介绍&#xff1a; Pluck-CMS-Pluck-4.7.16 后台RCE 进入题目&#xff1a; cms页面 点击admin进行登录&#xff1a; 弱口令admin登录&#xff1a; 成功登录进去&#xff1a; 国产化一下&#xff1a; 选项---选择主题 点击…

春秋云境系列靶场记录(合集)-不再更新

春秋云境系列靶场记录 春秋云境系列靶场记录合集&#xff0c;不更新了哈~~~ 2023/1/17日记 感谢各位朋友的关注&#xff0c;2022年11月到12月&#xff0c;利用空闲时间做了春秋云镜的靶场&#xff0c;因为穷&#xff0c;所以也只能做免费的&#xff08;当然还有个原因就是我太…

春秋云境:CVE-2022-26965

春秋云境&#xff1a;CVE-2022-26965 文章合集&#xff1a;春秋云境系列靶场记录&#xff08;合集&#xff09; Pluck-CMS-Pluck-4.7.16 后台RCE&#xff1a;CVE-2022-26965 漏洞介绍 Pluck-CMS-Pluck-4.7.16 后台RCE 解题步骤 过弱口令登录&#xff1a;admin 登录之后按照…

什么是pickle?

什么是pickle? 学习《深度学习》鱼书的源码时&#xff0c;刚看到加载mnist数据集所用到的mnist.pkl文件&#xff0c;理所当然的以为pkg这样的package安装包文件。奇怪安装包为何被包含在代码目录中&#xff0c;结果发现 init_mnist函数还要加载它。 我们来看看这个神秘的mnis…

Laravel SQL查询中first, pluck与lists方法的使用

看到说明文档上面介绍&#xff0c;难免有些迷惑&#xff0c;还是亲自动手试试吧。 sql测试数据表 -- ---------------------------- -- Table structure for users -- ---------------------------- DROP TABLE IF EXISTS users; CREATE TABLE users (id int(10) unsigned NOT…