15个国内常用语料库

article/2025/10/13 14:01:06

通用单语语料库

01. 国家语委现代汉语通用平衡语料库

http://www.aihanyu.org/cncorpus/index.aspx

该语料库是由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1 亿字,语料时间跨度为1919-2002年,收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料。其中标注语料库为国家语委现代汉语通用平衡语料库全库的子集,该子集是按照预先设计的选材原则进行平衡抽样,对语料进行分词和词类标注,并经过三次人工校对,最后得到约5000万字符的标注语料库。

02. 北京语言大学语料库中心BCC语料库

http://bcc.blcu.edu.cn

BCC语料库是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。

03. 清华TH语料库

http://www.openslr.org/18

清华TH语料库于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料生语料是原始语料和熟语料熟语料是经过分词和词性标注的语料两大类,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材。经过近年来不断的升级和更新,已更名为THCHS-30语料库。

04. 北京大学CCL语料库

http://ccl.pku.edu.cn:8080/ccl_corpus/index/jsp?=xiandai

CCL语料库中包含现代汉语语料、古代汉语语料两类单语语料,涉及的文献时间从公元前11世纪到当代。其中现代汉语语料约6亿字符,涵盖了文学、戏剧、报刊、翻译作品、网络语料、应用文、电视电影、学术文献、史传、相声小品、口语等多个类型。CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库,例如:早期北京话材料、留学生汉语作文语料、汉语构式语料库、中文学术文献语料库、海外华文网络语料等等。

05. 人民日报标注语料库

http://corpus.njau.edu.cn/

该语料库是我国第一个大型的现代汉语标注语料库,以《人民日报》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音标注的加工任务,还利用所研制的《现代汉语语义词典》、参照《现代汉语词典》,根据语料实际使用情况对词义描写进行调整,研发了一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)。为了弥补北京大学人民日报语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与社会计算研究中心以2015年至2018年《人民日报》发表的文章为对象,构建了新时代人民日报语料库(简称NEPD),目前该语料库涵盖了《人民日报》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9个月的分词语料,并且后续将不断补充最新语料 。

06. 清华汉语树库(TshinghuaChineseTreebank,TCT )

该语料库从包含文学、学术、新闻、应用四大体裁的200万汉字平衡语料库中提取了100万汉字规模的语料文本,经过自动断句、句法分析后再进行人工校对,形成了有完整句法结构树的汉语句法树库语料。

汉英双语平行语料库

07. 中国科学院汉英平行语料库

中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价。

08. 南京大学双语词典研究中心英汉双语平行语料库

(NJU_BDRCBC)

该语料库的总体规模共约200万对英汉平行句对,英语和汉语词例数高达2亿词次,其素材一方面来源于南京大学双语词典中心拥有自主知识产权的双语辞书标准数据以及英汉双语对照文献,另一方面也面向网络获取了大量的英汉双语平行对语料。南京大学双语词典研究中心还跟商务印书馆联合开发了CONULEXID(The Commercial Press and Nanjing University Lexical Database) 英汉语言资料库,该语料库系统于1994年正式开始创建,并于1997年通过验收。

09. 清华大学中英平行语料库清华大学中英平行语料库

http://thumt.thunlp.org/

由清华大学自然语言处理与社会人文计算实验室在国家“863 计划” 项目“ 互联网语言翻译系统研制” 的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。

其他汉外平行语料库

10. 北京大学计算语言研究所双语平行语料库

该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料 。

11. 北京外国语大学双语平行语料库

由王克非负责构建的汉英和汉日两个平行语料库目前仍在建设中。该语料库包括2000万字的日汉对译文本语料库和3000万字词的通用型汉英平行语料库两个部分。目前2000万字的日汉对译文本语料库的平行对应语料分为文学与非文学、汉译日和日译汉存放,做到段落级对齐,运用所研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。通用型汉英平行语料库分为,“百科语料库”“翻译文本库”“双语语句库”以及“专科语料库”四个子库,目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接。

12. 南京农业大学典籍平行语料库

基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语料库 。

其他特色语料库

13. 汉语中介语语料库

http://qqk.blcu.edu.cn/#/login

汉语中介语语料库由北京语言大学( 原北京语言学院)于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731 篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。

14. HSK动态作文语料库

http://hsk.blcu.edu.cn/Login

该语料库收录了1992-2005年部分母语非汉语的外国人参加高等汉语水平考试(HSK高等) 的作文考试的答卷语料,2006年12月上线语料库1.0版本,现已上线语料库2.0版本,语料总数达11569篇,共计424万字。除此之外,北京语言大学还建立了首都外国留学生汉语文本语料库、汉语学习者口语语料库等多种类型的汉语语料库。北京语言大学多个语料库的问世及相关的研究成果激励了更多学者和单位投入到教学导向的语料库的建设中,已知语料库有:中山大学建立的留学生中介语语料库、汉语连续性中介语料库、广东外语外贸大学与兰卡斯特大学联合建立的Guangwai Lancaster汉语学习者语料库等。

15. 中国传媒大学有声媒体文本语料库

http://ling.cuc.edu.cn/Raw-Pub/

该语料库由中国传媒大学国家语言资源检测与研究有声媒体中心开发,2003年开始建设,2005年上线,其后不断扩大语料规模, 并于2016年进行了第三次改版。该语料库包括2008-2013年的3万多个广播、电视节目的转写文本,总字符数达到2.4 亿个,并对所有文本进行了自动分词和词性标注。

转自:语言学系大学生务必收藏的15个国内常用语料库 - 知乎 


http://chatgpt.dhexx.cn/article/ZkIEUxcQ.shtml

相关文章

latex中文简历,硕博士找工作实习用,顶级简约简历

*转载请注明出处,谢谢! *latex自制简历演示,前言本篇文章介绍一下如何利用,制作一份简单的个人简历。文章目的并不是给大家提供模板,而是希望大家通过本篇文章的介绍,对制作个人简历的过程有个简单的了解,有所启发。代…

分享一个Latex一页纸简历模板(中英文)

分享一个Latex一页纸简历模板(中英文) 近期鉴于需要想找一份中文版的latex简历模板。tex模板支持中文一直是新手的心头痛,笔者希望能找到一份无痛支持中文的模板,最终在GitHub上找到了billryan制作的模板,链接在全文的…

硕士博士简历latex模板

找工作找实习,技术类的,简洁版,简历模板 模板下载地址:https://download.csdn.net/download/qq_25379821/10799422 使用注意事项: 我使用的编辑器是 Texworks 注意把环境改成system,否则中文显示乱码

一个LaTeX论文模板

文章目录 $\LaTeX$源码模板效果图 LaTeX \LaTeX LATE​X源码 % -*- coding: UTF-8 -*- \documentclass[UTF8]{ctexart} \usepackage{multicol} %数学包,这里没用到 %\usepackage{amsmath} \usepackage{indentfirst} %添加作者信息 \usepackage{authblk} \usepackag…

安装R包的几种方法(汇总)

以下载ggplot包为例 1. 在R studio界面中直接输入函数: install.packages("ggplot") #直接输入R包的名字即可。 2. 找不到无法下载的包,可以上Github官网搜索,上面会提供下载方法: 3. 将包下载到本地后,进行…

R: R package安装的几种方式

R包安装方式 一、CRAN安装二、Bioconductor安装三、Github安装四、手动安装 一、CRAN安装 对于大多数R包或可以在R官网上查询到的包,都可以直接进行安装。 直接利用代码安装 install packages("R包的名称") 从R—packages界面搜索安装 在第3步中输入R包…

R安装与卸载、RStudio安装

R及RStudio安装、R卸载 R下载R安装Rstudio下载RStudio安装R卸载 RStudio只是辅助使用R进行编辑的工具,所以RStudio的正常使用需以R程序为基础,安装过R的可以跳过前两步 R下载 官网 点击download R。 点击选择清华大学的镜像地址 R安装 任意选择一个&…

RStudio的安装

安装RStudio教程 (如果下面的博客没有能解决你的问题或者你还有其他关于计算机方面的问题需要咨询可以加博主QQ:1732501467) 安装RStudio,总共分为三步: 一、安装R安装包 二、安装RStudio 三、测试RStudio是否安装…

R与RStudio的详细安装教程(有每一步的详细教程!!!!)

R与RStudio的详细安装教程 R是RStudio的前提,首先安装R,才能安装RStudio。 安装R教程总共分为三步: 一、下载R安装包 二、安装R 三、打开R 安装RStudio,总共分为两步: 一、安装RStudio 二、测试RStudio是否安装…

什么是mysql锁表

为何会锁表 首先我们了解一下数据库查询机制,首先我们用工具进行连接查询时,会创建一个connection,此时数据库会将查询语句解析成一棵“树”,各个引擎底层的结构不一样,mysql的话在innodb用的是b-tree,俗称…

MySQL-锁表和解锁

介绍 锁是计算机协调多个进程或线程并发访问某一资源的机制。锁保证数据并发访问的一致性、有效性;锁冲突也是影响数据库并发访问性能的一个重要因素。锁是Mysql在服务器层和存储引擎层的的并发控制。 加锁是消耗资源的,锁的各种操作,包括获…

MySQL锁表了怎么办?

发生表锁的一些原因 1、锁表发生在insert update 、delete 中 2、锁表的原理是 数据库使用独占式封锁机制,当执行上面的语句时,对表进行锁住,直到发生commite 或者 回滚 或者退出数据库用户 3、锁表的原因 第一、 A程序执行了对 tab…

MySQL的表锁

目录 共享锁与排它锁(读锁和写锁) 1、锁定读 2、写操作 1、表锁 表级别的读锁和写锁 意向锁(IS、Ik) 自增锁(TUTO-INC锁) 元数据锁(MDL锁) 共享锁与排它锁(读锁和写…

连接器插针插孔接触不良该如何检测呢?

随着科学技术的发展,电子设备越来越复杂,性能要求越来越高,对其所应用的电子元器件的要求也越来越严。而连接器的性能、可靠性则直接影响到电子设备的性能及可靠性。这就使得电连接器的结构设计、制造工艺、装配等过程环节技术难度加大,不可靠因素增多,且变得更加复杂。因此,对…

IPX 、 IPEX 、 UFL连接器

I-PEX原先是个做连接器的公司,后被第一精工合并。 IPX 、IPEX 、 UFL、HSC应该都是同一种连接器,一般叫为IPEX或IPX,不过不同的厂商有自己系列和名称,如第一精工DAI-ICHI SHIKO叫为IPEX,广濑机电HIROSE的UFL和WFL&…

PCB中 D-Subminiature(DB接口) 连接器系列分类及带有3D封装绘制

PCB中 D-Subminiature(DB接口) 连接器系列分类及带有3D封装绘制 连接器分类 连接器是一种连接电气端子以形成电路的耦合装置。 借助连接器可实现电线、电缆、印刷电路板和电子元件之间的连接。D-Subminiature(DB接口)主要有直角…

使用HiFlow场景连接器查看每天处于地区的疫情

目录 使用HiFlow场景连接器查看每天处于地区的疫情 HiFlow场景连接器是什么? HiFlow场景连接器(目前)免费的 简单创建了一个查看所处地区流程: 首先你需要进行一下登录,登录进去后内容如下(你可以先看的&#xff0…

APC型光纤活动连接器有何特点?适合使用在什么场景?

1 概述 光纤活动连接器的型号主要由两个部分组成,比如我们常用的SC/UPC型连接器,SC表示连接器的接口类型,UPC表示插针端面形状。 连接器的接口分SC、FC、LC、ST、MPO等多钟类型,我们在工程中常用的主要有LC、FC和SC。连接器插针…

ThingsBoard网关mqtt连接器案例及双向RPC的BUG修复

文章目录 说明过程演示文字展示视频操作过程修改网关配置MQTT连接器配置JS模拟网关子设备添加网关设备启动网关启动js模拟设备创建开关小部件ABCDE MQTT连接器双向RPC的BUG修复 说明 通过下面案例了解MQTT连接器的使用,包括遥测,属性,单向双…

详解CAN总线:常用CAN连接器的使用方法

目录 1、9针DSUB 2、5针迷你C型接头 3、6针德驰DT04-6P 本文将分享几种常用的CAN连接器的连线和使用方法。 1、9针DSUB CiA推荐使用9针DSUB作为工业标准连接器,实物如下图所示: 引脚定义和说明如下所示: 2、5针迷你C型接头 DeviceNet协…