开源开放 | 中药说明书实体识别数据集TCM-NER

article/2025/8/23 2:40:30

OpenKG地址:http://openkg.cn/dataset/tcm-ner

阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:阿里云(陈漠沙)


1、背景

疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础。本数据集就是在这样的背景下提出的,通过抽取中药药品说明书中的关键信息,达到自动构建中医药药品知识库的目标。

2、数据集

2.1 数据来源

TCM-NER(Traditional Chinese Medicine - Named Entity Recgonization Dataset)数据源来自中药药品说明书,TCM-NER包含1,997篇文档,训练集、验证集和测试集分别为1,000, 500和497个,共标注实体59,803个。

2.2 标注规范

本数据集由中医专家定义了13类实体:

·药品(DRUG):中药名称,指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。中药主要来源于天然药及其加工品,包括植物药、动物药、矿物药及部分化学、生物制品类药物。例子: 六味地黄丸、逍遥散

·药物成分(DRUG_INGREDIENT): 中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞

·疾病(DISEASE): 疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为“身体病况”(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病

·症状(SYMPTOM): 指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子:头晕、心悸、小腹胀痛

·证候(SYNDROME): 中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。 例子:血瘀、气滞、气血不足、气血两虚

·疾病分组(DISEASE_GROUP): 疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病

·食物(FOOD):指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜

·食物分组(FOOD_GROUP): 中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物

·人群(PERSON_GROUP): 中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女

·药品分组(DRUG_GROUP): 具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药

·药物剂型(DRUG_DOSAGE): 药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片

·药物性味(DRUG_TASTE): 药品的性质和气味。例子:味甘、酸涩、气凉

·中药功效(DRUG_EFFICACY): 药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀

2.3 标注数据示例

本数据集采用常规的offset下标标记法:

351780d2cad466df332d24b056af4ab9.png

2.4 数据集统计信息

数据集统计信息如下:


文档数量

标注实体数

平均实体数/文档

训练集

1,000

18,478

30.68

验证集

500

4,373

29.76

测试集

497

5,096

28.66

表1: TCM-QC统计信息

实体类别分布如下:

353ef43a3cd9a1d6a881bc96c98567ce.png

图1: 实体类别分布

2.5 数据集特点

TCM-NER有如下特点:

(1)类别分布不均匀:数据来源于真实世界,如图1所示,实体类型遵行长尾分布。标签分布不均匀是NER任务的一大挑战。

(2)专业性强:中医文本存在许多专业领域词汇,部分类别之间较难区分,如本任务重定义了“症状”和“症候”两类概念,进一步加大了任务的难度。

3、结语

TCM-NER是业界首个中医领域的实体识别数据集,希望本数据集的开放能够促进抽取中药信息抽取,知识图谱自动构建等领域的技术发展。

4、致谢

感谢医学标注专家郎珍珍和标注人员辛勤细致的付出!


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

14ce7a1ea180c92b7203188d09ef892e.png

点击阅读原文,进入 OpenKG 网站。


http://chatgpt.dhexx.cn/article/GeW1OTpD.shtml

相关文章

tcm_fc自动加载 linux,[Fibre Channle 实战之四]centos7中如何添加tcm_qla2xxx支持

centos7中自带的有qla2xxx驱动,但是没有tcm_qla2xxx驱动,这会创建一些HBA卡的target的时候失败。为此,需要保证tcm_qla2xxx.ko驱动能生成并自动执行。那么该如何解决这个问题呢? 1.选择tcm_qla2xxx模块 首先,进入和当前centos内核…

看见“信任”,可信计算平台的由来解读(TPM、TCM、TPCM、等保2.0解读)。

可信计算平台由来解读 一、关键名词二、什么是可信计算TPM、TCM、TPCM由来 三、等保2.0关于可信要求的解读四、阿里云可信计算实践五、结语 一、关键名词 TPM(Trusted Platform Module)可信平台模块,是一种植于计算机内部为计算机提供可信根…

tcm工具 软件测试,tcm:向测试用例中导入自动测试

tcm:向测试用例中导入自动测试 02/21/2013 本文内容 您可以将自动测试(例如,单元测试或编码 UI 测试)导入测试项目,用作测试计划的一部分。使用以下 tcm 命令从测试程序集导入测试: tcm testcase /import 您基于提供的参数选择的每…

SOC存储系统 CACHE TCM OCM

CPU CACHE CPU缓存的定义为CPU与内存之间的临时数据交换器,它的出现是为了解决CPU运行处理速度与内存读写速度不匹配的矛盾——缓存的速度比内存的速度快多了。CPU缓存一般直接跟CPU芯片集成或位于主板总线互连的独立芯片上。(现阶段的CPU缓存一般直接集…

tcm可信密码模块linux,一种基于国产TCM芯片的可信冗余密码服务器的制作方法

本发明涉及国产飞腾计算机、数据加解密以及身份验证等技术领域,特别涉及一种基于国产TCM芯片的可信冗余密码服务器。 背景技术: TCM芯片,是由国家密码管理局联合国内一些IT企业推出的。它是一种安全芯片,能有效保护PC,…

tcm_fc自动加载 linux,升腾TCM(CCCM)5.6版本Linux安装指导

升腾TCM(CCCM)5.6版本Linux安装指导 1.概述 升腾提供的TCM自5.6版本往后,在继续支持Windows安装的基础上,新增支持在Linux操作系统上进行安装。 在目前已经发布的版本中,Linux操作系统版本的TCM跟Windows版本的TCM对外提供功能完全一样&#…

tcm可信密码模块linux,一种基于国产TCM芯片的可信密码模块及其工作方法与流程...

本发明涉及一种基于国产TCM芯片的可信密码模块及其工作方法,涉及国产计算平台安全可信、自主可控、数据加解密、安全审计、完整性保护等,属于计算机平台设计技术领域。 背景技术: 随着信息电子化与信息全球化的飞速发展,人们对计算机在工作、生活中的选择与侧重逐渐从使用属…

tcm工具 软件测试,如何使用 TCM? TCM 测试总结报告

1.究竟什么是TCM? TCM(ThunderboltCertificaTIonManager)是一套由Intel研发之几近全自动化的测试工具,且为Thunderbolt™认证测试中必要使用之工具。TCM能够针对Thunderbolt™4FuncTIonalCTS(ComplianceTestSpecificaTIon)的各项测试项目,进行Thunderbolt™4Host或者Thunder…

ThinkPHP缓存文件写入失败

情况:Windows下网站直接拷贝至Ubuntu 1.删除cache下的所有临时文件。(需保留Thinkphp Runtime下的文件结构,删除文件内容) 2.提权,在Linux命令行输入 sudo chmod 777 -R /var/www 转载于:https://www.cnblogs.com/vale…

Redis查询缓存

文章目录 缓存更新策略主动更新策略问题考虑 难题1.缓存穿透解决方案: 2.缓存击穿互斥锁逻辑过期 3.缓存雪崩 商品查询缓存实例解决缓存穿透解决缓存击穿互斥锁(这里还要考虑了缓存穿透问题)逻辑时间 缓存更新策略 内存淘汰超时剔除主动更新…

redis的成功写入缓存但查不了

最近在学习redis的简单应用并写出实例结果出现了一个非常奇怪的问题,每次查询都是从mysql中读入并且写入缓存成功但当我再次查询时仍然是从MySQL中读取数据并且再次写入缓存 这让我十分疑惑,实际上就是因为我#spring.redis.database1这行代码没有写但我…

TP框架无法写入缓存文件

问题 解决方案:TP框架无法写入缓存文件

网站提示 缓存文件写入失败 PHP

2019独角兽企业重金招聘Python工程师标准>>> 先确认诸如.cache这样的文件夹已创建成功执行: chmod 777 -R /www,其中/www更换为项目根目录如果是生产环境谨慎设置目录权限,可以只设置需要写权限的 转载于:https://my.oschina.net/…

延缓写入失败计算机硬件,WinXP提示windows写入延缓失败怎么办?写入延缓失败解决方法...

虽然WinXP系统已经退市,但是一些老电脑用户依然坚守XP系统,那么在使用XP系统的过程中经常会出一些小问题,比较常见的就是系统提示“windows写入延缓失败”,那么遇到WinXP提示windows写入延缓失败怎么办?下面装机之家就…

linux缓存无法写入,缓存文件写入失败_Linux下搭建网站提示缓存文件写入失败怎么办...

摘要 腾兴网为您分享:Linux下搭建网站提示缓存文件写入失败怎么办,中意在线,智联招聘,优化大师,易信等软件知识,以及快易多,酷狗6,cc语音,反编译app,快捷酒店管家&#x…

linux缓存无法写入,Linux下搭建网站提示缓存文件写入失败解决方法?

Linux下搭建网站提示缓存文件写入失败时该怎么处理?基于ThinkPHP框架及Linux环境搭建的网站,经常会遭遇缓存文件写入失败的错误提示,即便是现在流行的P2P网站软件便是如此,具体处理办法请看下文。 Linux下搭建网站提示缓存文件写入…

计算机硬盘写入错误怎么办,电脑提示缓存文件写入失败

非正常电脑关引起的: 如果是非正常关电脑引起的写入缓存失败,那就在【运行】中输入【CHKDSK 盘符】。 系统错误: 1,打开我的电脑,打开本地磁盘属性,在弹出的对话框中选择【工具】--【开始检查】&#xff0c…

php linux 缓存文件,Linux下搭建网站提示缓存文件写入失败的处理办法

Linux下建立网站提示缓存文件写入失利时该怎样处理?依据ThinkPHP结构及Linux环境建立的网站,经常会遭受缓存文件写入失利的过错提示,即就是现在盛行的P2P网站程序就是如此,详细处理办法请看下文。 缓存文件写入失利常见原因&#…

linux 下缓存失败,Linux下搭建网站提示缓存文件写入失败怎么办?

Linux下搭建网站提示缓存文件写入失败时该怎么处理?基于ThinkPHP框架及Linux环境搭建的网站,经常会遭遇缓存文件写入失败的错误提示,即便是现在流行的P2P网站程序便是如此,具体解决方法请看下文。 Linux下搭建网站提示缓存文件写入…

php本地缓存错误,thinkphp网站提示缓存文件写入失败

thinkphp网站提示缓存文件写入失败 问题描述: 有用户在虚拟主机中运行thinkphp网站程序时会有些不顺利,如果遇到访问网站提示缓存文件写入失败!:./App/Runtime/Cache/En/4f5e9b635ecef48c04ac2cd42e8b5956.php 问题分析: 如果您遇到上述问题&…