【共词聚类分析】基于CNKI和WOS的小样本稳健性检验

article/2025/3/15 12:29:06

很久之前的一篇文章,最近终于收到了Reviewers的回复(一把心酸…其中有一个Comments如下,意思是我们原先的文章没法证明共词聚类方法的结论是合理的…于是打算新增加一个稳健型检验(robust analysis),由于上次做这部分实在太久远了,这次用一个小样本将共词聚类分析的过程记录下来。

Comments to the Author
Overall, this manuscript needs major modifications and rethinking of the entire paper outline. Specific comments are as follows:
1- The time interval of the study is indicated as 32 years spanning from 1989 to 2021, but they presented only 2008 and 2019. How do they segregate the results? In other words, they do the tests for 32 years but talking only for the part between 2008-2019.

抓取数据来源:CNKI

首先在CNKI上使用高级检索功能,这里我的主题是气候变化,类型是期刊,出版时间是2008-2019,排序方式为相关性排序。这里只是robust analysis,需要的样本量很少,因为CNKI每次只能导出500条信息,如果需要大样本,后面我会更新使用爬虫来抓取的方法。

将检索结果每次500条导出下来,下载格式为Refworks格式,方面后面的分析。这里我一共抓取了3000条数据(500*6)

因为是使用文献关键词来进行共词聚类,我在这里使用了学术点滴开发的一款软件COOC直接将从知网导出来的txt进行合并以及将Refworks里面的关键词格式单独提取出来。

提取后的excel就是结构化的了,一共2996条文献信息。我们将其中的关键词列表拿出来分析就可以了。

抓取数据来源:Web of Science

抓取完中文的文献后,还需要抓取英文的文献,这里我们是通过WOS下载文献数据。通过高级检索,检索11本气候变化相关的头部期刊,要求其发表时间在2008-2019,其摘要中包“China”或者“Chinese”。

但是今年1月份后WOS改版后,居然没有可以导出关键词的选项…还好去年爬取的相关文献数据库还在,我这次直接在之前的数据中提取2008-2019的所有相关文献。之后有空看看怎么用爬虫抓取一下。

符合条件的一共有2774条文献信息。仍然是将其中的附加关键词提取出来。WOS有作者关键词和附加关键词,我们主要使用作者关键词,如果没有作者关键词的话,我们就用附加关键词来替代,用excel处理一下。

接着翻译成中文。这里的翻译是基于之前的工作,直接用之前的翻译表匹配得到的。

合并关键词

下一步需要将CNKI和WOS提取的关键词进行合并统计。

因为样本量很小,直接使用Excel,共获取文献共5451条(CNKI:2996,WOS:2774)。处理过程如下:(注意:因为导出的是一条文献一个单元格的格式,不能直接搜索替换,所以需要通过”;”将关键词切开,通过单元格匹配,剔除后再合并起来)

  • 为了方面后面的处理,将《》、“”等符号去掉
  • 这里的研究主题是中国的气候变化,需要将“中国”、“气候变化”这两个词剔除(频次很高)。
  • 将同义词进行合并。比如
    (1)年代际变化:年代际变化、年际变化
    (2)厄尔尼诺-南方涛动:厄尔尼诺
    (3)二氧化碳:CO2、二氧化碳排放量
    (4)农业:农业、农业生产
    (5)夏季风:亚洲夏季风、夏季风
  • 回归原文,人工将无关词汇剔除,比如美国、北太平洋西部、第一部分、气候变化问题、亚洲、分配、太平洋、感知、遥相关、来源等词

这一步会花费比较多的时间,一个是因为处理的过程需要不断调试,涉及到很多的excel表格,要很细心,不然很容易出错;另一个是因为要回归原文,找到各个关键词的含义,好进行同义词合并和无关词汇剔除。

通过对关键词进行统计分析,共获得不重复关键词11741个,累计频次23444次。

由于共词分析的数据源于高频词出现的次数,因而高频词阈值的选取将直接影响分析结果。现阶段,学术界进行共词分析主要通过自主确定法、高低频词分界公式法、普赖斯公式法和基于词频g指数法来确定高频词阈值。尽管当下共词分析法已普遍运用于各类学科,但目前尚未有学者针对气候变化分类领域进行专门研究。因此,我们需要探究用何种方法能科学合理地选取气候变化领域高频词阈值。

基于之前的工作(如下表),我们得出针对这里的气候变化主题使用g-index方法的共词聚类效果是最好的。

这里我们使用g-index选取的阈值是24,一共57个高频关键词进行接下来的分析。

最终的关键词表格如下:

序号关键词频次g^2累计频次(g+1)^2
1影响19211924
2重金属13443269
3年代际变化125945116
4厄尔尼诺-南方涛动1211657225
5降水量1102568236
6气候1053678749
7农业1004988764
8易变性896497681
9适应82811058100
10二氧化碳781001136121
11风险评估781211214144
12人类活动731441287169
13温度711691358196
14沉积物691961427225
15青藏高原682251495256
16季风652561560289
17循环652891625324
18多环芳烃623241687361
19降雨量593611746400
20空气污染594001805441
21夏季风584411863484
22全球气候变化524841915529
23趋势515291966576
24气温485762014625
25土壤466252060676
26降水446762104729
27脆弱性447292148784
28巴黎协定437842191841
29水质428412233900
30应对气候变化409002273961
31城市化4096123131024
32可持续发展39102423521089
33模型37108923891156
34水资源36115624251225
35PM2.536122524611296
36径流35129624961369
37水资源34136925301444
38不确定性34144425641521
39健康风险34152125981600
40空间分布33160026311681
41联合国33168126641764
42全球变暖33176426971849
43温室气体32184927291936
44海面温度31193627602025
45大气环流31202527912116
46风险31211628222209
47气候变异性30220928522304
48粮食安全30230428822401
49土地利用30240129122500
50影响因素29250029412601
5127260129682704
52氮气26270429942809
53SWAT模型26280930202916
54经济增长25291630453025
55国际贸易24302530693136
56干旱24313630933249
57排放24324931173364

共词聚类分析

接着利用基于词频g指数法确定的57个高频关键词进行共词聚类分析。

首先使用COOC软件将选取的关键词转化为57*57的共现矩阵。

再转换为完全共现矩阵

但由于两个关键词共现频次的多少只受两个关键词各自词频大小的影响,因此还需引入表示关键词共现相对强度的指标。在文献计量学中,目前应用较多的是Ochiia系数和JacGard指数。本研究用Ochiia系数将共词矩阵转化为相关矩阵,再用“1”与全部相关矩阵上的数据相减,得到表示两词间相异程度的相异矩阵,相异矩阵中的数据数值越大,表明关键词之间的距离越远,相似度越差。

再利用SPSS进行聚类分析,聚类方法采用组间联接法,度量方式为平方欧氏距离,聚类分析谱系图如下图所示。(这里的聚类方法有组间联接、组内联接、欧式距离、弦距离等等,多次组合对比,看看哪种方法的聚类效果好)

下一步就是对得到的聚类结果进行归类命名以及解读了。

由于我这里只是为了做稳健性检验,得到的聚类结果其实跟之前基于大样本做的工作很重合了,所以也说了之前的结果是可信的。

本文到这里就结束了。

从本文论述来看过程好像很简单,但实际上在做的过程中是需要尝试很多遍的,需要很细心。本文描述的只是基于小样本做简单的共词聚类过程,工作量其实也不少了,但呈现在文章中可能只是几句话进行描述…科研不易啊!


http://chatgpt.dhexx.cn/article/NwqR5WDX.shtml

相关文章

python共词矩阵分析结果一步到位

import os import re import pandas as pd from PyPDF2 import PdfFileReader import string import yakeif __name__ __main__:# 运行第一部分代码pdf_files_path C:/Users/win10/Documents/美国智库/pdf_files# 定义一个函数,用于读取PDF文件并将其转化成文本de…

共词分析

一、共现分析概念及主要类型 “共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。而“共现分析”是对共现现象的定量研究,以揭示信息的内容关联和特征项所隐含的知识。常…

AD09由英文改中文菜单步骤

1:打开AD09,点击DXP,选择Preferences 2:在对话框的左边一竖列选择General 3:选择左边竖列后,在右边找到Localization选项 4:点击应用,再点击OK。 5:然后关闭AD09&#xf…

AD软件的常用基本设置

AD软件的基本设置 前言 工欲善其事,必先利其器;最近学弟一直在忙着画板子,但是效率非常低,在看过他的软件基本设置,以及对软件快捷键掌握程度后(新手小白),我决定将常AD的常用基本…

STM32定时器做时钟源输出基于CubeMx

目录 前言 CubeMX配置 开始函数 改变频率 改占空比 结论 前言 调试使用的评估板:https://item.taobao.com/item.htm?spma230r.1.14.17.432b1562F8z658&id612002664117&ns1&abbucket14#detail 作者再调试AD5933过程中,需要输出100Hz…

Evaluation Board User Guide UG-364 文档 BUG

最近作者使用这个芯片;在进行硬件性能对比测试中发现ADI文档中的一个小问题; 相位角计算的过程中,就是下图 结合下面的代码,验证了上面文档应该是手误导致的。

2019年全国大学生电子设计竞赛D题简易电路特性测试仪试题

题目要求部分 我负责的部分就是测量阻抗的部分,这一次我使用的是AD5933 AD5933介绍 我这一篇主要是讲使用5933计算那个待测电路的阻抗值,首先就是在概括处已经说明是我们读取的数据其实是一个实部和一个虚部。 然后我们要记住的是向寄存器0x94&#xf…

电赛专题 |国一作品_线路负载及故障检测装置

有幸邀请到了在2019大学生电子设计大赛的获奖优秀队员为本公众号投稿,将分几次推文为大家介绍几只优秀队伍的作品。 本次推文为大家分享西安电子科技大学微电子学院的团队的作品,团队成员为:蒋昊宇 冯郑 张岳琦(排名不分先后&…

智能电导率系统电路设计详解

电导率是一个衡量水溶液导电能力的电学物理量, 电阻率的倒数为电导率,用希腊字母κ表示,κ1/ρ。一般意义上,电导率的测量温度是标准温度(25℃)。在液体中,水的电导率是衡量水质的一个重要指标。…

AD5934阻抗变换模块实验电路板

■ 前言 本文讨论了基于AD5934构建阻抗变换模块。并对于它测试相应的阻抗进行实验。 01电路设计 1.原理图设计1 ▲ 实验电路板 原理图 2.PCB版图 ▲ 实验电路板PCB 电路板输出接口从右到左,前四个的功能定义如下表。后面四个是用于调试使用。 管脚(从右到左)符号功…

使用AD5933测量元器件的谐振特性

■ 前言 元器件的谐振特性 使用 使用AD5933测量电子器件复阻抗 测量元器件的谐振特性。这里记录了一些相应的的电子实验的数据。以备之后进行复习和参考。 01测量电路 在 使用AD5933测量电子器件复阻抗 中给出了直接测量一些元器件(电阻、电容)的结果。…

AD5933测量容性负载时的神秘振荡信号

■ 问题简介 在博文 使用AD5933测量电子器件复阻抗 中,对于电容负载进行测量的时候,发现测量的结果与理论值严重不符。 除了出现了增大的测量输出值(与前面电阻相对比),还有一些非常不规则的输出结果。 计时在小信号…

使用AD5933分析复阻抗的时钟频率设置

作者:卓晴博士,清华大学自动化系 更新时间:2020-07-29 Wednesday ■ 前言 使用 AD5933分析复数阻抗 时,由于受到内部离散傅里叶变换(DFT)所带来的以下限制: 由于采集信号可能带来的频率 频率混叠 现象由…

使用AD5933测量电子器件复阻抗

■ 前言 下面使用 AD5933阻抗转换器、网络分析仪初步实验 对一些典型的器件测量相关的阻抗。分析测量所对应的工作频率,工作量程等问题。 相关的文献参阅: AD5933阻抗转换器、网络分析仪初步实验AD5933不同频率下的转换结果AD5933使用外部时钟获得更低…

AD5933不同频率下的转换结果

01简介 AD5933阻抗转换模块 是一款基于AD公司的 AD5933 芯片的测量 复阻抗 的电路模块。在 AD5933阻抗转换器、网络分析仪初步实验 中对该模块进行了初步的实验。 由于该芯片的基本原理是采集有芯片内部产生的正弦波电压信号激励下复阻抗相应的正弦电流信号,经由芯…

AD5933使用外部时钟获得更低的分析频率

■ 前言 在博文 AD5933不同频率下转换结果 中分析了 AD5933阻抗变换模块 使用内部时钟(fosc16.776MHz)时,测量结果受到采集时间窗口的影响,所能够达到的最低阻抗激励正弦信号频率。 那么,在有些应用中,对象…

基于AD5933 生物复阻抗

1、基于AD5933的生物复阻抗测量仪 - 百度文库 2、参考设计:基于AD5933的生物复阻抗测量仪 | 亚德诺半导体 3、使用AD5933分析复阻抗的时钟频率设置_卓晴的博客-CSDN博客 4、AD5933设计阻抗测量系统小总结 - ADI参考电路 - 电子工程世界-论坛 5、AD5933阻抗测量…

2019年电赛D题简易电路特性测试仪试题ad5933测量小阻抗值

ad5933 继上一篇的文章,我后面才发现一个大问题,就是上一次计算的增益系数其实不能测量其他小的阻抗值,在参考手册里面就有一章讲的就是小阻抗的 这一个小阻抗的扫描频率范围是在《500欧的范围内 当然手册里面也是讲到不同的阻抗值是对应的…

最小采样频率计算公式_AD5933使用外部时钟获得更低的分析频率

■ 前言 在博文 AD5933不同频率下转换结果[1] 中分析了 AD5933阻抗变换模块 使用内部时钟(fosc=16.776MHz)时,测量结果受到采集时间窗口的影响,所能够达到的最低阻抗激励正弦信号频率。 那么,在有些应用中,对象的带宽和工作频率会很低,那么如果能够使用AD5933对这些对象进…

阻抗测量单芯片方案AD5933 芯片使用方法

庆祝一下:作者设计的生物阻抗分析设备与万通桌面版电化学工作站精度对比,最大误差≤3%; 内容安排: AD5933 大概的工作原理;作者再使用AD5933 的注意事项;驱动代码与验证方法; 注意事项 1&a…