最近准备写一篇文献综述,在征询导师建议后,决定使用CiteSpace这个工具来协助自己进行文献综述的研究撰写工作。
在经过一些基础学习之后,决定自己先开始试一下CiteSpace的基础使用方法,所以今天就先以CNKI上的[在线评论的文章]为数据,尝试使用CiteSpace快速锁定领域内最新研究热点。
1.首先导出CNKI上关于自己研究主题相关的文章Refworks
首先,打开知网,搜索主题词[在线评论],由于直接搜索得到的结果太多了,大概有数千条,质量参差不齐,所以我对数据进行了一定的筛选后还剩下968条相关的数据。按照发布时间进行排序,并记住第一篇以及最后一篇文章的发表年月,在数据分析的时候会用到!将每页显示数据改为最大值50,然后依次每一页全选,10页为一组导出(CNKI一次最多导出500篇文献),直至所有文献全部导出为止。
导出文献的时候格式要选择Refworks。
所有文献数据全部导出之后,将其合并为一个txt文档。由于我的数据不到1000条,导出的txt文档只有两个,所以可以直接复制其中的一个粘贴到另一个txt文档里面完成数据合并。如果你导出的txt文档非常多,建议使用命令直接将多个txt文档合并为一个。具体教程可以参考下文。
神器store:如何快速将多个.txt或者.csv文档合并为一个?zhuanlan.zhihu.com
接下来,数据准备好了,我们需要进行格式转换!
2.数据格式转换:将CNKI引文格式转换成CiteSpace可识别处理的引文格式
首先我们将导出且已经合并好的引文文档重命名,命名为[download_*****.txt]的格式(CiteSpace输入的文件要求以「download」开头。)
然后创建几个文件夹,待会儿进行格式转换以及数据处理的时候会用得到(此目的仅为方便区分,也可以不用创建,只要自己能找到自己的文档所在路径即可)
然后将我合并好需要转换格式的txt引文文档移动到Input文件夹里。打开CiteSpace之后,出现的就是下图的界面。
我们点击[date]中的[Import/Export],我们就可以看到该软件能够分析处理的数据库名称。然后我们选择[CNKI],再分别选中数据格式转换前后输入、输出的路径,我自己的路径就是刚才创建的文件夹中的Input和Output。
选好之后直接点击右侧的转换按钮[CNKI Format Conversion (2.0)],一秒即可转换成功。
转换好的引文文档存储在我先创建的Output文件夹中。
然后将这个转换好格式的引文文档复制到我先创建的[Data]文件夹中。
3.数据处理分析
回到CiteSpace主界面,选择New新建一个项目。
我们设置Title为自己的标题,下面两个路径分别为我们前面创建的数据输出和输入的路径。设置好之后点击最下方的[Save]。
保存之后,重新回到软件操作界面,在右侧的时间切片那一栏选择引文数据的起止时间点;在[Node Types]那一栏我们首先选择[Keyword]分析。关键词分析旨在了解在最近几年中,自己选择的这一主题下研究的热点是什么。选择好这些参数之后,就点击界面左侧的[GO!]。
软件运行,左侧两个框架显示的是分析过程中的详细信息,运行结束之后就会跳出来中间那个界面,然后你可以选择保存或者直接进行可视化。在这里,我选择可视化急需后续的展示。
4.数据可视化
在可视化界面,首先我们会看到中间的那个图,图中有很明显的几个关键词,就是我们选择的主题词下近年来研究的热点领域或分支。在界面的左侧,也会出现每个关键词出现频率的统计。
当然,该软件有非常多的菜单栏按钮,还有右边的参数调整的一个控制面板,我们可以根据自己的需求进行不同角度的图像变换,以满足我们在自己论文中的需求。
有了上面的关键词可视化分析的例子,其他的就很容易了,都是一样的操作。再来一个,比如分析作者。
选好以后直接go,然后可视化,就会得到如下图所示的结果。
机构分析及可视化:
5.数据导出
可视化的结果,我们一般可以直接保存为图片,或者直接截图都行。但是从可视化结果中我们很明显看到一些非常实用的信息,比如作者发文量的排名,或者主要机构等,这些呢都还可以进行深层次的分析,所以我们还可以将其直接导出为表格形式的数据。具体导出的方法就是,点击菜单栏的Export,选择最下面一个Run Batch Mode。
我们就会跳转到浏览器,得到如下图所示的数据。
像我们看到的上图中的表格,还可以直接复制粘贴到excel中进行加工处理。
6.关键词聚类及分析(一些常用操作图谱)
这一部分主要展示各种图谱的操作,至于如何分析对应的可视化图,就需要大家多看相关文献,结合自己的实际研究深入探索了。
在关键词可视化后,点击菜单栏带“K"字符号的小图标,就是进行聚类,会得到像下图所示的聚类标签(#后面的字样就是聚类标签)。
鼠标停在任意标签上,单击右键。选择List Citing Papers to the Cluster。如下所示
可以看到该聚类标签对应的是哪些文献。
操作步骤直接看图(Clusters→Summary Table I Whitelists),就不带详细文字介绍了。
结果如下:
可以看到,在年份后面是三种算法的结果,它们分别与菜单栏中显示的几种算法一一对应,最后的结果与可视化的也是一一对应的,如下图我简单标示了几个。大家可以在运用的时候选择合适的聚类算法并展示对应的可视化结果。
(Layout→Timezone View),如下图
结果如图
网络模块化的聚类指标Q,取值范围是0~1,数值越大,聚类效果越好!通常Q大于0.3就可以表示该网络的结构是非常显著的。
(Layout→Timeline View)
结果如图:
(Burstness→View)
结果如图所示:
以上,就是我目前暂且学到的一些基础知识和自己的实际操作。更多的数据可视化及解读的知识正在进一步的学习过程中。