文献引文分析软件利器 HistCite 详细使用教程
- 2021-12-19
- 来源/作者: 菜鸟图库/ 菜鸟图库
- 491 次浏览
你一定不会对HistCite 感到陌生,这是一款非常强大的引文分析工具,可以快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。
如果说一次引用表示给你的文章投一票,那么并不是所有票都有效,只有相同领域文章的引用才能真正体现你在这个领域中的实力。所以在 Web of Science (以下简称 WOS)上按照被引次数倒序排列,越靠前不一定就越重要。还有一种情况,你发明了某种材料,但是后来名字变了,之后的文章使用的关键词都是新名字,别人搜新名字的关键词是搜不到你的开创性文章的,但是很显然你的文章是非常重要的。通过 HistCite 可以直观的看出这个研究领域的论文全部引用了你的文章,可以体现你的文章的重要性。
好了,下面开始使用这个工具。首先要了解一点,HistCite 这款软件是 Thomson Reuters (汤森路透)公司开发的,和 WOS 是一家公司,所以 HistCite 只支持 WOS 数据库,对于 Scopus 等数据库则无能为力,不过 Github 上面有人写了一个可以将 Scopus 导入 Histcite 进行分析的脚本——Scopus2Histcite,有兴趣的同学可以去试试看。
2016年10月,汤森路透知识产权与科技业务被 Clarivate Analytics (科睿唯安)公司收购了,从此 WOS 也是归该公司所有,因此导出的数据纯文本也发生了些许变化,从而不能直接导入 HistCite 进行分析。不过别担心,HistCite Pro 完全兼容新的文件格式!
打开WOS,注意数据库要选择核心合集(Core Collection)!
例如简单检索一下石墨烯在锂离子电池负极中的应用:
检索结果不是太多,可以全部导出,如果文献太多的话,可以先按照被引频次降序排列,只导出前2000篇就差不多了。
下面开始导出文献信息,点击页面上的【保存至 Endnote Online】按钮右边的下拉按钮,选择【保存为其他文件格式】。
在弹出的菜单中,记录数填写1到500,因为每次最多只能导出500篇文献,所以上面的2819篇文献需要分成6次导出,后面导出的时候依次填写501到1000、1001到1500等等。。。记录内容选择【全记录与引用的参考文献】,文件格式选择【纯文本】,然后点击发送即可得到导出的 txt 文件,类似可以导出其他5个。
注意:含500个记录的txt文档一般是3M左右,如果你的只有几百K,请仔细按照上面这张图进行导出!!!
下面使用 HistCite 来分析这6个txt格式的引文数据文件。由于 HistCite 多年不更新,现在存在各种 Bug,比如直接打开 HistCite,一加载文件就报错:No such file or directory。对于这种情况,你可以选择在 C 盘根目录下新建 fakepath 文件夹,然后将全部的 txt 文档复制到里面,再打开 HistCite 来进行加载,但是仍然会遇到下面 Format Unknown 的问题。
尝试第二种方法。选中所有的 txt 文件,然后拖到 HistCite 的图标上,放开鼠标,果然自动打开了软件。
但是,事情好像并没有那么简单,又出现了一个报错:Format Unknown。
最后,在罗老师的指引下,我将每个 txt 文件的第一行中的 Science 改成了 Knowledge。
然后再将 txt 文件拖放到 HistCite 图标上面打开,终于成功加载了!
可以看到2819篇文献信息全部加载进来了。
在受到这么多折磨之后,我用 Python 开发了一个方便使用的脚步,于是一个以 HistCite 源程序为核心的精简易用免安装版本问世了,就叫 HistCite Pro 吧。
由于 HistCite 源程序只支持 Windows 系统,所以 Pro 版本也只能在 Windows 下使用!
你只需要下载 HistCite Pro 的压缩包(下载链接见文末)并解压(建议解压到 C 盘或者 D 盘的根目录下,保证路径中不含中文),就可以直接用,不需要安装,同时去掉了很多没用的文件,大大缩小了软件体积。对于从WOS上导出的txt数据文件,不用做任何修改,只要把全部的txt放到 TXT 文件夹里面,然后双击 main.exe 即可一键完成加载,非常方便。
好了,数据加载完毕,下面开始分析数据吧,点击 Tools 菜单下的 Graph Maker。
在弹出的页面上点击 Make Graph 即可得到一张引文关系图,包含了最有价值的前 30 篇文章的完整引文关系。
这张图看起来不是很清楚,在左边的Size选项中选择 Full 模式,重新绘制一张高清图,然后右击图片“另存为”一张图片即可。
图上有 30 个圆圈,每个圆圈表示一篇文献,中间的数字是这篇文献在数据库中的序号。圆圈越大,表示被引用次数越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作。
通过我绘制出的这张关系图,我们发现标号为29、49、56、60的四个大圆圈非常显眼,可见这四篇文献的被引次数都是非常高的,我们对全部文献进行按照 LCS 排序,发现前四位刚好就是这 4 篇文献。
再回到那张圆圈箭头关系图,可见石墨烯在锂离子电池负极材料中的应用研究主要起源于2008年(29号文献),其通讯作者Honma来自日本,看来日本在石墨烯电池方面的研究开展得相当早。之后,在2010年,很多原创性的成功迸发而出,具有代表性的就是49、56、60、48号文献,非常有趣的是,2010年诺贝尔物理学奖的获奖项目刚好是石墨烯,其中的关联显而易见。之后的几年,石墨烯在锂离子电池负极方面的研究越来越多,方向约越来越细。
好了,前面提到HistCite可以找到某些具有开创性成果的无指定关键词的论文,我们来看看是怎么办到的。点击页面上的【Cited References】,然后就可以看到本地库中文献参考的全部文献信息,后面带有加号的表示本地txt库中没有包含,这些往往就是被遗漏的重要文献。
同样的,我们点击上面的【Authors】按钮,可以找到本领域的一些大牛,具体的操作步骤读者可以自己去摸索。
那么我们怎么把文献记录导出到Endnote呢?首先点击菜单栏中【Tools】下的【Mark&Tag】选项,调出标记选择工具栏。
下图红框内就是标记选择工具栏。左边栏用于指定选择范围,可以选择当前列表中的全部文献,也可以按照序号(#)、LCS、LCR等数值的区间来选择文献,还可以手动勾选需要的文献。中间栏表示的是需要导出的信息范围,可以只导出记录本身,也可以选择导出引用的文献或者被引的文献。右边栏的【Mark】按钮就是确认选择按钮。
所以,我们选择好了需要导出的文献记录,点击【Mark】按钮。
然后,我们就会发现上面出现了一个新的标签【Marks】,后面的数字就是我们选中的记录条数,如果发现这个数字不正确,点击【Mark】按钮旁边的【Unmark】来重新选择。确认无误之后,点击图示的【Marks】标签链接,即可显示全部被选的文献记录。
好的,下面依次点击【File】、【Export】、【Records...】来导出选中的文献记录。
成功导出后得到一个 .hci 格式的文本文件,直接修改后缀为 txt。如果导出不成功,一般多尝试几次就可以。
好的,现在我们打开Endnote,依次点击【File】、【Import】、【File...】按钮。
在弹出的对话框中通过【Choose...】找到刚才的txt文件,【Import Option】选择 Multi-Filter (Special),【Duplicates】选择 Import All,然后点击【Import】按钮即可导入。
评论中沈曦同学提到了将 HistCite 选好的文献导入到 Noteexpress 软件里的方法,具体操作是在导入时将过滤器选择为 web of science。
最后附上HistCite里面几个重要的英文缩写(感谢Dingledodies同学):
GCS(global citation score), 某一文献在WOS数据库中的总被引用次数。有些引用这篇参考文献的文章可能和你的研究方向毫无关系,但GCS还是会把这个引用数据记录下来。
LCS(local citation score),某一文献在本地数据集中的被引用次数。因为你导入Histcite的文章都是和你检索词有关系的,可以认为这些文章是你的研究同行,因此如果某一篇文献的LCS值很高,就意味着它是你研究领域内的重要文献,很有可能是你领域内的开创性文章,注意LCS高的文献和GCS高的文献不一定是同一篇!
LCR(local cited references), 某一文献引用本地数据集中参考文献的数目。根据LCR值的排序,可以快速定位近期关注该领域的重要文献,因为某一篇文献引用当前数据集中的文献数越多,说明它非常关注你检索的这个研究方向的文献,和你的研究肯定有相似或者可参考之处,可以从该文章中发现新动向。
CR(cited references), 某一文献引用WOS数据库中参考文献的数目。这个值越高,说明这篇文献很可能是综述性文献,可根据该值的排序,也可快速定位综述文献。
【2016年5月16日更新】
首先给每一位用户朋友真诚地说声谢谢!同时感谢罗老师的大力推广!
不过,也有少数用户反馈了这个软件存在的问题:HistCite可以启动,但是不会自动打开浏览器窗口,或者打开的是一个空白窗口,或者可以打开窗口但是显示的条目数为0,即没有成功导入数据。
这个问题的根源,其实是HistCite本身存在的设计缺陷(毕竟这么多年没有更新了),在少部分电脑上会出现导入数据不成功或者打不开窗口的情况。所以我研究了另外一种导入数据的方法,并采用Python的多线程成功实现了ADV模式,基本可以解决绝大部分兼容性问题。
如果你的电脑不存在上述兼容性问题,你不用在乎这个 ADV 模式,直接输入YES即可完成数据的读取。如果你的电脑出现了上述导入不成功的问题,你就可以输入ADV,回车之后会读取 txt 文件,然后自动启动 HistCite 内核。
HistCite 启动之后会自动打开一个IE内核的浏览器窗口(记为 A 窗口),而这个窗口显示我们导入的 Records 数量为0,即没有成功导入数据。所以在 ADV 模式下,HistCite Pro 会自动调用系统默认浏览器在 5 秒后再打开一个窗口(记为B窗口)进行数据的导入,等导入完成之后,你可以将 A 窗口关闭,在 B 窗口里面分析数据,或者按 F5 键刷新 A 窗口也是可以分析数据的。
注意:在ADV模式下,程序所在路径中的所有文件夹和文件的命名都不能含有中文。