
Graphical Abstract
摘要
本文旨在利用文献分析工具“Bibliometrix”及其交互界面“Biblioshiny”,基于文献数据库的检索结果,快速获取目标课题的关键信息。相较于传统人为反复阅读的方法,该方法可高效实现以下重要功能:
拓展和获取更加准确的关键词
了解领域内已经被占领的研究内容
获取领域内必读的重要文献
了解领域相关的重要期刊
梳理研究进展,了解当下研究热点
定位主题在领域内的位置,确认创新性和有效性
两种文献综述方法的比较:
传统方法:
选择文献数据库
输入关键词进行检索
初筛文献,导入文献管理系统软件
通过泛读和精读,总结归纳
不断重复2,3,4步
优化方法:
选择文献数据库
利用限定关键词进行检索
利用文献分析工具获取领域关键信息
下文将以我之前的论文主题 “城市植物叶片中多环芳烃的城乡分布特征” 为例,进行实例演示。
0 前期准备
0.1 Bibliometrix库的安装
0.1 Bibliometrix的安装
x,公众号:KvasirBibiometrix库的安装
Bibliometrix的实质:对文献检索结果进行排序、聚类等统计分析并进行可视化的R包。
Biblio已经加入交互工具Shiny,这使得“non-coder”也能够轻松实现原R包的全部功能;事实上,对于“coder”来说,Shiny的加入也可以免去不必要的代码输入,大大简化工作流程。原包和交互界面的一些介绍,可参考师弟的文章。
0.2 Bibliometrix的介绍和使用
ClarkD,公众号:段造了解一个全新领域有没有什么更好的办法?
1 获取文献检索结果
文献检索的结果是文献分析的基石,数据必须可靠,否则会影响最终的分析效果,所以必须对文献检索结果的质量进行控制。
获取高质量文献检索结果的关键在于选择和组合合适的关键词。
当我们对不熟悉领域进行文献检索时,关键词的作用应是限定一个“相对大的、可供分析”的文献范围,因此,需要选择“相互独立的最低上位词”作为关键词。
1.1 选择最低上位词
-什么是最低上位词?
--距离“未确定的研究对象”的最近上位词,以及“已确定的研究对象”
以示例课题中的“多环芳烃”为例,相关关键词的层次为(从上位到下位):
POPs(Persistent Organic Pollutants)-持久性有机污染物Hydrocarbon-烃类物质PAHs (Polycyclic Aromatic Hydrocarbons)-多环芳烃BaP (Benzoapyrene) -苯并[a]芘在确定研究对象是多环芳烃时,最低上位词为多环芳烃;在未确定研究对象,只知课题背景是关于城市污染物研究的情况下,则应选择POPs或者Hydorcarbon作为最低上位词。
1.2 相互独立,完全穷尽(MECE分析法)Mutually Exclusive Collectively Exhaustive
关键词选取准确,无重叠,完全覆盖目标研究领域以示例课题为例:
“城市植物叶片中多环芳烃的城乡分布特征”,构建关键词组合。例1:
"urban" AND
"plant" AND
"leaf" AND
"PAHs" AND
"gradient" AND
"distribution" AND
"pattern"解析:
- urban选取不够准确
- plant 和 leaf ,pattern和distribution存在重叠
改1:
"urbanization" AND
"leaf" AND
"PAHs" AND
"gradient" AND
"distribution"解析:未考虑同义词、变体和最小上位词改2:
"urban*" OR
"gradient" AND
"leaf" OR
"monitor*" OR
"biomonitor" AND
"PAHs" 解析:
- urban,gradient词义相近,使用布尔运算符合OR并
- urban意在描述城市和城市化,同义词有urbanization,替换词有urbanisation,使用截词符*
- leaf不是确定的研究对象,应使用最小上位词“生物监测器”biomonitor,同时考虑替换词monitor和monitoring
- distribution可能过于限制研究内容,考虑先行删除
输入关键词
1.3 文献检索结果获取利用Web of Science文献数据库,输入关键词,选择“WoS核心合集”,进行文献检索。
WoS检索界面检索得到834篇文献,导出为“.txt”格式,并合并压缩成.zip文件。(WoS每次只能导出500条记录,故需导出两次)
WoS文献检索导出界面2 Bibiometrix的交互可视化文献分析2.1 导入数据打开R,运行以下代码加载Bibiometrix包,打开交互界面
Biblioshiny (这之后就可以和R说再见了)
library('bibliometrix')
biblioshiny()
Biblioshiny 可视化窗口导入.zip文件,开始分析,成功后,右侧会显示所有文献的各个字段的清单,可保存bibliometrix文件,便于下次直接导入使用。
Data工具栏和字段清单2.2 Filter:过滤器可选取时间段,可
导出所有字段清单至Excel中。
Filter 工具2.3 DataSet:字段信息概览2.3.1 Annual Scientific Production 文章发表趋势

由图可得,2017年至今该主题的研究较为热门,证明该领域的研究基础已经较为完善,
被占领的研究内容和方向可能较多。2.3.2 Three-Fields Plot “三字段桑基图”比较实用的字段包括“Keywords”,“Keywords Plus”,“References”,“Authors”,每个矩形都可拖动,便于区分。
由图可实现
关键词拓展和同义词修正内容方面: source appointment -来源解析 exposure-暴露 biomarker/biomonitoring-生物监测 accumulation-积累特征存在介质方面: sediment-沉积物 soil-土壤 air/ambient air/atmosphere/air pollution 大气相关污染物: heavy metals-重金属 PM2.5/PM10-亚微米级颗粒物 pcbs-多氯联苯
2.4 Source :重要期刊的筛选
Source 结果一览上图中的图题即为选择的功能,包括:
- Most Relavent Sources “主题相关期刊”
- Most Local Cited Sources “当前数据库中的高被引期刊”
- Source Clustering 基于“布拉德福定律”划分的核心期刊区
- Source Impact 期刊影响力(基于H指数)
得到四张图列出的期刊,观察或导出表格
取交集,就可以
得到几个重要期刊"Science of the Total Environment""Chemosphere""Environmental Pollution""Atmosphere Environment"Source Dynamics 期刊动态变化
期刊动态变化图图中红圈圈出的三个期刊,相关文章发表的数量逐年增加,而且未出现拐点,说明这
三个期刊近年来比较愿意接受这个主题的文章,这是一个能够
增加中稿率的关键信息。
2.5 Author:重要作者筛选作者的分析功能和方法类似于2.4期刊的筛选,包括:
- Most Relavant Authors 主题最相关作者
- Author Impact 作者影响力排序
- Most Local Cited Author 高被引作者
Author 结果一览与2.4期刊处理方法相同,取交集4-10个,可以
得到几个重要作者De Nicola FAlfani AHarner TJones KC2.6 Documents:关键词获取
Documents功能中虽然集成了重要参考文献的筛选,但个人认为,该功能较为鸡肋,原因是缺少题名字段,因此将在2.7中介绍重要文献的获得。
Keywords Plus:由WoS增加的与原文章相关的关键词,但是非作者本人添加,可增加文章在相关专题下的命中率。 有三个比较实用的功能,高频词列表,词云和词树,其中
高频词列表导出直接可作为关键词的补充,比上文提到的桑基图更为直接;而词云和词树可视化的作用居多,仅供直观的参考。
高频词可视化Word Growth 高频词和主题趋势 为研究方向的选择提供参考
高频词趋势图 1从上图可以看出,PAHs(多环芳烃)的研究热度逐年递增,部分领域(PM, Source Appointment, Air)
热度递增,部分领域(Urban)
热度递减。
高频词趋势图 2由上图可得近年来的
新兴方向,如“Risk Assessment”, “Spatial Distribution”, “Health Risk”等。上面两张图的
区别可能在于,图1的纵坐标是每年关键词出现的次数,图2的纵坐标可能是关键词出现次数的
标准化数据(关键词出现次数占当年关键词总次数的比例),且图2显示无重复,说明可能只在关键词标准化次数最大值的年份标注。
2.7 重要文献的获取“Author's Production over Time ” 的妙用Documents中的文献功能虽然也给出了类似“2.4 作者”和“2.5期刊”的柱形图的表格,但并不实用,原因在于
缺乏题目字段,因而无法直接获取关键词,无法判断文献是否属于自己想要阅读的。反而在Author功能中有一个功能极为实用,“Authors' Production over Time”,
推荐导出表格,操作如下图:
Author‘’s Production over Timee: Export Tableexcel中包括高被引作者文章的题目、期刊、链接、总引和年均引五个字段,可浏览题目选择感兴趣的关键词,按照期刊排序,选择高影响因子的期刊文章;按照总引排序,选择高被引文章,点击链接直接进行转到,下载或在线阅读。在浏览器地址栏输入https://doi.org/+“DOI”字段里的值即可直接访问。
Table例如,浏览题目后发现第一篇就与我们的主题极为相关,
“冬青叶片中的PAHs积累量”,在地址栏输入“https://doi.org/10.1016/j.envpol.2007.08.008”即可。
Paper Example2.8 Conceptional Structure:梳理概念结构侧重
梳理主题发展,特别地,对综述性文章的撰写极为有用。2.8.1Thematic Map “主题四象限图”纵坐标密度,横坐标中心程度(领域内)。
- 第一象限:既处于领域中心且发展好
- 第二象限:发展好但位置相对边缘
- 第三象限:密度低且不是领域内中心,可能是新兴主题或过气主题
- 第四象限:处于领域中心但缺乏发展的主题
总体来说,第一、二象限属于热门学科但被占领的研究内容可能较多,三、四象限属于新兴或待发展主题,创新性和潜力较高。
Theme Map 上图可得,我们的主题部分关键词属于第三象限,但如果单纯研究“urban”和“PAHs”
缺乏创新性,可以考虑结合主题演进,选择新兴的热门主题进行
主题交叉。2.8.2 Theme Evolution “主题演进图”
主题演化图:1997年至今可按照需求,划分时间节点,研究不同时间段内的主题热度。我们将主题以2008, 2013, 2017三个时间点划分为四个时间段,主要分析2017年至今(近3年)。
主题聚类图:2017年至今从第二象限来看,近三年的研究较为分离,若考虑将关键词
交叉研究,可能会出好结果,师姐前段时间新鲜出炉的7分Sci就是将第二象限中的“land-use”, “biomonitor” 和“PAHs”结合。从第四象限来看,近三年的研究中,我们主题中的关键词“distribution”, “urban”, “passive sampler” (leaf) 仍处于集中但研究较少的阶段,证明我们的
主题仍然是当下的热点;同时与健康相关的“健康暴露”和“与室内空气的关系” (“cancer-risk”和“indoor air”)可能是
未来的研究热点。
3 总结1. 利用Bibliometrix及其交互界面,我们实现了以下重要目标:
- 拓展和获取更加准确的关键词
- 了解领域内已经被占领的研究内容
- 获取领域内必读的重要文献
- 了解领域相关的重要期刊
- 梳理研究进展,了解当下研究热点
- 定位主题在领域内的位置,确认创新性和有效性
2. 在文献引用网络和文献分类方面,Biblio的可视化较差,可考虑使用HistCite, CitNetExplorer等引文分析分类软件。3. Bibliometrix目前仅支持部分数据库(Web of Science, Scopus, Dimension, PudMed, Cochrane)。4. Biblioshiny的出现基本拜托了R的桎梏,大大简化工作流程。
相关资料1Bibliometrix官网:https://bibliometrix.org/index.html.
2Bibliometrix文章原文:Aria, M., & Cuccurullo, C. (2017).Bibliometrix:An R-tool for comprehensive science mapping analysis. Journal of Informetrics,11(4), 959-975. 10.1016/j.joi.2017.08.007.2020/08/13-翻书:biblio,biblio,biblio.-合书:bilibli.