Graphical Abstract
摘要
本文旨在利用文献分析工具“Bibliometrix”及其交互界面“Biblioshiny”,基于文献数据库的检索结果,快速获取目标课题的关键信息。相较于传统人为反复阅读的方法,该方法可高效实现以下重要功能:
拓展和获取更加准确的关键词
了解领域内已经被占领的研究内容
获取领域内必读的重要文献
了解领域相关的重要期刊
梳理研究进展,了解当下研究热点
定位主题在领域内的位置,确认创新性和有效性
两种文献综述方法的比较:
传统方法:
选择文献数据库
输入关键词进行检索
初筛文献,导入文献管理系统软件
通过泛读和精读,总结归纳
不断重复2,3,4步
优化方法:
选择文献数据库
利用限定关键词进行检索
利用文献分析工具获取领域关键信息
下文将以我之前的论文主题 “城市植物叶片中多环芳烃的城乡分布特征” 为例,进行实例演示。
0 前期准备
0.1 Bibliometrix库的安装
0.1 Bibliometrix的安装
x,公众号:KvasirBibiometrix库的安装
Bibliometrix的实质:对文献检索结果进行排序、聚类等统计分析并进行可视化的R包。
Biblio已经加入交互工具Shiny,这使得“non-coder”也能够轻松实现原R包的全部功能;事实上,对于“coder”来说,Shiny的加入也可以免去不必要的代码输入,大大简化工作流程。原包和交互界面的一些介绍,可参考师弟的文章。
0.2 Bibliometrix的介绍和使用
ClarkD,公众号:段造了解一个全新领域有没有什么更好的办法?
1 获取文献检索结果
文献检索的结果是文献分析的基石,数据必须可靠,否则会影响最终的分析效果,所以必须对文献检索结果的质量进行控制。
获取高质量文献检索结果的关键在于选择和组合合适的关键词。
当我们对不熟悉领域进行文献检索时,关键词的作用应是限定一个“相对大的、可供分析”的文献范围,因此,需要选择“相互独立的最低上位词”作为关键词。
1.1 选择最低上位词
-什么是最低上位词?
--距离“未确定的研究对象”的最近上位词,以及“已确定的研究对象”
以示例课题中的“多环芳烃”为例,相关关键词的层次为(从上位到下位):
POPs(Persistent Organic Pollutants)-持久性有机污染物Hydrocarbon-烃类物质PAHs (Polycyclic Aromatic Hydrocarbons)-多环芳烃BaP (Benzoapyrene) -苯并[a]芘在确定研究对象是多环芳烃时,最低上位词为多环芳烃;在未确定研究对象,只知课题背景是关于城市污染物研究的情况下,则应选择POPs或者Hydorcarbon作为最低上位词。1.2 相互独立,完全穷尽(MECE分析法)Mutually Exclusive Collectively Exhaustive关键词选取准确,无重叠,完全覆盖目标研究领域以示例课题为例:“城市植物叶片中多环芳烃的城乡分布特征”,构建关键词组合。例1:"urban" AND "plant" AND "leaf" AND "PAHs" AND "gradient" AND "distribution" AND "pattern"解析:- urban选取不够准确
- plant 和 leaf ,pattern和distribution存在重叠
- urban,gradient词义相近,使用布尔运算符合OR并
- urban意在描述城市和城市化,同义词有urbanization,替换词有urbanisation,使用截词符*
- leaf不是确定的研究对象,应使用最小上位词“生物监测器”biomonitor,同时考虑替换词monitor和monitoring
- distribution可能过于限制研究内容,考虑先行删除
library('bibliometrix')
biblioshiny()
Biblioshiny 可视化窗口导入.zip文件,开始分析,成功后,右侧会显示所有文献的各个字段的清单,可保存bibliometrix文件,便于下次直接导入使用。Data工具栏和字段清单2.2 Filter:过滤器可选取时间段,可导出所有字段清单至Excel中。Filter 工具2.3 DataSet:字段信息概览2.3.1 Annual Scientific Production 文章发表趋势由图可得,2017年至今该主题的研究较为热门,证明该领域的研究基础已经较为完善,被占领的研究内容和方向可能较多。2.3.2 Three-Fields Plot “三字段桑基图”比较实用的字段包括“Keywords”,“Keywords Plus”,“References”,“Authors”,每个矩形都可拖动,便于区分。 由图可实现关键词拓展和同义词修正内容方面: source appointment -来源解析 exposure-暴露 biomarker/biomonitoring-生物监测 accumulation-积累特征存在介质方面: sediment-沉积物 soil-土壤 air/ambient air/atmosphere/air pollution 大气相关污染物: heavy metals-重金属 PM2.5/PM10-亚微米级颗粒物 pcbs-多氯联苯2.4 Source :重要期刊的筛选Source 结果一览上图中的图题即为选择的功能,包括:- Most Relavent Sources “主题相关期刊”
- Most Local Cited Sources “当前数据库中的高被引期刊”
- Source Clustering 基于“布拉德福定律”划分的核心期刊区
- Source Impact 期刊影响力(基于H指数)
- Most Relavant Authors 主题最相关作者
- Author Impact 作者影响力排序
- Most Local Cited Author 高被引作者
2.6 Documents:关键词获取
Documents功能中虽然集成了重要参考文献的筛选,但个人认为,该功能较为鸡肋,原因是缺少题名字段,因此将在2.7中介绍重要文献的获得。Keywords Plus:由WoS增加的与原文章相关的关键词,但是非作者本人添加,可增加文章在相关专题下的命中率。 有三个比较实用的功能,高频词列表,词云和词树,其中高频词列表导出直接可作为关键词的补充,比上文提到的桑基图更为直接;而词云和词树可视化的作用居多,仅供直观的参考。高频词可视化Word Growth 高频词和主题趋势 为研究方向的选择提供参考高频词趋势图 1从上图可以看出,PAHs(多环芳烃)的研究热度逐年递增,部分领域(PM, Source Appointment, Air)热度递增,部分领域(Urban)热度递减。高频词趋势图 2由上图可得近年来的新兴方向,如“Risk Assessment”, “Spatial Distribution”, “Health Risk”等。上面两张图的区别可能在于,图1的纵坐标是每年关键词出现的次数,图2的纵坐标可能是关键词出现次数的标准化数据(关键词出现次数占当年关键词总次数的比例),且图2显示无重复,说明可能只在关键词标准化次数最大值的年份标注。2.7 重要文献的获取“Author's Production over Time ” 的妙用Documents中的文献功能虽然也给出了类似“2.4 作者”和“2.5期刊”的柱形图的表格,但并不实用,原因在于缺乏题目字段,因而无法直接获取关键词,无法判断文献是否属于自己想要阅读的。反而在Author功能中有一个功能极为实用,“Authors' Production over Time”,推荐导出表格,操作如下图:Author‘’s Production over Timee: Export Tableexcel中包括高被引作者文章的题目、期刊、链接、总引和年均引五个字段,可浏览题目选择感兴趣的关键词,按照期刊排序,选择高影响因子的期刊文章;按照总引排序,选择高被引文章,点击链接直接进行转到,下载或在线阅读。在浏览器地址栏输入https://doi.org/+“DOI”字段里的值即可直接访问。Table例如,浏览题目后发现第一篇就与我们的主题极为相关,“冬青叶片中的PAHs积累量”,在地址栏输入“https://doi.org/10.1016/j.envpol.2007.08.008”即可。Paper Example2.8 Conceptional Structure:梳理概念结构侧重梳理主题发展,特别地,对综述性文章的撰写极为有用。2.8.1Thematic Map “主题四象限图”纵坐标密度,横坐标中心程度(领域内)。- 第一象限:既处于领域中心且发展好
- 第二象限:发展好但位置相对边缘
- 第三象限:密度低且不是领域内中心,可能是新兴主题或过气主题
- 第四象限:处于领域中心但缺乏发展的主题
- 拓展和获取更加准确的关键词
- 了解领域内已经被占领的研究内容
- 获取领域内必读的重要文献
- 了解领域相关的重要期刊
- 梳理研究进展,了解当下研究热点
- 定位主题在领域内的位置,确认创新性和有效性