快捷搜索:  汽车  科技

pdf可变数据怎么做(如何对PDF文献做可视化分析)

pdf可变数据怎么做(如何对PDF文献做可视化分析)将元数据信息输入到文献可视化工具做分析。从PDF文件提炼文献元数据信息;是否有软件支持导入PDF文件,直接做文献可视化分析呢?我看到这个问题,开始一愣,继而会心一笑。愣的原因是,我之前没有想过会有这样的需求。因为做文献可视化分析的时机,往往是我们刚刚接触某一个领域,不确定哪些文献应该重点阅读。

看了大量文献后,你的硬盘上想必存下不少PDF文件。能否充分利用它们,挖掘出你独特的领域知识地图呢?本文为你提供一种简便易行的办法。

pdf可变数据怎么做(如何对PDF文献做可视化分析)(1)

疑问

在网上写文章最大的好处,是经常可以收到读者的反馈。不少读者会提出一些好问题,时常给我以启发。

前些日子,我写了《如何快速梳理领域文献》一文,为大家讲解了如何使用VosViewer这一文献可视化分析工具,快速梳理领域文献。

有读者来信,提出一个疑问:

是否有软件支持导入PDF文件,直接做文献可视化分析呢?

我看到这个问题,开始一愣,继而会心一笑。

愣的原因是,我之前没有想过会有这样的需求。因为做文献可视化分析的时机,往往是我们刚刚接触某一个领域,不确定哪些文献应该重点阅读。

  • 从PDF文件提炼文献元数据信息;

  • 将元数据信息输入到文献可视化工具做分析。

  • 第二个环节,我在《如何快速梳理领域文献》一文中,已经做了详细的介绍。需要补充的是,后来我的学生还做了一个全中文的视频教程,从头到尾展示了一次文献采集和分析过程。欢迎访问这个链接来观看。

    我今天向你展示,如何从PDF文件提炼文献元数据信息。

    当然,你完全可以打开PDF文件,把其中各种元数据信息手工提炼出来,然后照葫芦画瓢,存储成Web of Science等文献数据库的导出格式,输入到VosViewer中。

    但是,这显然效率很低,而且非常容易出错误。

    工欲善其事,必先利其器。我们会采用一款非常优秀的文献管理工具,完成这一过程。

    工具

    这款工具,叫做Zotero。

    安仁心智的董事长阳志平先生,曾经撰写了系列文章,详细介绍了Zotero的特色、功用和操作方法。建议你读完本文后,认真通读该系列文章。

    本文只涉及到Zotero的几个非常简单实用的功能。因此如果你没有听说过Zotero,对它不熟悉,也不要紧。一步步按照下文的步骤操作就可以了。

    请到这个网址下载最新版本的Zotero。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(2)

    我使用的是macOS版本。下载后的格式为dmg。双击打开该文件后,拖拽Zotero应用图标到Application目录的快捷方式里,即可完成安装。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(3)

    从Application目录下,找到Zotero应用,打开。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(4)

    你就可以看到Zotero的主界面了。我很想给你展示一个空白的Zotero界面,可惜我已经在其中存储了许多文献内容了。

    下文中,我新建了一个空白类别目录,为你演示。

    工具准备好了,下面我们来逐步展示操作流程。

    操作

    Zotero导入PDF文件,是非常方便的,只需要拖拽即可。下面这个GIF动图为你演示了使用方法。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(5)

    这时,你点击某个PDF文件,右侧的状态栏会有文件描述。但是你可以看到,目前描述内容很少。只有文件名、页码和修改日期等。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(6)

    不过我们可以很方便地利用Zotero的“重新抓取PDF元数据”功能,获得完整的文献描述信息。

    例如下面这个动图,演示了如何右键菜单选择“重新抓取PDF元数据”,将PDF文件变成元数据完备的文献记录。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(7)

    此时,右侧的状态栏里,文献信息可就清晰多了。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(8)

    可以看到,标题、作者、期刊……甚至是页码都采集完整了。

    下面我们需要把文献集合的信息导出。为了和后续的文献可视化工具配合,请注意一定要选择RIS格式

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(9)

    我们打开导出后的RIS文件,预览内容:

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(10)

    RIS文件里包含了许多做文献分析需要用到的元数据。但是眼尖的你一定会发现,这里缺少参考文献列表信息。因此,你无法做用它做文献网络分析。但是它依然可以帮助我们挖掘很多有用的信息。

    我们在VosViewer下新建一个项目。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(11)

    从选项中,可以看到第二项(Create a map based on bibliographic data)或者第三项(Create a map based on text data)功能的数据读入方式,都支持RIS格式。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(12)

    我们用第二项试试看。默认选项下,它可以抽取合著者(co-authorship)信息。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(13)

    因为样例中文献数量较少,所以我们降低了默认阈值,以获得更为丰富的结果。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(14)

    分析结果的密度图如下:

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(15)

    可以看到,你收集的文献中有哪些作者相对高产,以及他们之间的联系。

    我们再试试第三项。分析主题信息。

    由于过程与第二项类似,我们就不再赘述了。分析结果如下图所示。

    pdf可变数据怎么做(如何对PDF文献做可视化分析)(16)

    VosViewer正确识别出了我们查找的文献主题是大数据和竞争情报的关联,而且揭示了许多文献采用的方法是Web信息抽取。

    必须说明,此处我们只是为了展示操作方法,采用了非常简单的文献集。参数设置也没有经过合理的调整。从数量这么小的文献集合里,能获得的知识和洞见是非常有限的。如果你积攒的PDF文件数量足够多,那效果就会大不一样了。

    小结

    读过本文后,希望你已了解以下内容:

    • 如何用Zotero导入和管理PDF文献;

    • 如何用Zotero抓取PDF文献的元数据;

    • 如何将Zotero中的文献集合信息输出给VosViewer等可视化分析工具;

    • 如何挖掘和准确定义用户的需求;

    • 如何结合不同的工具来综合解决问题,尝试满足用户需求。

    与Zotero类似的文献管理工具还有很多。Mendeley Papers ReadCube等工具都很优秀,也具备PDF元信息获取功能。我个人偏好Zotero,因为它小巧、强大,还免费。

    讨论

    你平时阅读的PDF文件多吗?你是如何有效管理它们的?你使用过哪些优秀管理工具?它们的特色是什么?欢迎留言,把你的经验和心得分享给大家,我们一起交流讨论。

    如果你对我的文章感兴趣,欢迎点赞,并且关注我的专栏,以便收到后续作品更新通知。

    如果本文可能对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。

    猜您喜欢: