数据科学入门基础书：涛哥文章系列27

小君 2023-03-05 19:36:44 875

数据科学入门基础书：涛哥文章系列27bibliometrix软件包安装PubMed包括MEDLINE、生命科学期刊和在线图书对生物医学文献的2800万多条引文。引文可能包括指向PubMed Central和出版商网站全文内容的链接。SCOPUS(http://www.scopus.com)，成立于2004年，为文献计量用户提供了极大的灵活性。它允许查询不同的字段，如标题、摘要、关键字、参考文献等。Scopus允许相对容易地下载数据查询，尽管对于超过2 000个项目的非常大的结果集有一些限制。Clarivate Analytics Web of Science(http://www.webofknowledge.com)是由文献计量学的先驱尤金·加菲尔德创立的。这个平台包括许多不同的集合。科克伦系统评价数据库(http://www.cochranelibrary.com/cochrane-database-of-systema

导论

bibliometrix软件包为文献计量学和科学计量学的定量研究提供了一套工具。

文献计量学本身就是科学的主要工具--定量分析。从本质上讲，文献计量学是对期刊文章及其附带的引文计数等出版物进行定量分析和统计的应用。现在几乎所有的科学领域都使用对出版和引用数据的定量评估来评估一个科学界的成长、成熟度、主要作者、概念图和智力图以及趋势。文献计量学也被用于研究绩效评估，特别是在大学和政府实验室，也被政策制定者、研究主管和管理者、信息专家和图书馆员以及学者本身使用。

bibliometrix在三个关键的分析阶段为学者提供支持：

数据导入和转换为R格式；
出版物数据集的文献计量学分析；
构建共引、耦合、协作和共词分析矩阵。矩阵是用于执行网络分析、多重对应分析和任何其他数据简化技术的输入数据。

书目数据库

Bibliometrix使用从四个主要书目数据库提取的数据：Scopus、Clarivate Analytics Web of Science、Cochrane Database of Systemical Reviews(CDSR)和RISmed PubMed/Medline。

SCOPUS(http://www.scopus.com)，成立于2004年，为文献计量用户提供了极大的灵活性。它允许查询不同的字段，如标题、摘要、关键字、参考文献等。Scopus允许相对容易地下载数据查询，尽管对于超过2 000个项目的非常大的结果集有一些限制。

Clarivate Analytics Web of Science(http://www.webofknowledge.com)是由文献计量学的先驱尤金·加菲尔德创立的。这个平台包括许多不同的集合。科克伦系统评价数据库(http://www.cochranelibrary.com/cochrane-database-of-systematicreviews/index.html)是医疗保健系统评价的领先资源。

CDSR包括Cochrane评价(系统评价)和Cochrane评价方案以及社论。CDSR也有偶尔的补充剂。当Cochrane评论“准备就绪”并形成月刊时，CDSR会定期更新；参见出版时间表。

PubMed包括MEDLINE、生命科学期刊和在线图书对生物医学文献的2800万多条引文。引文可能包括指向PubMed Central和出版商网站全文内容的链接。

bibliometrix软件包安装

下载并安装最新版本的R及R Studio，在rstudio控制台窗口中输入：

install.packages("bibliometrix" dependencies=TRUE) library(bibliometrix) ### load bibliometrix package

数据科学入门基础书：涛哥文章系列27(1)

数据加载和转换

可以使用函数convert2df通过R读取和转换导出文件：

convert2df(file dbsource format)

参数文件是一个字符矢量，包含从Scopus、Clarivate Analytics WOS、Digital Science Dimenion、PubMed或Cochrane CDSR网站下载的导出文件的名称。file还可以包含使用Digital Science Dimenion或PubMed API下载的json/xlm对象的名称(通过包dimensionsR和pubmedR)。

es. file <- c(“file1.txt” “file2.txt” …)

data(biblio) M<- convert2df(file = biblio dbsource = "isi" format = "bibtex")

数据科学入门基础书：涛哥文章系列27(2)

convert2df创建书目数据框，其中案例对应于原稿，变量对应于原始导出文件中的Field Tag。

convert2df接受两个附加参数：dbsource和format。

它可以是：

“isi”或“wos”(用于Clarivate Analytics Web of Science数据库)，
“scopus”(用于Scopus数据库)，
“dimension”(用于DS Dimensions数据库)，
“pubmed”(用于PubMed/Medline数据库)，
“cochrane”(用于Cochrane图书馆系统评价数据库)。

参数format指示导入集合的文件格式。对于WOS集合，它可以是“plaintext”或“bibtex”，对于SCOPUS集合，它可以是强制的“bibtext”。如果集合来自Pubmed或Cochrane，则忽略该参数。

每份稿件都包含几个元素，如作者姓名、标题、关键词等信息。所有这些元素构成了文档的书目属性，也称为元数据。

数据框列使用标准Clarivate Analytics WOS字段标记CODIFY命名。主要的字段标记包括：

数据科学入门基础书：涛哥文章系列27(3)

文献计量学分析

第一步是对书目数据框架进行描述性分析。函数biblioAnalysis使用以下语法计算主要文献计量度量：

results <- biblioAnalysis(M sep = ";")

函数biblioAnalysis返回“bibliometrix”类的对象。“bibliometrix”类的对象是包含以下组件的列表：

数据科学入门基础书：涛哥文章系列27(4)

函数摘要和绘图

要汇总文献计量分析的主要结果，请使用泛型函数summary。它显示了关于书目数据框架和几个表格的主要信息，如年度科学产量、每引文数量最高的手稿、最多产的作者、最多产的国家、每个国家的总引文量、最相关的来源(期刊)和最相关的关键字。

主要信息表根据文献数、作者数、来源数、关键词数、时间跨度和平均引文数来描述集合大小。

此外，还显示了许多不同的合著索引。特别地，每篇文章的作者指数（Authors per Article index）被计算为作者总数与文章总数之间的比率。每篇文章的合著者指数（Co-Authors per Articles index ）是根据每篇文章的平均合著者数计算的。在这种情况下，指数考虑了作者出现的情况，而对于“每篇文章的作者”，即使作者发表了一篇以上的文章，也只计算一次。因此，每篇文章的作者指数≤每篇文章的合著者指数。

协作指数(Collaboration Index CI)的计算方式为所有作者的多作者文章总数/多作者文章总数(Elango和Rajendran，2012；Koseoglu，2016)。换言之，协作指数是仅使用多作者文章集计算的每篇文章的合著者指数。

Elango B. & Rajendran P. (2012). Authorship trends and collaboration pattern in the marine sciences literature: a scientometric study. International Journal of Information Dissemination and Technology 2(3) 166.

Koseoglu M. A. (2016). Mapping the institutional collaboration network of strategic management research: 1980–2014. Scientometrics 109(1) 203-226.

summary接受两个附加参数。k是表示每个表的行数的格式值。pause是一个逻辑值(TRUE或FALSE)，用于允许(或不允许)屏幕滚动暂停。如果选择k=10，您将决定查看前10位作者、前10位来源等。

options(width=100) S <- summary(object = results k = 10 pause = FALSE) ## ## ## MAIN INFORMATION ABOUT DATA ## ## Timespan 1985 : 2015 ## Sources (Journals Books etc) 141 ## Documents 291 ## Average years from publication 14.7 ## Average citations per documents 11.73 ## Average citations per year per doc 0.7463 ## References 6767 ## ## DOCUMENT TYPES ## art exhibit review 1 ## article 160 ## article; proceedings paper 7 ## biographical-item 1 ## book review 32 ## correction addition 1 ## editorial material 41 ## letter 16 ## meeting abstract 4 ## note 3 ## review 25 ## ## DOCUMENT CONTENTS ## Keywords Plus (ID) 471 ## Author's Keywords (DE) 362 ## ## AUTHORS ## Authors 523 ## Author Appearances 635 ## Authors of single-authored documents 121 ## Authors of multi-authored documents 402 ## ## AUTHORS COLLABORATION ## Single-authored documents 144 ## Documents per Author 0.556 ## Authors per Document 1.8 ## Co-Authors per Documents 2.18 ## Collaboration Index 2.73 ## ## ## Annual Scientific Production ## ## Year Articles ## 1985 4 ## 1986 3 ## 1987 6 ## 1988 7 ## 1989 8 ## 1990 6 ## 1991 7 ## 1992 6 ## 1993 5 ## 1994 7 ## 1995 1 ## 1996 8 ## 1997 4 ## 1998 5 ## 1999 2 ## 2000 7 ## 2001 8 ## 2002 5 ## 2003 1 ## 2004 3 ## 2005 12 ## 2006 5 ## 2007 5 ## 2008 8 ## 2009 14 ## 2010 17 ## 2011 20 ## 2012 25 ## 2013 21 ## 2014 29 ## 2015 32 ## ## Annual Percentage Growth Rate 7.177346 ## ## ## Most Productive Authors ## ## Authors Articles Authors Articles Fractionalized ## 1 BORNMANN L 8 BORNMANN L 4.67 ## 2 KOSTOFF RN 8 WHITE HD 3.50 ## 3 MARX W 6 MARX W 3.17 ## 4 HUMENIK JA 5 ATKINSON R 3.00 ## 5 ABRAMO G 4 BROADUS RN 3.00 ## 6 D'ANGELO CA 4 CRONIN B 3.00 ## 7 GARG KC 4 BORGMAN CL 2.50 ## 8 GLANZEL W 4 MCCAIN KW 2.50 ## 9 WHITE HD 4 PERITZ BC 2.50 ## 10 ATKINSON R 3 KOSTOFF RN 2.10 ## ## ## Top manuscripts per citations ## ## Paper TC TCperYear ## 1 DAIM TU 2006 TECHNOL FORECAST SOC CHANG 211 14.07 ## 2 WHITE HD 1989 ANNU REV INFORM SCI TECHNOL 196 6.12 ## 3 BORGMAN CL 2002 ANNU REV INFORM SCI TECHNOL 192 10.11 ## 4 WEINGART P 2005 SCIENTOMETRICS 151 9.44 ## 5 NARIN F 1994 SCIENTOMETRICS 141 5.22 ## 6 CRONIN B 2001 J INF SCI 129 6.45 ## 7 CHEN YC 2011 SCIENTOMETRICS 101 10.10 ## 8 HOOD WW 2001 SCIENTOMETRICS 71 3.55 ## 9 D'ANGELO CA 2011 J AM SOC INF SCI TECHNOL 64 6.40 ## 10 NARIN F 1994 EVAL REV 62 2.30 ## ## ## Corresponding Author's Countries ## ## Country Articles Freq SCP MCP MCP_Ratio ## 1 USA 81 0.3057 76 5 0.0617 ## 2 UNITED KINGDOM 27 0.1019 27 0 0.0000 ## 3 GERMANY 17 0.0642 12 5 0.2941 ## 4 FRANCE 13 0.0491 11 2 0.1538 ## 5 BRAZIL 12 0.0453 10 2 0.1667 ## 6 CHINA 10 0.0377 8 2 0.2000 ## 7 INDIA 10 0.0377 10 0 0.0000 ## 8 AUSTRALIA 8 0.0302 6 2 0.2500 ## 9 CANADA 8 0.0302 7 1 0.1250 ## 10 SPAIN 8 0.0302 8 0 0.0000 ## ## ## SCP: Single Country Publications ## ## MCP: multiple Country Publications ## ## ## Total Citations per Country ## ## Country Total Citations Average Article Citations ## 1 USA 1831 22.60 ## 2 GERMANY 330 19.41 ## 3 ITALY 163 32.60 ## 4 AUSTRALIA 134 16.75 ## 5 UNITED KINGDOM 125 4.63 ## 6 CANADA 111 13.88 ## 7 INDIA 85 8.50 ## 8 IRAN 74 37.00 ## 9 SPAIN 73 9.12 ## 10 BELGIUM 70 10.00 ## ## ## Most Relevant Sources ## ## Sources Articles ## 1 SCIENTOMETRICS 49 ## 2 JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY 14 ## 3 JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE 8 ## 4 JOURNAL OF DOCUMENTATION 6 ## 5 JOURNAL OF INFORMATION SCIENCE 6 ## 6 JOURNAL OF INFORMETRICS 6 ## 7 BRITISH JOURNAL OF ANAESTHESIA 5 ## 8 LIBRI 5 ## 9 SOCIAL WORK IN HEALTH CARE 5 ## 10 TECHNOLOGICAL FORECASTING AND SOCIAL CHANGE 5 ## ## ## Most Relevant Keywords ## ## Author Keywords (DE) Articles Keywords-Plus (ID) Articles ## 1 BIBLIOMETRICS 63 SCIENCE 38 ## 2 CITATION ANALYSIS 11 INDICATORS 24 ## 3 SCIENTOMETRICS 7 IMPACT 23 ## 4 H INDEX 5 CITATION 20 ## 5 IMPACT FACTOR 5 CITATION ANALYSIS 15 ## 6 INFORMATION RETRIEVAL 5 JOURNALS 14 ## 7 PEER REVIEW 5 H INDEX 13 ## 8 CITATION 4 PUBLICATION 12 ## 9 CITATIONS 4 INFORMATION SCIENCE 10 ## 10 IMPACT FACTORS 4 GOOGLE SCHOLAR 9

可以使用通用函数绘制一些基本绘图：

plot(x = results k = 10 pause = FALSE)

数据科学入门基础书：涛哥文章系列27(5)

数据科学入门基础书：涛哥文章系列27(6)

数据科学入门基础书：涛哥文章系列27(7)

数据科学入门基础书：涛哥文章系列27(8)

数据科学入门基础书：涛哥文章系列27(9)

被引文献分析

函数citations生成最常被引用的参考文献或最常被引用的(参考文献的)第一作者的频率表。

对于每份手稿，引用的参考文献都存储在数据框的列“CR”中的单个字符串中。

为了正确提取，您需要在ISI或SCOPUS数据库使用的不同引用中标识分隔符字段。通常，默认分隔符是“;”或“. ”(带双空格的点)。

M$CR[1]

数据科学入门基础书：涛哥文章系列27(10)

要获得最常被引用的手稿：

CR <- citations(M field = "article" sep = ";") cbind(CR$Cited[1:10])

数据科学入门基础书：涛哥文章系列27(11)

要获得最常被引用的第一作者，请执行以下操作：

CR <- citations(M field = "author" sep = ";") cbind(CR$Cited[1:10])

数据科学入门基础书：涛哥文章系列27(12)

函数localCitations生成被引用最多的本地作者的频率表。本地引文量衡量此集合中包含的作者(或文档)被集合中的其他作者引用的次数。要获取当地最常被引用的作者，请执行以下操作：

CR <- localCitations(M sep = ";") CR$Authors[1:10 ]

数据科学入门基础书：涛哥文章系列27(13)

CR$Papers[1:10 ]

数据科学入门基础书：涛哥文章系列27(14)

作者优势排名

Kumar&Kumar，2008提出的函数 dominance计算作者的优势度排名。

Kumar S. & Kumar S. (2008). Collaboration in research productivity in oil seed research institutes of India. In Proceedings of Fourth International Conference on Webometrics Informetrics and Scientometrics.

函数参数是：由biblioAnalysis获得的results(bibliometrix类的对象)；以及k(分析中要考虑的作者数量)。

DF <- dominance(results k = 10) DF

数据科学入门基础书：涛哥文章系列27(15)

主导因子是一个比率，表示学者作为第一作者出现在多作者论文中的比例。

在这个例子中，科斯托夫和霍尔登主导了他们的研究团队，因为他们在所有论文中都是第一作者(科斯托夫8篇，霍尔登3篇)。

作者h指数

h指数是一种作者级别的衡量标准，它试图衡量科学家或学者发表的论文的生产率和引文影响。

该指数是基于这位科学家被引用最多的论文集和他们在其他出版物上收到的被引用数量。

函数Hindex计算书目集合中作者的H指数或来源的H指数及其变体(g-index and m-index)。

函数参数包括：M书目数据框；field是根据作者(field=“author”)或来源(field=“source”)定义分析单位的字符元素；elements包含要计算其H指数的作者名称(或来源名称)的字符向量。参数的形式为c(“SURNAME1 N”，“SURNAME2 N”，…)。

换句话说，对于每个作者：姓氏和首字母之间用一个空格隔开。也就是说，对于作者Aria Massimo和Cuccurullo Corrado，elements参数是elements=c(“Aria M”，“Cuccurullo C”)。

要计算此集合中Lutz Bornmann的h指数，请执行以下操作：

indices <- Hindex(M field = "author" elements="BORNMANN L" sep = ";" years = 10) # Bornmann's impact indices: indices$H

数据科学入门基础书：涛哥文章系列27(16)

# Bornmann's citations indices$CitationList

数据科学入门基础书：涛哥文章系列27(17)

要计算前10位生产率最高的作者(在此集合中)的h指数，请执行以下操作：

authors=gsub(" " " " names(results$Authors)[1:10]) indices <- Hindex(M field = "author" elements=authors sep = ";" years = 50) indices$H

数据科学入门基础书：涛哥文章系列27(18)

历年排名靠前的作者的生产力

函数AuthorProdOverTime计算并绘制一段时间内作者的成果(根据出版数量和每年的总引文量)。

函数参数是：M是书目数据框；k是k个顶级作者的数量；graph是逻辑值。如果graph=TRUE，该函数将绘制作者作品随时间变化的图形。

topAU <- authorProdOverTime(M k = 10 graph = TRUE)

数据科学入门基础书：涛哥文章系列27(19)

## Table: Author's productivity per year head(topAU$dfAU)

数据科学入门基础书：涛哥文章系列27(20)

## Table: Auhtor's documents list #head(topAU$dfPapersAU)

洛特卡定律系数估计

lotka函数估计科学生产力的洛特卡定律系数(Lotka A.J.，1926)。

洛特卡定律将作者在任何给定领域的发表频率描述为反平方律，其中发表一定数量的文章的作者数量与发表一篇文章的作者数量的比例是固定的。这一假设意味着洛特卡定律的理论贝塔系数等于2。

利用lotka函数可以估计我们的书目馆藏的贝塔系数，并通过统计检验来评估这一经验分布与理论分布的相似性。

L <- lotka(results) # Author Productivity. Empirical Distribution L$AuthorProd

数据科学入门基础书：涛哥文章系列27(21)

# Beta coefficient estimate L$Beta # Constant L$C # Goodness of fit L$R2 # P-value of K-S two sample test L$p.value

数据科学入门基础书：涛哥文章系列27(22)

表L$AuthorProd显示了我们示例中观察到的科学生产力分布。

估计的贝塔系数为2.78，拟合优度为0.97。Kolmogorov-Smirnov两样本检验提供的p值为0.699，这意味着观测到的洛特卡分布与理论洛特卡分布之间没有显着差异。

您可以使用plot函数比较这两个分布：

# Observed distribution Observed=L$AuthorProd[ 3] # Theoretical distribution with Beta = 2 Theoretical=10^(log10(L$C)-2*log10(L$AuthorProd[ 1])) plot(L$AuthorProd[ 1] Theoretical type="l" col="red" ylim=c(0 1) xlab="Articles" ylab="Freq. of Authors" main="Scientific Productivity") lines(L$AuthorProd[ 1] Observed col="blue") legend(x="topright" c("Theoretical (B=2)" "Observed") col=c("red" "blue") lty = c(1 1 1) cex=0.6 bty="n")

数据科学入门基础书：涛哥文章系列27(23)

书目网络矩阵

手稿的属性通过手稿本身相互作者与期刊、关键词与出版日期等。

这些不同属性的联系形成了可用矩形矩阵(手稿×属性)表示的二元网络。

此外，科学出版物经常引用其他科学著作。这产生了另一个网络，即共引或耦合网络。

分析这些网络是为了捕捉底层研究系统的有意义的属性，特别是确定诸如学者和期刊等文献计量单位的影响。

二部网络

cocMatrix是用于计算选择元数据属性之一的二部网络的通用函数。例如，要创建网络手稿x出版源，您必须使用字段标记“SO”：

A <- cocMatrix(M Field = "SO" sep = ";")

A是矩形二进制矩阵，表示二部网络，其中行和列分别是手稿和来源。

通用元素aij，如果手稿已在源代码中发布，则为1，否则为0。

第j列的和aj是在来源j中发表的稿件数量。

按降序对A的列和进行排序，您可以看到最相关的出版物来源：

A <- cocMatrix(M Field = "SO" sep = ";") sort(Matrix::colSums(A) decreasing = TRUE)[1:5]

数据科学入门基础书：涛哥文章系列27(24)

按照此方法，您可以计算多个二部网络：

引文网络

A <- cocMatrix(M Field = "CR" sep = ". ")

作者网络

A <- cocMatrix(M Field = "AU" sep = ";")

国家网络

作者国家不是书目数据框架的标准属性。您需要使用函数metaTagExtraction从从属关系属性中提取此信息。

M <- metaTagExtraction(M Field = "AU_CO" sep = ";") # A <- cocMatrix(M Field = "AU_CO" sep = ";")

metaTagExtraction允许提取以下附加字段标签：作者的国家(Field = "AU_CO")；第一作者的国家(Field = "AU_CO")；每个引用文献的第一作者(Field = "CR_AU")；每个引用文献的出版物来源(Field = "CR_SO")；以及作者的从属关系(Field = "AU_UN")。

作者关键词网络

A <- cocMatrix(M Field = "DE" sep = ";")

Keyword Plus网络

A <- cocMatrix(M Field = "ID" sep = ";")

等等。

书目耦合

如果两篇文章的参考书目或参考文献列表中至少出现一个被引用的来源，那么这两篇文章就被认为是书目耦合的(Kessler，1963)。

可以使用通式获得耦合网络：

B = A × AT

其中A是二部网络。元素bij指示在文稿i和文稿j之间存在多少书目耦合换句话说，bij给出了长度为2的路径的数量，通过这些路径，人们可以沿着箭头从j移动，然后向相反的方向j移动。

B是一个对称矩阵 B=BT。

两篇文章的耦合强度，简单地由文章共有的引用次数来定义，如矩阵B所给出的元素bij。

函数biblioNetwork从书目数据框架开始计算最常用的耦合网络：作者、来源和国家。

biblioNetwork使用两个参数来定义要计算的网络：

analysis参数可以是“co-citation” “coupling” “collaboration” 或 “co-occurrences”。

network参数可以是 “authors” “references” “sources” “countries” “universities” “keywords”

“author_keywords” “Titles” 和 “abstracts”。

以下代码计算经典文章耦合网络：

NetMatrix <- biblioNetwork(M analysis = "coupling" network = "references" sep = ". ")

因此，如果仅仅根据文章包含的共同参考文献数量来衡量耦合强度，那么只有几篇参考文献的文章往往具有更弱的书目耦合。这表明，切换到书目耦合的相对度量可能更实际。

normalizeSimilarity函数计算网络顶点之间的Association strength、Inclusion、Jaccard或Salton相似度。可以使用参数normalize直接从networkPlot()函数调用normalizeSimilarity。

NetMatrix <- biblioNetwork(M analysis = "coupling" network = "authors" sep = ";") net=networkPlot(NetMatrix normalize = "salton" weighted=NULL n = 100 Title = "Authors' Coupling" type = "fruchterman" size=5 size.cex=T remove.multiple=TRUE labelsize=0.8 label.n=10 label.cex=F)

数据科学入门基础书：涛哥文章系列27(25)

书目共引

我们谈到当两篇文章在第三篇文章中都被引用时，我们会讨论两篇文章的共同引文。因此，共引可视为书目耦合的对应物。使用一般公式可以获得共引网络：

C = AT × A

其中A是二部网络。和矩阵B一样，矩阵C也是对称的。C的主对角线包含在我们的数据框中引用的案例数。

换言之，对角线元素ci是参考文献的局部引用次数。使用函数biblioNetwork，您可以计算经典的参考共引网络：

# NetMatrix <- biblioNetwork(M analysis = "co-citation" network = "references" sep = ". ")

书目协作

科学协作网络是一个网络，其中节点是作者，链接是合著者，因为后者是记录最充分的科学协作形式之一(Glanzel，2004)。使用通式可以获得作者协作网络：

AC = AT × A

其中A是一个二部网络，手稿x作者。对角线元素aci是研究人员i撰写或合著的稿件数量。

使用函数biblioNetwork，您可以计算出作者的协作网络：

NetMatrix <- biblioNetwork(M analysis = "collaboration" network = "authors" sep = ";")

或国家/地区协作网络：

NetMatrix <- biblioNetwork(M analysis = "collaboration" network = "countries" sep = ";")网络图特征的描述性分析

函数networkStat计算几个汇总统计信息。

特别地，从书目矩阵(或igraph对象)开始，计算两组描述性度量：

网络的汇总统计；

顶点的中心度和威望的主要指数。

# An example of a classical keyword co-occurrences network NetMatrix <- biblioNetwork(M analysis = "co-occurrences" network = "keywords" sep = ";") netstat <- networkStat(NetMatrix)

网络的汇总统计

这组统计数据可用于描述网络的结构属性：

Size是组成网络的折点数量；
Density是网络中所有可能边的当前边的比例；
Transitivity是三角形与相连三角形的比率；
Diameter是网络中最长的测地距离(两个结点之间最短路径的长度)；
Degree distribution是折点度的累积分布；
Degree centralization是整个网络的归一化程度；
Closeness centralization是折点的归一化逆。
Eigenvector centralization是图矩阵的第一个特征向量；
Betweenness centralization是经过顶点的测地线的归一化数量；
Average path length是网络中每对顶点之间最短距离的平均值。

names(netstat$network)

数据科学入门基础书：涛哥文章系列27(26)

顶点中心性和威望的主要指标

这些测量有助于识别网络中最重要的顶点以及连接到第三个顶点的两个顶点的倾向。

networkStat在顶点级别返回的统计数据是：

Degree centrality
Closeness centrality度量从给定顶点访问每个其他顶点需要多少步骤；
Eigenvector centrality度量良好连接到连接良好的顶点；
Betweenness centrality度量经纪业务或把关潜力。它(大约)是通过特定顶点的顶点之间的最短路径数；
PageRank score近似表示任何消息将到达特定顶点的概率。这个算法是由Google创始人开发的，最初应用于网站链接；
Hub Score估计从顶点传出的链接的值。它最初应用于网页；
Authority Score是最初应用于Web的另一种中心性度量。当一个顶点被链接许多其他顶点的许多其他顶点链接时，它具有较高的权威性；
Vertex Ranking是作为中心性和声望顶点度量的线性加权组合获得的整体顶点排名。权重与主成分分析的第一个分量的载荷成比例。

要总结networkStat函数的主要结果，请使用泛型函数summary。它通过多个表格显示有关网络和顶点描述的主要信息。

summary接受一个额外的参数。k是表示每个表的行数的格式值。选择k=10，您决定查看前10个顶点。

summary(netstat k=10)

数据科学入门基础书：涛哥文章系列27(27)

可视化书目网络

所有书目网络都可以以图形方式可视化或建模。

在这里，我们展示了如何使用由Nees Jan van Eck和Ludo Waltman(http://www.vosviewer.com)开发的函数 networkPlot和VOSviewer软件来可视化网络。

使用函数networkPlot，您可以使用R例程或使用VOS查看器绘制由biblioNetwork创建的网络。

networkPlot的主要参数是type。表示网络地图布局：circle、kamada-kawai、mds等。选择type=“vosviewer”，该功能自动：(i)将网络保存到一个pajek网络文件中，命名为“vosnetwork.net”；(ii)启动一个VOSviewer实例，该实例将映射文件“vosnetwork.net”。您需要使用参数vos.path声明VOSviewer软件所在文件夹的完整路径(比如vos.path=‘c:/software/VOSviewer’)。

国家科学协作

# Create a country collaboration network M <- metaTagExtraction(M Field = "AU_CO" sep = ";") NetMatrix <- biblioNetwork(M analysis = "collaboration" network = "countries" sep = ";") # Plot the network net=networkPlot(NetMatrix n = dim(NetMatrix)[1] Title = "Country Collaboration" type = "circle" size=TRUE remove.multiple=FALSE labelsize=0.7 cluster="none")

数据科学入门基础书：涛哥文章系列27(28)

共引网络

# Create a co-citation network NetMatrix <- biblioNetwork(M analysis = "co-citation" network = "references" sep = ";") # Plot the network net=networkPlot(NetMatrix n = 30 Title = "Co-Citation Network" type = "fruchterman" size=T remove.multiple=FALSE labelsize=0.7 edgesize = 5)

数据科学入门基础书：涛哥文章系列27(29)

关键词共现次数

# Create keyword co-occurrences network NetMatrix <- biblioNetwork(M analysis = "co-occurrences" network = "keywords" sep = ";") # Plot the network net=networkPlot(NetMatrix normalize="association" weighted=T n = 30 Title = "Keyword Co- occurrences" type = "fruchterman" size=T edgesize = 5 labelsize=0.7)

数据科学入门基础书：涛哥文章系列27(30)

共词分析：一个领域的概念结构

共词分析的目的是使用书目集合中的词共现来映射框架的概念结构。

可以通过诸如多维缩放(MDS)、对应分析(CA)或多重对应分析(MCA)的降维技术来执行分析。

在这里，我们展示了一个示例，它使用函数conceptualStructure执行CA或MCA来绘制字段的概念结构，并使用K-Means聚类来识别表达共同概念的文档聚类。结果绘制在二维地图上。

conceptualStructure包括从标题和摘要中提取术语的自然语言处理(NLP)例程(请参阅函数termExtraction)。此外，它还实现了Porter的词干划分算法，以将词形变化(有时是派生的)词减少到词干、词基或词根形式。

# Conceptual Structure using keywords (method="CA") CS <- conceptualStructure(M field="ID" method="CA" minDegree=4 clust=5 stemming=FALSE labelsize=10 documents=10)

数据科学入门基础书：涛哥文章系列27(31)