999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向文獻評價的引文網絡結構多樣性研究

2024-03-05 08:33:28魯英杰盛立琨張應龍
計算機應用研究 2024年2期
關鍵詞:評價指標

魯英杰 盛立琨 張應龍

收稿日期:2023-06-05;修回日期:2023-08-22? 基金項目:國家自然科學基金資助項目(61762036);福建省自然科學基金資助項目(2023J01922,2021J011007,2021J011008,2022J01916)

作者簡介:魯英杰(1996—),男,江蘇南京人,碩士研究生,主要研究方向為數據挖掘、機器學習;盛立琨(1979—),女,江西南昌人,館員,碩士,主要研究方向為圖書館學;張應龍(1979—),男(通信作者),陜西綏德人,副教授,碩導,博士,主要研究方向為數據挖掘、機器學習(zhang_yinglong@126.com).

摘? 要:鑒于從海量文獻中尋找高質量文獻的重要性,提出了一種文獻評價指標——引文網絡結構多樣性。大規模數據集上的數據分析實驗分析了該模型作為文獻評價指標的可行性,并針對數據集引用關系存在缺失的情況提出改進模型,使之更加適用于引文網絡分析。數據分析實驗結果顯示文獻引文網絡結構多樣性與引用量顯著線性相關,且引文網絡結構多樣性是影響文獻發表后引用量變化趨勢的重要因素。在引用量預測實驗中,各結構多樣性在85.8%的實驗中提升了模型的預測性能,其中組合結構多樣性在長期引用量預測實驗中效果突出,對決定系數R2最高提升22.19%,平均提升14.55%,對均方誤差MSE最高提升22.76%,平均提升17.34%。

關鍵詞:結構多樣性;引文網絡;評價指標

中圖分類號:G250??? 文獻標志碼:A

文章編號:1001-3695(2024)02-013-0408-07

doi:10.19734/j.issn.1001-3695.2023.06.0270

Research on structural diversity of citation network oriented to

evaluation of literature

Lu Yingjiea,b,Sheng Likunc,Zhang Yinglongb

(a.Department of Computer Science,b.School of College of Physics & Information Engineering,c.Minnan Normal University Library,Minnan Normal University,Zhangzhou Fujian 363000,China)

Abstract:In reiw of the importance of finding high-quality literature from massive literature,this paper proposed a literature evaluation index—citation structural diversity.It analyzed the feasibility of this model as a literature evaluation index through data analysis experiments on large-scale datasets,and then proposed an improved model to make it more suitable for citation network analysis.The data analysis results show that the structural diversity of citation network is significantly linearly related to the paper citation number,and the structural diversity of citation network is an essential factor affecting the citation number change trend after the publication of the literature.In 85.8% of the citation prediction experiments,structural diversity has improved the performance of models.The combined structural diversity has a prominent effect in the long-term citation prediction experiment,with a maximum increase of 22.19%,an average increase of 14.55% for the determination coefficient R2,and a maximum increase of 22.76%,an average increase of 17.34% for the mean square error MSE.

Key words:structural diversity;citation network;evaluation index

0? 引言

學術文獻是人類寶貴的大數據,長期以來都是人類思想與文化的核心,既保存學術成就的記憶,同時也是創新的源頭。迄今為止,科技文獻已經發展成為數量龐大、種類繁多、功能各異、內容豐富和互為補充的文獻情報體系,是整個科學交流系統的重要組成部分[1]。科技文獻爆炸式增長,其數量每九年翻一番[2],導致目前單純依靠人力投入的研究模式出現了信息瓶頸、知識瓶頸、經驗瓶頸等問題。在海量文獻數據中尋找新穎的、與研究方向相關的重要文獻,對于科學界的大多數研究者來說,已經成為一項挑戰。同行評議和文獻計量是評價學術文獻的兩種重要方式[3]。引文是學術論著的核心要素之一,引用關系構成了具有內在聯系的文獻引文網絡[1],是一種重要的知識網絡,體現了人類知識發展和演化的過程。相比于同行評議的主觀性和較高獲取難度,文獻引用量已經成為評價文獻學術價值的黃金標準[4]。

引文網絡分析的內涵和方法也隨著社會網絡分析方法的發展得以不斷豐富。鑒于從海量文獻中挖掘潛在的高價值、高影響力文獻的重要性,本文將社會網絡中的結構多樣性(structural diversity)[5]指標引入引文網絡研究中,嘗試探究其與文獻引用量之間的關系。結構多樣性從社會網絡的拓撲結構特征出發,研究影響人類決策的機制[6]。大量實驗表明結構多樣性是衡量網絡中節點影響力的重要指標[5,7~10]。文獻發表后被更多不同學科方向的文獻認可引用,顯然具有更好的跨學科特性,創新性往往也更強,從而在一定程度上反映了文獻質量。基于以上認知和前人工作的啟發,本文提出了引文網絡結構多樣性模型,用以評價文獻質量。本文主要貢獻有以下三點:

a)首次將結構多樣性理論及相關模型從社會網絡引入引文網絡,提出引文網絡結構多樣性模型,并針對引用缺失問題改進模型,使之適用于引文網絡相關研究。

b)通過詳細的數據分析實驗,揭示了結構多樣性與文獻引用量的關系,并對文獻發表后引用量變化趨勢與結構多樣性的關系進行實驗研究,為未來引文網絡研究提供新的重要指標和評價方法。證明了結構多樣性指標用于評價文獻質量的可行性。

c)在大規模真實引文數據集上進行文獻引用量預測任務。在引用量預測模型對照實驗中,添加結構多樣性相關參數后的改進模型,大部分性能得到提升,證明了結構多樣性指標用于引文網絡分析的有效性。

1? 相關研究

引文網絡將文獻視為節點,文獻間的引用關系視為有向邊,由于文獻引用的特殊性,有向邊具有單向性且不成環。引文網絡是文獻計量學的常用研究載體,是一個復雜的系統,它代表知識從一個研究者傳遞到另一個研究者。知識流可以促進學術創新,也可以用于設計評價指標,以評估作者和機構的貢獻[11]。

1.1? 文獻評價指標

文獻評價指標一直是文獻計量學領域的重要研究方向,除了通過文獻引用量,研究者還從作者權威性特征(如h-index[12] 、文獻生產力[13] 、領域權威性[14])、作者社交性特征(如作者數量[15]、共合作關系[16]、跨團體影響力[17])、文獻文本特征[18,19]、期刊會議權威性特征[20]、引文網絡拓撲特征(如PageRank[21]、PaperRank[22])等對文獻進行系統評價,以期挖掘出高質量、高創新度的潛在論文,本文所提結構多樣性為引文網絡拓撲結構特征。

1.2? 結構多樣性

節點的結構多樣性描述了節點的鄰居節點中連通分量個數[5],如圖1(a)所示,由節點A的鄰居節點B-H及其邊構成的子圖中共有三個連通分支{B,C,D}、{E,F}、{G,H},則圖1(a)中節點A的結構多樣性為3,同理圖1(b)中節點A的結構多樣性為2。通常高結構多樣性節點在網絡中具有更高的影響力,在行為預測[7,23~25]、推薦系統[26~28]等領域有著重要應用,同時結構多樣性是社會網絡分析模型的重要特征[29~33],但也有研究發現在某些情況下低結構多樣性節點具有更高影響力[7,34]。

2? 引文網絡結構多樣性模型及改進模型

結構多樣性模型在社會網絡領域發展成熟,有著較為廣泛的應用。節點的結構多樣性描述了節點的鄰居節點中連通分量個數,通常高結構多樣性節點在網絡中具有更高的影響力,在行為預測、推薦系統等領域有著重要應用,同時結構多樣性是社會網絡分析模型的重要特征。鑒于結構多樣性在社會網絡分析中的重要性,將其引入引文網絡。

考察數據集[27]中發表于2012年的兩篇文獻,文獻A(Yang W,Wang K Q,Zuo W M,Neighborhood component feature selection for high-dimensional data)和文獻B(Alexander M R,Roi R,Michael C,Amir G,Improved parsing and POS tagging using inter-sentence consistency constraints)。其中文獻A于發表后第三年被5篇文獻引用,此時文獻B引用量為18;但在2021年時文獻A的引用量達到了69,而文獻B僅為26。進一步用結構多樣性思想研究其引用特點,發現文獻A雖然在發表后第三年時引用量僅為5,但引用該文獻的研究均來自不同領域,而引用了文獻B的18篇文獻間存在較多引用關系,來自相同研究領域。從結構多樣性理論的角度解釋,顯然文獻A在發表初期其引用文獻結構多樣性較高,而文獻B與之相比要低很多,結構多樣性高的節點在網絡中具有更強的影響力,因此文獻A在未來獲得了更多引用。

上述案例也間接證明了將結構多樣性思想引入引文網絡的可能性,而引文網絡與社會網絡顯著不同,具有有向性無回路等特征,因此需要依據引文網絡模型構建面向引文網絡的結構多樣性模型。本節首先給出構建模型所需的基本定義,然后給出引文網絡的結構多樣性模型并分析其存在的問題,最后提出了三種改進的引文網絡結構多樣性模型。

2.1? 基本定義

定義1? 引文網絡圖。D=〈V,〉引文網絡圖,其中V為文獻集合,有向邊〈u,v〉∈表示文獻u引用了文獻v。

定義2? 文獻v的施引文獻集。已知引文網絡圖D=〈V,〉,文獻v∈V的施引文獻集Iv={u|〈u,v〉∈}表示所有引用v的文獻集合。

定義3? 施引文獻集Iv導出子圖。 已知引文網絡圖D=〈V,〉,施引文獻集Iv的導出子圖D[Iv]n=〈V′,′〉,其中V′Iv,且u∈V′中的文獻u均為文獻v發表后n年內(包含n)發表,′={〈u,v〉|u,v∈V′∧〈u,v〉∈} 。

定義4? 有向圖D的基圖。 用無向邊代替該有向圖中的有向邊得到的無向圖,記為G(D)。

定義5? 連通分支數。 圖G連通分支數表示圖G的連通分支的數量,記為p(G)。

2.2? 引文網絡結構多樣性模型

定義6? 引文網絡結構多樣性。已知引文網絡圖D=〈V,〉,D[Iv]n為文獻v的施引文獻集Iv的導出子圖,則文獻v的引文網絡結構多樣性sd(v,n)為導出子圖D[Iv]n的基圖的連通分支數,即sd(v,n)=p(G(D[Iv]n))。

如圖2所示,文獻S發表后3年內,被文獻C1、C2、C3引用;S施引文獻集IS的導出子圖D[IS]3=〈V′,′〉,為圖2紅色虛線標出部分,其中V′={C1,C2,C3},′=〈C3,C2〉;在有向圖D[IS]3的基圖中,C1獨自屬于一個連通分量H1,C3與C2 同屬一個連通分量H2,此時文獻S的引文網絡結構多樣性sd(S,3)=2。需要注意的是,本文所有結構多樣性模型中,有向邊只用于判斷引用與被引用的關聯關系,使用的是弱連通性法[34],且引用關系不可能出現強連通的情況,為方便計算忽略方向,故在有向圖的基圖中分析連通性可以準確地獲得文獻引文網絡結構多樣性值。

為了保證學術嚴謹性,一篇學術論文的發表周期并不短,所以處于同一時間段內其直接引用文獻之間一般不會存在引用關系(如在同月發表的文獻B、C同時引用了文獻A,文獻B、C之間幾乎不可能存在引用關系);同時,數據集中也會存在引用缺失的情況,即本身應當存在的引用關系可能因為版權、數據庫、編碼格式等各種問題而丟失。但其本應存在較強聯系,如同屬一個研究領域、分支方向、強相關性研究等,根據結構多樣性思想將其歸為一個連通分量是十分合理的,而引文網絡中的邊缺失會令結構多樣性模型失效,相關分析準確性降低。

考慮到上述可能出現的問題,本文結合引文網絡中的重要概念文獻耦合和文獻共被引對原始結構多樣性模型進行改良,提出了三種新模型使之與引文網絡契合度更高。

2.3? 改進的引文網絡結構多樣性模型

引文網絡中存在邊缺失問題,需要為可能缺失的邊或關聯性較大的節點間添加邊。

Chakraborty等人[35]為鄰居節點Jaccard相似度達到閾值的節點補充邊后,獲得了一個更加優秀的結構多樣性模型用于社會網絡分析。以此為鑒,考慮文獻間引用的缺失,可以借助引文網絡中近距離節點信息,為原本沒有邊的兩個節點添加邊。多篇文獻同時引用了另一篇文獻為文獻間耦合,多篇文獻同時被另一篇文獻引用為文獻間共被引。文獻間的耦合與共被引常被認為是文獻間有著較大關聯的象征。

文獻耦合反映了文獻間思想的共享程度以及重合度,是一種靜態關系,耦合結構多樣性(coupling structural diversity)模型利用耦合關系為相關文獻間添加邊。

定義7? 文獻v耦合結構子圖。已知引文網絡圖D=〈V,〉,施引文獻集Iv,v耦合結構子圖D[CPv]n=〈V′,′〉,其中V′Iv,且u∈V′中的文獻u均在文獻v發表后n年內(包含n)發表,′={〈u,v〉|u,v∈V′∧(〈u,v〉∈∨w∈V(〈u,w〉,〈v,w〉∈))}。

如圖3所示,文獻S發表后3年內,被文獻C1、C2、C3直接引用,提取C1和C2的參考文獻R11~R32,考慮到R12同時被文獻C1和C2引用,即存在耦合關系,為C1、C2間添加有向邊,得到文獻S耦合結構子圖(圖3中虛線標出部分)。

定義8? 耦合結構多樣性。已知引文網絡圖D=〈V,〉,v耦合結構子圖D[CPv]n,則文獻v的引文網絡結構多樣性sd-cp(v,n)為導出子圖D[CPv]n的基圖的連通分支數,即sd-cp(v,n)=p(G(D[CPv]n))。

圖3為耦合結構多樣性模型示意圖,文獻S耦合結構子圖的基圖的連通分支數為2,那么文獻S的耦合結構多樣性sd-cp(S,3)=2。耦合結構多樣性算法偽代碼見算法1。共被引同樣可以反映出文獻間的強關聯性,與文獻耦合不同,共被引情況隨時間變化會改變[26]。共被引結構多樣性(co-citation structural diversity)模型利用文獻間共被引關系為相關文獻間添加邊。

算法1? 耦合結構多樣性算法

輸入:引文網絡D=〈V,〉;年份控制參數n。

輸出:V中所有節點vi∈V的耦合結構多樣性sd-cp(vi,n)。

1? for each vi∈V do

2? 提取vi施引文獻集Ivi

3? for each vj∈Iv do

4??? if yvj>yvi+n//yp表示文獻p發表年份

5??? then 從Iv中刪除vj及與vj關聯的邊

6??? else提取vj參考文獻集Rvj

7? 提取D由Iv誘導出的子圖DIv

8? for each vm∈Iv do

9??? for each vn∈Iv do

10????? if Rvm∩Rvn≠ and vm與vn無邊

11????? then 向DIv中添加有向邊mn:vm→vn

12? sd-cp(vi,n)←p(G(DIv))

13? return

定義9? 文獻v共被引結構子圖。已知引文網絡圖D=〈V,〉,施引文獻集Iv,v共被引結構子圖D[CCv]n=〈V′,′〉,其中V′Iv,且u∈V′中的文獻u均在文獻v發表后n年內(包含n)發表,′={〈u,v〉|u,v∈V′∧(〈u,v〉∈∨w∈V(〈w,u〉,〈w,v〉∈)),文獻w均在文獻v發表后n年內(包含n)發表}。

如圖4所示,文獻C1和C2無引用關系,但兩者被其他文獻共同引用,得到共被引關系,如圖中藍色邊(見電子版)。根據定義9,文獻S的共被引結構子圖為圖4中虛線標出部分。需要說明的是,共被引是通過文獻發表后后續文獻的引用關系確定,與文獻耦合的靜態模型(一篇文獻在發表后參考文獻一般不會發生變化)并不相同,會動態變化,所以在提取引用文獻時,C11~C32均發表于文獻S發表后的n年(包含n)內(該例中n=3)。

定義10 ?共被引結構多樣性。已知引文網絡圖D=〈V,〉,v共被引結構子圖D[CCv]n,則文獻v的引文網絡結構多樣性sd-cc(v,n)為導出子圖D[CCv]n的基圖的連通分支數,即sd-cp(v,n)=p(G(D[CCv]n))。詳細算法偽代碼見算法2。

在圖4中文獻S的共被引結構子圖的基圖的連通分支數為2,因此S共被引結構多樣性sd-cc(S,3)=2。

組合結構多樣性(combined structural diversity)模型則是同時考慮使用文獻間的耦合關系和共被引關系為文獻間添加邊。

定義11? 組合結構多樣性。已知引文網絡圖D=〈V,〉,v組合結構子圖D[COv]n=D[CPv]n∪D[CCv]n,則文獻v的引文網絡結構多樣性sd-co(v,n)為組合結構子圖D[COv]n的基圖的連通分支數,即sd-co(v,n)=p(G(D[COv]n)),組合結構多樣性算法偽代碼見算法3。

算法2? 共被引結構多樣性算法

輸入:引文網絡D=〈V,〉;年份控制參數n。

輸出:V中所有節點vi∈V的耦合結構多樣性sd-cc(vi,n)。

1? for each vi∈V do

2? 提取vi施引文獻集Ivi

3 ?for each vj∈Iv do

4??? ?if yvj>yvi+n//yp表示文獻p發表年份

5??? ?then 從Iv中刪除vj及與vj關聯的邊

6??? ?else 提取vj施引文獻集Ivj

7??? ?for each vk∈Ivj

8??? if yvk>yvi+n

9????? then 從Ivj中刪除vk及與vk關聯的邊

10? 提取D由Iv誘導出的子圖DIv

11? for each vm∈Iv do

12??? for each vn∈Iv do

13??? if Ivm∩Ivn≠ and vm與vn無邊

14????? then 向DIv中添加有向邊mn:vm→vn

15? sd-cc(vi,n)←p(G(DIv))

16? return

如圖5所示,紅色有向邊代表來源于文獻耦合,藍色有向邊代表來源于文獻共被引(見電子版),共同組成了文獻S的組合結構子圖(圖中虛線標出部分)。該組合結構子圖的基圖的連通分支數為1,故文獻S的組合結構多樣性sd-co(S,3)=1。

算法3? 組合結構多樣性算法

輸入:引文網絡D=〈V,〉;年份控制參數n。

輸出:V中所有節點vi∈V的耦合結構多樣性sd-cp(vi,n)。

1? for each vi∈V do

2? 提取vi施引文獻集Ivi

3? for each vj∈Iv do

4??? ?if yvj>yvi+n//yp表示文獻p發表年份

5??? then從Iv中刪除vj及與vj關聯的邊

6??? else提取vj參考文獻集合Rvj與vj施引文獻集Ivj

7??? for each vk∈Ivj

8????? if yvk>yvi+n

9????? then 從Ivj中刪除vk及與vk關聯的邊

10? 提取D由Iv誘導出的子圖DIv

11? for each vm∈Iv do

12? for each vn∈Iv do

13??? if Rvm∩Rvn≠ and vm與vn無邊

14????? then向DIv中添加有向邊mn:vm→vn

15??? if Ivm∩Ivn≠ and vm與vn無邊

16????? then 向DIv中添加有向邊mn:vm→vn

17? sd-co(vi,n)←p(G(DIv))

18? return

3? 實驗

本文各結構多樣性相關實驗均在不同年份參數n(n=1,2,3,4,5)下進行過對照實驗。隨著n的增加,文獻的結構多樣性指標更加準確,實驗結果更好,當n=3時已經可以獲得較好的實驗結果,且結果相似,為避免贅述,本文統一展示n=3情況下的實驗結果。

3.1? 實驗數據集

本文使用數據集為國際公認權威科技情報大數據挖掘平臺Aminer提供的計算機領域引文網絡數據集DBLP-Citation-network V13[27],該數據集發布于2021年5月14日,引文信息主要來源于Database Systems and Logic Programming(DBLP)數據庫。該數據集具有引文數據新、數據體積大、字段特征全等優點,可通過網站https://www.aminer.cn/citation直接獲取。由于數據集中存在部分缺失發表年份、摘要、作者等重要特征的記錄,所以需要對數據集進行清洗,表1為原始數據集及清洗后數據集基本情況,圖6為清洗后數據集文獻引用量分布情況,呈現標準的冪率分布。

3.2? 文獻評價指標(結構多樣性)可行性實驗

由于2000年以前文獻樣本數量較少且實驗數據已不具備時效性,所以實驗選取2000—2018年發表的所有文獻,計算每篇文獻在引文網絡中的原始結構多樣性sd(v,3),并按照sd(v,3)的數值進行分組,參照文獻[3,28]的實驗方法,選取每組文獻引用量(于2021年統計)的中位數作為該組文獻的質量評價指標,以結構多樣性為橫坐標,其對應文獻質量(引用量中位數)為縱坐標,研究原始結構多樣性與文獻質量的關系,實驗結果具有相似結論,故圖7以六年為跨度展示2000—2018年的實驗結果。

如圖7所示,在不同年份的整體趨勢實驗中,皮爾森相關系數(Pearson correlation coefficient) r均大于0.9,文獻質量隨sd(v,3)取值增加而增加,這表明文獻質量與結構多樣性有著較強的線性相關性。此時,再考察第2章中案例文獻A和B,文獻A的sd(v,3)=4,而文獻B的sd(v,3)=1,符合上述規律,結構多樣性作為文獻評價指標具有可行性。

為了更細致地觀察結構多樣性與引用量的關系,并且增加實驗可信度,在每組實驗中額外選取了中位數附近的20篇文獻研究其與對應文獻引用量的關系,實驗結果見圖8。

在圖8中,每組實驗所得皮爾森相關系數均大于0.88(且 值均小于0.001),再次證明了文獻質量與結構多樣性顯著相關。其中2000年相關性實驗中的皮爾森相關系數比其他年份小,可能是文獻樣本量不足導致,2000年文獻樣本僅有76 801篇,而其他年份的文獻樣本均超過了15萬篇。

從結構多樣性模型本身聯系其社會學含義進行解釋,若一篇文獻具有高結構多樣性,表明其發表后被更多分支學科或其他領域的學者認可參考,顯然具有更好的跨學科特性,創新性往往也更強,即結構多樣性在一定程度上反映了文獻質量,可以成為文獻質量的一個評價指標。

3.3? 文獻評價指標(改進結構多樣性)可行性實驗

從3.2節實驗可知原始結構多樣性與文獻質量(引用量中位數)有著較強的線性相關性,但由于觀察實驗的弊端,并不能得出結構多樣性與文獻質量之間的直接因果關系——結構多樣性高導致文獻引用量高。因此,本節進行更細粒度的實驗,探索結構多樣性影響文獻引用量的機制。

根據年份(2000—2018年)對文獻分組,并在實驗前統計了其發表后n年內引用量(n與計算結構多樣性年份相同,即n=3),盡可能使每組的樣本數量接近且每組中文獻引用量接近,具體分組規則見表2。由于h組樣本數量過少,且組內數據跨度較大,不具有代表性和普適性,所以不在實驗結果中體現。分組后,每組均具有于發表后第3年時引用量相近的文獻,但每篇文獻的結構多樣性并不完全相同,遍歷計算出每篇文獻的結構多樣性sd(v,3)、耦合結構多樣性sd-cp(v,3)、共被引結構多樣性sd-cc(v,3)、組合結構多樣性sd-co(v,3)。以各結構多樣性的值為橫坐標,該組文獻于2021年的文獻質量(引用量中位數)為縱坐標,探究結構多樣性影響未來文獻質量的機制。

本文首先通過實驗研究了結構多樣性與文獻引用量的關系,于分組實驗中發現在文獻發表后第3年處于同一組的文獻中,結構多樣性與文獻引用量沒有相關性,這與3.2節結果不同,說明該模型在細粒度實驗中準確性不夠高。進一步選擇改進模型進行實驗時,獲得了與3.2節相似的結果,更加嚴謹地證明了高結構多樣性文獻在將來具有更高質量的可能性更大,同時也證明了改進模型作為文獻評價指標的可行性。實驗結果見圖9,由于實驗結果具有相似性,為避免贅述僅展示2000年、2006年、2012年的實驗結果。

首先,從圖9中可以明顯看出,即使在發表后第3年文獻引用量近似(處于同一組),但隨著結構多樣性的增加,文獻獲得更多引用的可能性更高,這樣的趨勢在發表后短時間內就獲得較多引用的組中(E~G組)更為明顯。其次,組合結構多樣性模型中會存在更多的邊,這導致同一篇文獻的組合結構多樣性值只可能比耦合結構多樣性和共被引結構多樣性的值低,因此組合結構多樣性模型中大部分代表性文獻樣本的引用量都要大于另外兩個模型,而共被引模型中大部分代表性文獻樣本的引用量要小于另外兩個模型,這說明該模型添加的邊是最少的,這也為不同數據集提供了靈活的模型選擇,當數據集中數據較為完整時可以選擇原始結構多樣性模型或共被引結構多樣性模型,當數據集中引用信息缺失較多時可以選擇耦合結構多樣性模型或組合結構多樣性模型。

3.4? 結構多樣性與文獻引用量變化趨勢關系實驗

Cao等人[29]發現,若一組論文出版后四年內具有相近的引用量變化趨勢,該組論文出版四年后的引用量變化趨勢也會相近,因此一篇文獻發表后四年內的引用量變化趨勢可用于提升文獻引用量預測模型的性能。文獻[30~33]中也有類似結論,均利用期刊發表后的引用信息有效地提升了預測模型的精度。但上述研究均停留于現象表面,并沒有深入研究其中機制。本節通過實驗研究不同結構多樣性文獻的引用趨勢,并利用結構多樣性思想嘗試解釋。實驗從不同期刊隨機選取發表于不同年份(發表年份均小于2010年),且組合結構多樣性sd-co(v,3)為1、4、7、10的文獻各20篇,繪制其十年內被引用的趨勢變化圖。由于各樣本實際被引量差距較大,而本實驗僅針對引用趨勢進行研究,所以使用比值C=yn/yi(yn為文獻發表后第n年的被引量,i為實驗中年份跨度,本實驗中i=10)來表示被引量。實驗結果見圖10,每幅子圖中灰色線為各文獻樣本發表后被引用量 隨時間T(年)的變化趨勢,加粗線為各組樣本均值變化趨勢,陰影部分為標準差誤差帶。

從整體來看,若一篇文獻發表后第3年具有相同的組合結構多樣性,其后續被引量C隨時間T(年)的變化趨勢相近。從部分來看,低組合結構多樣性(sd-co(v,3)=1)文獻往往在發表后第2年時C就超過了0.8,這說明參考了低組合結構多樣性文獻思想的工作主要集中在該文獻發表后的前期時間段(3年內)。其次,隨著組合結構多樣性的增加,文獻在前期時間段獲得引用量占比逐漸減少,但依舊會在2~3年內出現引用平緩期。同時,相比低組合結構多樣性,引文網絡具有高組合結構多樣性的文獻在中后期會獲得更多的引用,即高組合結構多樣性文獻的引用文獻會隨時間分布得更加均勻。

對于此,嘗試使用社會網絡中結構多樣性理論的思想來進行解釋。在引文網絡子圖中,每一個不連通的分量可以認為其擁有獨立于其他分量的主題、研究分支或其本身就屬于不同的學科范疇,若一篇文獻引文網絡的結構多樣性較低,往往意味著該文獻主題較為單一,跨學科性較差,則發表后受其影響的學科分支、領域也越少。其次,文獻引用注重時效性,相關領域內研究者往往更加青睞熱點方向,引用文獻時也傾向于引用最新的科研成果[13],因此一篇低結構多樣性文獻的被引量主要來源于文獻發表后的前期時間段。反觀高結構多樣性文獻,其在短時間內影響了更多的領域、學科,擁有更強的創新性與顛覆性,知識擴散范圍更廣、速率更快,其在后續(發表三年后)獲得更多引用的可能性也更高。以上分析也從理論層面合理地解釋了文獻[29]中的引用趨勢近似現象在很大程度上是受到文獻結構多樣性的影響。同時,結構多樣性與文獻引用量趨勢關聯的特性也彰顯了其作為文獻評價指標的獨特性與重要性。

3.5? 結構多樣性在文獻引用量預測模型中的表現

為進一步探究各結構多樣性在引文網絡分析中的有效性,實驗使用發表于2000—2008年的1 183 904篇文獻樣本作為訓練集,發表于2009年和2010年的436 961篇文獻樣本作為測試集,選擇五種經典引用量預測模型,在其中添加各結構多樣性相關參數后進行回歸預測實驗,并與未添加相關參數的基線模型對比,其中LR[34]、kNN[34]、SVR[34]、CART[34]為直接選用文獻特征進行回歸預測的模型,遂直接在原模型上添加文獻樣本結構多樣性特征,TPM[35]為分層學習預測模型,實驗在回歸預測階段添加文獻樣本結構多樣性特征。

實驗選擇相關研究常用評價指標,即決定系數R2和均方誤差MSE(mean square error)。決定系數R2常用于評價模型預測結果與真實結果差距性能,R2∈[0,1],越接近1表示模型總體預測準確,R2可以表示數據的變化程度;MSE越小,則預測模型精確度更高。

R2=1-∑ni=1(Cp-CpEuclid ExtravBp)2∑ni=1(Cp-C)2(1)

MSE=1n∑ni=1(Cp-CpEuclid ExtravBp)2(2)

其中:Cp表示通過預測模型得到的文獻p的引用量;C表示所有樣本文獻引用量的平均值;CpEuclid ExtravBp表示文獻p的真實引用量。

實驗中機器學習模型選用sklearn-0.20.4版本,具體參數選擇見表3,特征選擇見參考文獻,其余未列出參數均選用默認值,實驗結果見表4,每組實驗中預測性能最好的結果已分別用下劃線(R2)和粗體(MSE)標記。

從表中可以看出,在85.8%的實驗中,添加結構多樣性特征均可以有效提升基線模型的預測性能。組合結構多樣性后在各模型的長期引用量預測(10年)中具有較好的效果,R2最高提升22.19%,平均提升14.55%,MSE最高提升22.76%,平均提升17.34%;原始結構多樣性和耦合結構多樣性則在模型短中期引用量的預測(1年、5年)中效果較好;共被引結構多樣性在大部分實驗中表現不如其他兩種改進模型,但比原始結構多樣性模型略好。

4? 結束語

本文首先提出了適用于引文網絡的結構多樣性模型;其次根據其原始模型在引文網絡中的缺陷提出三種改進模型,并研究了各結構多樣性與文獻引用量的強關聯性,并解釋其機制;再次,通過實驗證明了結構多樣性可以提升文獻引用量模型的性能;最后,提出以下未來工作供參考。

a)從結構多樣性模型本身來看,本文所提出的結構多樣性模型結合了引文網絡研究中的重要概念耦合與共被引,但沒有詳細研究耦合強度與共被引強度對相關模型的影響,這是一個后續值得深入研究的點。其次本文結構多樣性模型研究文獻距離最大為2(兩篇文獻最多可經過兩次引用或被引到達),適當擴大距離可能使相關模型效果更優秀。此外,可以嘗試將結構多樣性模型與不同的文獻評價指標組合使用,從而挖掘出更符合預期的高價值文獻。

b)從數據分析實驗來看,本文只對結構多樣性小于等于10的文獻樣本進行實驗。對于更高結構多樣性,由于樣本數量過少,不足以得出普遍性規律,沒有在實驗結果中體現,后續可以選取合適數據集,針對高結構多樣性文獻進行專題研究。此外,實驗僅選取了10年跨度研究文獻被引趨勢,而一些經典且具有奠基效應文獻的被引趨勢往往與普通文獻不同,未來可以加大實驗中時間跨度,探究此類特殊文獻的被引用趨勢,從而將結構多樣性指標應用到特殊文獻(如“睡美人”文獻)的挖掘中。

參考文獻:

[1]呂曉贊.文獻計量學視角下跨學科研究的知識生產模式研究[D].杭州:浙江大學,2021.(Lyu Xiaozan.Research on the know-ledge production mode of interdisciplinary research from the perspective of bibliometrics[D].Hangzhou:Zhejiang University,2021.)

[2]Richard V N.Global scientific output doubles every nine years[J].Humanities and Social Sciences Communications,2021,8:article No.224.

[3]Wu Lingfei,Wang Dashun,Evans J A.Large teams develop and small teams disrupt science and technology[J].Nature,2019,556:378-382.

[4]肖學斌,柴艷菊.論文的相關參數與被引頻次的關系研究[J].現代圖書情報技術,2016,32(6):46-53.(Xiao Xuebin,Chai Yanju.Properties of scholarly papersand number of citations[J].New Technology of Library and Information Service,2016,32(6):46-53.)

[5]Ugander J,Backstrom L,Marlow C,et al.Structural diversity in social contagion[J].Proceedings of the Nationalacademy of Sciences of the United States of America,2012,109(16):5962-5966.

[6]魯英杰,張應龍.基于社會網絡的結構多樣性研究綜述[J].數據分析與知識發現,2022,6(8):1-11.(Lu Yingjie,Zhang Yinglong.Review of structural diversity studies on social networks[J].Data Analysis and Knowledge Discovery,2022,6(8):1-11.)

[7]Fang Zhanpeng,Zhou Xinyu,Tang Jie,et al.Modeling paying behavior in game social networks[C]//Proc of the 23rd ACM International Conference on Conference on Information and Knowledge Management.New York:ACM Press,2014:411-420.

[8]Zhang Shiqi,Sun Jiachen,Lin Wenqing,et al.Measuring friendship closeness:a perspective of social identity theory[C]//Proc of the 31st ACM International Conference on Information & Knowledge Management.New York:ACM Press,2022:3664-3673.

[9]Qiu Jiezhong,Li Yixuan,Tang Jie,et al.The lifecycle and cascade of Wechat social messaging groups[C]//Proc of the 25th International Confe-rence on World Wide Web.New York:ACM Press,2016:311-320.

[10]Su J,Kamath K,Sharma A,et al.An experimental study of structural diversity in social networks[C]//Proc of the International AAAI Conference on Web and Social Media.Palo Alto,CA:AAAI Press,2020:661-670.

[11]Yu Dejian,Pan Tianxing.Tracing knowledge diffusion of topsis:a historical perspective from citation network[J].Expert Systems with Applications,2021,168(2):114238.

[12]Tahamtan I,Afshar A S,Ahamdzadeh K.Factors affecting number of citations:a comprehensive review of the literature[J].Scientome-trics,2016,107:1195-1225.

[13]Sánchez-Arrieta N,González R A,Caabate A,et al.Social capital on social networking sites:a social network perspective[J].Sustainability,2021,13(9):5147.

[14]Aral S,Nicolaides C.Exercise contagion in a global social network[J].Nature Communications,2017,8(1):14753.

[15]Spiliotopoulos T,Oakley I.Understanding motivationsfor facebook use:usage metrics,network structure,and privacy[C]//Proc of SIGCHI Conference on Human Factors in Computing Systems.New York:ACM Press,2013:3287-3296.

[16]Dong Yuxiao,Johnson R A,Xu Jian,et al.Structural diversity and homophily:a study across more than one hundred big networks[C]//Proc of the 23rd ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining.New York:ACM Press,2017:807-816.

[17]Huang Xinyi,Tiwari M,Shah S.Structural diversity in social recommender systems[C]//Proc of the 5th ACM RECSYS Workshop on Recommender Systems and the Social Web.New York:ACM Press,2013.

[18]Sanz-cruzado J,Castells P.Enhancing structural diversity in social networks by recommending weak ties[C]//Proc of the 12th ACM Confe-rence on Recommender Systems.New York:ACM Press,2018:233-241.

[19]Gao Shuai,Ma Jun,Chen Zhumin.Effective and effortless features for popularity prediction in microblogging network[C]//Proc of the 23rd International Conference on World Wide Web.New York:ACM Press,2014:269-270.

[20]Xu Wenzheng,Liang Weifa,Lin Xiaola,et al.Finding top-k influential users in social networks under the structural diversity model[J].Information Sciences,2016,355-356:110-126.

[21]Bao Qing,Cheung W K,Zhang Yu,et al.A component-based diffusion model with structural diversity for social networks[J].IEEE Trans on Cybernetics,2017,47(4):1078-1089.

[22]Backstrom L,Kleinberg J,Lee L,et al.Characterizing and curating conversation threads:expansion,focus,volume,re-entry[C]//Proc of the 6th ACM International Conference on Web Search and Data Mi-ning.New York:ACM Press,2013:13-22.

[23]Qiu Jiezhong,Tang Jian,Ma Hao,et al.DeepInf:social influence prediction with deep learning[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:ACM Press,2018:2110-2119.

[24]Zhang Jing,Liu Biao,Tang Jie,et al.Social influence locality for modeling retweeting behaviors[C]//Proc of the 23rd International joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2013:2761-2767.

[25]Zhang Yafei,Wang Lin,Zhu J J H,et al.The strength of structural diversity in online social networks[J].Research,2021,2021:article ID 9831621.

[26]Tan L P.Mapping the social entrepreneurship research:bibliographic coupling,co-citation and co-word analyses[J].Cogent Business & Management,2021,8(1):article No.1896885.

[27]Tang Jie,Zhang Jing,Yao Limin,et al.ArnetMiner:extraction and mining of academic social networks[C]//Proc of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2008:990-998.

[28]Akella A P,Alhoori H,Kondamudi P R,et al.Early indicators of scientific impact:predicting citations with altmetrics[J].Journal of Informetrics,2021,15(2):article No.101128.

[29]Cao Xuanyu,Chen Yan,Liu K J R.A data analytic approach to quantifying scientific impact[J].Journal of Informetrics,2016,10(2):471-484.

[30]Ma Anqi,Liu Yu,Xu Xiujuan,et al.A deep-learning based citation count prediction model with paper metadata semantic features[J].Scientometrics,2021,126:6803-6823.

[31]Abramo G,Dangelo C A,Felici G.Predicting publication long-term impact through a combinationof early citations and journal impact factor[J].Journal of Informetrics,2019,13(1):32-49.

[32]Bornmann L,Leydesdorff L,Wang Jian.How to improve the prediction based on citation impact percentiles for years shortly after the publication date?[J].Journal of Informetrics,2014,8(1):175-180.

[33]Kulkarni A,Busse J,Shams I.Characteristics associated with citation rate of the medical literature[J].PLoS ONE,2007,2(5):e403.

[34]Yan Rui,Tang Jie,Liu Xiaobing,et al.Citation count prediction:learning to estimate future citations for literature[C]//Proc of the 20th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2011:1247-1252.

[35]Chakraborty T,Kumar S,Goyal P,et al.Towards a stratified learning approach to predict future citation counts[C]//Proc of the 14th ACM/IEEE-CS Joint Conference on Digital Libraries.New York:ACM Press,2014:351-360.

猜你喜歡
評價指標
智能電網風險評價研究
陜南生態移民生產生活水平評價及后期扶持
編程類課程實踐教學考核方案研究
我國上市銀行成長評價研究
時代金融(2016年29期)2016-12-05 15:43:24
旅游產業與文化產業融合理論與實證分析
科學與管理(2016年5期)2016-12-01 19:18:45
中國藥品安全綜合評價指標體系研究
中國市場(2016年40期)2016-11-28 04:01:18
第三方物流企業績效評價研究綜述
商(2016年33期)2016-11-24 23:50:25
基于UML的高校思想政治教育工作評價系統的分析與研究
公共文化服務體系評價指標的國際經驗與啟示
中國市場(2016年38期)2016-11-15 00:01:08
資源型企業財務競爭力評價研究
中國市場(2016年33期)2016-10-18 13:33:29
主站蜘蛛池模板: 九色在线观看视频| 久久精品这里只有国产中文精品| 亚洲第一av网站| 综合社区亚洲熟妇p| 无码中文字幕精品推荐| 第一区免费在线观看| 欧洲精品视频在线观看| 91无码人妻精品一区| 免费人成黄页在线观看国产| 亚洲国产精品无码久久一线| 久久天天躁狠狠躁夜夜2020一| 亚洲av色吊丝无码| 无码区日韩专区免费系列| 久久黄色免费电影| 精品久久综合1区2区3区激情| 大学生久久香蕉国产线观看| 伊人无码视屏| 久久久久人妻精品一区三寸蜜桃| 国产美女视频黄a视频全免费网站| www.99在线观看| 国产波多野结衣中文在线播放 | 亚洲黄色视频在线观看一区| 毛片免费视频| 青青青国产视频| 亚洲综合天堂网| 福利视频一区| 国产真实乱子伦视频播放| 在线网站18禁| 这里只有精品在线| 免费一级毛片在线观看| 国产伦片中文免费观看| 污视频日本| 玖玖精品视频在线观看| 国产嫖妓91东北老熟女久久一| 国产精品无码一区二区桃花视频| 免费中文字幕在在线不卡| 精久久久久无码区中文字幕| 97青草最新免费精品视频| 波多野吉衣一区二区三区av| 99久久精品美女高潮喷水| 国产成人综合在线观看| 国产精品黑色丝袜的老师| 美女视频黄频a免费高清不卡| 日韩不卡高清视频| 2020最新国产精品视频| 最新国语自产精品视频在| 亚洲成网777777国产精品| 亚洲成在人线av品善网好看| 91亚洲免费视频| 日韩欧美高清视频| 在线99视频| 播五月综合| 夜夜操国产| 国产91无毒不卡在线观看| 欧美日韩在线成人| 青青青亚洲精品国产| 久久精品亚洲专区| 丁香五月婷婷激情基地| 久久香蕉国产线看观看精品蕉| 丁香六月激情综合| 国产在线观看第二页| 精品一区二区三区四区五区| 国产亚洲欧美日韩在线一区二区三区| 欧美日韩中文字幕二区三区| 欧美中文一区| 啪啪免费视频一区二区| 国产亚洲日韩av在线| 国产乱视频网站| 99热亚洲精品6码| 国产99精品视频| 波多野结衣在线一区二区| 欧美性猛交xxxx乱大交极品| 九色91在线视频| 97视频免费看| 中国成人在线视频| 伦精品一区二区三区视频| 青草娱乐极品免费视频| 91亚洲视频下载| 国产精品性| 亚洲国产精品日韩专区AV| 狼友视频国产精品首页| 国产乱子伦一区二区=|