999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

共引網絡中樣本量對相似性測度的選擇影響

2023-08-20 03:22:47馬振賈保先
軟件工程 2023年8期

馬振 賈保先

摘 要:選擇合適的相似性測度推斷共引網絡,對于提升網絡的關聯性和真實性具有重要意義。然而,樣本量的大小對相似性測度選擇的影響尚未可知。基于樣本量大小的敏感性,分別使用兩個常用的相似性測度Phi相關系數(簡稱Phi)和Ochiai系數(簡稱Och)推斷共引網絡,通過網絡節點屬性和拓撲結構對推斷的網絡質量進行評價。結果顯示:與Phi相比,Och推斷的共引網絡對樣本量具有強魯棒性。隨著樣本量的變化,Och推斷的共引網絡一直都遵循小世界特性,而Phi則不符合此特性。研究結論可以推廣到其他遵循小世界特性的事務推斷網絡。同時,研究可以充實網絡技術研究領域的基礎理論。

關鍵詞:相似性測度;樣本量;共引網絡;Ochiai系數;Phi相關系數

中圖分類號:TP393.0 文獻標志碼:A

0 引言(Introduction)

共引網絡的節點交互是通過兩個文獻節點之間的共引關系推理得出的[1]。共引關系中的兩個節點可視為二元變量,計算共引關系實質就是計算兩篇文獻節點之間的共引關聯性[2]。在共引網絡中,由于網絡結構和節點屬性取決于節點間定義的連接索引,每一對節點之間的相似度是通過事務中的節點本身或共有鄰節點的度數進行相似性計算得到的,因此選擇合適的相似性測度是創建可靠、健壯的共引網絡的必要條件[3]。相似性測度通常選擇Phi相關系數(簡稱Phi)和Ochiai系數(簡稱Och)。Phi反映了兩個變量之間的線性關系,對值為零的節點非常敏感,會導致節點之間的低重疊;而Och對值為零的節點具有強免疫性[4-6]。

盡管學者對Phi和Och已經有了充分研究與討論[7-8],然而前人的研究未考慮樣本量的大小對相似性測度選擇的影響。隨著樣本量的變化,節點本身及其相互間的關聯性都會發生變化,連接的邊也可能會受到事務數變化的影響。因此,有必要研究確定哪種相似性測度不受樣本量變化的影響。針對上述問題,本文選擇兩種常用的相似性測度,針對樣本量的敏感性,比較哪種相似性測度構建的網絡具有強魯棒性,這對于提升共引網絡的質量具有重要意義。

1 相關概念(Relevant concepts)

1.1 計算公式

通過定義連接節點的邊構成網絡。共引網絡是要創建一個無向加權網絡,定義包含相關節點的事務,這些事務用于解釋兩個節點之間是否存在連接。由N 個事務發展而來的網絡G 用G=(D,E)表示,其中D 是一組d 節點,E 是一組e 邊,E?D×D。對稱的d×d 矩陣AG =(aij)(ij )∈D×D 稱為G 的鄰接矩陣。如果(i,j)∈E 是G 的邊,則aij>0;如果(i,j)?E,則aij=0;如果i=j,則aij=0。由于要比較Phi和Och推斷的共引網絡,因此基于這兩個相似性測度定義了邊aij。在Phi網絡中,aij 表示PHIij,使用公式(1)計算得到:

由于很難找到Och的統計學定義,因此有學者利用相關系數檢驗顯著性的方法確定Och的閾值,具體步驟如下[8]。

Step1:對于每對節點,計算總體數據集(最大樣本量)的Ci、Cj、Cij、PHIij、t值和Ochij。

Step2:求節點對數q,t>2.58(即連接在α=0.01時顯著相關)和Cij > ΣCij/p,其中p 是Cij >0的對數。

Step3:在給定的Cij > ΣCij/p 中,求出對數等于q 的Och閾值Sc。

Step4:使用Sc 作為閾值,在不同的樣本量中查找邊的數量。

由 于Step3中計算Sc 的對數等于Phi的最大對數,因此該方法使用Phi和Och從最大樣本量中推斷的網絡邊數相同。

1.2 節點屬性和拓撲結構

評價不同相似性測度推斷的網絡質量可以從局部屬性和全局屬性兩個方面考慮,局部屬性主要根據的節點度量指標衡量每個節點,全局屬性根據拓撲結構從整體上評價網絡質量[9]。網絡節點的度量指標主要包括度中心性、加權度、中介中心性等。表1中列出了節點的度量指標定義。

聚類系數反映了網絡的連接緊密程度,是衡量網絡拓撲結構普遍且重要的指標[12-14]。復雜網絡的拓撲結構有很多種,通常比較常見的有隨機網絡、無標度網絡和小世界網絡,拓撲結構通常有隨機、無標度和小世界。如果一組節點之間的連接是以一定的概率隨機連接的,則稱為隨機網絡,隨機網絡中節點的度中心性服從二項分布。當網絡中少數節點起主導作用時,稱為無標度網絡,無標度網絡中節點的度服從冪律分布。當網絡中有多個節點簇使得節點之間的距離變小時,稱之為小世界網絡,小世界網絡的度可以服從任意分布,其聚類性能高于隨機網絡和無標度網絡。通常使用特征路徑長度和聚類系數衡量小世界網絡。

2 數據采樣(Data sampling)

選取Web of Sicence數據庫中截至2022年12月31日的數據源。為了盡可能地確保研究結果的準確性,同時考慮到工作量,選擇Scientometrics 期刊,下載10個數量不同的論文題錄數據為樣本,涵蓋了從小到大10個不同數量的數據樣本。評估數據的質量,清理數據(去除社論、校正、會議論文、書評、信函、提前發表論文等),然后分別使用Phi和Och推斷出20個共引網絡。

樣本包括(1)2008年發表的128篇論文;(2)2013年發表的255篇論文;(3)2020年發表的439篇論文;(4)2021—2022年發表的746篇論文;(5)2020—2022年發表的1 185篇論文;(6)2019—2022年發表的1 485篇論文;(7)2018—2022年發表的1 858篇論文;(8)2017—2022年發表的2 230篇論文;(9)2013—2022年發表的3 520篇論文;(10)2008—2022年發表的4 535篇論文。

創建20個共引網絡,其中使用p<0.01的Phi推斷了10個共引網絡,使用閾值為0.04的Och推斷了10個共引網絡。例如,使用樣本(8),Phi推斷的共引網絡有1 957條邊顯著相關,Och推斷的共引網絡有3 894條邊顯著相關。

3 實證分析(Empirical analysis)

3.1 不同樣本量對網絡節點的影響

如圖1所示,隨著樣本量的增加,Phi推斷的網絡中相關邊數顯著增加。例如,樣本量為1 485時,Phi推斷的網絡包含1 265條邊;樣本量為746時,Phi推斷的網絡包含562條邊;樣本量減半時,Phi推斷的網絡邊數也接近減半。在Och推斷的網絡中,樣本量大于1 185時,Och推斷的網絡邊數變化比較緩慢;樣本量小于1 185時,Och推斷的網絡邊數變化較明顯。

網絡密度如圖2所示,Och推斷的網絡密度在所有樣本中基本保持不變;相反,在Phi推斷的網絡密度發生了較大的變化。這說明樣本量的變化對Och創建的共引網絡的網絡密度影響較小。

從圖3—圖8中可以觀察到,樣本量大小對共引網絡的其他網絡度量指標的影響。在Phi推斷的網絡中,平均度中心性、平均加權度中心性、平均中介中心性、平均緊密中心性、平均聚類系數及平均特征向量中心性都隨著樣本量的增加而增加。在Och推斷的網絡中,平均度中心性、平均加權度中心性、平均緊密中心性、平均聚類系數及平均特征向量中心性基本保持不變,直到樣本量減少到128時,指標才有所波動;此外,Och推斷的網絡的平均中介中心性是所有網絡度量中最不一致的,在樣本量減少到1 185時,平均中介中心性發生了明顯的變化。可見,在樣本量較小的情況下,平均中介中心性并不是一個有效的度量指標。

3.2 不同樣本量對網絡拓撲結構的影響

當網絡中特征路徑長度很短且存在多個節點簇時,網絡具有小世界特性。特征路徑長度和聚類系數是小世界網絡的度量指標。節點i 和節點j 之間的距離dij 定義為連接這兩個節點的最短路徑上邊的數目。網絡的特征路徑長度P 就是任意兩個節點之間距離的平均值,計算公式如下:

對于具有小世界特性的網絡,需要滿足條件n ?k ?ln n?1,確保網絡不會分割成多個子網絡。此外,必須滿足兩個條件:首先,網絡的特征路徑長度(共引網絡的特征路徑長度用Pcom 表示)與相同節點數n 和平均度k 的特征路徑長度(隨機網絡特征路徑長度用Prand 表示)大致相同;其次,網絡的聚類系數(共引網絡聚類系數用Ccom 表示)應大于等價隨機網絡的聚類系數(等價隨機網絡聚類系數用Crand 表示)。

為了判斷網絡的小世界特性,本文將研究重點放在每個網絡的最大連通部分上,連通部分包含直接或間接連接的最大連接節點數。例如,樣本(8)創建的Phi網絡的最大連接組件包含473個節點,該最大連接組件的平均度為25,即n=473和k=25,Prand 和Crand 可分別通過公式(6)和公式(7)計算得到:Prand~1.91,Crand~0.053,Pcom 為2.452(大于Prand),Ccom 為0.641 4(大于Crand)。此外,滿足n?k?ln n?1(473?25?6.16?1)。因此,遵循小世界特性。

Prand~ln n/ln k (6)

Crand~k/n (7)

如圖9所示,隨著樣本量的增加,Phi推斷的網絡中最大連接集的節點數也隨之增加。然而,Och推斷的網絡中最大連接集的節點數量基本沒有變化,直到樣本量減少到255時才急劇減少。

關于網絡特征路徑長度的變化,如圖10和圖11所示,隨著樣本量的減小,Och推斷的網絡中的Prand 和Pcom 幾乎保持不變,但是Phi推斷的網絡顯示出一些不一致性。在Phi推斷的網絡中,Prand 隨著樣本量的增加逐漸增加,Pcom 在樣本量增加到439之前先增加,之后隨著樣本量的增加而減少。

在圖12和圖13中可以看到,聚類系數的變化也有類似趨勢:在Och推斷的網絡中,Crand 和Ccom 基本保持不變,而在Phi推斷的網絡中,Crand 隨樣本量的增加逐漸減少且變化差異較大,Ccom 隨樣本量的變化有輕微的隨機變化。

在Phi推斷的網絡中,樣本量為4 535時,滿足小世界特性。但是,隨著樣本量的減少,k 和ln n 之間的差異變小,這違反了小世界特性的條件要求,形成多個不連通的子網絡。此外,在Och推斷的網絡中,小世界特性始終存在。總體而言,Och保留了網絡的整體拓撲結構,樣本量較小時也遵循小世界特性,而Phi則不符合這一特性。

4 結論(Conclusion)

本文分析了共引網絡中樣本量對相似性測度選擇的影響,分別使用兩個常用的相似性測度Phi相關系數和Ochiai系數推斷共引網絡,通過網絡節點屬性和拓撲結構對推斷的網絡質量進行評價。結果表明:如果目標是尋找高度相關的節點,可以使用Phi;在樣本量較小的情況下,建議使用Och。本文研究可以豐富網絡技術研究領域的基礎理論,提升推斷關系網絡的關聯性和真實性。此外,研究結論可以推廣到神經網絡、語言網絡、文本網絡等其他遵循小世界特性的通過事務推斷得出的網絡。

參考文獻(References)

[1] 邱均平. 文獻計量學[M]. 北京:科學出版社,2019:252-255.

[2] GUILFORD J P. Psychometric methods[M]. New York:McGraw-Hill Book Company,1936:13-22.

[3] 楊利軍,張良友. 期刊共被引相似性測度問題的實證研究[J].圖書情報工作,2010,54(18):139-144.

[4] 曾守楨,駱丹丹. 基于類Pearson綜合相關系數的概率語言TOPSIS多屬性決策方法[J]. 系統科學與數學,2021,41(1):126-143.

[5] 高繼平,丁堃,劉宇,等. 知識基礎與前沿載文間的知識流動分析:以信息領域中的Gerard Salton為例[J]. 情報雜志,2009,28(10):98-102.

[6] 康耀紅,CHANG K W. 關于Salton擴展布爾情報檢索模型的一個注記[J]. 情報學報,2002(2):164-166.

[7] CHARTIER J F,MONGEAU P,SAINT-CHARLES J.Predicting semantic preferences in a socio-semantic systemwith collaborative filtering:a case study[J]. InternationalJournal of Information Management,2020,51:102020.

[8] EGGHE L,LEYDESDORFF L. The relation between Pearson'scorrelation coefficient r and Salton's cosine measure[J].Journal of the American Society for Information Scienceand Technology,2009,60(5):1027-1036.

[9] 孫睿,羅萬伯. 網絡輿論中節點重要性評估方法綜述[J].計算機應用研究,2012,29(10):3606-3608,3628.

[10] 胡思文,李兵,何鵬,等. 一種基于h指數的軟件網絡中重要類的度量方法[J]. 小型微型計算機系統,2017,38(2):249-253.

[11] 劉向. 知識網絡的形成與演化[M]. 武漢:武漢大學出版社,2014:32-33.

[12] HERNáNDEZ SERRANO D,SáNCHEZ GóMEZ D.Centrality measures in simplicial complexes:applicationsof topological data analysis to network science[J]. AppliedMathematics and Computation,2020,382:125331.

[13] 馬夢珂,倪靜. 基于度值和聚類系數的跨單元調度問題優化[J]. 計算機應用研究,2021,38(9):2651-2656.

[14] 楊博,劉大有,金弟,等. 復雜網絡聚類方法[J]. 軟件學報,2009,20(1):54-66.

作者簡介:

馬 振(1984-),男,碩士,講師。研究領域:知識網絡,數據挖掘。

賈保先(1982-),男,博士,副教授。研究領域:人工智能,大數據。

主站蜘蛛池模板: 国产成人精品三级| 国产亚洲欧美日韩在线一区二区三区| 日韩精品视频久久| 亚洲日本www| 亚洲国产成人久久精品软件| 91久久青青草原精品国产| 亚洲色图狠狠干| 国产日韩欧美一区二区三区在线| 国产一级小视频| 亚洲精品国产成人7777| a级毛片网| 久久精品娱乐亚洲领先| AV熟女乱| 毛片久久久| 一边摸一边做爽的视频17国产| 91精品国产麻豆国产自产在线| m男亚洲一区中文字幕| 国产九九精品视频| 欧美福利在线播放| 亚洲视频在线青青| 国产91熟女高潮一区二区| 久草视频一区| 国产美女人喷水在线观看| 老司机午夜精品视频你懂的| 成年女人a毛片免费视频| 亚洲a免费| 亚洲精品日产AⅤ| 亚洲色图欧美| 欧美日韩精品在线播放| 毛片在线播放网址| 欧美另类第一页| 国产大片喷水在线在线视频| 黄色国产在线| 精品国产成人av免费| 国产精品无码久久久久AV| 久久国产乱子伦视频无卡顿| 色老二精品视频在线观看| 男女性色大片免费网站| 国产综合网站| 国产精品2| 亚洲资源站av无码网址| 国产成人精品高清不卡在线| 成人精品午夜福利在线播放| 亚洲一区精品视频在线| 在线免费a视频| 成人午夜网址| 一级毛片在线播放免费观看| 国产成人你懂的在线观看| 在线观看网站国产| 久久精品中文无码资源站| 免费 国产 无码久久久| 91在线免费公开视频| 精品伊人久久久久7777人| 欧美在线视频不卡| 国产好痛疼轻点好爽的视频| 77777亚洲午夜久久多人| 手机在线看片不卡中文字幕| 五月天在线网站| 国产精品播放| 四虎成人在线视频| 亚洲愉拍一区二区精品| 热伊人99re久久精品最新地| 久久久精品久久久久三级| 亚洲国产成人在线| 99re热精品视频国产免费| 97亚洲色综久久精品| 日本精品一在线观看视频| 国产成熟女人性满足视频| 四虎永久在线精品国产免费| 99人妻碰碰碰久久久久禁片| 欧美一区日韩一区中文字幕页| 亚洲国产精品一区二区第一页免| 亚洲天堂网在线观看视频| 91无码网站| 人禽伦免费交视频网页播放| 国产18在线播放| 91精品国产综合久久不国产大片| 国产一区二区免费播放| 国产凹凸一区在线观看视频| 亚洲日本韩在线观看| 久久综合AV免费观看| 日韩毛片免费视频|