999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于天際線算法的主題排序方法研究

2022-05-19 06:58:34萬校基李海林龔燕燕林海龍
情報學報 2022年4期
關鍵詞:排序

萬校基,李海林,龔燕燕,林海龍

(1. 華僑大學工商管理學院,泉州 362021;2. 華僑大學東方企業管理研究中心,泉州 362021)

1 引 言

信息爆炸時代,面對海量科技文獻,科研人員難以高效地獲取學科研究熱點和發展趨勢。與此同時,相關期刊也面臨如何甄選符合時代特色和學科發展趨勢文獻的困境。為全面深入了解相關學科發展態勢,迫切地需要對科技文獻的主題進行深層次挖掘、梳理與分析。

近年來,國內外研究者對科技文獻主題進行了大量研究,主要集中于主題識別和主題排序等方面。①主題識別方面:較多研究者通過詞頻分析[1]、共詞分析[2]、共引分析[3]等文獻計量統計法來開展研究,其中詞頻分析法主要是通過關鍵詞頻數來識別相關文獻主題,缺乏對關鍵詞之間相關性的考慮;共詞分析法是結合關鍵詞共現次數和Jaccard、余弦指數等相似性度量方法來構建關鍵詞相似性矩陣,再通過層次聚類、多維尺度分析和社會網絡分析等方法來進行主題劃分和提取,缺乏對關鍵詞在不同文獻中重要性的考慮,同時也面臨著提前設置聚類個數和尺度大小等人為主觀因素的影響;共引分析法是通過分析文獻之間的引用和被引用關系,以及多維尺度分析和聚類等方法獲取相似主題,需要花費大量時間對共引文獻開展分析。隨著數據挖掘技術的進一步發展,部分研究者在共詞分析的基礎上,借助相關聚類算法來開展主題分析研究。如傳統經典聚類算法k-means[4],由于原理簡單,可解釋度較強,其在文本聚類[5]和機器學習[6]等方面得到了廣泛的應用。然而該方法對噪音和異常點數據比較敏感,易獲得局部最優,同時聚類效果嚴重依賴于初始中心點。為此,Frey 等[7]基于圖論提出了近鄰傳播(affinity propagation,AP)聚類算法,相比于其他聚類算法,該算法將每個數據點作為初始代表點,不需要設置初始中心點和聚類個數,可自適應對文獻主題進行識別。鑒于其重要作用,AP聚類算法在計算機[8]、圖書情報學[9]和工程學[10]等多個領域獲得了廣泛應用,然而,大部分研究僅是對首次聚類后的初始核心主題簇開展分析,未細粒度地揭示相關文獻主題,缺乏對學科研究的深入了解。因此,如何科學度量關鍵詞重要性,并細粒度地揭示科技文獻主題已成為當前主題識別研究中的重要問題。②主題排序方面:部分研究者基于相關機器學習算法如TF-IDF(term frequency-inverse doc‐ument frequency) 加權技術[11]和概率主題模型[12-13]等對相關學科研究主題進行了排序研究,然而他們在計算過程中的時間代價和資源消耗相對過高;與此同時,他們的研究缺乏對用戶需求因素的考慮。為此,李秀霞等[14]基于文獻計量和主題挖掘方法,從讀者和研究人員兩個視角,通過發文趨勢和引文趨勢對學科研究主題進行了合理排序,但美中不足的是,他們需要結合數據不同分布特點自定義發文趨勢和引文趨勢的運算關系。考慮到文獻計量統計方法更容易理解,便于操作,且效率較高,有一部分研究者借助文獻計量學參量開展科技文獻主題排序。如蔣卓人等[15]采用了主題出現頻率、被引用次數和PageRank 值三種排序方式對中英文科技主題進行了排序,并且以此為基礎,對中英文科技主題在各自數據集中的排序相關性進行了對比分析。然而,他們在表征科技文獻主題熱度時,僅用到一維度量指標,未能準確和全面地揭示科技文獻主題熱度。因此,如何降低數據高維復雜特征,并快速準確地獲取科技文獻主題熱度已成為主題排序研究中最具有挑戰性的難點之一。

針對當前研究存在的一些不足,本文提出了一種將主題識別與主題排序相融合的新方法。通過共詞分析法和近鄰傳播(AP)聚類算法自適應獲取初始學科研究主題[16],對低于總體平均相似性的主題簇進行二次AP 聚類,進而自動實現學科研究主題精確細劃分。與此同時,為進一步分析同類各主題熱度,以主題簇內中心代表關鍵詞的篇均被引量和篇均下載量為特征指標[17],借助天際線算法(skyline algorithm)[18]和主成分分析法(principal component analysis,PCA)[19]獲取各主題熱度,最后以供應鏈相關期刊文獻為例開展實驗分析,為相關科研人員和期刊的重要決策提供技術支持。

本研究的主要貢獻體現在:①通過共詞分析法、加權Ochiia 系數和AP 聚類算法自適應識別了相關領域研究主題,量化了關鍵詞在文獻不同位置的重要性,減少了傳統主題提取方法如層次聚類、多維尺度分析和社會網絡分析等提前設置聚類個數和尺度大小等人為主觀操作的影響。②有別于傳統一次聚類劃分主題,基于平均相似性系數精準篩選待細劃分主題簇,并對篩選后的主題簇進行二次聚類,確保了細粒度研究主題的精準識別。③借助天際線算法和主成分分析法分析二次主題聚類結果,不僅降低了算法復雜度,而且細粒度地揭示了相關領域研究主題熱度。④新方法的運用,不僅可為相關領域研究者的科學選題提供指導意見,也可為相關期刊的精準選稿提供決策支持。

2 理論基礎

2.1 相似性度量

傳統共詞分析法在利用Ochiia 系數、Jaccard、余弦指數和TF-IDF 等度量關鍵詞相似性時,會忽視同一關鍵詞在不同文獻中的不同重要性程度,一定程度上影響了相關領域研究主題的準確識別。鑒于關鍵詞的重要性在一定程度上與作者給出的關鍵詞順序有關,排序越靠前的關鍵詞,其對主題的描述力越強,重要性也越大。為度量關鍵詞的重要性,李海林等[20]根據關鍵詞在文獻中出現的順序計算了對應權重wKeypk,并以wKeypk為基礎度量了關鍵詞兩兩之間相似性Sw(i,j),其定義的公式為

其中,Kp代表第p篇文獻中的關鍵詞個數;k代表第p篇文獻中的第k個關鍵詞。

2.2 近鄰傳播(AP)聚類算法

近鄰傳播(AP)聚類算法是基于數據點間的“信息傳遞”的一種聚類算法,根據n個數據點之間的相似度進行聚類。在數據點間迭代傳遞歸屬度(availability) 和吸引度 (responsibility) 這兩種消息,直到迭代過程收斂,類代表也隨之固定,同時將其余的數據點分配到相應的聚類中[20-21]。與k-均值(k-means)算法或k中心點(k-medoids)算法不同,AP 算法不需要在運行算法之前確定聚類的個數。AP 算法尋找的“examplars”即聚類中心點是數據集合中實際存在的點,作為每類的代表。在AP 聚類的運算過程中,核心的兩點是對代表程度r(i,k)和合適程度a(i,k)的迭代和更新。代表程度r(i,k)是表示xk的積累信息,說明了xk對所劃分簇中xi的代表程度;合適程度a(i,k)代表xi的累積程度,說明了對于xi所在的簇,選擇xk作為代表點的合適程度有多大。

代表程度r(i,k)和合適程度a(i,k)的計算公式為

在更新信息時,為了降低可能的振蕩影響,引入衰減系數?(0 <?<1)來迭代代表程度和合適程度,具體迭代過程為

其中,k為簇中心;i為簇中某一個點;t為迭代次數;?為衰減系數。

公式(5)和公式(6)說明第t+1 次迭代過程中,每條信息被設置為前次(第t次)信息更新值的?倍加上本次(第t+1 次)迭代更新值的1-?倍。顯然,迭代后的代表程度r(i,k)和合適程度a(i,k)越大,說明k點越適合作為i點的簇中心,對i點的代表程度越大。重復以上迭代過程,直到聚類結果趨于穩定或者達到預設迭代次數,算法結束。

2.3 天際線(skyline)算法

skyline 計算求解的是一個典型的多目標優化問題,早期研究可追溯到20 世紀70 年代,其問題可以定義如下。

給定一組多維空間數據點G{p1,p2,…,pn},sky‐line 計算并返回所有不被其他點“支配(domi‐nate)”的數據點,即skyline 點;對于多維空間中的兩個數據點pi和pj,如果其同時滿足如下兩個條件,則稱pi被pj支配:

(1)在一個維度上,pj的值小于pi的值;

(2)在剩余維度上,pj的值不大于pi的值。

顯然,skyline 計算的目的是查找數據集合中所有不被支配的對象所構成的集合[22],其廣泛應用于多目標決策、用戶偏好查詢和市場分析等。

為詳細論述skyline 原理,以圖1 為例展開說明。假設點a、b、i、k為酒店,顯然,a酒店比b酒店更便宜,而且離景區更近,我們說a點在受歡迎程度上大于b點;再比較a點和i點,a點因為離景區更近,而i點更便宜,因此,a點和i點在受歡迎程度上是相同的。

圖1 skyline示例

最優skyline 包含了一系列最受歡迎酒店的集合。在圖1 例子中,最優skyline={a,i,k},顯然,不在最優skyline 集合內的酒店在大多數情況下不會被用戶考慮。因此,折線上的點就是skyline 選出的數據點,更能滿足人們的需求。

由于本文涉及的表征主題熱度的指標不止一個,主題排序的任務可以看成是一個多維排序問題。天際線算法能夠從多維空間中查找到不被支配的對象集合,并且能夠對科學家進行排名[23],因此,本文將借助天際線算法來開展主題排序。

3 主題排序

3.1 研究思路

如圖2 所示,通過詞頻分析法識別相關學科領域高頻關鍵詞,結合關鍵詞重要性公式[20]和關鍵詞相似性度量方法Ochiia 系數構建加權高頻關鍵詞相似性矩陣,利用AP 聚類算法自適應獲取初始主題簇。鑒于部分初始主題簇內的關鍵詞成員相似性不強的情形,對低于總體平均相似性的初始主題簇進行二次AP 自適應聚類。以最終主題簇內中心代表關鍵詞的篇均被引量和篇均下載量為主題熱度表征指標,利用天際線算法獲取主題天際線集合,最后對其進行主成分降維,從而實現主題熱度排序。

圖2 本研究思路

3.2 主題排序方法

基于AP 聚類算法、skyline 算法和主成分分析法(PCA),本文構建主題排序方法,命名為ASP算法。

通過關鍵詞權重公式(1)和相似性公式(2)構建加權關鍵詞相似性矩陣,利用AP 聚類算法對其進行自適應聚類。針對某些主題簇中關鍵詞成員之間的相似性偏低、中心代表關鍵詞涵蓋不全等問題,再次通過AP 聚類算法實現主題再聚類。統計相關主題簇中心代表關鍵詞的篇均被引量和篇均下載量,對每個核心主題簇用天際線算法得到核心主題天際線集合,選取每個主題簇中最外層的核心主題作為天際線集合,對篩選后的天際線集合進行PCA 降維處理,進而獲取到最終主題排序結果。

4 實驗分析

為驗證本文提出的主題排序方法(ASP)的有效性和可行性,本節將以供應鏈相關文獻為例開展實驗分析。

4.1 數據來源與處理

選取中國知網(China National Knowledge Infra‐structure,CNKI) 中收錄于SCI(Science Citation In‐dex)、EI(Engineering Index)、CSSCI(Chinese So‐cial Sciences Citation Index)、 CSCD (Chinese Sci‐ence Citation Database) 中與供應鏈相關的期刊文獻,檢索的主題詞為“供應鏈”,來源時間為2010—2020 年,數據收集時間為2020 年12 月21 日。為排除不相關文獻的干擾,保證研究的可信度,剔除通知、征稿文件、專訪和會議等文獻,最終獲得6329 篇有效文獻,其中關鍵詞26735 個,篇均關鍵詞4.22 個,不重復的關鍵詞7114 個。圖3 為供應鏈相關期刊文獻的每年發表情況。

圖3 供應鏈相關期刊文獻的每年發表情況

由圖3 可知,2010—2020 年,供應鏈領域發表論文的數量波動不大。2010 年和2013 年的發文量略微高于其他年份,從2015 年起,每年的發文量呈小幅度的下降趨勢,這似乎表明,學術界對供應鏈相關研究的熱度有下降趨勢。

4.2 初始主題識別

關鍵詞是期刊文獻核心內容的濃縮和提煉,具有較強的主題代表性[24]。通過統計關鍵詞在標題或摘要中的概率,李海林等[20]發現,不同順序的關鍵詞對相關主題的描述力不同,排位越靠前的關鍵詞,其對主題描述力越強。此外,蔣卓人等[15]也闡述了關鍵詞作為學術主題的優勢,即關鍵詞不僅可以更為準確和全面地概括文獻主題,也可以讓主題在語義表現層面上更有解釋性。鑒于關鍵詞的較強主題代表性,本文將用其來表示期刊文獻主題。

為便于后續初始主題識別,選取頻數超過10 的336 個高頻關鍵詞來開展分析。

根據公式(1)和公式(2)可計算得到336 階加權關鍵詞相似性方陣:

對矩陣(7)進行AP 自適應聚類,最終可得到如圖4 所示的11 個初始主題簇。

由圖4 可知,顏色相同的小圈屬于同一個主題簇,每個簇中間的關鍵詞與鄰近的關鍵詞成員聯系密切,是該主題簇的核心主題。通過AP 聚類獲得的11 個初始核心主題分別為“供應鏈”“外包”“供應鏈整合”“供應鏈能力”“隨機需求”“供應鏈金融”“知識共享”“信息共享”“STACKELBERG博弈”“博弈論”和“供應鏈協調”。以初始核心主題“供應鏈金融”為例,其包含的關鍵詞成員有區塊鏈、中小企業融資、商業銀行、資金約束等,從概念上可以看出這些關鍵詞之間聯系較為緊密。白燕飛等[25]提到,“未來區塊鏈SCF(供應鏈金融,supply chain finance)平臺要從更廣闊的發展視角出發,重在助力供應鏈產業鏈的補鏈、強鏈,以綜合性金融服務基礎設施的方式在產業網絡中推廣和應用,能夠更好地發揮市場激勵機制,規范供應鏈的運營”,其清晰地揭示了“供應鏈金融”“中小企業融資”“區塊鏈”這幾個關鍵詞的密切關系。對于以“供應鏈”為核心的主題簇,可以看到簇內含有“非對稱信息”“應急管理”等關鍵詞,從概念上來看,聯系并不太緊密,但崔玉泉等[26]研究了非對稱信息下供應鏈在突發事件下的應急管理和信息價值問題,剛好說明一些新理論概念的提出,有可能會將傳統看來關系不緊密的主題聯系起來。

圖4 初始主題簇(彩圖請見https://qbxb.istic.ac.cn/CN/volumn/home.shtml)

量化主題簇內各關鍵詞成員之間的緊密程度,需要計算核心主題簇中各個成員之間的平均相似性Savg。假設某個核心主題簇所對應的關鍵詞相似性矩陣為

則該主題簇對應的平均相似性Savg為

其中,關鍵詞i和j之間的相似性Sw(i,j)由公式(2)計算得出。

對首次AP 聚類的11 個初始主題簇進行平均相似性計算,最終得到的結果如表1 所示。

表1 初始主題簇的平均相似性

為衡量首次AP 聚類效果,計算所有初始主題簇的平均相似性AVG(Savg)=0.136。顯然,針對平均相似性小于AVG(Savg)的主題簇,我們可以認為其簇內關鍵詞成員之間的相似性較低,即該主題簇的中心代表關鍵詞未能更好地反映成員關鍵詞所蘊含的主題,因此,有必要對其進行再次聚類。

4.3 最終主題識別

鑒于首次聚類效果不理想,有必要對平均相似性較低的主題簇進行二次聚類。考慮到中心代表關鍵詞“供應鏈”所在簇的關鍵詞成員平均相似性最小(Savg=0.021),下面將以其為例開展主題分析。

類似首次AP 聚類過程,對以“供應鏈”為核心的主題簇進行二次AP 聚類,最終可得到如圖5所示的聚類結果。

由圖5 可知,對以“供應鏈”為核心的主題簇進行二次AP 聚類,最終可得到27 個主題簇。其中“網絡設計”“農產品”“供應商選擇”等中心代表關鍵詞被分在了不同的主題簇中,而在同一個簇中的關鍵詞往往具有較高的相關性,如在以“契約”為核心的主題簇中,含有“競爭”“協同機制”和“博弈”三個關鍵詞成員,這些關鍵詞之間的緊密關系在趙青松等[27]的研究中得到了很好地體現,其構建并分析了價值網絡模式下各參與主體間的協同競爭博弈模型。

圖5 二次AP聚類結果

此外,我們也發現,二次聚類后的大部分主題都由3 個或4 個關鍵詞所刻畫,說明了在海量數據文獻中,往往是特定幾個關鍵詞之間聯系較為緊密,因此,可以選取每個主題簇的中心代表關鍵詞作為該主題簇的代表。

4.4 主題天際線集合構建

以二次聚類后的各主題簇中心代表關鍵詞的篇均被引量和篇均下載量為主題熱度表征指標,并以其為基礎來構建主題天際線集合。圖6 展示了頻數排名前15 位的關鍵詞篇均被引量和篇均下載量。

如圖6 所示,頻數最高的關鍵詞不一定具有最高的篇均被引量和篇均下載量,例如,“供應鏈”為頻數最高的關鍵詞,但其篇均被引量和篇均下載量卻低于“供應鏈金融”和“協調”等關鍵詞。而篇均下載量少的主題,也不一定擁有較少的篇均被引量,例如,“再制造”對應的篇均下載量為736,雖然其比“供應鏈金融”對應的篇均下載量少了80,但是“再制造”的篇均被引量卻比“供應鏈金融”對應的篇均被引量高出了15。

圖6 頻數排名前15位的關鍵詞篇均被引量和篇均下載量

顯然,以上結論充分說明了單個關鍵詞的篇均被引量或篇均下載量難以客觀揭示相關主題熱度。因此,有必要結合兩者來表征相關主題熱度。

由于聚類后每個主題簇含有的關鍵詞成員個數不同,有可能會導致含有較多關鍵詞成員的主題簇的整體被引量和下載量高于其他主題簇。為消除此因素影響,本文將以主題簇中心代表關鍵詞的篇均被引量和篇均下載量來度量所在簇的主題熱度。通過天際線算法的應用,可得到如圖7所示的主題天際線集合。

圖7 說明了在二次聚類得到的27 個主題簇中,存在12 條天際線,其中右上角最外圍的天際線只有一個主題“合作伙伴”,該主題的篇均被引量和篇均下載量均高于其他主題,顯然,我們可以認為“合作伙伴”是“供應鏈”這個主題簇下熱度最高的主題。而除去“合作伙伴”這個主題后,可以看到“SHAPLEY 值法”和“質量控制”所在的天際線集合區域在剩余的主題中擁有最高的熱度,因此將“SHAPLEY 值法”和“質量控制”作為第二條天際線集合,其熱度低于第一條天際線集合。同理,圖7 顯示的單個主題“供應商選擇”所在的天際線集合區域位于所有集合的最低處,可以認為在篇均被引量和篇均下載量這兩個控制因素下,該主題的研究熱度最低。

圖7 主題天際線集合(彩圖請見https://qbxb.istic.ac.cn/CN/volumn/home.shtml)

4.5 主題熱度排序

通過天際線算法得到的主題天際線集合,只是找出了在被引量和下載量兩個維度下的各主題集合熱度,還需要進一步通過主成分分析法進行降維,從而進一步客觀揭示主題熱度。

結合主題天際線集合和主成分分析法,可計算得到如表2 所示的主題排序結果。

如表2 所示,“合作伙伴”在“供應鏈”主題下擁有最高的熱度,在CNKI 上將其與“供應鏈”一起搜索,結果顯示,“合作伙伴”在“供應鏈”領域下僅有12 篇期刊文獻,但其篇均被引量和篇均下載量均位居所有主題首位;顯然,肖靜華等[28]的論文《從面向合作伙伴到面向消費者的供應鏈轉型——電商企業供應鏈雙案例研究》在很大程度上提升了該主題熱度,當前該文獻被引量已經接近250 次,同時下載量已超過2.2 萬次。此外,主題“SHAPLEY 值法”的熱度也高于“質量控制”,從其所在聚類簇的關鍵詞成員來看,相比于研究“契約設計”和“網絡均衡”,科研人員可能更熱衷于研究“碳交易”和“利益分配”。再如,“零售商”的熱度高于“復雜網絡”的熱度,在CNKI 上將這兩個詞與“供應鏈”一起搜索,結果顯示,“零售商”在“供應鏈”領域下的期刊文獻篇數更多(“零售商”1001 篇,“復雜網絡”20 篇),且“零售商”比“復雜網絡”在供應鏈領域下的討論范圍更廣。類似地,其他主題在篇均被引量和篇均下載量上也存在一定差異,以至于它們呈現出不同的排序結果。

表2 主題排序結果

4.6 排序結果的可靠性分析

為驗證ASP 算法的排序結果可靠性,有必要將其與既往典型主題排序方法進行對比。

通過文獻梳理可知,當前主題排序方法主要有機器學習算法[11]、概率主題模型[12-13]、文獻計量統計方法[14-15]等,雖然各類排序方法均有各自的優勢,但沒有統一的評價標準來說明它們的優劣。從現有主題熱度的度量指標來看,大部分指標是一維指標,如主題出現頻率[15,29]、被引量[15,30]、下載量[30]、PageRank 值[15]等,有少量研究涉及二維度量指標[14],但其構建的主題排序公式有較大主觀性。本文將以初始核心主題“供應鏈”的二次聚類結果為例,重點對比分析由主題出現頻率、篇均被引量、篇均下載量、PageRank 值和ASP 等排序方法決定的前10 位主題。

根據相關主題排序公式計算,可得到如表3 所示的排序結果。

如表3 所示,在不同排序方法下,排名前10 位的主題存在一定重疊,為度量不同排序方法之間的主題重疊程度,定義某排序方法的主題重疊率為該排序方法與其他排序方法比較時,重復的主題總數與被比較的主題總數的比值。

表3 不同方法的主題排序結果

通過計算,我們發現,篇均被引量排序的主題重疊率最高,達到(6+7+6+8)/40=67.5%,ASP 算法排序次之(65%),而出現頻率排序、篇均下載量排序、PageRank 值排序的主題重疊率最低,均為57.5%。顯然,主題重疊率體現了各排序方法之間的相似性,一定程度上也反映了相關排序方法的可靠性。一般來說,主題重疊率越高,排序方法之間的相似性就越大,對應排序方法也越可靠。雖然ASP 算法排序的主題重疊率比篇均被引量排序低2.5 個百分點,但是相比于出現頻率排序、篇均下載量排序和PageRank 值排序,該算法的主題重疊率不僅高出7.5 個百分點,而且同時兼顧了主題的篇均被引量和篇均下載量兩個熱度指標。鑒于ASP 排序算法不僅有較高的主題重疊率,而且能夠多維度全面地評估主題熱度,我們推斷,由該算法得到的主題排序結果是可靠的。

下文將繼續借助ASP 算法對圖4 中其他相似性較低的初始主題簇開展二次聚類和熱度排序。

4.7 結果分析

由上文分析可知,主題排序算法ASP 是可靠的。類似地,利用該算法對圖4 中平均相似性Savg小于總體平均相似性AVG(Savg)的所有初始主題簇進行二次聚類和熱度排序,最終得到如表4所示的結果。

表4 初始主題簇內熱度排名前2位的主題

從初始核心主題來看,7 個主題均來自原始數據的第一次聚類,但其所在主題簇的平均相似性相對較低,部分主題之間存在一定重復性,例如,“STACKELBERG 博弈”和“博弈論”在概念上存在一定包含關系,但從各自所屬聚類簇的關鍵詞成員來看,“STACKELBERG 博弈”可能更傾向于說明STACKELBERG 博弈模型在低碳供應鏈、旅游供應鏈、雙渠道供應鏈等研究領域中的應用,而“博弈論”可能更傾向于說明要以博弈論為基礎來分析再制造、政府補貼、回收渠道、定價決策、供應鏈協同、逆向物流等問題中的博弈關系。此外,初始核心主題“知識共享”和“信息共享”也具有一定重疊性,然而從自適應AP 聚類結果來看,兩者之間的差異并不小。為描述兩者之間具體的聯系與差異,以“知識共享”和“信息共享”所在聚類簇的關鍵詞成員為節點,將與核心代表關鍵詞有相似性的關鍵詞成員連邊,線越粗,代表它們之間的相似性越大,反之,則相似性越小。如圖8 所示,同一聚類簇內,“知識共享”與“知識創新”相似性最大(相似度0.105),與“綠色供應鏈管理”相似性最小(相似度0.010);“信息共享”與“需求預測”相似性最大(相似度0.119),與“大數據”相似性最小(相似度0.006)。從橫跨兩個聚類簇的連線來看,“知識共享”和“信息共享”又存在一定聯系:“知識共享”與“信息共享”所在簇的關鍵詞成員“演化博弈”“價值創造”“激勵機制”“本體”存在相似性,“信息共享”與“知識共享”所在簇的關鍵詞成員“博弈分析”“大數據”“供應鏈績效”“綠色供應鏈”“農產品供應鏈”“集群供應鏈”存在相似性。實際上,以上主題之所以會存在這種差異,可能是由于作者對這些概念存在不同的模糊認知和理解傾向,而通過自適應AP 聚類算法進行硬劃分能夠比較客觀地揭示它們之間的差異。

圖8 知識共享與信息共享的聯系與差異

從主題的排序結果來看,7 個平均相似性較低的初始主題簇被進一步細分,細分后的各主題之間相似性較小,如“博弈論”下的主題“模型”和“知識共享”下的主題“結構方程模型”,雖然它們看起來存在一定聯系,但是由于代表的聚類簇不同,其反映的主題也不同。從同簇內的關鍵詞成員來看,主題“模型”更傾向于描述“協同”問題中用到的一些模型,而主題“結構方程模型”可能更傾向于說明該模型在“綠色供應鏈管理”和“供應鏈風險管理”等研究領域中的應用。同理,其他細分后的主題也可以結合同簇內的關鍵詞成員給出合理的語義解釋。

此外,在核心主題為“供應鏈”的初始主題簇中,“合作伙伴”和“SHAPLEY 值法”均有較高的研究熱度,具有較高的研究價值。類似地,在“供應鏈協調”主題下,“收益共享”和“理性預期均衡”的研究熱度也較高,如刁心薇等[31]在論文《混合碳政策下兩產品供應鏈的協同研究》中重點提出收益共享契約是協調供應鏈的常見契約。對于“STACKELBERG 博弈”這一初始核心主題,由于其一般用于企業間的不對稱競爭,伴隨著“生鮮農產品供應鏈”被不斷關注,STACKELBERG 博弈模型也常被應用于該領域,相關研究者可對此重點關注。

顯然,對于相關科研人員來說,如果想在未來獲得高科研績效,可以根據本文研究方法快速找到自己學科領域下熱度較高的主題,并以此作為自己主攻的研究方向;反之,如果其重點關注自身研究領域下熱度較低但有一定研究前景的主題,未來有可能取得一些科研突破。另外,對于相關學術期刊來說,可以根據本研究成果重點關注和選取相關主題文章,提高選文的科學性和效率。

5 結 論

本文結合近鄰傳播聚類和天際線算法構建了一種主題排序方法ASP。該方法首先通過共詞分析法、加權Ochiia 系數和近鄰傳播聚類算法自適應獲取文獻初始核心主題;然后基于平均相似性系數篩選待細化分主題簇,并對篩選后的主題簇進行二次近鄰傳播聚類,從而細粒度識別文獻主題;最后借助天際線算法和主成分分析法對二次主題聚類結果進行熱度排序。本文的創新性主要體現在:①通過對加權高頻關鍵詞相似性矩陣進行多次聚類,細粒度地識別了相關研究文獻主題,解決了傳統文獻主題劃分不夠精細等問題。②以簇內中心關鍵詞的篇均被引量和篇均下載量為表征指標,創新性地結合天際線算法和主成分分析法科學實現了相關主題的熱度排序,克服了傳統的對主題熱度單一維度度量存在的缺陷。同時,由于在排序前先進行了天際線劃分,較好地解決了直接使用主成分分析法排序的誤差問題。本文提出的主題排序方法可以有效地識別相關研究文獻主題,并且能夠客觀揭示它們的主題熱度,不僅能為相關領域科研人員的研究方向選擇提供了指導意見,也為相關期刊的精準選稿提供了決策支持。

本文在計算研究主題熱度時,僅將簇內中心代表關鍵詞的篇均被引量和篇均下載量作為表征指標,忽略了其他特征變量和時間因素可能帶來的影響;同時,在具體生成主題天際線集合和降維時,缺乏對關鍵詞重要性的進一步考慮。未來我們將進一步優化主題排序算法,例如,嘗試再加入主題出現頻率來表征主題熱度,全面考慮關鍵詞重要性影響,對由天際線算法和主成分分析法得到的前沿主題進行演化趨勢分析。

猜你喜歡
排序
排排序
排序不等式
作者簡介
名家名作(2021年9期)2021-10-08 01:31:36
作者簡介
名家名作(2021年4期)2021-05-12 09:40:02
作者簡介(按文章先后排序)
名家名作(2021年3期)2021-04-07 06:42:16
恐怖排序
律句填空排序題的備考策略
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
作者簡介(按文章先后排序)
名家名作(2017年2期)2017-08-30 01:34:24
主站蜘蛛池模板: 激情六月丁香婷婷| 日本高清免费不卡视频| 青青久久91| 青青草原国产一区二区| 日韩成人免费网站| 欧美伦理一区| 国产无码网站在线观看| 欧美一级高清片久久99| 一级毛片免费不卡在线视频| 欧美一区二区福利视频| 国产男人天堂| 国产一区二区福利| 国产欧美日韩另类| 久久综合九色综合97婷婷| 国产国语一级毛片在线视频| 欧美日韩另类在线| 青青操视频免费观看| 久久伊人操| 欧美日韩高清| 成人福利在线免费观看| 欧美性猛交一区二区三区| 国产美女无遮挡免费视频| 欧美一级在线看| 国产精品性| 国产精品亚洲一区二区三区z| 欧美一级片在线| 无码国内精品人妻少妇蜜桃视频| 亚洲欧美精品一中文字幕| 国产亚洲精久久久久久久91| 亚洲国产天堂久久九九九| 日韩精品视频久久| 欧美日本在线| 91成人免费观看在线观看| 亚洲欧美国产视频| 免费看a毛片| 一本视频精品中文字幕| 亚洲愉拍一区二区精品| 亚洲国产成人在线| 伊人中文网| 欧美不卡视频在线| 亚洲国产日韩在线成人蜜芽| 日日拍夜夜操| 亚洲中文无码av永久伊人| 亚洲欧洲日产国码无码av喷潮| 亚洲美女一区| 欧美 亚洲 日韩 国产| 中日韩一区二区三区中文免费视频 | 国产午夜福利片在线观看| 免费一级毛片在线播放傲雪网| 久久久久亚洲AV成人人电影软件| 亚洲人成网7777777国产| 婷婷丁香色| 色色中文字幕| 午夜精品区| 最新痴汉在线无码AV| 亚洲av日韩av制服丝袜| 久久精品国产电影| 欧美a在线视频| 97视频在线观看免费视频| 精品亚洲国产成人AV| 欧美高清日韩| 亚洲国产精品无码AV| 国产成人1024精品| 2020精品极品国产色在线观看 | 自偷自拍三级全三级视频 | 久久人妻xunleige无码| 91免费国产在线观看尤物| 国产91特黄特色A级毛片| 青草娱乐极品免费视频| 亚洲欧美日韩中文字幕一区二区三区 | 丁香六月激情婷婷| 无码精油按摩潮喷在线播放| 欧美激情首页| 综合亚洲网| 欧美午夜视频在线| 伊人久久大香线蕉aⅴ色| 欧美全免费aaaaaa特黄在线| 伦伦影院精品一区| 全部免费特黄特色大片视频| av手机版在线播放| 亚洲最黄视频| 国产日韩精品欧美一区喷|