999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于矩陣相似度的主題演化路徑判別研究

2023-12-26 02:18:02王曉光王宏宇
情報學報 2023年11期
關鍵詞:分析研究

黃 菡,王曉光,2,何 靜,王宏宇

(1.武漢大學信息管理學院,武漢 430072;2.武漢大學大數據研究院,武漢 430072;3.武漢理工大學管理學院,武漢 430070)

0 引言

研究主題演化旨在對時間維度上研究主題發展和主題間的交互作用的動態變化進行分析,以揭示學科領域的研究發展脈絡和演變規律等知識演化特征[1-2],能有效輔助研究人員和相關從業人員科進行科研決策[3-5]。因此,探究主題演化過程一直是圖書情報學科的研究熱點[6-7]。在當前的研究主題演化分析中[3,6],研究人員通常認為相鄰時段主題間相似度大于一定閾值的主題間存在前驅或后繼關聯,據此分析出研究主題存在的產生、消亡、分裂、合并、擴張和收縮6 種演化類型[8]。此前,本研究團隊在這種分析思路的指導下,基于共詞網絡構建了包括主題表示、主題識別、演化路徑探測以及可視化4個步驟的研究主題演化分析框架,并開發了一套主題演化分析工具NEViewer(network evolution viewer)[9]。CiteSpace[10]、VOSviewer[11]、Bibliometrix[12]、SciMAT(science mapping anaylsis software tool)[13]

等科學制圖工具中涉及研究主題的縱向分析中也采用了類似方法。

在這種分析思路和方法中,如何測度主題間的相似性是其核心問題。現有研究主要借助余弦相似度、Jaccard 系數等算法及其相關變形算法計算前后時段主題間的相似性[8]。雖然已有研究從主題或關鍵詞間的位態差異[14]、語義關聯[15-16]等方面提出了一些改進的研究主題演化分析框架,包括基于機器學習甚至深度學習的方法,但在判斷前后主題間的演化關系時,余弦相似度等傳統相似度方法仍在普遍被使用[3,17-18]。這類計算方法簡單、高效,但其僅考慮了前后時段研究主題包含的相同關鍵詞或相同的詞間關系,沒有對關鍵詞及其相關關系進行綜合考量,可能忽視研究主題演化過程中研究焦點的出現與轉移、新的研究對象或方法范式的涌現與轉變等[19-20],進而難以反映研究主題演化的真實全貌,特別是在以社區結構作為主題表征的共詞網絡中。

為解決這一局限,本文提出了一種新穎的研究主題演化路徑判別方法——矩陣相似度,并在此基礎上構建了一套基于矩陣相似度的研究主題演化分析框架。該框架引入分段線性表示法對數據進行時段劃分以構建時序共詞網絡,在利用社區發現算法識別各時段共詞網絡中的主題社區后,通過計算主題新穎度、流行度、核心度、成熟度等多維度特征指標來來表征研究主題類型,進一步通過矩陣相似度算法識別主題演化路徑,最終通過桑基圖和多維戰略坐標圖等形式對主題演化過程進行可視化。本文以圖書情報(library and information science,LIS)領域為例開展實證分析,以期為具體學科領域的科學發展過程梳理和預測提供參考。

1 方法框架

在本研究團隊此前研究的基礎上[9],本文構建了圖1 所示的研究主題演化分析框架。具體而言,先在采集特定領域的科學文獻數據進行預處理后,根據不同時段的關鍵詞數量分布,利用分段線性表示法對數據進行時段劃分并構建時序共詞網絡;接著,基于社區發現算法對各個時段的共詞網絡進行主題識別;然后,對各時段研究主題的新穎度、流行度、核心度、成熟度等多維度特征指標進行計算,并基于矩陣相似度完成對研究主題演化路徑的判別;最后,采用桑基圖和多維戰略坐標圖等手段實現研究主題演化可視化。相較于前期研究,本文側重于數據時段劃分、主題演化路徑判別和研究主題多維特征指標與可視化3 個方面。

圖1 基于矩陣相似度的研究主題演化分析框架

圖2 相鄰時段兩個主題社區網絡實例

1.1 基于分段線性表示法的數據時段劃分

數據時段劃分是對數據進行時序演化分析的基礎,依據專家經驗進行固定時間劃分是目前使用的主要方法,但該方法具有較大的主觀性,缺少科學依據[16]。為此,本文框架在數據時段劃分階段引入了在股票交易點預測[21]、音頻時間序列解析[22]等領域廣泛應用的分段線性表示法。

分段線性表示法是指將時間序列表示成相對近似的線性銜接。假設數量序列P可以表示為P={p1,p2,…,pi,…,pn},分段線性表示法可以將其劃分為包含k條線段的分段線性結構PPLR,其表達式為

其中,Li(pti-1+1,pti-1+2,…,pti)表 示PPLR的 第i(1 ≤i≤s)個片段,即將數據點pti-1+1,pti-1+2,…,pti近似表示為一條與原趨勢最為接近的線段,這條線段的起始時間為ti-1+1,終止時間為ti。起始時間即需要識別的趨勢轉折點。

在已有研究中,分段線性表示運算方式可以總結為自頂向下算法、自底向上算法以及滑動窗口算法3 種[23]。在對關鍵詞進行預處理后,本文分別使用了這3 種方法對關鍵詞數量時間序列進行擬合,并根據均值根誤差(root mean square error,RMSE)確定分段方式和分段數量s。RMSE 的計算方式為

其中,kt表示原曲線t時刻的點;PLRt表示擬合后曲線上時刻的點;N表示數據點的總個數。

1.2 基于矩陣相似度的演化路徑判別

類似于向量內積,Frobenius 內積也是代數運算中的重要概念,Chehab 等[24]指出Frobenius 內積允許定義兩個給定對稱矩陣之間的夾角余弦。目前,有些研究者基于Frobenius 內積提出了測度兩個矩陣間相似度的方法,并將其應用到了文本聚類[25-26]、音頻處理[27-28]、圖像分析[29]等領域。考慮到基于共詞網絡的研究主題演化分析中可以用鄰接矩陣表征主題社區的網絡結構,本文嘗試將Frobenius 內積應用到研究主題的相似性測度中,提出了矩陣相似度算法。

設Cm×n表示m×n矩陣全體,若A,B∈Cm×n,則其矩陣內積定義為

其中,tr(?)表示矩陣主對角線元素之和。類似于向量的內積,矩陣內積表示兩個矩陣對應位置元素的乘積的累加之和。由矩陣內積可導出其范數||?||為

則矩陣相似度r定義為

其中,θ表示兩個矩陣之間的夾角;r的值域為[-1,1]。當θ=90°時,r=0,表示兩個矩陣不相似;當θ=0°時,r=1,表示兩個矩陣相似性最好。

為識別研究主題演化路徑,本文將相鄰時段的主題社區轉化為鄰接矩陣后,進行矩陣相似度計算。為構建相同維度的矩陣,首先,根據兩個相鄰時段的主題社區節點集合構建節點并集。設兩個相鄰時段的主題社區分別為P={Vp,Ep,Wp},Q={Vq,Eq,Wq},其中,V和E分別為主題社區的節點和邊集合,W為邊權重,在主題社區中即為關鍵詞間的共現次數,則節點并集Vs=Vp∪Vq,其中包含N個元素,即主題P和Q共包含N個不同的關鍵詞。其次,根據主題社區的網絡結構,通過補零的形式將主題P和Q表示為N階鄰接矩陣。設主題社區P的鄰接矩陣為Ap,其對應鄰接矩陣第i行j列的元素的值為

鄰接矩陣自身的特性決定了其可以最大限度地保留社區的網絡結構。鄰接矩陣不僅直接反映了節點間的關聯(共現)情況,還充分考慮到了節點本身的權重。在鄰接矩陣中,將第i行或i列的所有的元素相加即可得到節點vi的度值。

由此,可將主題社區P和主題社區Q的鄰接矩陣AP和AQ分別表示為

最后,計算兩個相鄰時段研究主題之間的矩陣相似度r為

由于關鍵詞的共現次數不可能為負數,故r的值域為[0,1]。當r=1 時,相似度最大;當r=0時,相似度最小,其計算示例如下。

1.3 研究主題多維特征指標及其可視化

已有研究表明,在主題演化過程中,不同主題存在著核心、邊緣、成熟、新興等不同類型區分,明確不同類型主題及其之間的動態交互過程對于厘清領域發展脈絡及探測前沿趨勢具有重要意義[30]。針對具體研究領域而言,同一時期的不同研究主題或同一研究主題在不同時期的發展程度是不同的,其在學科領域知識體系中的所處地位也有所差異。為對研究主題演化過程進行多位態細粒度分析,本文從新穎度、流行度、核心度和成熟度4 個維度對主題特征進行了分析。

(1)新穎度(NI):該指標反映了研究主題發展的及時性,即新興程度[31]。隨著研究主題的發展,其新穎度越來越低。在本文中,前期主題與后期主題的時間差代表了研究主題新穎度的變化。當時間差變大時,新穎度變低。NI 計算公式為

其中,N表示觀測時間;F表示研究主題i首次出現的時間。

(2)流行度(SI):該指標測度了研究主題內關鍵詞的數量強度,用于衡量該研究主題在當前演化階段的熱度,該研究主題的關鍵詞數量占當前演化階段所有關鍵詞的比例越大,則強度越大,說明研究人員在這個階段對該研究主題的研究興趣越大。SI 計算公式為

其中,表示t時期屬于主題i的關鍵詞數量;PN表示當前演化階段總關鍵詞數量。

(3)核心度(CI):該指標反映了研究主題聚類之間聯系的強弱,用研究主題的向心度表征[30]。CI 值越大,則研究主題聚類之間的聯系越緊密,表明該研究主題當前階段處于核心地位,受到廣泛關注,可能是該領域當前時期的研究重點或熱點。CI計算公式為

其中,Eij表示關鍵詞wi、wj的共現頻次;φ表示全部研究主題;φ-i表示主題i外的其他研究主題;PN與分別表示當前時段總關鍵詞數量和主題i的關鍵詞數量。

(4)成熟度(MI):該指標測度研究主題密度,反映了研究主題聚類內部聯系的強弱[30]。MI 值越大,則研究主題聚類內部的聯系越緊密,表明該研究主題越成熟。MI 計算公式為

其中,Eij表示關鍵詞的共現頻次;表示當前時段主題i的關鍵詞數量。

為直觀地呈現研究主題的多維特征及其演化動態,本文在Law 等[32]提出的戰略坐標圖的基礎上構建了一個四維戰略坐標圖,如圖3 所示,以實現對新穎-普通、熱門-潛在、核心-邊緣、成熟-非成熟等不同類型的研究主題的區分。在圖3 中,橫坐標代表主題的核心度,縱坐標代表主題的成熟度,圓圈越大表示主題流行度越大,圓圈顏色越深表示主題越為新穎。根據研究主題在四維戰略坐標圖中的位置、強度大小和顏色深淺,可以表征16 種類型的研究主題,如表1 所示。

表1 主題類型劃分標準

圖3 四維戰略坐標圖

2 實證分析

2.1 數據準備

為了驗證本文提出的框架在學科領域主題演化分析中的可行性和有效性,本文選取了LIS 領域進行案例研究。選擇Web of Science(WoS)核心合集收錄的相關科學論文作為數據源,時間跨度為2000—2020 年。過濾其中的重復數據以及未標注作者關鍵詞的數據后,共計獲得論文41036 篇。對其中的作者關鍵詞進行大小寫轉換、單復數還原、噪聲過濾及縮略詞還原等數據預處理后,共獲得有效關鍵詞224220 個,不重復的關鍵詞共計70800 個。

為確定數據時段劃分的時間節點,本文分別使用滑動窗口法、自上而下法和自下而上法對關鍵詞數量時間序列進行擬合,將參數s即分段數目的取值范圍設為2~20,分別計算不同情況下的RMSE值。最終選擇應用加權平均值最小的滑動窗口法將數據劃分為9 個時段數據,各時段的時間跨度及數據分布情況如表2 所示。

表2 時序數據分布基本信息

2.2 研究主題演化結果

根據劃分好的時間段構建時序共詞網絡并完成了主題識別,對前后時段主題間的矩陣相似度進行計算,將相似度閾值δ設為0.3,得到LIS 領域的研究主題演化桑基圖,如圖4 所示。

圖4 LIS領域研究主題演化路徑圖(2000—2020年)

可以看出,本文框架能有效呈現學科領域的研究主題演化現象。一方面,主題數量增長和主題標簽愈加豐富體現了LIS 領域研究規模和研究外延的擴張;另一方面,LIS 領域研究主題存在的合并、分裂、擴張、收縮、產生以及消亡演化現象均在圖4 中有所體現,各時期的核心主題分布也與前期研究較為相符[33]。

2.3 研究主題多維特征分析

為對LIS 領域中不同研究主題進行定位和識別,本文在完成對研究主題的新穎度、流行度、核心度和成熟度計算后,繪制了不同時段的戰略坐標圖。圖5 展示了T3 時段研究主題聚類的四維戰略坐標,對其中的研究主題類型進行統計如表3 所示。

表3 T3時段(2006—2007年)LIS領域研究主題的類型

圖5 T3時段(2006—2007年)LIS領域研究主題的四維戰略坐標

可以看出,T3 時段包括9 種類型的研究主題。ethics、information retrieval、information systems 3 個研究主題位于第I 象限,且圓圈的大小較大顏色相對較深,即具有較高的新穎度、流行度、核心度和成熟度,表明這些研究主題在T3 時段最為新穎,發展良好且廣泛聯系,容易引起研究人員的興趣,被識別為LIS 領域在2006—2007 年的新穎熱門核心成熟主題。第I 象限的decision making 主題圓圈較小但顏色較深,表明其新穎度較高但尚未引起學者們的廣泛關注,其與其他主題的聯系也很緊密,具有較大的發展潛力,被識別為新穎潛在核心成熟主題。第II 象限的研究主題成熟度較高、核心度較弱,即自身可能已經形成相對完整獨立的子研究領域,但與其他主題間的聯系較弱。結合這一象限研究主題的圓圈大小和顏色,進一步可將其劃分為包含computer self-efficacy、it business value 等主題的新穎潛在邊緣成熟主題和普通潛在邊緣成熟主題gis。在這一時段,第III 象限的研究主題均為新穎潛在邊緣非成熟主題。這些主題內部結構不緊密,同時與其他主題間也沒有較為密切的關聯,可能因為這些主題較為新穎,所以處于研究的初步階段。隨著研究者的不斷關注及內部知識結構的不斷完善,這些主題可能逐步發展成熱門核心成熟主題;但也可能因為領域較小或較冷門,無法吸引更多研究人員和知識的加入而一直處于邊緣位置甚至消失。第IV 象限的研究主題與其他主題間的聯系較為緊密,處于研究主題網絡中的核心位置,但其成熟度較低,內部結構較為松散。T3 時段的第IV 象限的6 個研究主題可分為3 類,這些研究主題在新穎度和流行度上有所差異。被廣泛關注但不新穎的研究主題可能在后續發展中分化出新的研究子主題,如knowledge management。而新穎的研究主題由于其在研究領域中的核心地位后續也存在較大的發展潛力。

研究主題的類型即其在該領域知識體系中的位置可能會隨著時間推移發生變化。以information technology 研究主題為例,其演化路徑顯示,該研究主題僅在T2 和T4 時段出現(圖6)。圖7 展示了該研究主題在T2 和T4 時段的戰略坐標,在T2 時段,information technology 是新穎熱門核心成熟主題;而在T4 時段則變為普通潛在邊緣成熟主題,除了新穎性的改變,這似乎更揭示了科研人員研究興趣的轉移,也從側面論證了將演化分析圖和戰略坐標圖聯合分析能更為清晰地揭示研究主題的發展過程,是對現有研究主題演化分析和可視化的良好補充。

圖6 研究主題information technology的演化路徑

圖7 研究主題information technology的類型與演化路徑(T2→T4)

2.4 方法驗證

為了進一步驗證本文框架的有效性,將本文方法與傳統基于余弦相似度的方法進行比較。在主題表示、主題識別及可視化方法不變的情況下,通過傳統節點間的余弦相似度方法[8]識別了LIS 領域的演化路徑,不同方法識別出的演化關系數量如表4所示。

表4 矩陣相似度與余弦相似度識別出的演化關系數量對比

可以看出,矩陣相似度與余弦相似度分別識別出了LIS 領域20 年中的345 條和365 條演化關系,其中相同的演化關系有151 條。計算相同關系數量序列與矩陣相似度識別出的關系數量序列間的皮爾遜相關系數,為0.559,高于余弦相似度識別出的關系數量序列間的相關系數(0.475)。假定多種方法識別出的演化關系更為可信,則這一結果表明,矩陣相似度識別出的演化關系可能更為可靠。

同時,余弦相似度識別出的演化路徑似乎僅包含少量的合并演化現象,即后繼主題對于前驅主題的繼承與發展關系揭示較少。以“e-government”研究主題為例(圖8 和圖9),在矩陣相似度的識別結果中,T3 時段的“e-government”由T2 時段的“internet”和“information technology”合并而來,T3 時段的“information retrieval”“trust”“e-government”3 個研究主題的部分內容又在T4 時段合并成了“e-government”,反映了電子政務研究主題在演化發展過程中與信息技術、信息檢索以及信任問題的動態關聯。而其在余弦相似度的識別結果中,T2~T4 時段間只有從“internet”到“e-government”再到“e-government”一條演化路徑。這在一定程度上表明了矩陣相似度算法比此前方法更易發現前后時段研究主題間的演化關聯,為新的主題演化路徑識別,即新的知識演化和傳播路徑的發現提供了可能。

圖8 單個研究主題e-government的演化路徑(矩陣相似度)

圖9 單個研究主題e-government的演化路徑(余弦相似度)

3 結語

本文提出了一種新穎的研究主題演化路徑判別方法——矩陣相似度。相較于傳統的相似度算法,矩陣相似度算法借助鄰接矩陣最大限度地保留了主題社區的網絡結構,綜合考慮了節點相似和關系相似兩個方面的因素,為新的主題演化路徑識別,即新的知識演化和傳播路徑的發現提供了可能,成為基于共詞網絡的主題演化分析的新視角和新基石。同時,在全文計量逐漸成為文獻計量前沿趨勢的環境下,矩陣相似度作為一種衡量矩陣間相似程度的基礎性算法,仍有較大的應用空間,在測度以矩陣或網絡結構為表征的實體間的相似性時可能都具有適用性。

此外,在矩陣相似度基礎上,本文構建了一套基于矩陣相似度的研究主題演化分析框架。通過使用分段線性表示法優化了現有主題演化分析中的時段劃分邏輯;進一步構建了包括新穎度、流行度、核心度和成熟度的研究主題多維特征指標,并設計四維戰略坐標圖對其進行可視化,豐富了研究主題演化的分析維度和可視化手段。以LIS 領域為例的實證研究結果表明,本文方法能揭示學科領域中的研究主題演化現象與特征,能有效支撐學科領域內的研究主題演化分析。同時,使用矩陣相似度這一新的主題演化路徑判別方法使得本文框架可能更易發現前后時段研究主題間的演化關聯,而將演化分析圖和戰略坐標圖聯合分析能更為清晰地揭示研究主題的發展過程,是對現有研究主題演化分析方法的良好補充,有助于促進科學知識生成與進化內在機制的深入發掘,為預測科學知識發現提供方法論支撐。

本文尚存在一定的局限性。首先,本文算法仍存在優化空間,如分段線性表示法還可以朝著分段更少、逼近性更好的方向繼續優化;其次,僅針對LIS 領域進行了實證研究,該框架在其他領域的適用性有待進一步驗證;最后,對于框架的有效性有待進一步量化評判。未來,除進一步優化算法框架外,本文還將在不同學科領域開展框架的實踐應用。此外,探索矩陣相似度的適用性,將其應用于引文網絡、合著網絡等科學知識網絡的分析,或將其 與word2vec、BERT(bidirectional encoder representations from transformers)等詞嵌入技術結合,進一步應用于科技情報領域詞向量網絡的構建和分析也是后續的探索方向。

猜你喜歡
分析研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
新版C-NCAP側面碰撞假人損傷研究
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 欧美激情伊人| 99久久人妻精品免费二区| 国产无码在线调教| 欧美日本不卡| 国产成人精品第一区二区| 福利一区在线| 日本在线欧美在线| 国产高清毛片| 亚洲区第一页| 夜夜爽免费视频| 一级做a爰片久久毛片毛片| 国产欧美日韩精品综合在线| 欧美日韩在线成人| 97视频免费在线观看| 高潮爽到爆的喷水女主播视频| 在线播放精品一区二区啪视频| 人人澡人人爽欧美一区| 69视频国产| 日本精品中文字幕在线不卡| 伊人久久大线影院首页| 粉嫩国产白浆在线观看| 97在线观看视频免费| 5555国产在线观看| 国产91色在线| 欧美日韩国产在线播放| 亚洲另类国产欧美一区二区| 国产亚卅精品无码| 青青热久麻豆精品视频在线观看| 国产成人高清精品免费软件| 久久人人爽人人爽人人片aV东京热| 秘书高跟黑色丝袜国产91在线| 亚洲日本精品一区二区| 日韩a在线观看免费观看| 精品久久综合1区2区3区激情| 欧美一级高清免费a| 亚洲AV无码不卡无码| 欧美成人看片一区二区三区| 夜夜拍夜夜爽| 五月综合色婷婷| 成人福利视频网| 亚洲第一区欧美国产综合| 91青草视频| 久青草免费在线视频| 国产不卡国语在线| av一区二区三区在线观看 | 永久免费av网站可以直接看的 | 久久亚洲国产视频| 成人伊人色一区二区三区| 国产玖玖视频| 色欲综合久久中文字幕网| 亚洲av无码成人专区| 亚洲精品无码高潮喷水A| 在线观看热码亚洲av每日更新| 情侣午夜国产在线一区无码| 一级做a爰片久久免费| www中文字幕在线观看| 欧美日韩第二页| 久久这里只有精品免费| 亚洲国产系列| 日本不卡在线| 99ri国产在线| 色综合天天综合| 99视频精品在线观看| 谁有在线观看日韩亚洲最新视频| 亚洲福利一区二区三区| 国产亚洲欧美在线人成aaaa| 亚洲第一黄色网| 97人人做人人爽香蕉精品| 四虎影视无码永久免费观看| 欧美日韩在线成人| 不卡的在线视频免费观看| 国产欧美一区二区三区视频在线观看| 欧美三級片黃色三級片黃色1| 丁香六月综合网| 欧美亚洲另类在线观看| 国产精品久久精品| 又粗又大又爽又紧免费视频| 婷婷综合缴情亚洲五月伊| 午夜不卡视频| 青草精品视频| 精品人妻系列无码专区久久| 久久久久久久久18禁秘|