999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM模型與加權鏈路預測的學科新興主題成長性識別研究

2022-09-01 00:37:42段慶鋒劉東霞閆緒嫻張紅兵
現代情報 2022年9期
關鍵詞:模型

段慶鋒 陳 紅 劉東霞 閆緒嫻 張紅兵

(山西財經大學管理科學與工程學院,山西 太原 030006)

新興主題已經成為科技情報學界持續關注的熱點和難點。代表科技趨勢的學科新興主題能夠為國家科技戰略規劃、企業增強科技競爭力、研發人員尋找技術機會提供關鍵的決策依據,具有極高的戰略價值。成長性是新興主題的重要表現,更是識別新興主題的關鍵。通過梳理相關文獻可以發現,盡管新興主題識別采用的邏輯依據各有不同,但出現最多的就是成長性(Growth)特征[1]。通過捕捉成長性特征發現新興主題識別領域的基本共識。然而,成長性具有鮮明的動態屬性,學科趨勢面臨諸多不確定性,預測甚至洞見學科未來存在挑戰性。

以深度神經網絡及鏈路預測為代表的信息技術前沿進展為新興主題識別提供了有力工具。已有研究采用的方法多樣,以曲線擬合分析、時間序列預測、網絡分析等為代表的模型工具得到廣泛應用,但在識別有效性及預見能力方法仍存探討空間。LSTM具有很強的時序依賴分析預測能力,有助于捕捉新興主題快速增長態勢;鏈路預測能夠通過網絡依賴關系預測二元關系形成幾率,有助于從網絡演化視角揭示新興主題的成長性。兩種模型從不同層面形成趨勢預見能力,通過它們的融合分析,有助于提升學科新興主題成長性的綜合識別能力,進而推進學科新興主題領域研究。

1 相關研究概述

關于學科新興主題識別的文獻豐富且探討相對深入。學科主題的內涵理解與外延邊界把握是識別分析的基礎,以LDA、BERT等為代表的語義分析模型及工具極大地促進了文本語義理解能力[2-3],與基于主題詞的定性化分析形成效能互補[3]。新興特征的準確捕捉與有效區分成為影響識別效果的關鍵。從思路上看,識別邏輯大致可以分為兩大類:一是主題特征序列視角的新興演化,強調時間維度下的主題狀態演化趨勢規律;二是結構視角的關系變化,通過知識結構變化揭示新興過程中的主題要素關系(如引用關系、共現關系)規律,通過聚類分析、社區探測等方法揭示主題簇的涌現或知識模式的呈現[4-6]。

近年隨著機器學習理論及算法的不斷成熟,面向主題的定量化預測模型及算法開始受到關注[7],尤其深度學習的應用趨勢最為明顯。例如,Liang Z T等[8]融合深度神經網絡模型和文獻計量指標用于預測新興主題。霍朝光等[9]構建基于LSTM神經網絡的學科主題熱度預測模型(TPP-LSTM),反映了LSTM對于主題熱度時間序列的良好預測能力。朱光等[10]將LDA主題模型和LSTM模型相結合,構建主題預測模型,并對科學基金主題趨勢開展了預測分析。陳偉等[11]利用LDA主題模型捕捉技術主題聚類,結合應用包含雙重隨機過程的隱馬爾可夫模型(HMM)開展未來技術趨勢的定量預測。Xu S等[12]構建了融合多種機器學習模型的新興主題預測識別方法。許學國等[13]構建結合經驗模態分解(Empirical Mode Decomposition)和LSTM模型的時間序列技術主題預測模型,通過與Clarivate Analytics機構2018年報告的比對驗證,說明了方法的有效性。李靜等[14]對比分析了BP神經網絡、支持向量機和LSTM模型在熱點趨勢預測應用方面的異同。值得注意的是,近年鏈路預測開始成為主題識別的分析工具。比如,Huang L等[15]基于鏈路預測指標構建共詞網絡演化神經網絡預測模型,基于預測網絡設計4個識別指標,以識別新興主題。Cho J H等[16]采用基于鏈路預測的機器學習方法預測技術主題的融合模式。黃璐等[17]將鏈路預測方法引入主題識別問題領域,基于加權鏈路預測和神經網絡,圍繞主題新穎性和影響力兩方面,構建識別預測模型。另外,融合多種類型媒介數據的主題預測方法也成為不可忽視趨勢。比如,Akella A P等[18]證實了以替代計量指標為代表的社交媒介在學科預測及時性方面的優勢;段慶鋒等[19]構建融合社交媒介和出版媒介的新興主題識別指標,基于此構建更加高敏感的新興趨勢預見與主題識別方法。

綜上所述,LSTM模型和鏈路預測已經被科技情報學界關注,開始將其引入并應用于學科新興主題研究領域。然而,還鮮有結合兩種模型預測優勢構建的新興主題研究。LSTM模型并未考慮不同主題之間的內在關系,而面向二元關系的鏈路預測則彌補了LSTM時序模型在主題網絡演化方面的局限。本文結合兩者特征,針對學科新興主題成長性識別問題,構建新型組合模型,提升成長性特征的動態刻畫與預測能力。

2 研究方法

2.1 分析框架

新興主題的成長性成為識別的關鍵依據。按照生命周期理論,新生、新興、成熟、衰退、消亡依序構成發展過程,新興階段通常表現出的高增長性成為趨向成熟過程中呈現的外部可觀察特征[20],更重要的是當前的新興狀態是實現未來成熟的不可避免歷程,這種新興特征很大程度上為將來狀態提供了重要啟示,是科學預見的客觀基礎。

新興主題不但具有成為未來熱門主題的潛力,更應該在未來學科知識體系中承擔重要地位與影響力。由此,主題成長性可以從兩方面加以考察:熱度和影響力。一是聚焦于主題本身的發展規律,開展時序預測,從數量層面反映其狀態預期;二是通過主題間關系演化,開展網絡預測,從關系結構層面反映其未來影響力預期。基于趨勢預測的思路,結合主題新興階段的生命周期特征,設計學科新興主題識別方法流程,如圖1所示。

圖1 基于組合預測的學科新興主題識別流程

首先,構建結合文獻計量指標與Altmetrics指標的主題熱度指標,并采用長短記憶神經網絡LSTM,預測主題未來的熱度狀態;其次,采用鏈路預測方法,預測未來的主題詞共現網絡,通過PageRank算法揭示主題的未來影響力;最后,基于預測結果,將預測狀態與歷史狀態進行比較刻畫,揭示主題熱度的增長性預期與影響力演化預期,由此通過二維動態特征的綜合研判,形成學科新興主題的識別依據。

2.2 主題熱度預測

2.2.1 主題熱度指標

主題熱度指主題在學科領域的受關注或者流行程度[21],可以從兩個層面加以考察,一是狹義學術層面;二是廣義社會層面。在狹義學術層面,主題內容在學科領域的發表曝光程度體現了主題在學術層面的流行熱度,反映學者對主題的關注程度,可以通過主題所出現的文獻數量加以衡量[22]。在廣義社會層面,主題通過更廣泛多樣社會媒介加以傳播,主題內容受到更多相關利益者的關注、討論,體現了主題在更廣泛社會層面的流行熱度,更多地反映了社會大眾對于主題內容的興趣與關注程度。主題在廣義社會層面的傳播熱度可以通過Altmetrics指標加以衡量。作為科學計量學的新型度量工具,Altmetrics指標捕捉了作為主題內容載體的學術文獻在多種網絡媒介(尤其學術社交媒介)的傳播及交互事件(如點贊、轉發、提及等),通過相關事件計量的方式刻畫了學術內容的社會關注程度[23],非常適用于刻畫主題在社會層面的流行關注程度。

考慮到學科主題熱度是不同媒介層面的綜合體現,由此構建第i個主題的加權熱度總指標H:

Hi=α·Pi+(1-α)·Ai

(1)

其中,α為權重系數,且0≤α≤1,這里將其設定為0.8。指標P代表主題出現的文獻篇數,指標A代表主題在社會媒體受到的關注程度,其定義為:

Ai=Altmetricsj·Iij

(2)

其中,Altmetricsj為第j篇文獻的替代計量指標值,Iij為指示變量,將其定義為:

(3)

指標P和A通過計量方式分別刻畫了主題在學術文獻和大眾媒介的傳播與關注程度,從不同層面體現了主題熱度。考慮到指標P和A分別來源于不同媒介,數值存在明顯的量級差別,因此采用極大極小法對兩個指標分別進行歸一化處理,消除指標量綱。

2.2.2 主題熱度預測模型

長短期記憶模型LSTM是一種循環神經網絡,相關文獻已證實其在時序序列預測方面的優異性能,能夠很好地滿足主題熱度預測任務[14]。首先,以年份為時間單元,計算主題熱度指標H,形成包含若干主題的面板數據;其次,以跨度T年為時間窗口,前T-1期指標數據為輸入,第T期為輸出,構造LSTM預測模型,如圖2所示。通過訓練集樣本進行模型學習訓練,考察損失函數、AUC等性能指標,經過多輪更新迭代,直至得到性能滿意的LSTM擬合模型;最后,采用擬合模型預測主題未來熱度值。

圖2 基于LSTM的主題熱度預測模型

2.3 主題影響力預測

共現關系是刻畫主題語義結構的重要途徑,能夠揭示學科知識分布及演化規律,已成為情報科學領域的成熟范式。主題間相互作用關系及拓撲結構嵌入是個體相對影響力的重要體現。預測主題間潛在共現關系能夠為主題影響力演化提供前瞻性啟示。

鏈路預測利用拓撲結構信息預測二元關系的形成或消失,能夠被用于預測主題間共現關系的涌現。基于此,使用鏈路預測相似性指標構建主題共現網絡預測模型,并基于未來主題網絡,通過PageRank算法識別學科主題的潛在影響力。整體上,主題影響力預測包括3個階段:主題共現網絡構建;主題共現關系預測;主題潛在影響力。

2.3.1 主題共現網絡構建

如果兩主題至少共同出現在同一篇學術文獻的標題、關鍵詞及摘要,則認為兩者存在共現關系。采用Ochiai系數法[24],將主題i和j的共現強度wij定義為:

(4)

其中Oij代表主題i和j共同出現的文獻篇數,Oi.代表主題i與其他所有主題共現篇數的加總求和,O.j的定義同理。共現強度反映了主題間語義關系的緊密程度,取值范圍為0~1之間,取值越大,語義連接越緊密,否則相反;當取值為0時,代表主題無語義關聯。以主題為節點,共現強度為連接權重,構建形成主題共現網絡。

2.3.2 主題共現網絡預測

1)加權鏈路預測指標

網絡環境下,節點之間形成連接的可能性可以通過一系列相似性指標加以估計預測,即相似性越高,形成鏈路的幾率越高。目前,常見的鏈路預測指標方法大多針對非加權網絡,只有少數學者基于加權網絡對加權網絡鏈路預測問題開展探討。借鑒呂琳媛等的研究[25],采用18個基于加權網絡的鏈路預測相似性指標,用于鏈路預測。整體上,依據指標原理,主要分為4大類,即基于局部信息、路徑、隨機游走及其他類型,如表1所示。局部信息主要指共同鄰居,加權網絡下體現為與共同鄰居鏈路的加權和,共同鄰居多的節點間容易形成連接是預測鏈路的基本出發點;基于路徑的指標考慮了三階路徑(LP指標)或者更高階路徑(Katz指標),彌補了基本共同鄰居(相當于二階路徑)指標信息有限的不足;基于隨機游走的指標主要利用隨機游走過程工具考察節點間的距離,通常認為路徑步數越短,節點越相似;另外,MFI指數以矩陣森林理論(Matrix-Forest Theory)為基礎構建,自洽轉移相似性指數Tr基于節點間相似性可傳遞假設來刻畫節點的間接相似程度。上述不同類型相似性指標具有互補優勢,將其加入預測模型更有利于適用復雜網絡環境并提高預測精度。

表1 加權鏈路預測指標

2)鏈路預測模型

采用鏈路預測指標,構建預測主題共現的BP神經網絡。BP神經網絡通過信息前向信息傳播、梯度后向傳播的方式訓練神經網絡節點連接權重,能夠擬合逼近任意非線性函數,具有極強大的數據學習能力,是擬合主題間鏈路相似性指標與主題共現強度之間規律的有效工具。具體地,搭建三層神經網絡結構如下:以表1中主題相似性指標為輸入,形成18個節點構成的輸入層;輸出層只包含1個節點,代表主題共現網絡關系;依據以往經驗及相關文獻確定隱藏層節點數量,設定包含36個隱節點。同時,設定隱藏層激活函數為ReLU,輸出層激活函數為Sigmod。

針對輸出節點的二元分類取值,設定基于交叉熵的損失函數為:

(5)

其中yi表示第i個樣本的實際取值(1代表存在主題共現關系,否則為0),表示第i個樣本的模型估計值。泛化能力是模型設定與選取的參考依據,這里主要考察指標AUC,其量化了ROC曲線的分類能力,取值越大分類效果越好,輸出概率越合理。另外,AUC表示隨機抽取一個正樣本和一個負樣本,分類器正確給出正樣本的score高于負樣本的概率。因此,參考Lü L等[26]的計算方法,采用擬合模型,針對隨機選取的存在鏈接關系樣本與不存在鏈接關系樣本分別進行預測,則AUC取值為:

(6)

其中n表示總共隨機抽樣比較次數,n1表示存在鏈接關系樣本取值大于不存在鏈接關系樣本的次數,n2為兩者數量相同次數。

3)數據處理

出于機器學習算法需要,按照時間先后順序,將學科文獻數據依次劃分為3個子集。采用式(4),針對不同數據子集,分別構建主題共現網絡,即N1、N2、N3。3個網絡具有相同的主題節點,但擁有不同連接權重。網絡N1為訓練集、N2為測試集、N3為待預測網絡。

作為神經網絡輸入節點,加權鏈路相似性指標具有完全不同量綱,需要對數據進行歸一化處理。采用極大極小法,對18個輸入指標進行歸一化,得到0~1區間的統一量綱數據。另外,每個樣本的輸出為二元分類標簽,主題間存在共現關系(共現強度不為0)取值1,否則取值0。

不平衡數據是影響模型分類性能的不可忽視因素。主題共現網絡是典型稀疏網絡,存在鏈接的正例樣本只占很小比例,分類算法過多關注于負例樣本,導致鏈路預測分類性能下降。因此,采用基于隨機過采樣的SMOTE算法修正不平衡數據,通過對少數正例樣本的分析,合成新正例樣本加入數據集,以實現正負樣本的基本平衡。

采用上述方法,以數據集N1為訓練集,數據集N2為測試集,經過多輪訓練及測試,直至得到滿意的預測模型。

2.3.3 鏈路預測與主題潛在影響力預測

將訓練完成的神經網絡模型用于鏈路預測,預測主題網絡N3的潛在主題共現機會。以主題網絡N3中不存在共現關系的主題對為預測對象,估計這些主題對在未來構建新關系的可能性。預測模型輸出節點表示二元關系形成概率,因此將預測值大于0.5的主題對判定為潛在新關系(網絡邊)。基于此,將新的共現關系加入主題網絡N3,借鑒黃璐等[17]的研究,預測網絡邊的權重計算公式為:

(7)

其中Si為預測概率值,max(S)為預測得分最大值,max(W)為網絡中存在邊的權重最大值。預測網絡邊與原有網絡合并形成主題未來網絡N′3,用于主題影響力預測。

主題未來網絡是在當前數據基礎上對主題未來趨勢的最新預測,而主題節點所處的中心位置及嵌入環境狀態也反映了其潛在發展趨勢。因此,通過挖掘分析預測網絡可以發現主題個體的未來可能。網絡理論認為節點的影響力可以通過其嵌入環境(如鄰居節點)加以刻畫,即認為如果某節點以高影響力節點為鄰居,則其亦應擁有較高影響力。PageRank算法是度量這種網絡節點影響力的經典算法,能夠定量刻畫主題共現網絡節點的相對影響力。基于主題預測網絡N′3,采用加權的PageRank算法,主題i潛在影響力的預測值PRi計算公式如下:

(8)

其中節點j為i的鄰居Γ(i),Wij為i與j連邊的網絡權重,Dj表示j的度中心性,α為取值0~1區間的阻尼系數,這里設定為常見的0.85。

2.4 新興主題綜合識別

借鑒相關研究可知,未來狀態趨勢通常成為判定新興主題的關鍵依據,對主題動態的預測把握是捕捉新興特征的基本思路。高速成長通常是主題新興階段的外在呈現,這種特征可以通過未來狀態與當前狀態的動態變化加以描述和刻畫。基于主題熱度和影響力的預測值,構建其增長率指標,以反映動態成長性特征。

1)主題熱度增長率定義為:

(9)

2)主題影響力增長率定義為:

(10)

其中PR(N3)和PR(N′3)分別為基于當前網絡N3和未來預測網絡N′3計算得到的主題影響力,反映指標PR的預測值與當前值,ΔPR反映了指標預測值相對當前值的增長率,是對增長趨勢的定量預測。

熱度增長率是新興主題的數量層面體現,影響力增長率是新興主題的結構層面體現,綜合兩者狀態有助于更全面把握新興主題本質規律。基于上述兩方面指標,構建二維識別空間,綜合判定主題新興性,即兩個指標水平越高,則認為主題新興趨勢越強烈。

3 實證分析

3.1 數據源及預處理

研究選取情報學學科為實證領域,相關數據包括兩部分:科學文獻元數據和Altmetrics指標。首先,文獻元數據來源于WoS數據庫,通過選定檢索策略,獲得查詢結果,并從中抽取實證所需元數據,主要包括DOI號(DI)、關鍵詞(DE)、標題(TI)、摘要(AB)、期刊(SO)、年份(PY)。借鑒相關文獻,篩選出情報學代表性期刊,包括《Journal of the Association for Information Science and Technology》《Information Processing & Management》《Scientometrics》《Information & Management》《Journal of Informetrics》,這些期刊是本學科高影響力代表且議題新穎活躍,是探測學科新興主題的最佳載體。具體地,以情報學領域代表期刊為線索,檢索得到跨度8年(2013—2020)且文獻類型為Article的記錄共計6 326條,查詢時間為2021年6月。

其次,Altmetrics指標來源于網站Altmetric.com。該網站成立于2011年,具有數據免費、開源、覆蓋率高、指標豐富等優點,是目前主流的Altmetrics服務提供商,尤其提供面向科研用途的公開查詢API,能夠滿足本文數據需要。Altmetrics指標具有不同類型,本文從中選取了總指標Altmetric Mention Score,其為多種不同來源及社交媒介指標的加權和,能夠綜合地反映文獻在社交媒介關注程度。DOI是科學文獻的唯一標識符,因此以文獻DOI號為線索,一對一地查詢獲得每篇文獻的Altmetrics指標。具體地,采用Python程序查詢文獻的Altmetrics指標,刪去指標缺失的文獻,最終獲得用于實證的3 208條記錄,其基本統計特征如表2所示。

表2 采集文獻基本統計特征

主題抽取與共現網絡構建是開展實證分析的基礎。首先,從文獻元數據的DE字段,提取主題詞,作為備選主題,這些主題詞由文獻作者給出,能夠精準地表達文獻核心內容。為了進一步縮小目標搜索范圍,過濾掉探測意義不大的極低頻主題,根據樣本分布特征,選取出現頻率前250個主題作為備選主題集。其次,以主題為節點,共現關系為邊,共現強度為權重,構建主題共現網絡。分別以2013—2015年、2016—2017年、2018—2020年數據為子集,構建主題共現網絡N1、N2、N3。

3.2 指標計算及模型設定

依據式(1)~(3),計算主題熱度指標P、A和H,各個指標的年度均值如表3所示。從時間維度看,主題熱度H均值隨著時間逐步增高,直至2018年達到最大值,這種數據膨脹很大程度上是近年社交媒介平臺用戶規模快速擴張導致的,比如作為構成部分的指標A采用替代計量指標計算得到,亦呈現同樣數據特征。因此,應用于時間序列預測模型,本文將指標H歸一化處理,采用極大極小法得到[0,1]區間的數值分布,以保證時間維度可比性。

表3 主題熱度指標年度均值

針對不同階段主題共現網絡,分別計算相應的相似性指標,其基本統計特征如表4所示。整體上,數據分布特征差異較大,除simRank指標之外,其余指標取值都偏小,比如基于局部信息的指標幾乎都集中于0~0.1之間。因此,將指標導入模型之前,進行了歸一化處理。

表4 加權鏈路相似性指標基本數據特征

使用Python語言,編程實現面向主題熱度預測的時間序列LSTM模型。具體地,基于主題熱度指標H,以2013—2019年數據為輸入,以2020年數據為輸出,調用Keras模塊中的LSTM函數,構建面向時間序列的神經網絡模型。選取均方誤差MSE為誤差函數,使用隨機梯度下降算法SGD,進行多輪模型訓練,結果如圖3所示。經過大約10輪訓練之后,可以看到訓練誤差和測試誤差都穩定地下降到很小數值,說明模型擬合參數達到收斂狀態,完成主題熱度預測模型訓練任務。

圖3 主題熱度預測模型訓練

表5給出了模型在測試集上的預測表現。ARIMA模型是常見的時間序列分析工具,這里用作基準模型作為參照對比。通過比較可以發現,不論是平均絕對誤差MAE還是均方誤差MSE,本文采用的LSTM模型都明顯優于ARIMA模型,LSTM模型適用于主題熱度指標序列的預測任務。

表5 模型性能比較

類似地,使用Keras模塊實現主鏈路預測模型。具體地,由主題網絡N1和N2得到訓練集和測試集,采用隨機梯度下降算法SGD,以二元交叉熵BinaryCrossentropy為損失函數,進行多輪訓練,結果如圖4所示。大約經過150輪訓練之后,訓練誤差和測試誤差都呈現穩定收斂狀態,數值上小于0.05,反映模型擬合良好;而AUC指標在訓練集合測試集上非常接近,都達到0.98,反映了滿意的預測性能。

圖4 主題影響力預測模型訓練

為了檢驗指標的選取合理性,分別使用4種類型指標(基于局部信息、基于路徑、基于隨機游走及其他)進行鏈路預測模型訓練,與本文基于全部指標的訓練結果進行比較,如表6所示。可見,采用全部指標的鏈路預測性能基本都處于較明顯優勢,只有在準確率方面比基于隨機游走指標的結果略低。總體上,包含全部18個指標的鏈路預測模型能夠取得較為滿意預測性能。

表6 不同指標的鏈路預測性能比較

3.3 新興主題識別

采用訓練完成的神經網絡模型,預測主題未來狀態,包括主題熱度與影響力。將2014—2020年主題熱度指標輸入熱度預測模型,得到主題的熱度預測值H2021;使用鏈路預測模型,預測主題網絡N3的潛在鏈接,得到主題未來網絡N′3,并計算得到主題節點的影響力預測值PR′。為了進一步展示主題動態趨勢,分別計算了兩個指標預測值相對于當前值的增長率。

表7給出了按照上述4個指標降序排列的主題。通過對比,可以顯然發現兩個基于增長率的指標對于新興主題表現出更強的敏感性。對于主題熱度與影響力指標,排名前列的大都是熱門主題,既包含了持續創新且熱度不斷的成熟主題(bibliometrics、citation analysis、patent等),也包含了近年興起受到普遍關注的新興主題(altmetrics、scopus、social media等)。對于基于增長率的指標,排名前列主題不但包含了一般新興主題,更重要的是篩選出了更多高價值主題——出現時間相對短暫但創新潛力巨大的新興主題,比如COVID-19、blockchain、convolutional neural network、Internet of things,這些主題未出現在表2的主題熱度與影響力排行榜之中,但都進入主題熱度增長率和影響力增長率排行榜,甚至COVID-19和blockchain的熱度增長率預測值排名分別達到了第1和第3。

表7 按不同指標預測值降序排序的主題詞(前15名)

總之,可以看出基于增長率的指標(熱度增長率和影響力增長率)比規模性指標(熱度和影響力)更適用于新興主題識別任務,前者能夠更早地發現新興主題的增長潛力,這些主題雖然當前關注程度相對較小,但后續發展動能強勁,這種前瞻優勢對于科技決策者具有重要參考價值。

為了形成對新興主題的綜合研判,以主題熱度增長率預測值為縱軸,影響力增長率預測值為橫軸,繪制主題散點圖,如圖5所示。其中,散點大小正比于指標P,反映主題在文獻的呈現熱度。二維識別空間中,除了成熟主題bibliometrics和citation analysis之外,其他主題位于橫軸之上,具有正向的熱度增長率預測值,反映情報學領域較高的活躍性預期。近半主題位于縱軸右側,具有正向的影響力增長預測值,反映了這些主題持續增長的影響力預期,它們將不斷與本領域知識元素相互融合嵌入并通過網絡連接形成增長擴散的影響力。可以發現,第1象限主題具有“兩高一低”特征,即出現頻率低(散點面積偏小)和兩指標(熱度增長率預測和影響力增長率預測)取值高,更符合新興主題早期階段屬性,是探測高潛力新興主題的重點觀察區域。

采用聚類分析,可以得到3個相對聚集的主題群落。聚類1位于第1象限上方,屬于關注熱度高增長型,具有出現時間較短但關注程度增長迅猛的特點,是發現新興主題的高概率區域;聚類2位于第1象限右下方,屬于影響力高增長型,具有影響力增長迅速特點,意味著這些主題日益融入領域知識網絡,與越多的主題形成語義連接,并通過網絡嵌入形成更大的主題影響力,同樣也是新興主題的重要探測區域;聚類3主要位于第2象限,呈現關注熱度高且增長快,但知識網絡影響力偏低甚至下降的特征,主要以熱門主題為主,新興主題相對偏少。

聚類1包含3個主題,COVID-19、blockchain、deep learning都是具有重要價值的領域新興主題。為了揭示主題的爆發性增長態勢,表8給出了不同年度的主題相關文獻數量。①主題COVID-19出現時間最短暫,卻被預測出最強烈的增長態勢,情報學界對2019年暴發的新冠肺炎疫情(COVID-19)給出了積極的學術反饋,比如2020年只有7篇相關文獻,而2021年卻猛增至27篇,意味著將來極可能成為領域重點關注的“明星”主題;②主題blockchain近兩年開始受到情報學領域重視,作為分布式共享賬本和數據庫,區塊鏈(blockchain)具有去中心化、不可篡改、全程留痕、可以追溯等獨特優勢,相關文獻從2020年的6篇增至2021年的25篇,是其在情報組織與數據管理等方面巨大應用潛力的集中體現;③主題deep learning從2018年開始形成穩定的快速增長路徑,相關文獻在2020年增至47篇,反映了隨著深度學習理論與技術的不斷成熟,其多元應用不斷擴展深化,同樣也成為情報學領域的關注熱點,日益成為情報體系的方法要素,推動情報方法的智能化發展。總之,本文基于機器學習方法的預測程序準確地揭示了上述主題的爆發式增長,對2021年的熱度預測與現實吻合程度高,體現了該方法對于新興主題動態特征的敏感捕捉能力。

表8 聚類1主題的年度文獻分布

聚類2包含10個主題,基本上都涉及信息技術方法,其共同表現出影響力高增長特征。通過綜合分析,進一步分為兩個子群落,即以convolutional neural network、artificial intelligence、internet of things、link prediction為代表的新興技術,與以topic models、complex networks、sentiment analysis為代表的常見領域熱門技術。主題熱度方面,前者雖然出現時間相對更短,但快速吸引情報領域關注,整體擁有更高的熱度增長潛力。主題影響力方面,除convolutional neural network之外,大部分新興技術都比傳統熱門技術擁有相對較低的影響力增長性預期,此現象反映了兩者技術擴散能力的差異,領域對于傳統熱門技術的接受程度更高,更利于傳統技術主題與更多不同領域及方向知識要素建立并形成語義關聯,而新興技術更多地處于技術導入應用初期,還未形成明顯的知識網絡影響力優勢。

聚類3基本為情報學領域核心熱門主題,數量眾多,成熟度較高。相對于典型成熟主題(如citation impact、h-index、information retrieval),以twitter、altmetrics、social networks為代表主題表現出一定新興特征;但是,這些主題不如聚類1主題的新穎性與熱度增長性高,也不如聚類2中新興主題的影響力增長性顯著。顯然,該領域主題新興特征偏低,篩選出的3個新興主題雖然仍為情報學領域值得重點關注的未來方向,但其已呈現出相對平穩傾向,不再表現為爆發性增長態勢,而是開始趨于穩定發展模式。

通過二維識別空間的綜合性聚類分析,識別出3類不同特征的新興主題:一是高新穎、高增長潛力的新興主題群,包括COVID-19、blockchain、deep learning,位于識別空間上方位置(聚類1),以高熱度增長率預期為基本判別特征,成為學科關注“新星”;二是以convolutional neural network等為代表的新興主題群,內容上聚焦于信息技術方法,位于識別空間右下位置(聚類2),以高影響力增長預期為基本判別特征;三是以altmetrics等為代表的預期穩定型新興主題群,位于識別空間左側位置(聚類3),呈現關注熱度和影響力都趨于相對穩定的發展模式。可以看出,構建的預測性指標能夠有效識別新興主題成長性,而且對于不同類型新興主題形成良好區分能力。

表9給出了采用不同模型方法的識別結果比較,識別出的主題按照成長趨勢程度降序排列。①直接預測主題指標趨勢是最常見的分析方法,ARIMA模型和LSTM模型給出的新興主題各有側重,不過ARIMA沒有識別出以blockchain、deep learning為代表的最新議題,總體上看LSTM模型的識別結果更加精準;②網絡結構指標與PageRank算法是網絡關系嵌入環境的常見分析方法,分別采用兩個度量指標(度中心性Degree和PageRank指標)進行新興主題成長識別,與本文鏈路預測+PageRank方法進行比較。顯然,基于度中心性的結果相對較差,雖然也能將以word embedding為代表的多數新興主題篩選發現,但是對于短期萌發的主題敏感度不夠,尤其沒有識別出近兩年發展的主題COVID-19和blockchain。可以看出,單純基于PageRank方法與鏈路預測+PageRank方法相比,識別召回的新興主題范疇基本相差不大,但是對于短期新興主題的敏感性存在差異,以COVID-19、blockchain為代表的萌芽主題在后者采用鏈路預測的識別結果中被賦予了更高的優先級,更利于發現時間短、頻次低、潛力大的新興主題,顯然更吻合新興主題的識別初衷。此種結果也反映了鏈路預測在趨勢前瞻方面的優勢,非常適應于發現高成長價值新興主題;③本文采用了指標時序和影響力相結合的二維識別方法,雖然與基于影響力的一維識別方法(鏈路預測+PageRank)相比結果基本相同,但是通過二維識別空間能夠對指標進行類型細分,比如識別出“學科‘新星’”與“學科方法工具”兩類新興主題,它們存在差異化的增長動力與新興特征。可見,本文方法具有更精細的主題成長性識別能力,這種敏銳分析能力有助于加深學科新興主題的把握洞見。

表9 不同模型識別結果比較

4 結 論

把握未來成長潛力是識別學科新興主題的關鍵。本文從熱度和影響力兩個方面,對學科新興主題開展組合預測與綜合研判。熱度方面,設計融合文獻計量和替代計量的主題熱度指標,并構建基于LSTM的熱度時間序列預測模型,旨在預測主題未來熱度增長性;影響力方面,基于主題共現網絡,采用PageRank算法刻畫主題節點的學科知識網絡影響力,并使用加權網絡鏈路預測指標,構建主題影響力預測模型,旨在預測主題未來影響力增長性。以熱度和影響力的增長率為未來成長性的刻畫指標,構建二維識別空間,形成對新興主題高成長特征的綜合研判,并通過聚類分析揭示新興主題的不同類型特征。

針對情報學學科的實證研究充分檢驗了方法的有效性。實證結果發現,反映成長性的預測指標能夠有效捕捉新興特征,例如高熱度增長率預期基本成為判定新興主題的必要條件,而高影響力增長預期則成為識別“方法類型”新興主題的重要條件。進一步通過二維識別空間的聚類分析,可以對新興主題形成更加細致區分,主要包括3種子類型:以COVID-19為代表的熱度高增長預期新興主題群、以convolutional neural network為代表的影響力高增長預期新興主題群、以altmetrics為代表的預期穩定型新興主題群。不同類型新興主題具有特定的內在創新特征和演化趨勢,細粒度的類型區分為深入理解把握學科趨勢提供了有效洞見。總之,分析結果說明,本文構造的成長性預測性指標對新興主題具有良好的識別能力,不但能夠將新興主題從包含各種干擾信號的海量數據中篩選出來,而且能夠通過聚類分析分辨出新興主題的不同子類型特征,反映了基于成長性預測性指標的識別方法對于新興主題具有良好適用性。

不同于基于客觀證據的主觀性預測,本文借助機器學習算法,構建預測模型,直接對主題的發展趨勢開展客觀預測,進而形成基于新興特征預期的識別方法。該方法聚焦于主題未來預期,充分借助基于機器學習算法的大數據預測能力,更適應于知識快速迭代并復雜演化的學科場景,有助于為決策者提供更具前瞻性的科技戰略決策支持。隨著機器學習算法的不斷進化和科技大數據的日益豐富細化,數據驅動的科技預測能力不斷提升,前瞻性學科情報探測及趨勢分析必然成為重要發展方向。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美日韩成人| 国产精鲁鲁网在线视频| 亚洲精品视频在线观看视频| 激情综合网激情综合| 亚洲欧美另类日本| 午夜爽爽视频| 欧美亚洲国产视频| 亚洲一区国色天香| 国产丝袜91| 麻豆精品在线| 欧美a网站| 日韩高清一区 | 亚洲国产亚洲综合在线尤物| 天天躁狠狠躁| 亚洲天堂视频在线免费观看| 毛片网站在线播放| 99视频在线免费| 色欲色欲久久综合网| 午夜免费小视频| 国产乱肥老妇精品视频| 久久久久夜色精品波多野结衣| 亚洲色图综合在线| 久久综合九色综合97婷婷| 2021国产精品自产拍在线| 看你懂的巨臀中文字幕一区二区| 国产在线观看精品| 在线精品亚洲一区二区古装| 国产成人综合日韩精品无码不卡| 青青极品在线| 国产日韩精品欧美一区喷| 香港一级毛片免费看| 日本道综合一本久久久88| 91无码视频在线观看| 97视频在线精品国自产拍| 色成人综合| 亚洲精品无码人妻无码| 成人一区专区在线观看| 国产真实二区一区在线亚洲 | 亚洲国内精品自在自线官| 2020最新国产精品视频| 欧美亚洲国产日韩电影在线| 99视频国产精品| 国产在线观看一区精品| 青青青国产在线播放| 国产人免费人成免费视频| 欧美精品亚洲精品日韩专| 99在线观看精品视频| 亚洲制服中文字幕一区二区 | 亚洲欧美成人在线视频| 国产福利观看| 精品国产香蕉在线播出| 91在线免费公开视频| 国模沟沟一区二区三区| 国产二级毛片| 久久国产亚洲偷自| 伊人激情综合网| 五月婷婷丁香色| 色呦呦手机在线精品| 日韩在线第三页| 亚洲91在线精品| 婷婷综合亚洲| 国产剧情一区二区| 欧美国产综合色视频| 91精品伊人久久大香线蕉| 欧美无遮挡国产欧美另类| 伊人天堂网| 亚洲国产欧美目韩成人综合| 男女性色大片免费网站| 久久女人网| 国产激情无码一区二区免费| 成人毛片免费在线观看| 99精品福利视频| 精品成人一区二区三区电影 | 中文字幕天无码久久精品视频免费 | 影音先锋亚洲无码| 成人免费午夜视频| 亚洲男人的天堂久久香蕉| 国产成人亚洲精品蜜芽影院| 中文字幕乱码中文乱码51精品| 无码专区国产精品第一页| 伊人久久福利中文字幕| 久久黄色视频影|