,,
科技領域前沿知識的概念最早來源于普賴斯提出的“研究前沿”這一概念。隨著科學研究范圍不斷擴大與更新,目前已有多個概念與前沿知識的概念相近或類似,如研究前沿(Research Fronts)、新興趨勢(Emerging Trend)、新興研究領域(Emerging Research Domains、Emerging Research Area、Emerging Fields、Emerging Knowledge Domains)以及新興主題(Emerging Topics)、研究熱點(Research hotspot)、熱點主題(Hot Topics)等。因此,有些學者在研究前沿知識時往往借鑒或采用了測度新興或熱點主題的某些計算方法,并取得了較好的研究結果。根據學術界有對“前沿”概念的界定[1],前沿知識的內涵主要包括“前沿”與“知識”兩個方面,“前沿”說明其具有前瞻性和先導性,“知識”說明其具有理論性與探索性。
前沿知識代表了某一學科領域現在以及未來一段時期的發展方向,對學科發展具有引領作用。及時發現并準確識別前沿知識,為領域專家提供研究參考與情報支持,可避免重復勞動和節約科研資源,可輔助科研管理部門制定科研規劃、組織立項等科研管理工作?;陬I域專家的“頭腦風暴”定性發現前沿知識的過程,容易受領域專家知識背景、研究興趣等主觀因素的影響。因此,對前沿知識的定量研究逐漸受到各領域的關注。目前前沿知識的定量研究主要采用引文分析法[2-7]、共詞分析法[8]、文本挖掘法[9-10]、社會網絡分析法[11-12]等單一維度分析法以及多維度分析法。單一維度分析法的相關研究興起時間較早,具有一定的理論支撐,研究成果豐富,在學術界得到了一定的應用,如湯森路透集團的ESI數據庫即采用引文分析的方法表征研究前沿。然而,無論是“粗粒度”的引文分析法或“細粒度”的文本挖掘法,還是具有良好可視化效果的社會網絡分析法,均以發現前沿知識為主,未能揭示前沿知識的顯著特征,如先導性、高關注度等。文本挖掘方法可以在知識內容的新穎性方面發現前沿知識,但僅限于單一特征,未能挖掘出前沿知識專有特征。雖然基于復合關系的方法[1]將引文分析與共詞分析進行了結合,以發揮兩種方法的優點,彌補各自的不足,但在確定前沿知識特征方面尚顯不足。
相比利用引文集合、詞頻等單一屬性發現前沿知識的研究而言,多種屬性相結合能更加準確地挖掘與定位前沿知識,有利于揭示前沿知識的特征與演化規律。基于此,本文在已有研究基礎上,首先確定了前沿知識的多維度特征,繼而提出了醫學領域前沿知識發現的研究框架
前沿知識的多維度分析法綜合運用引文分析、共現分析、文本挖掘以及熱點話題探測方法,試圖從多個維度對前沿知識進行分析,以揭示前沿知識不同方面的特征,特別是專有特征,現已經成為前沿知識測度的主要研究思路。
吳菲菲等[13]從創新性和學科交叉性2個維度探測了研究前沿的模型,它由創新性特征識別階段、學科交叉性特征識別階段以及前沿主題提煉階段“三階段”構成,各階段分別使用文獻引文分析、共現分析和文本挖掘方法。可見,創新性、學科交叉性是前沿知識的重要特性。張麗華等[14]從時效性、突破性、跨學科性和繼承性4個方面對早期前沿知識的特征及其演化過程進行了研究,發現突破性指數對前沿影響最大,其次為跨學科性和時效性,繼承性對前沿的影響最小。黃魯成等[15]從新興主題的關注度、成長潛力度以及關聯度3個屬性測度了新興主題的特點,發現新興主題具有高關注度、高成長潛力度及高關聯度。賀亮等[16]提出了文獻主題詞發現和趨勢分析的方法,該方法利用LDA話題模型抽取科技文獻的話題,并計算了話題的強度和影響力。Le等[17]構建的一個新興主題探測模型綜合考慮了科技文獻中主題的多種特征,利用7×10×2的神經網絡識別新興概念,且該模型適用于不同的科學研究領域。Guo等[18]使用特殊詞突然增加的頻率、作者關注新興領域的人數和增加速度、參考文獻交叉學科的變化3個指標,構建了用于描述和預測新興研究領域關鍵結構和動態特性的混合模型。
雖然多維度分析方法可測度前沿知識的多種特征,但仍存在不足。一是對前沿知識專有特征挖掘不足?,F有研究往往將“前沿”、“熱點”、“突發”、“新興”等描述知識特殊狀態的詞混淆,使得在挖掘與測度前沿知識特征時容易受其他知識測度方法的影響。二是對前沿知識的解讀缺乏語義環境?,F有研究中,缺乏對知識的語義描述。前沿知識是基于一定語義環境出現的,只有準確描述前沿知識產生與存在的語義環境以及不同詞語間的語義關聯,才能更準確地定位前沿知識,并對其進行正確解讀。
Bun等[19]認為,新聞中任何一個熱點話題都不可能無限“熱”下去,都會經歷一個產生、增長、成熟和消亡的過程,于是將生命周期理論用于探測研究新聞熱點話題。隨后,Chen[20]、趙迎光等[21]按照生命周期理論,分別設定了新聞熱點詞與文獻熱點詞的能量值、生命值、變化率等指標,并根據生命值指數確定每個時間窗內的熱點詞。實驗結果證明,利用生命周期理論可以較好地識別新聞及文獻熱點詞。前沿知識作為主題的一種,比一般知識具有更強的生命周期特征,應表現出明顯的分期過程。因此,通過研究主題在生命周期內特征的變化,可以監測并識別前沿知識。
綜上所述,在時間維度上,前沿知識應具有生命周期特征;在空間維度上,前沿知識主要具有權威性、普遍認可性、創新性和學科交叉性4項特征。只有同時具備上述4項特征和具有生命周期特征的知識,能認為是前沿知識?;诖?,本文確定文獻領域的前沿知識需同時滿足如下條件:前沿知識具有生命周期特征;前沿知識的出現頻次高,即具有普遍認可性;前沿知識來源期刊影響因子較高,即具有權威性;前沿知識與已有知識的相似度不高,即具有創新性;前沿知識來源于多種學科領域,即具有學科交叉性。前沿知識表示公式如下:
前沿知識=(普遍認可性+權威性+創新性+學科交叉性)∩ 生命周期特征
(1)
對前沿知識特征進行維度劃分可以看出,普遍認可性、權威性、創新性屬于前沿知識自身的屬性,共同構成前沿知識的內部屬性。學科交叉性雖是前沿知識自身具有的屬性,但學科交叉涉及多個學科之間的交流與測度,因此本研究認為學科交叉性是前沿知識的外部屬性。前沿知識的內部屬性可以深入內容層面細粒度地描述與測度前沿知識,外部屬性可以在知識來源廣度上說明前沿知識的特征。綜合考量前沿知識的內外部屬性,可以較為全面地測度前沿知識,實現準確發現前沿知識的目的。與基于復合關系的方法不同,多維特征識別方法在前沿知識發現過程中,更強調對前沿知識自身特征的描述與判斷。
目前關于醫學領域前沿主題挖掘的研究較多,并開發了TDA、CiteSpace等成熟工具輔助識別前沿主題。但現有研究對前沿主題的主要特征認識不足,更缺乏從知識內外屬性綜合測度前沿知識的研究。此外,相關研究較少涉及研究主題的語義類型,對結果的解讀主要依賴領域專家,降低了方法的可用性。根據上面對前沿知識多維特征的定義與測度方法分析,為保證識別前沿知識的準確性與方法的可用性,本文提出了醫學領域前沿知識發現研究框架(圖1)。

圖1 基于多維特征識別的醫學領域前沿知識發現研究框架
數據預處理對數據分析、知識挖掘非常重要。本文利用豐富的醫學知識組織體系(如MeSH超級詞表)及權威可靠的語義分析工具MetaMap,將從文獻數據庫獲取的醫學文獻中的主題詞進行概念映射,抽取映射后的主題詞及其語義類型。經過數據預處理,將各種醫學術語變體統一為標準的MeSH術語主題詞,既方便后續對分析結果的解讀,又提高了分析的準確率。
根據公式(1)逐項測度數據預處理后抽取主題詞。每項指標的測度方法如下。
2.3.1 生命周期特征測度
主題詞的生命周期可以反映其在時間上的變化趨勢。Chen等[22]提出了新聞事件的生命周期模型,將新聞事件按照生命周期分為4個階段,并提出了能量函數的概念以跟蹤事件的生命周期。該模型在主題探測與跟蹤領域得到了廣泛應用。已有研究證明[21],文獻領域的主題詞具備生命周期特征,因此可以利用生命周期理論,測度主題詞在時間上的變化情況,并與其他指標結合,共同揭示主題在時間上的特征。根據生命周期理論,文獻領域主題詞的能量值、生命值、變化率等指標的計算公式如下。
主題詞K在時間窗t內得到的能量值公式如下:

式中A、B、C、D的代表含義如表1所示。

表1 能量值計算公式中部分參數的取值
某一主題詞的生命值公式如下:
GFk,t=InGEk,t(4)
式中,GFk,t為主題詞K在時間窗t上的生命值,GFk,t為主題詞K在t時間窗內得到的能量值。
根據公式(2)、(3)、(4)的測度主題詞的能量值、生命值等指標的結果后,計算主題詞在每個時間窗生命值的變化率:
式中,N為給定時間段內時間窗的個數,GFk,t是t時間窗K主題詞的生命值,GF是K在所有時間窗內的生命值均值。在某一時間窗內,主題詞的生命值變化率越大,其生命周期性越強。
2.3.2 普遍認可性測度
主題詞出現的頻次越高,其普遍認可性越大,越容易成為前沿知識。目前,用于測度主題詞頻次的方法很多(如詞頻統計法、TFIDF方法、詞共現方法等),但每種方法又有其局限性。例如,TFIDF方法使用的是TF(詞頻)與IDF(倒排文檔率)乘積表示詞權重,使那些出現頻率高和出現在多篇文檔中的主題詞的權重較小。事實上,當主題詞處于其生命周期的中后期時,不僅出現頻次高,而且文檔數量也較多,導致TFIDF值較小,無法完全揭示具有生命周期特征的主題詞。
Bun等[19]糾正了計算詞權重的TFIDF算法在區分詞分布方面的不足,使用TFPDF算法計算每個詞的權重。TFPDF算法對于出現頻次高和出現文檔多的詞賦予較大權重,對主題詞的生命周期特征具有一定的揭示意義。因此,本文使用TFPDF方法計算主題詞的普遍認可性,其公式如下:
式中,|Fk,c|是詞K在c中出現的頻次,nk,c是出現詞K的文檔的數量,W是c中所有詞的數量,|C|是文獻集合中期刊數量。因此如果一個詞的詞頻越大,并且包含該詞的期刊越多,TFXPDF值就越大。
2.3.3 權威性測度
影響因子是目前期刊評價與人才評價的重要指標。該指標雖然有其本身的缺陷,但在國際科技評價領域的作用仍很重要。一般而言,高影響因子學術期刊刊載的論文較同領域低影響因子期刊刊載的論文更容易獲得較高的學科關注度,具有更高的領域權威性。因此,領域高影響因子學術期刊是前沿知識的產生地與聚集地。當然,并不是所有刊載在高影響因子期刊上的論文或主題就一定具有權威性和成長為前沿知識,只是成為前沿知識的可能性更大而已。因此,可以利用期刊影響因子測量文獻主題詞的權威性[15],公式如下:

2.3.4 創新性測度
主題詞的創新性一般可以主題詞出現時間和主題詞內容的創新性兩個維度分別測量。從科技文獻老化的角度來說,社會的發展和知識的更新,必然會影響人們對新舊文獻的選擇。一般來說,舊有文獻的使用頻次將逐漸降低,讓位于新生的文獻。但出現時間并不能準確定位前沿知識,更多的是用于對新興主題的探測研究。因此,本文使用主題詞內容的創新性測度前沿知識。
主題詞內容的創新性是指對給定的文獻集,按時間序列排序,比較新到來的相關文獻主題與已有文獻主題的冗余度,確定新到來的文本主題是否新穎。目前廣泛使用的文本創新性測量方法主要有基于向量空間模型的文本創新性探測和基于語言模型的文本創新性探測兩大類[23]。其中,基于向量空間模型的內容創新性探測方法的主要步驟為:文本主題詞的抽取與映射→構建文檔的向量空間模型→利用某一方法計算內容創新性。本文采用Zhang[24]使用的向量余弦值方法測度主題詞內容的創新性。計算方法如下:
式中,CNVk代表主題詞K內容上的創新性,CNVk值越大,該主題詞K內容上的創新性越強。cos(dl,di)計算了文檔dl,di余弦相似度值,n代表該時間窗內擁有主題詞K的文檔數量,m代表前一時間窗內所有文檔的數量,di代表前一時間窗的文檔i所對應的向量,q代表向量維度。
2.3.5 學科交叉性測度
中科院院士路甬祥[25]曾指出:“學科交叉點往往就是科學新的生長點、新的科學前沿,這里最有可能產生重大的科學突破,使科學發生革命性變化。”多項研究[26-27]表明,世界上最具權威和最負盛名的科學獎項——諾貝爾自然科學獎中的學科交叉研究成果豐富,說明了現代科學技術的重大發現與發明多是學科交叉的成果。科學和技術上的重大突破,新的生長點和新學科的產生,往往是在不同學科彼此交叉和相互滲透的過程中形成的,說明跨學科研究具有重大意義。
許海云等[28]對學科交叉性測度方法進行了研究,將學科交叉性測度屬性主要分為學科多樣性(diversity)和學科聚合性(cohesion)兩種。學科多樣性描述交叉領域所涉及學科的數量統計特征,包括學科數量多少(豐富度)、分布特征(平衡性)和個體間差異性(差異度);學科聚合性表征了研究領域所涉及各個學科所構成的整體網絡的聯系緊密程度和各學科在網絡中地位的差異程度,包括核心-邊緣度、網絡分派度、網絡密度和網絡中心勢。
Stirling[29]較為詳細地闡述了學科多樣性的普遍存在,指出了學科多樣性豐富性、平衡性和差異性3個屬性,并提出了用于測度學科交叉性的Rao-Stirling指標。該指標不僅考慮了學科分類間的平均分布程度,即平衡性,又考慮了學科分類間的差異性。張金柱等[30]、許海云等[31]均利用該指標對圖書情報學領域的學科交叉性進行了度量。
考慮到指標的全面性與操作的簡單性,本文使用Rao-Stirling指標測度主題詞的學科交叉性,其計算公式如下:
式中,pi與pj是不同學科的概率分布,dij是學科間的距離,可以用余弦相似度進行計算α, β為計量參數,取值為0-1。當α、β取值不同時,測度了學科間的不同屬性(表2)。Rao-Stirling值越大,該主題的學科交叉性越強。

表2 Rao-Stirling指標中參數取值不同時
2.3.6 前沿性測度
根據以上5個指標,設計主題詞的“前沿性”指標:
Front=aVt+bTFPDFk+cPAk+dCNVk+eRS(12)
式中,a、b、c、d、e系數應根據上述指標的特點及其在發現前沿知識時的作用與區分度確定。
從統計學角度看,公式(12)為前沿性指標的多元線性回歸模型。普通最小二乘估計、最大似然估計等是常用的參數估計方法,用于確定式中的a、b、c、d、e參數值。隨著多元線性回歸模型應用的逐步推廣,為滿足學科領域發展需要,提出了參數估計的自適應動態更新機制,DE算法[32]、粒子群算法[33]等新的方法逐步用于參數估計研究中。醫學領域由多個子學科組成,本文雖利用統一的前沿知識特征指標對前沿知識進行識別,但同一特征在確定不同子學科前沿知識的重要性時可能有所不同。因此,目前尚無法給出各參數的具體估算與動態更新方法,需要通過大量不同學科的實驗,確定適用于某一具體學科的前沿性參數組合。
考慮到各個主題并非孤立存在而具有一定的關聯關系,明確主題間的相關關系更有利于對前沿知識的準確解讀。依據前沿性指標篩選權重較大的主題詞,利用詞共現理論與技術、社會網絡分析技術生成前沿知識網絡。判斷生成的知識網絡中節點重要性的指標有很多,如中心度、聲望等。雖然這些指標可以揭示節點的全局重要性,但無法揭示節點在某一社區的重要程度。本文通過前沿性指標測度了節點的全局重要性,在知識網絡分析中則需要判斷節點的局部重要性,從而實現對某一知識網絡所代表主題的解讀。本文使用Guimera等[34]提出的Z-Value值計算節點的局部重要性,Z-Value方法可以測度網絡節點與其他節點聯系的緊密性,根據指標值大小確定計算節點的局部重要性。
準確識別知識網絡中的重要社區,對揭示學科發展規律和描述學科內部關聯等具有積極作用。Wallace等[35]的研究證明了應用社區發現方法識別知識網絡中的重要社區是可行有效的。計算機學界基于圖論提出了多種社區識別算法,最有代表性的方法是基于優化網絡模塊度的方法。該方法根據邊的中介性和模塊度的變化進行社區識別。本文利用模塊度方法,對前沿知識形成的多個社區進行識別,確定不同社區的重要性,并發現重要社區中節點間的關聯關系,從而描述前沿知識結構。
最后,利用數據預處理階段提取的主題詞的語義類型,對代表性節點與關鍵社區中的主題詞進行解讀,可以準確發現某一醫學研究領域涉及的疾病、基因、藥物、治療方法等方面前沿知識的概況,以指導研究人員更針對性地開展相關研究。
為了準確識別醫學領域的前沿知識,本文提出了一種基于多維度特征識別的醫學領域前沿知識發現研究框架,并給出了框架中核心部分的研究思路與關鍵步驟。本文將生命周期理論、社會網絡理論等多種理論與方法共同用于前沿知識的發現研究中,強調從知識的內外部兩個方面共同測度前沿知識。此外,根據不同知識的語義類型,可以有針對性地解讀前沿知識。后續研究中,我們將進一步驗證本文所提方案的有效性,重點解決以下問題。
一是指標閾值的選取與確定。能量值、生命值、學科交叉性、前沿性等指標閾值的大小,直接決定最終識別的前沿知識的內容。目前尚無統一的閾值選擇標準,仍需經過大量實驗確定具體指標的參數值,以提高指標與模型的適用性。
二是醫學領域前沿知識的語義關聯分析。本文結合語義類型實現了對前沿知識的解讀,但對不同類型間知識的語義關聯缺乏深入研究。醫學研究領域比其他領域具有更加完備的知識組織體系與語義關系。目前國外已開發了一些數據庫用于存儲基因與疾病之間的關系(例如CTDTM[36],OMIM?[37]和GAD[38]),開發了DisGeNET[39]平臺用以集成基因疾病關聯(GDAs)中多個公共數據源和文獻信息,該平臺包括17 181種基因與14 619種疾病的429 111種關系。因此,建立醫學領域前沿知識間的語義關聯和揭示醫學知識間的語義關系,對疾病的預防、發現與治療具有積極影響。