李 晶,羅泰曄
(1.中山大學新華學院管理學院,廣東廣州 510520;2.華南理工大學工商管理學院,廣東廣州 510640)
隨著科技的快速演進,諸多領域的知識體系日趨復雜。在這樣的背景下,分析領域內的知識結構,厘清技術要素間的關聯,并在此基礎上識別出技術研究熱點,對于研發組織來講具有重要的意義。目前已有的關于研究熱點識別的文獻基本都以專利數據的分析素材,通過專利的引用情況或專利中技術要素的共現情況來發現領域內的熱點技術。例如,Noh 等[1]基于專利引用的情況,借鑒RFM 模型對專利進行分類,提取出了通訊領域的21 項熱點技術。Liu 等[2]構建了新能源領域的專利引用矩陣,并根據感應系數和影響力系數兩個指標,發現太陽能技術是該領域的熱門領域。類似地,Xin Wang 等[3]基于專利共引矩陣,使用共引系數識別出傳動系統控制、能源管理與控制、電池管理、傳輸系統控制和電機設計等技術是電動車領域的熱點技術。除了利用專利引用的情況外,也有研究構建基于專利數據的技術共現網絡來識別熱點問題。例如,許振亮等[4]對有關稀土材料的專利文獻進行深入分析,利用科學知識圖譜方法繪制核心技術領域和核心技術的共現網絡和演進網絡,發現技術熱點和技術之間的共現關系,從而追蹤技術的演進歷程和未來可能的發展方向。侯劍華等[5]通過檢索專利數據,基于專利計量分析和信息可視化方法通過構建技術與知識單元共現網絡來識別風力渦輪機技術研究熱點。呂一博等[6]基于專利數據,利用融合的專利申請量、技術距離和技術融合度來判斷技術融合的情況,在此基礎上構建技術共現網絡,從而識別出圖像、語音識別等相關技術是當前物聯網與人工智能領域的熱點技術。需要指出的是,在技術發展迅速的情形下,利用專利數據來識別熱點技術存在一定的局限性。一方面,專利從申請到公開需要較長的時間。另一方面,根據相關研究,專利平均要經過近兩年的時間才會被引用[7]。這使得在識別熱點技術的過程中可能缺失了一些反映技術發展趨勢的新近專利的引用數據或技術要素的共現情形,進而可能影響識別的準確率。相對而言,科技論文的發表機制更具靈活性和時效性,可以作為各領域識別熱點技術的素材。科技論文的關鍵詞代表了研究的主要內容。關鍵詞間的共現關系體現了技術體系內各研究對象間的關聯。關鍵詞在不同文獻中出現的頻率反映了其重要性或所含有的信息的豐富程度。因此,可以通過對論文關鍵詞的分析,來厘清論文所屬領域的整體研究框架和技術體系結構,并在此基礎上識別出領域內的熱點技術。本文以5G 技術為例,提出一種基于關鍵詞文本挖掘的識別熱點技術的新方法。
從本體論上看,技術由若干知識要素構成。知識要素具體可以劃分為元件知識(component knowledge) 和架構知識(architecture knowledge) 兩類[8]。各種知識元件在一定概念框架下的組合或重組帶來創新[8-9]。因此,在一個領域內,組合能力強的知識要素構成該領域的熱點技術[10]。從認識論上看,作為技術本質的知識本身與產生或應用知識的情境之間存在不可分割性,熱點技術應從知識要素本身以及知識要素應用的情境兩個方面來理解[11]。熱點技術作為基礎,在不同的情境下產生不同的應用。也就是說,構成熱點技術的知識要素應具有應用情境的多樣性[12]。基于上述分析,本文把具有技術含義的關鍵詞視為知識要素,從知識要素的組合性和應用的多樣性兩個維度來識別熱點技術。
在衡量一個知識要素與其它知識要素的組合情形方面,本文提出組合力的概念。一個知識要素的組合力強,則該要素能與多個其它知識要素進行組合。借鑒相關研究的做法,我們把關鍵詞在文檔中的共現關系視為一種組合,并據此構建關鍵詞網絡[13-14]。若兩個關鍵詞存在共現關系,則在網絡中將這兩個關鍵詞相連。本文提出,知識要素i 的組合力由以下公式計算:

公式(1)的分子部分借鑒了物理學中引力的計算方法。degreei和degreej分別表示關鍵詞i和關鍵詞j的在關鍵詞網絡中的程度中心度。程度中心度反映了一個關鍵詞在網絡中與其它關鍵詞相連接的程度。一個關鍵詞的程度中心度高,說明該關鍵詞跟較多的知識元素進行過組合,可進行組合的空間也較大[15]。相反,一個關鍵詞在網絡中的程度中心度低,往往意味著該關鍵詞的組合潛力小[16]。因此,兩個關鍵詞的程度中心度的交互作用能夠在一定程度上反映兩者間的組合機會。distanceij為關鍵詞網絡中關鍵詞i和關鍵詞j之間的最短路徑長度。兩個關鍵詞間的距離越大,相互之間建立聯系就越困難,進行組合的可能性也就越小。由此可知,degreei×degreej/(distanceij)2反映了關鍵詞i和關鍵詞j之間進行組合的潛力。算式的值越大,兩個關鍵詞間進行組合的可能性也就越大。分母n 表示關鍵詞網絡中節點的總數。公式(1)表明,一個關鍵詞的組合力是該關鍵詞與網絡中所有其它關鍵詞進行組合的潛力的平均值。
在知識要素的應用情境方面,關鍵詞出現在不同主題的文檔中體現了其不同的應用情境。本文使用信息熵來衡量知識元素應用情境的多樣性。信息熵的概念由Shannon 等[17]提出,用于對信息進行量化,以反映系統所含信息的復雜性或多樣性。一個知識要素的信息熵高,意味著該知識要素所包含的信息或知識具有多樣性,能夠應用于不同的情境。知識要素i 的信息熵由以下公式計算:

公式(2)中j代表不同于關鍵詞i的其它關鍵詞,pj|i表示同時含有關鍵詞i和j的文檔數與含有關鍵詞i的文檔數的商。
本文通過組合力和信息熵兩個指標對具有技術含義的關鍵詞進行聚類分析,從而找出能夠代表熱點技術的知識要素。
5G 技術是當前備受關注的熱點,具有廣闊的應用前景,對人們的生產生活方式可能產生重大的影響。因此,分析5G 技術領域的研究熱點具有重要的現實意義。本文以5G 技術為分析對象,研究如何通過文本信息挖掘來識別出領域內的研究熱點。我們從web of science 核心合集數據庫中檢索了2013 至2018 年間以5G 技術為主題的文章,共11 429 篇。圖1 顯示了各年的文獻數量分布情況。從圖中可以看出,2013 年與5G 技術相關的文獻還非常少,隨后逐年增加,到2017 年文獻數量達到最多。

圖1 文獻分布
本文所提出的組合力概念的計算要基于關鍵詞網絡。本文所收集的11 429 篇文獻共包括18 077 個關鍵詞。為篩選出重要的關鍵詞,我們首先對關鍵詞出現的頻率特征進行分析。圖2 顯示了關鍵詞的頻率分布情況。圖中橫軸是關鍵詞出現的次數,縱軸是對應的頻率在所有出現頻率中的比例。從圖中可以看出,絕大多數的關鍵詞出現的次數都非常少。具體來講,有13 595 個關鍵詞只出現了一次。圖2中黑色的虛線是對散點圖進行擬合的冪函數趨勢線。擬合優度R2的值為0.871 4,表明趨勢線能夠很好地擬合各點的分布。由此可知,關鍵詞出現的頻率成冪律分布。冪律分布是信息計量中典型的統計分布,揭示了“重要的少數,次要的多數”的思想[18]。基于關鍵詞冪律分布的特征,我們選擇少數重要的關鍵詞進行分析,把目標確定在出現頻率在10 次以上的567 個關鍵詞。

圖2 關鍵詞冪律分布
為避免信息重復,我們首先對567 個關鍵詞進行預處理,縮寫詞和原詞、單復數形式根據具體情形只保留一個,并在文檔中做對應的處理,最終獲得489 個關鍵詞。圖3 顯示了出現頻率最高的100個關鍵詞。關鍵詞在圖中的字號越大,表示出現次數越多。

圖3 關鍵詞詞云
關鍵詞網絡建立在關鍵詞所在文獻中的共現關系的基礎上。論文的摘要概括了文章的主要內容,且信息更為精煉,能夠在一定程度上減少信息噪聲。因此,本文基于關鍵詞在論文摘要中的共現關系來構建關鍵詞網絡。為保證關鍵詞共現關系的準確性,避免兩個并無實質關聯的關鍵詞在論文摘要中的偶然共現對關鍵詞網絡結構造成的影響,我們首先對489 個關鍵詞進行關聯分析,挖掘出有顯著關聯的關鍵詞組合[19]。
關聯規則是數據挖掘的主要方法之一,用于從大量數據中發現事物間的相關性或關聯。關聯規則分析的結果一般以規則的形式出現。規則中包括了具有相關性的項目(item),這些項目以一定的頻率同時出現。判斷關聯規則有效性的常用指標有支持度、置信度、提升度等。表1 對這三個指標做了說明。

表1 關聯規則的常見指標
本文用文獻的摘要來作為構建關聯規則的事務集。由于事務集數據量較大,結合關鍵詞詞頻與文獻數的比例關系,我們把支持度的閾值設在0.1%。為保證所挖掘出的規則的可靠性,把置信度的閾值設在60%。我們得到的所有關聯規則的提升度都大于1,表明這些規則是有意義的。表2 列出了10 大高支持度的關聯規則。

表2 關聯規則示例
根據關聯規則挖掘的結果,我們構建關鍵詞網絡。如果兩個關鍵詞出現在同一條關聯規則中,則將這兩個關鍵詞相連。在初步構建的網絡中有237 個孤立節點。也就是說,有237 個關鍵詞在關聯規則結果中未發現有與之進行組合的其它關鍵詞。由于這237 個節點不滿足核心技術要素應具有的高組合性的特征,將其從網絡中去除。關鍵詞的程度中心度是計算組合力的基礎,為準確地反映知識要素的組合力,排除非技術要素對計算結果的干擾,我們對剩余的252 個關鍵詞進行進一步篩選。一些介紹性的高頻關鍵詞(如5G、5G mobile communication、5G systems)、體現性能的關鍵詞(如performance, energy efficiency,reliability)等,都從關鍵詞網絡中去除,最終保留具有技術含義的關鍵詞173 個,進而構建如圖4 所示的包括173 個節點的關鍵詞網絡。這個關鍵詞網絡反映了5G 領域的技術要素間的組合關系和技術鄰近性。我們需要從這173 個關鍵詞中識別出能代表5G 領域技術研究熱點的關鍵詞。

圖4 關鍵詞網絡
為從173 個代表知識要素的關鍵詞中識別出技術研究熱點,我們首先根據本文第一節提出的公式計算出173 個關鍵詞的組合力和信息熵,然后以組合力和信息熵作為指標,使用K 均值聚類法來把這些關鍵詞劃歸到不同的類別。由于聚類指標的數值有較大的方差,在聚類前先對聚類指標進行了標準化處理。我們采用輪廓系數(silhouette width)來確定合適的聚合類數[20]。由于聚類指標數為2,一般來講可以把關鍵詞聚為2-4 類,對應的輪廓系數分別為0.450 5、0.546 9、0.470 1。可見聚類數為3 時,輪廓系數最大。因此,本文把173 個關鍵詞聚為圖5 所示的三類。

圖5 聚類結果
從圖5 中可以看出,三個聚類間的界線明顯,聚類效果良好。表3 列出了三個類的具體聚類指標信息。

表3 聚類指標信息
從表3 中可以看出,第一類的8 個關鍵詞信息熵和組合力都較高。第二類的61 個關鍵詞信息熵和組合力都較低。第三類的104 個關鍵詞有較高的信息熵,但組合力較低。我們重點關注第一類的8 個關鍵詞。信息熵高,說明這8 個關鍵詞能夠應用于不同的情境。組合力大,說明這8 個關鍵詞能夠與不同的知識要素進行組合,是領域內技術應用和創新的基礎性要素。因此,可以認為,這8 個關鍵詞代表了5G 領域的熱點技術要素。表4 列出了這8 個關鍵詞及其組合力和信息熵的具體數值。

表4 核心技術關鍵詞
對上文發現的8個關鍵詞的技術內涵進行分析,可以歸納出5G 領域的技術研究熱點包括以下三類:一是信號傳輸技術。相關關鍵詞有MIMO(Multiple-Input Multiple-Output,多輸入多輸出天線系統)、beamforming(波 束 成 型)、OFDM(orthogonal frequency division multiplexing,正交頻分復用)、successive interference cancellation(串行干擾抵消)。二是核心元件技術,相關關鍵詞有antenna(天線)、receiver(接收器)。三是架構技術。相關的關鍵詞是cellular network(蜂窩網絡)、mobile edge computing(移動邊緣計算)。其中,四種信號傳輸技術有效解決了毫米波在傳輸過程中存在的天線增益、路徑耗損、頻譜資源緊缺等問題。蜂巢網絡是5G 傳輸的基礎架構。移動邊緣計算是基于5G 演進的架構,把無線網絡和互聯網有效融合在一起,并在無線網絡側增加計算、存儲、處理等功能,為各類應用的植入提供了開放式的平臺。由此可見,以上技術解決了5G 應用中的關鍵性問題,讓5G 通訊及其應用成為現實,是5G 通訊領域的技術研究熱點。
本文以5G 技術為例,提出了一種識別研究熱點的新方法。與已有的相關研究把專利作為分析素材不同,本文以科技論文的關鍵詞和摘要作為分析對象,通過文本挖掘的方法從眾多關鍵詞中發現熱點的技術要素,為識別特定領域內的熱點技術提供了一種新思路。我們從本體論和認識論的角度對研究熱點技術的內涵進行了剖析,指出了研究熱點技術的知識組合特征和應用情境特征。基于理論闡述,我們引入組合力和信息熵兩個指標來對具有技術含義的關鍵詞進行聚類分析,找出了具有高組合力和高信息熵的關鍵詞,并在此基礎上識別出了5G 領域的三類研究熱點技術及其具體內容。從知識內涵上看,信號傳輸技術和核心元件技術都屬于元件知識,架構技術則屬于架構知識。各種元件知識在一定架構下的組合實現了通訊領域的突破和創新。因此,本文通過聚類分析發現的結果是對前文技術本體論的印證。
本研究以5G 技術領域的相關文獻為對象進行分析。但不同技術領域的知識可能有不同的特點,其熱點技術要素的組合方式和應用情境也可能有所區別。因此,未來的研究可以對其它技術領域的文獻進行分析,以檢驗本文所提出的方法的健壯性。