新興技術(Emerging technologies)可以定義為“具有激進新穎性、相對成長較快的技術”。其特點是隨著時間推移,有一定程度的相關性,而且有潛力對社會領域帶來相當的沖擊。其沖擊可以用行動者、組織的組成及彼此互動的模式,以及其中相關的知識產生過程來觀察。不過其對未來有最顯著的影響,因此在這些技術剛剛浮現的階段,仍然有一些不確定及模糊[1]。
傳統的技術分析方法有德爾菲法、情境分析法、關鍵技術法、趨勢外推法、層次分析法和決策樹法等[2],但這些方法主要以定性分析為主,缺少定量分析。進入大數據時代后,面對海量的、可開源獲得的數據信息,運用“技術挖掘”(Tech mining)剖析和分析大量有價值的信息,從而對新興技術進行預測和選擇[3]。
本文研究了一種基于自然語言處理技術對美國小企業創新研發計劃(Small Business Innovation Researchand Development Program,SBIR)項目海量文本信息量化的分析挖掘方法,揭示美國軍方在以軍事智能技術為代表的新興技術領域的戰略布局情況。通過對美國軍方SBIR計劃項目信息進行新興技術與戰爭類型、作戰能力之間多維度關聯關系的挖掘分析,可以發現隱含的、先前未知的并有潛在價值的信息決策支持過程,能幫助決策者調整策略、減少風險、制定正確的決策。
美國小企業創新研發計劃是美國扶持本國高技術中小企業創新,推動國家實驗室、大學與中小企業合作的國家計劃。自1982年以來,美國國防部作為軍方參與SBIR計劃,每年向中小企業資助10億美元以上的研發經費,以獲取國防部所需的前沿技術、新裝備和新服務。
美國國防部通過實施SBIR計劃,增強了美軍全球科技競爭力。主要表現為:一是國防部以相對較低的經費投入獲得較高的軍事效益,其SBIR計劃半數以上項目成功轉化并應用到武器裝備;二是一些高科技型中小企業受益明顯,如微軟、英特爾等知名企業在成長過程中都曾受過SBIR計劃的資助;三是大型軍工企業大量收購該計劃的創新成果,如雷聲、波音、洛克希德·馬丁公司等大型軍火承包商都非常關注國防部的SBIR計劃,并積極采購中小企業創新成果;四是在前沿技術領域產生了大批高水平論文和發明專利,提升了軍事科技創新能力[4]。
綜上所述,美國國防部SBIR計劃項目文書中蘊藏著大量的新興技術信息,具有較高的分析研究價值。
關于SBIR項目價值分析研究,有的學者分析了中小企業科技創新對促進國防科技創新的必要性和總結了美國軍方實施SBIR計劃的經驗做法[4],有的學者提出了美國軍方實施SBIR計劃的啟示[5]。關于新興技術挖掘方法研究,有的學者提出了基于技術關鍵詞從專利文獻文本中挖掘新興技術的方法[6],有的學者研究了挖掘醫療健康領域新興信息技術的方法[7],有的學者提出了一種在室內空氣凈化技術領域基于科技文獻數據的技術識別與技術預測方法[8]。
當前國內外主要基于Web of Science數據庫(SCI/SSCI論文庫)、Derwent專利庫等商業數據庫開展大部分領域新興技術挖掘工作,利用湯森路透公司提供的TDA軟件等工具進行固定模式的分析。然而,此類工作方法存在3方面的限制,一是可分析的文檔數量受限制(通常為千篇量級),二是文檔類型限定在科技文獻范圍,三是分析維度限定在科技文獻常見元數據字段(如作者、機構等)。
本文提出的分析方法可支持分析海量(百萬篇以上)多類型(項目描述、新聞動態、科技文獻)文本、支持面向特定任務需求靈活建模、支持基于文本分析技術抽取后的命名實體進行關聯挖掘分析,較大程度地解除了前人分析工作的限制。
本文采用了如圖1所示的新興技術挖掘分析方法框架,主要分為3個階段:一是通過掃描抽取權威信息源數據,建立技術高頻詞庫;二是對技術關鍵詞進行聚類分析和時序分析,判定技術種類、技術熱度、新技術研究方向;三是通過對應用領域合理建模,從多維度分析評估技術功效。

圖1 SBIR項目新興技術挖掘分析方法框架
技術挖掘應優先選擇質量有保證的權威數據源,在確定核心數據源的同時配備一些輔助分析資源,結合各種信息資源的可用性特點,確定技術挖掘的優先次序。
本文選用SBIR項目數據庫作為核心數據資源和全面分析對象,力圖挖掘項目文本描述信息中的多維度關聯關系。由于其數量有限導致的稀疏性問題,給技術發展趨勢分析和熱點判斷造成一定困難。可借助海量科技文獻和專利數據信息輔助開展新技術發現,利用廣泛權威來源的相關新聞動態信息進行技術熱度分析,提升技術挖掘分析結論的全面性和準確性。
本文選擇的具體數據源情況如表1所示。

表1 選定的開源數據源
技術高頻詞是指在文檔集中出現次數較多的技術術語,其難點在于對技術術語進行識別和發現。技術術語的來源主要包括文檔關鍵詞、主題詞表/敘詞表、文本中抽取的技術類名詞短語。研究發現,自帶關鍵詞信息的科技文獻和SBIR項目信息不到50%,新聞動態類信息基本不帶關鍵詞等標注信息。
為了全面分析各來源數據,對無結構自由文本是采用基于NP-Chunking[9]的名詞短語識別方法,識別出的名詞短語還需通過預先訓練的SVM[10]分類器判定是否為技術類術語。對選定的軍事智能領域的海量科技文獻、發明專利和新聞動態自由文本進行技術術語識別后,依據出現頻次進行統計并由高到低排序可得到軍事智能領域技術高頻詞庫。頂端部分樣例數據如表2所示。
在技術高頻詞庫的基礎上,可通過對技術術語年度出現頻次序列進行對比分析,判定該術語是否為新興技術術語。如根據某術語是否為近5年來首次出現的新詞、高頻出現的熱詞、出現詞頻和5年前出現詞頻排位提升最大等統計特征產生新興技術術語候選詞列表。以軍事智能領域為例,通過3種不同的統計方法篩選出新興技術術語2 466個。軍事智能領域新興技術術語候選詞示例見表3。
通過領域專家對新興術語候選詞進行綜合研判,梳理出的軍事智能新興技術領域詞簇見表4。
本文從戰爭類型和作戰能力兩個維度進行軍事實踐場景建模,并結合新興技術領域進行關聯分析。通過對SBIR項目描述文本進行基于特征觸發詞規則的名詞術語抽取,經高頻詞統計排序后由領域專家梳理,得到戰爭類型、作戰能力維度特征詞簇(表5、表6)。

表2 軍事智能領域技術高頻詞庫示例

表3 軍事智能領域新興技術術語候選詞示例

表4 軍事智能新興技術領域詞簇

表5 戰爭類型特征詞簇

表6 作戰能力特征詞簇
實驗設計以近10年美國軍方SBIR項目文本數據為核心依據,同時對廣泛關聯相關的科技文獻、專利信息、新聞動態文本信息進行佐證分析,基于軍事智能新興技術命名實體、戰爭類型命名實體、作戰能力命名實體在上述文本中語句級的共現關系,從多個角度量化分析軍事智能領域的新興技術詞簇與戰爭類型、作戰能力詞簇之間的關聯關系。通過對分析結果的可視化展示,直觀揭示先前未知的潛在信息的價值,驗證本方法的有效性和實用性。
分別從年度項目數量和年度項目經費的角度,對2009-2018年軍事智能領域相關SBIR項目部署情況進行分析,發現軍事智能領域年度項目絕對數量基本保持平穩,相比軍事相關的全部領域(簡稱“全領域”)項目,軍事智能領域年度占比加速提升,表現出良好的發展勢頭(圖2,圖3)。

圖2 2009-2018年SBIR年度項目數對比

圖3 2009-2018年SBIR年度項目經費對比
2012-2018年間有關軍事智能的年度新聞動態數量,整體呈現明顯的上升趨勢,說明軍事智能研究領域引起了全球范圍內的廣泛關注,具備較好的持續性和熱度(圖4)。

圖4 2012-2018年軍事智能相關新聞動態情況
2014-2018年間SBIR項目中軍事智能領域相關項目數相對占比見圖5,發現大數據分析、無人技術、機器學習和模式識別研究領域占據主流位置,說明4個研究領域具備較好的軍事應用轉化需求和前景。

圖5 2014-2018年SBIR項目中軍事智能領域相關研究主題分布
通過矩陣熱力圖的形式,直觀展示了軍事智能技術領域對特定戰爭類型的支撐作用(圖6),為我軍相關作戰部門分析研究美軍的未來發展趨勢提供便利。從圖6可以看出,軍事智能技術目前多實際運用于空戰、海戰、無人戰和電子戰領域,大數據分析技術幾乎可以全面支撐各種作戰類型,無人技術領域在空戰、海戰等高技術作戰領域發揮較為顯著的作用。

圖6 2014-2018年戰爭技術共現關聯矩陣
技術功效矩陣的形式直觀展示了軍事智能技術在具體戰爭類型中可以支撐的戰爭能力(圖7)。
圖7中橫坐標為十大軍事智能技術領域,縱坐標為各種可支撐的戰爭類型,坐標系交點餅狀圖表示可支撐的作戰能力,通過餅狀圖中的百分比可體現對該作戰能力的支撐程度。從圖7可以看出,大數據技術可以普遍提升各種戰爭類型的信息感知能力和數據分析能力,無人技術可以提升電子戰和新概念戰爭中的作戰能力和生存能力。
本文研究的基于海量文本挖掘的新興技術分析方法,具備支持分析海量多類型文本數據、支持面向特定任務需求靈活建模、支持基于自由文本抽取的命名實體進行關聯挖掘分析等優點。 通過該方法對SBIR項目相關的海量文本信息進行量化分析,可了解美國軍方在以軍事智能技術為代表的新興技術領域的戰略布局情況。通過可視化圖表可直觀展示新興技術與戰爭類型、作戰能力之間多維共現關系。未來工作中,可嘗試進一步利用SBIR項目文本中的關聯關系語義信息開展更深入的新興技術分析挖掘工作。