陳 悅,宋 凱,劉安蓉,曹曉陽
(1. 大連理工大學科學學與科技管理研究所暨WISE實驗室,大連 116024;2. 中國工程科技創新戰略研究院,北京 100089)
顛覆性技術宏觀邏輯路徑(圖1),展現出技術體系中由先導技術和主導技術突破而引起的相關技術的變革,從而發生技術體系的更新變換的歷史大尺度的技術發展圖景。以紡織技術、蒸汽動力技術、內燃機技術、控制技術、集成電路技術、生物技術、信息技術等為代表的顛覆性技術,帶動先導技術和主導技術的突破變革,最終導致技術體系的變換而顯現出顛覆性意義。
隨著技術體系內部的矛盾運動,子系統內部及其之間體現出匯聚融合的趨勢。當代 “會聚技術” 概念的正式提出[1]、美國國家研究理事會《融合:推動生命科學、物理科學、工程學等跨學科整合》的發布[2],表明學科交叉、技術融合趨勢日益顯著。日益成為關注熱點的顛覆性技術更是呈現出了知識域界限日益模糊的趨勢,因此,導致傳統的科學技術分類方式呈現出局限性,這為本文基于學科或領域而進行的科技文獻數據檢索也帶來了挑戰。
專利是重要的科技文獻數據源,獲取精、準、全的技術域專利數據集是進行技術分析最為關鍵的基礎性工作。從事科技工作查新的研究者一般善于編寫較為復雜的檢索式,以各種數據庫中已有的分類(如專利分類代碼)或技術領域的代表詞匯作為數據檢索依據,然而,由于學科的交叉性和技術域的組合特征,專利分類代碼難以有效的涵蓋所需技術領域的所有專利,枚舉技術領域的術語也較難實現,因此,對于復雜的顛覆性技術領域的檢索結果存在查全率和查準率低下的問題。

圖1 顛覆性技術發展的宏觀歷史路徑
人工智能技術是公認的顛覆性技術,由于人工智能技術的多學科綜合和高度融合會聚的特征,使得該技術領域的專利信息檢索一直存在查全率低下的問題,不同的檢索人員所獲得的數據也會具有明顯的差異[3-6]。其具體表現在三個方面:①界定模糊。人工智能是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門學問。狹義上,人工智能是指基于人工智能算法和技術進行研發及拓展應用;廣義上,人工智能還包括應用構建在內的產業。②涉及領域廣泛。伴隨著技術的快速發展,人工智能呈現出向更廣泛的領域遷移的趨勢。③術語表達多樣化。在考察關鍵詞時,除了要從形式、角度和意義上對人工智能全面完整表達外,還需要熟悉人工智能領域本身的算法和應用。
本文提出的基于機器學習的專利數據集構建的新策略,根本目的是構建完備和精準顛覆性技術域的專利數據集提供一種新的思路和方法。多年以來,如何根據用戶的需求檢索到完整且精確的專利文獻一直是一個非常活躍的研究領域,查詢拓展方法被廣泛應用于提高信息檢索的查全率和查準率。目前,專利檢索拓展的方法主要包含:基于全局查詢拓展、基于局部查詢擴展、基于本體詞表查詢拓展和基于關聯規則查詢拓展[7](表1)。

表1 專利檢索拓展的主要方法
事實上,任何事物從無到有都是源于混沌或是有秩序的無序,人類為了便于對事物的認識,便努力尋找出其中的秩序,分類便是其中一種秩序的顯現。一方面,對于技術組成體系復雜、融合學科較多的技術域,需要該領域專家對所有專利進行嚴格的人工篩選,這需要耗費大量的時間與人力。另一方面,通過上述查詢拓展方法進行的專利檢索任務,其本質仍然是基于擴展查詢詞構建檢索表達式;而人工智能技術包含的知識和技能非常繁雜,這種查詢拓展方法仍然不能獲得高質量的搜索結果。針對這種復雜的技術知識系統,本文提出了一種基于機器學習的專利數據集構建的新策略,用文本分類的思想替代專利查詢搜索方法,讓事物回復到本原,通過分析專利內容對專利查詢活動進行研究。基于卷積神經網絡的機器學習的特點是讓計算機自主學習經過專家標記好的訓練集,對新的文本內容及類別信息作估計與預測,以搜集到相對 “精、準、全” 的人工智能專利數據,進一步形成用于技術分析的技術域數據集。
本文的基本思想是將專利檢索視為機器學習的二分類任務。以統計學理論為基礎,利用算法訓練機器,使其具有類似人類的 “學習” 能力,即對已知的訓練數據做統計分析,從而獲得規律,再運用規律對未知數據做預測分析,這樣可以改善專利檢索中的查不全和查不準等問題,有助于顛覆性技術域專利數據集的構建。目前,已有利用機器學習和深度學習來形成拓展檢索詞的相關研究[23],這種方法在一定程度上提高了專利檢索準確率,但對于像人工智能技術域這樣高度融合的復雜知識系統而言,還無法滿足技術域專利數據集的完備性。

圖2 專利文本分類流程圖
基于上述內容,本文提出使用文本分類的方法來構建顛覆性技術專利集的新策略和流程(圖2)。其中,分類模型基于對規模等同的 “正” “負” 兩個樣本集進行訓練來建立, “正” 樣本集是指確定為某技術域的專利數據集, “負” 樣本集是指確定為非該技術域的專利數據集。為驗證F-measure 特征最大化在特征選擇階段的優越性,進而構建合適的分類模型,本文構建了三種模型用于評估和測試,即 “基于卷積神經網絡(convolutional neural net‐works,CNN)結構” 的文本分類、 “基于文檔嵌入word2vec (word to vector) 的CNN” 文 本 分 類 和 “基于F-measure 特征最大化學習的CNN” 文本分類。
卷積神經網絡(CNN)是模擬生物的視覺神經機制的一種神經元網絡,最初應用在對大型圖像的處理上,隨后在各種自然語言處理任務中也有著令人矚目的表現。基于CNN 的文本分類,既可以考慮到詞語之間的關聯聯系,也可以利用單詞順序的位置信息。CNN 模型將原始文本作為輸入,無需太多的人工提取特征,本文搭建的用于分類的CNN模型結構共分為7 層(圖3)。第一,輸入訓練文本的索引單詞(輸入層,Input Layer);第二,將詞匯索引映射到低維度的詞向量進行表示(嵌入層,Embedding)①選取每條專利的長度為250個單詞,每個單詞表示為200維的向量,所以每條專利可以表示為一個250×200的二維向量。;第三,縮小向量長度(卷積層,Conv1 Layer),將單詞向量合并為大的特征向量(池化層,Pooling Layer),卷積核寬度的設置要與每個單詞的維度相等②本文中卷積核的設定為200。;第三,正則化卷積神經網絡(第五層Dropout 層),使神經元可以單獨學習有用的特征;第四,由于本文只有 “正” 和 “負” 兩種類別,故將向量長度收縮到2(兩層全連接層,Fully Connected Layer2)。

圖3 CNN模型結構示意圖
深度學習的本質是對事物表示的學習,構建單詞的表示是關鍵。文本分類的機器學習模型的構建前提是提取文檔的特征,已有的文本特征提取方法,如TF-IDF(term frequency-inverse document fre‐quency)[24]、信息增益法[25]、互信息法[26]等,均需要人為的設置特定閾值和詞語篩選,這在某種程度上會損失文檔部分信息,而使用word2vec 模型可以有效解決這個問題。
word2vec 模型[27-28]是淺層的、雙層的神經網絡,用于生成詞嵌入向量模型,其核心思想與自動編碼器類似,即將某個單詞作為輸入的隱藏層,并試圖重新建構單詞的上下文。word2vec 將大量文本作為其輸入,并且產生幾百維的向量空間,文檔中的每一個唯一的單詞在向量空間中被映射為一個固定長度的短向量,向量空間為文檔集合詞語的向量表示,向量距離代表詞語之間的相似程度。
word2vec 模型主要有兩種模型,即CBOW 模型和Skip-Gram 模型。本文選用Skip-Gram 模型,其目標函數為

其中,c代表上下文的窗口大小,c越大,訓練樣本越多,準確率越高。基于訓練數據構建一個神經網絡,得到一個200 維的向量空間,利用訓練好的模型所學的參數作為卷積神經網絡中的嵌入層。
特征最大化方法(feature maximization)作為一種無偏度量方法,可以用于分類的質量評估,在特征選擇階段可以提取聚類關聯特征,進一步提高分類器的精度。其主要優點是無參數,適用于高維數據聚類及算法設計,并在分化(discrimination)和泛化(generalization)之間表現出比通常指標(歐幾里得、余弦或卡方) 更好的和解性(compro‐mise)[29]。特征最大化方法的定義為:一組特征F是數據集D經一種分類方法得到分區C的表征方式,在數據集D為文本數據的情況下,特征由文檔提取的術語表示。那么,某個聚類c(c∈C)的關聯特征f的度量指標FFc(f)被定義為 “特征召回率(feature recall) FRc(f)” 和 “特征主導率(feature predominance)FPc(f)” 的調和平均值。即


其中,表示數據d的特征f的權重;FFc(f)表示聚類c的所有關聯特征;FPc(f)表示特征f表征聚類c的能力度量值;FRc(f)表示特征f表征聚類c區別于其他聚類的能力度量值。
在特征提取過程中,可以依據特征值的F測度,從中選擇得分最高的特征項,被判定給某聚類的特征項的F值既要大于所屬聚類的F平均值,又要大于所屬分區所有特征的平均特征值,在任何類中,不滿足第二個條件的特征項都要被移除。另外,定義對比度(contrast)這個特定概念來計算給定類c中保留特征f的性能:類c的特征f的對比度越高,其在描述類內容時的性能越好。對比度可以表示為

該方法已經成功地運用在許多復雜的文本分類任務中[30],與現有的一些先進的方法技術相比已經顯示出非常優越的性能,其主要的優點是與語言無關,且無參數。本文將特征最大化的特征提取方法嵌入卷積神經網絡的第二層中。
德溫特專利數據庫(Derwent World Patents Index,DWPI)的深加工數據是現今業界最受信賴的專利研究信息來源,其收錄的專利信息均是由各個行業的技術專家進行重新編寫、矯正和補充,其深入縝密的編輯流程和質量控制保證了專利數據的權威性和準確性。因此,DWPI 是進行專利分析的理想數據源,但由于DWPI 中分類代碼中沒有人工智能的分類代碼,且手工代碼為 “artificial intelligence” 的專利僅有4640 條①檢索日期:2020.3.14;檢索式:MAN=(T01-J16 OR T06-A05A OR X13-C15B),本文無法獲得明確的AI(artifi‐cial intelligence)專利數據。美國專利數據庫(Unit‐ed States Patent and Trademark Office,USPTO)中美國專利分類體系(United States Patent Classification,USPC) 有一個明確的人工智能分類,即706 類 “Data processing:Artificial intelligence” 中共有專利13539 條(1974—2015)②檢索日期:2020.3.15;檢索式:CCL/706/$,但由 于USPTO 于2015年用聯合專利分類體系(Cooperative Patent Classifi‐cation,CPC)取代USPC 分類體系,之后該分類號下的專利不再更新。為了在DWPI 中獲取全部AI 專利數據,本文以USPTO 中提取的人工智能專利作為正樣本數據集進行實驗,形成規則,進而形成較為完備和精準的AI 專利數據集。
實驗數據集由 “正” 和 “負” 兩個樣本集構成(圖4)。正樣本數據由13500 條源于USPTO 的AI 專利數據和依據Acemap 知識圖譜(AceKG)中人工智能主題下的本體詞表獲取的500 條短文本數據組成。由于USPTO 于2015 年后不再使用USPC 分類體系,故對于近年的AI 專利信息是缺失的。但是AI是一個快速發展的領域,其新名詞、新術語不斷涌現,因而本文通過AceKG 來拓展相關信息,以保證檢索的完備性。AceKG[31]提供了近100G 大小的數據集,包括論文、作者、領域、機構、期刊、會議、聯盟,支持權威和實用的學術研究,通過計算機科學主題的學術知識圖譜獲取子話題 “人工智能” 的詞表(1052 個主題詞),可以生成500 條短文本信息①短文本數據示例:artificial intelligence expert system knowledge engineering environment reasoning system SLD resolution legal expert system,最終,獲得正樣本數據共14000 條。

圖4 訓練數據集構成示意圖(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
由于本文最終要進行分類的數據是DWPI 中手工代碼Section T(computer science)下所有的專利,故負樣本數據要從同一級別其他分類代碼中進行選取,而且數據規模要等同于正樣本集,即由14000條專利組成負樣本集。具體抽取方式如附表1 所示,并且本文已通過人工專業知識從負樣本專利集合中過濾掉與人工智能相關的專利,確保了負樣本數據的準確性。
3.2.1 數據預處理
抽取正、負樣本數據集中的標題字段和摘要字段寫入到訓練文本中,訓練文本中的每行數據代表一個專利的標題加摘要信息,并對每一篇專利標明類別標簽,正樣本為1,負樣本為0。然后,對訓練文本進行單詞標準化和停用詞的處理,并去掉標點和符號。
隨機抽取1000 條專利數據(正樣本500 條、負樣本500 條),專利長度統計結果(圖5)表明,專利文本長度基本在50~250 個單詞的范圍之內,為了方便之后對全部專利文本做批量處理,需要對訓練文本進行固定長度截取,本文截取了每條專利的前250 個單詞,盡可能保留每條專利的全部信息。

圖5 專利文本長度統計
3.2.2 生成文檔詞向量
通常在訓練機器學習模型時,將數據分為訓練集、驗證集和測試集。訓練集用于訓練模型以及確定模型權重,驗證集用于進一步網絡調參,測試集可以評估模型的精確度。本實驗將全部數據集按照8∶2 分為訓練集和測試集,將訓練集按照9∶1 的比例分為交叉驗證的訓練集和驗證集。本文使用了三種模型進行文本分類。
模型1:基于卷積神經網絡結構的文本分類
首先,本文使用深度學習Keras 工具提取訓練數據和測試數據的特征,將訓練數據中的專利文本處理成單詞索引序列,單詞與序號之間的對應關系通過此單詞索引表進行記錄;其次,將每行專利處理成相等長度(長度不足的專利內容用0 索引填充);最后,使用圖2 中的CNN 模型訓練分類器進行文本分類。
模型2:基于文檔嵌入word2vec 的CNN 文本分類
標記好的訓練樣本規模較小是本文在訓練文本分類模型時面臨的一個問題,這使得準確權威的訓練樣本尤為重要。因此,本文將預訓練好的word2vec模型遷移進分類模型,替代CNN 模型的嵌入層,word2vec 模型已經被證明可以大幅度提高自然語言處理模型在文本分類上的性能[32],降低學習成本。使用預訓練好的word2vec 模型,既可以間接引入外部訓練數據防止過擬合,又可以減少訓練參數個數提高計算效率,使本文可以在更少的訓練樣本上得到更可靠的分類模型。
word2vec 模型可以根據原始語料對每個詞生成一個詞向量,訓練樣本的每一行代表這一篇專利即一個詞語序列,使用預訓練好word2vec 的Skip-Gram 模型對訓練文本進行處理,因此,對于每一篇專利都可以將其轉化為一個200 維的向量,即每篇專利可以表示為一個250×200 的矩陣,其中250代表每行訓練樣本單詞的個數,200 表示每個單詞表示為200 維的向量。將通過word2vec 方法建立起的詞嵌入矩陣代替CNN 模型中的嵌入層,設置嵌入層的參數為固定參數使其不再參與訓練過程,這樣就使得由Skip-Gram 模型提取的詞向量表示嵌入到CNN 模型之中,最后進行分類器的訓練。
模型3:基于F-measure 特征最大化的文本分類方法
特征最大化已被證明可以在小規模的專利數據集中有效的選擇特征[30],本文利用F指標對監督學習的文本分類過程進行特征提取,將特征最大化方法與卷積神經網絡模型相結合。首先,本文使用由斯圖加特大學計算語言學研究所開發的TreeTagger工具[33],將訓練文本轉換為詞袋模型,則每一篇專利可以表示為一個詞頻向量(由從其摘要和標題中提取的術語頻率組成)。為了減少該工具所產生的噪聲,在提取描述符的過程將頻率閾值設置為20,整個訓練文本集合表示為(N+1)×J矩陣,其中,J是N維空間中訓練樣本所包含的專利數量;N+1 表示為第J篇專利的N維詞包加上其類標簽。其次,使用TF-IDF 加權方案給出訓練文本的稀疏矩陣表示[34],此矩陣為訓練樣本的特征詞的權重矩陣,依據特征最大化方法選擇文本特征,使用上述特征最大化過程選擇單詞的構成,在保證原文含義的基礎上找到最具有代表性的單詞,即過濾特征。最后,本文得到了對訓練文本進行表示的特征矩陣,將此矩陣替換CNN 模型中的嵌入層進行分類器的訓練。
在整個數據集上使用上述三種模型進行訓練測試,并且在所有的實驗中均應用十次交叉驗證過程。交叉驗證是用來驗證分類模型性能的一種統計分析方法,是為了得到可靠穩定的模型,其基本思想是將原始數據集分為訓練集和驗證集。其中,訓練集用于訓練分類模型,驗證集用于分類模型的選擇。本實驗選擇了K倍交叉驗證(K-fold cross validation),Keras 允許在訓練期間手動設置訓練數據集和驗證數據集的比例,本研究使用全部數據集的80%用于訓練、20%用于測試,將22400 條訓練數據平均分成10 份,使用第2~10 份數據作為訓練集訓練模型,使用第1 份數據作為驗證集評估模型,得到一個模型準確度評分。然后,微調網絡參數,再使用第1份和第3~10 份數據重新訓練模型,使用第2 份數據對模型進行精確度評估。以此類推,把每一次交叉驗證結果的均值進行比較,最終選出一個最優值。
ROC 曲線(receiver operating characteristic curve)下方面積可作為評價分類模型優劣的指標,線下面積越接近于1,曲線越凸向左上方向,則分類器效果越好。由圖6 可見,三個模型所訓練出的分類器效果都較為理想,其中模型3 的分類器正確率最高。
二分類模型的單個樣本預測有4 種結果,這4種結果可以寫成一個2 × 2 的混淆矩陣,如表2所示。
以表2 的混淆矩陣為基礎,本文選擇準確率、召回率和F1 值作為分類模型的評價指標。其中,所有樣本能夠被正確預測的比例稱為準確率:

實際為正類的樣本中,能夠被正確預測為正類的比例稱為召回率:


圖6 不同分類器模型的ROC曲線

表2 混淆矩陣
F1 值用精確率和召回率的調和平均數表示:

一共存在5600 條專利文本作為測試數據,對本文所訓練的評估模型進行檢驗(表3),由模型3 訓練得到的分類結果最好,將人工智能專利預測為正類的數量為2798 個,將非人工智能專利預測為負類的數量為2686 個。實驗結果表明,本文所提出的技術能夠在測試集上較為精確區分正例(即AI 專利)和負例(即非AI 專利),最高能夠達到了98.01%的分類準確度。因此,本文所提出的方法證明了對構建人工智能技術專利數據集的有效性。
利用訓練后的最優分類模型對德溫特數據庫(Section T)①檢索日期:2020.4.20;檢索式:MAN=(T01*OR T02*OR T03*OR T04*OR T05*OR T06*OR T07*);時間跨度:1963-2019;檢索結果:7307036件專利中的專利內容進行遍歷和挑選,分類出人工智能專利構成人工智能技術專利數據庫,共693281 件。按照德溫特入藏登記號(GA 字段)對專利數據進行去重,并按照申請號對同族專利進行合并,最終獲取624234 件人工智能的申請專利。1963—2019 年,全球人工智能領域的專利申請數量呈現指數型增長趨勢,并由三個階段性增長曲線構成(圖7)。

表3 分類結果

圖7 全球人工智能領域專利數量及發展趨勢
目前,人工智能無處不在,尤其在主要工業領域中均有應用。因此,有效且完整的搜索策略不能局限于特定的工業領域。此外,人工智能的定義非常靈活,會隨著時間的推移而發展,昨天被視為人工智能領域的技術現在可能被視為常規技術,新技術每天都在被發明和創造中。這意味對于人工智能技術專利數據集的查詢,本文必須考慮到非常廣泛的技術群。
嚴謹的技術域專利檢索不應該是一鍵式檢索,而應該是一種探索或者說是向精、準、全的檢索結果不斷攀登的一個過程。傳統的查全與查準平衡理論,對人工智能領域主題的全面、精準分析不再適合,在掌握數據分析的工具與理念、可視化工具的背景下,應當以查全優先,這樣在后續的可視化分析中更容易提取相關的記錄,而不至于有所遺漏。對于某些學科、專題和微小的遺漏或許會造成重大的失誤。
本文從文本分類的角度,對人工智能技術域的專利數據集構建做了一次有效的嘗試,將專利檢索任務成功地轉化為機器學習中的文本分類任務,并將F-measure 特征最大化方法與CNN 模型相結合獲得了一個較好的分類效果,分類模型的準確率、召回率和F1 值分別達到98.01%、97.04%和97.89%。實驗結果表明,利用種子數據集擴充到完整數據集的這種思想是有效的、可行的。值得強調的是,有效的語料庫和干凈的文本數據是本文進行文本分類的重要保障,本文所使用的訓練數據集是由人工智能專家進行標注,且從時間和范圍上最大程度覆蓋了人工智能領域的技術群。然而,由于人工標注成本高、耗時長,訓練樣本集不夠豐富,在未來的研究工作中,本文將通過主動學習(active learning,AL)進一步提高分類模型在人工智能領域的泛化能力。

附表1 正負訓練樣本集抽取方法