馬建紅 張少光 曹文斌 王晨曦
(河北工業大學人工智能與數據科學學院 天津 300401)
科技創新在某種意義上來說即為功能的創新,利用相關的聚類技術可以將各個行業中的專利進行基于功能的自動聚類,有利于研究人員便捷地獲取相關技術領域中的集成專利信息,幫助他們了解當前最新技術的發展趨勢,提高企業的自助研發能力和企業競爭力,具有重要的現實意義。
近年來,為了打破專利的限制,提升自身的創新能力和競爭力,研究人員在專利領域開展了大量研究,并產出了大量的研究成果。江屏等[1]利用專利自身原有的結構化信息,利用國際專利分類號(International Patent Classification,IPC)聚類分析和當前領域相關技術成熟度結合,從而有效地確定了待規避的專利群和專利規避目標,突破創新,對打破專利壁壘具有重大意義。功能的創新進而引起產品技術的變革,陳旭等[2]將專利處理為技術功效對的形式,利用聚類技術,對技術功效矩陣進行聚類,能夠清楚地了解當前的技術熱點和研發熱點,為研究人員指明了技術創新方向。這些方法主要是應用統計學模型進行的專利聚類,如詞袋法和詞頻-逆文檔頻率,它們都舍棄了文本中大量的語義信息,并且存在步驟繁雜、聚類時間較長等缺點。
目前,深度學習算法在自然語言處理領域中取得了十分出色的成果,將深度學習應用到專利領域也逐漸成為一種趨勢。有研究人員開始將詞向量[3]引入到專利文本表示方面,很好地彌補了傳統算法在表達詞語和語義方面上的不足,挖掘出了詞語與詞語之間更深層次的聯系,取得了不錯的效果。Lee等[4]以最新的BERT模型為基礎,對模型進行微調,之后利用其進行專利分類。由于卷積神經網絡(Convolution Neural Network, CNN)具有很好的學習復雜、高維和非線性映射關系的能力,所以結合CNN和詞嵌入的方法進行實驗,實驗分類效果得到很大提升。循環神經網絡(Recurrent Neural Network, RNN)能夠有效地利用序列數據的序列信息,但是記憶能力因為距離的增長而變得越來越弱,存在梯度爆炸和梯度消失等相關問題。循環神經網絡的變體——長短期記憶網絡[5](Long Short-Term Memory, LSTM)能夠解決因距離而導致的依賴問題。Xiao等[6]建立了基于Word2vec和LSTM的分類模型,提取專利文本的序列化特征,學習序列之間更深層次的關系,能夠更好地對專利進行分類。近年來,注意力機制逐漸成為深度學習領域研究的一個熱點,被大量應用于QA 、情感分析、句子級別摘要[7]等方面,都獲得了不錯的效果。與此同時,注意力機制也在專利領域進行了應用,馬建紅等[8]利用長短期記憶網絡與基于注意力機制聯合雙向LSTM相結合提取專利特征,進行專利文本分類,準確率也達到了70%以上。
傳統的特征提取和聚類過程通常是分開執行的,許多研究傾向于特征提取[9-10]或者聚類算法的研究[11]。針對以上問題,本文結合深度學習技術,提出多角度特征提取(Multiple Angle Feature, MAF)混合模型,其能夠融合功能信息對專利進行動態聚類,在聚類過程中動態調整網絡參數以獲得更好的性能。
本文提出的模型框架圖如圖1所示。首先對專利文本進行前期預處理工作,包括數據清洗、分詞去除停用詞等相關操作;然后標注出專利文本中的功能語句,經過MAF混合模型提取出專利文本的特征表示;最終利用K-means算法對專利文本進行基于功能的聚類。為了優化網絡結構和獲得最好的聚類效果,可以將聚類結果的倒置輪廓系數的對數視為神經網絡的損失函數,以共同優化特征提取和聚類過程中的參數,通過調整網絡損失函數實現動態聚類。

圖1 模型框架圖
本文使用的原始語料是專利的摘要和標題,在語料處理方面,本實驗采用結巴分詞對專利文本進行分詞,此外為了增加分詞的準確性,百度百科條目也被添加到系統的同義詞庫中。例如“有利于石墨烯規模化生產”進行分詞后,得到“有利于 石墨烯 規模化 生產”。同時為了避免向量冗余,需要對文檔進行停用詞處理。
接下來進行標注工作,對于不是功能信息句的專利語句標注0,例如“0 將 金屬 鎂粉 裝入 管式 高溫爐 內”,該語句并沒有表達出任何功能信息。將功能信息句分為9類,例如將“提高 生產效率”“適宜 大規模 生產”“有利于 規模化 生產”等歸為一類。
MAF混合模型結構如圖2所示。底層主要是專利文本的向量化表示。中間層主要由深層語義表示和功能詞語關注兩部分組成。其中深層語義表示部分由雙向長短期記憶網絡聯合注意力機制(BiLSTM-Attention)部分、CNN卷積神經網絡部分、改進的權值潛在狄利克雷分布(Weight Latent Dirichlet Allocation,WLDA)主題提取部分,來共同學習專利文本的深層語義。功能詞語關注部分使用注意力機制加強對重點功能詞語的關注,最后采用并行融合的方式對特征向量進行融合,構造全局特征向量,作為聚類實驗的輸入。
詞嵌入是將文本中的每個詞表示為空間中低維、稠密的向量。在當今自然語言處理的各項任務中,它能夠包含更多的詞與詞之間的含義,相對于基于傳統的TF-IDF詞頻向量或者LSA潛在語義向量效果更好,更適用于進行深度的語義挖掘工作。
Word2vec是谷歌在2013年提出的詞嵌入訓練方法。作為一種無監督學習方式,它可以從大量文本語料中以無監督的方式學習文本的語義知識。通過一個語義空間使得語義上相似的詞語在該空間內距離很近[12-13]。為了充分利用專利文本的信息,擴充詞向量的表示能力,本文最終使用Skip-Gram[14-15]方式來訓練,得到200維的詞向量。
考慮到功能信息句長度和數量的限制,不能僅僅通過詞頻、詞性等特征進行聚類,本文結合深度學習的方式提取了功能信息句的各種特征,最終的特征表示如下所示:
Vsemantic=VB⊕VC⊕VWL
(1)
VK=[Vsemantic,VAtt]
(2)
式中:VK代表聚類的輸入;Vsemantic表示深層語義特征;VAtt代表功能詞語特征;VB代表序列特征;VC代表文本嵌入特征;VML代表主題特征。
2.4.1深層語義表示
(1) BiLSTM-Attention提取序列特征。長短期記憶網絡是在RNN的基礎上進行改進的,它以RNN為基礎加入了門的思想,由輸入門、遺忘門、輸出門和一個cell單元組成。通過門的輸入、遺忘和輸出來保持和更新細胞狀態,從而有效地克服了RNN在訓練過程中出現的梯度消失和梯度爆炸的問題。本文需要結合功能信息句的上下文特征,因此采用BiLSTM提取上下文的信息,這種結構考慮了序列的雙向特征,極大地改進了功能信息句的語義表達。針對當前語句內的第i個詞,BiLSTM抽取的特征向量為:
xi=(Cl(xi),Cr(xi))
(3)
式中:Cl(xi)是xi左邊的專利文本向量;Cr(xi)是xi右邊的專利文本向量。
在功能信息句中,每個詞對于類別的貢獻度也是不同的,例如“用于對酒精濃度的檢測”“提高了Cu微晶的耐熱性能”等,就需要特別關注“酒精濃度”“檢測”“提高”“耐熱性”等詞語,在BiLSTM層后面增加注意力層[16]可以進一步地提取專利文本之間更深層次的信息。
(4)
式中:ai為每個詞語的注意力權重。
(2) CNN提取嵌入特征。CNN在語義建模方面和特征提取方面都有著良好的表現和突破[17-18]。結合專利文本特性,本文需要提取功能信息句序列信息的不同嵌入特征。考慮到卷積核能夠捕獲文本信息的局部特征,擁有可并行化、運行速度快等優點,本文將不同的局部特征進行整合,得到功能信息句的嵌入特征。CNN首先輸入向量化的專利功能信息句,之后是卷積層和池化層,本文采用的是最大池化,對每個卷積核窗口內的輸入向量選取最大值構成新向量,公式如下:
C=max{Ci}
(5)
Z={C1,C2,…,Ct}
(6)
式中:t為卷積核的數量,在訓練期間,為了防止過擬合現象以及加快訓練速度加入了Dropout層,可以屏蔽部分隱層神經元。最后是全連接層,全連接層是把以前的局部特征通過權值矩陣進行重新組裝,最終輸出CNN文本嵌入特征向量。
(3) WLDA提取主題特征。當前大部分的概率主題模型都以LDA[19]構建的主題模型為基礎,它是一個典型的由文檔、主題和詞匯構成的三層貝葉斯概率生成模型,主要包含文檔-主題及主題-詞匯這兩個狄利克雷-多項式共軛結構。利用LDA可以從文檔中發現潛在主題,并使用主題的概率分布描述整個文檔,挖掘文檔更深層的含義。
陳磊等[20]利用Word2vec詞向量與LDA詞向量相結合的方式進行主題特征抽取。本文在其基礎上,改進了特征抽取的方式:將每個主題的前h個高概率詞語作為子集表示主題,然后將它們的概率重新調整為詞語的權重;對主題詞進行歸一化處理,即每個詞占主題的權重,將主題詞映射到Word2vec向量空間中;測量每個文檔到主題的余弦距離,以便獲得距離分布,然后將它們的距離重新調整為文檔到主題的權重,權重與主題向量的乘積即是WLDA特征向量。
文檔集D={d1,d2,…,dn},文檔中所有詞為{w1,w2,…,wm},訓練文檔集D,LDA輸出主題集{t1,t2,…,tT}下每個詞語的概率,第i個詞對主題tj的貢獻度為θij,使用Word2vec訓練文檔集D得到每個詞語固定維數的空間向量。對于每個主題向量,使用前h個高概率詞語表示,同時每個主題下的詞語概率被調整為權重,并將主題詞映射到向量空間中,公式如下:
(7)
(8)
式中:ωij表示第i個主題下第j個詞的權重;v(wz)表示詞wz訓練后的詞向量;v(ti)代表第i個主題在詞向量空間下的坐標。接下來計算每篇文檔與主題的距離,對距離進行歸一化處理得到TDi,將TDi作為主題向量的權重值,則每篇文檔的主題特征向量VWL的計算公式如下:
VWL=TDiv(ti)
(9)
(10)
式中:dti表示文檔到主題i的距離。
2.4.2功能詞語關注層
對功能信息句進行特征提取的過程中,由于句子中包含的詞數較少,難以提取關鍵信息。關鍵詞語對功能聚類十分重要,為了加強這些功能詞語在聚類中的作用,本文采用注意力機制直接從詞向量的基礎上學習每個詞的權重分類效果,如表1所示。

表1 功能重點詞分析
上文是將注意力機制與BiLSTM進行串行組合,這部分則從詞向量的基礎上直接學習得到權重,公式如下:
Vi=tanh(Wxi+bw)
(11)
(12)
式中:aAtt[i]表示第i個詞對于當前文本的重要程度;W和Va均為權重矩陣;bw為偏置。得到每個詞的權重后,假設句中的詞數為A,將詞向量按權重求和作為功能詞語部分的輸出,公式如下:
(13)
在獲得專利文本的所有特征語義表示后,本文將最終的所有特征表示提供給聚類層,以實現動態聚類操作。本文應用K-means算法來進行專利文本聚類,由于K-means容易受到初始聚類中心的影響,為了減少其隨機選取聚類中心的影響,盡量將初始聚類中心在空間上的分布與實際數據分布相同。本文采用量化的標準對相似數據進行劃分。輪廓系數是由Kaufman等所提出,旨在基于距離對聚類效果進行判斷。
Si是文本i的輪廓系數,ai是文本i到同類其他文本的平均距離,bi是文本i到最近類別內的所有文本的平均距離。文本數量為N,定義輪廓系數Sc如下:
(14)
(15)
通過特征提取和聚類過程的相互作用動態調整和優化神經網絡,將所有神經網絡的損失函數定義為輪廓系數倒數的對數,輪廓系數越大,損失函數越小。若輪廓系數的取值范圍為[-1,1],輪廓系數越接近1,代表類內平均距離遠小于最小的類間平均距離,聚類效果越優。通過最小化損失函數可以將整個神經網絡調整到最優結構,且聚類效果最優,公式如下:
(16)
定義損失函數后,可以根據損失函數對神經網絡的特征提取過程進行訓練,調整和優化網絡參數。直到損失函數達到最小,聚類過程結束。
按照國際專利分類的分類標準,本文從無機化學類(C01)共4 336篇專利中人工抽取了5 303條功能信息句,將功能信息句分為9類,每個類代表不同的功能。Lai等[21]通過理論和實驗證明,詞向量效果與數據的領域性很相關,領域性越強的數據訓練得出的詞向量表達效果越好,因此本文實驗沒有添加大量的額外語料進行訓練。王飛等[22]的研究表明混合模型算法在訓練效果上優于單一模型算法,因此本實驗采用Skip-gram+Negative Sampling+Hierarchical Softmax混合Word2vec模型訓練詞向量。
聚類評價標準有如下三種:(1) Purity即準確率,只需要計算正確聚類的文檔數占總文檔數的比例,該方法優點是方便計算,缺點是無法對退化的聚類方法做出正確評價。(2) RI是一種利用排列組合原理對聚類進行評價的手段。它將準確率和召回率看的同等重要,無法對不同適用不同場景。(3) F-measure是基于RI方法衍生出的一個方法,可以將準確率和召回率設置不同的權重,適用不同的場景需求。
為了驗證本文模型的有效性,本文采用評價標準F-measure。該標準經常被用作衡量聚類方法的精度,是一種平面和層次聚類結構都適用的評價標準,可以結合準確率P和召回率R做出更為綜合的評價。其公式如下:
(17)
(18)
(19)
式中:nij表示類Cj中屬于Ki的專利文本數。聚類的總體F-measure值則可用每個類的最大F-measure值并采用該類的大小加權之后的綜合,公式如下:
(20)
式中:Dj是第j類的專利文本數量。F-measure取值范圍為(0,1),某值越大表示聚類效果越好。
實驗參數的選取直接影響最后的實驗結果。通過固定參數的方法,分別比較了100維、150維、200維,卷積核大小為3、4、5、6、7,滑動窗口的數量取16、32、64,Dropout的比例為0.3、0.5、0.6對實驗結果的影響。通過對比以上參數對模型準確率的影響,當取表2所示的參數值時CNN模型取得了較好的分類結果。

表2 CNN相關實驗參數
使用不同大小的卷積核可以抽取句子的不同嵌入特征,對嵌入特征進行合并能夠抽取更加全面的特征。卷積層采用ReLU激活函數避免了神經元的失活現象,并且可以加快神經網絡的收斂,不會影響卷積層的效果。使用Adam優化算法,計算每個參數的自適應學習率,收斂速度更快,學習效果更有效。
BiLSTM-Attention的參數也使用了同樣維度的詞向量,層數為2層,隱藏層大小對比了128和256,同時加上Attention層。經過對比,隱藏層大小為128時效果最好,同樣使用Adam作為優化算法,不斷迭代更新網絡參數,加快模型收斂速度。相關參數如表3所示。

表3 BiLSTM-Attention相關實驗參數
3.4.1動態聚類有效性驗證
為了驗證模型動態反饋部分的有效性,本文在相同實驗條件下進行了兩組不同的實驗,實驗結果的F-measure值如表4所示。Baseline實驗是單獨的混合模型,但是并沒有加上動態反饋部分;Baseline[Feedback]實驗是在Baseline實驗的基礎上加入了動態反饋部分。

表4 對比實驗結果
實驗結果表明,隨著專利文本數量的增加,模型準確性在逐步提升,聚類性能改善明顯,從而證明了動態反饋聚類部分的有效性。同時,專利數量越來越多,兩個實驗的準確率都得到了不同程度的提升,說明實驗中可能存在過擬合現象,增大專利文本數量情況會有所改善。
3.4.2 WLDA抽取主題特征有效性驗證
為了驗證模型中WLDA抽取主題特征部分的有效性,在相同條件下本文設置了如下對比實驗,實驗結果如表5所示。Baseline實驗是本文提出的基于MAF混合模型動態聚類,并沒有引入WLDA部分;Baseline[LDA]實驗是在Baseline的基礎上,將WLDA部分替換為標準的LDA;Baseline[WLDA]實驗是在Baseline的基礎上,引入了WLDA部分。

表5 對比實驗結果
實驗B、實驗C與實驗A相比F-measure值分別提升了0.4百分點、0.824百分點,證明了引入主題特征對本文混合模型聚類是有效的。同時實驗C與實驗B相比也有相對提升,也證明了本文提出的WLDA抽取主題特征的有效性,更能對主題進行特征表示。
3.4.3模型有效性驗證
為了驗證整個混合動態模型的有效性,本文設置了如下對比實驗,實驗結果如表6所示,其中對比實驗解釋如下:
TF-IDF+K-means:將功能信息句轉換為文本向量,交由K-means完成聚類。
CNN+K-means:采用和混合模型相同的輸入,單獨利用CNN進行特征提取,交由K-means完成聚類。
BiLSTM-Attention+K-means: 采用和混合模型相同的輸入,單獨利用BiLSTM-Attention進行特征提取,交由K-means完成聚類。
WLDA+K-means: 采用和混合模型相同的輸入,單獨利用WLDA進行特征提取,交由K-means完成聚類。
Baseline實驗是整個MAF混合動態聚類部分。
Baseline[-BA]實驗是去除BiLSTM-Attention部分,利用其提取語義特征,同時加入動態反饋聚類部分。
Baseline[-CNN]實驗是去除CNN部分,利用其提取嵌入特征,同時加入動態反饋聚類部分。
Baseline[-WLDA]實驗是去除WLDA部分,利用其提取主題特征,同時加入動態反饋聚類部分。
Baseline[-Attention]實驗是去除功能詞語關注部分,同時加入動態反饋聚類部分。

表6 對比實驗結果
本文利用輪廓系數來評估該模型的聚類效果,如圖3 所示。

圖3 輪廓系數
實驗結果表明,本文提出的混合模型對專利文本融合功能信息的聚類有明顯提升。實驗A與實驗B相比表現得并不是很好,因為原始語料中存在很多噪聲,CNN對功能信息句進行特征提取可以降低部分噪聲,F-measure值得到了提高,同時也減少了聚類時間,證明了CNN對特征提取的有效性。實驗A與實驗C相比,聚類的F-measure值提高了將近10百分點,聚類時間也縮短了近2 s,證明了BiLSTM-Attention對特征提取的有效性。實驗A與實驗D相比,F-measure雖然提高有限,但是也間接證明了本文改進的LDA提取主題向量的有效性。
Baseline系列實驗與其他實驗相比不管是F-measure還是運行效率都得到了不同程度的提升。實驗F、G、H證明了深層語義表示部分對聚類效果的有效性;通過實驗E和實驗I可知,加入功能詞語注意部分對聚類效果是有效的。由圖3可知,當K=9時輪廓系數也是最高的,也證明了面向功能信息混合模型動態聚類模型的有效性。
本文提出了面向功能信息的相似專利動態聚類混合模型。在詞向量的基礎上,通過結合深層語義表示部分和功能詞語注意部分,生成專利文本的特征表示,并且提出了一種反饋策略來動態調整和優化網絡訓練。實驗結果表明,本文提出的模型表現出較好的性能,證明了其有效性。
特征提取仍然是自然語言處理領域的一個難點,未來將繼續完善該模型的特征提取過程,進一步探索特征提取與聚類的深度融合,提高聚類的準確性。