王 慶 才,劉 貴 全
(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥230027;2.大數據分析與應用安徽省重點實驗室,安徽 合肥230027)
專利分類是專利挖掘和管理中重要的基礎任務。其主要目的是通過自然語言處理等方法提取專利文檔中的重要特征,然后將這些特征輸入分類器中,其輸出結果表示專利文檔所屬的標簽。通常一個專利具有一個或多個標簽。面對每年快速增長的專利申請數量,實現高效的、自動化的專利分類算法可以大大減少專利機構的人工成本和時間成本。目前,自動化專利分類算法已被專利機構廣泛使用,為專利檢索[1]、專利價值評估[2]、專利訴訟風險評估[3]等專利智能服務提供支持。
因此,這吸引了許多研究人員來研究自動專利分類問題[4-6],并且這些方法中的大多數將其視為多標簽文本分類任務[4-5]。專利的主要內容為其組件和創新的詳細說明文檔,該任務的目標是針對專利自動化預測一組標準化的類別。傳統的專利分類方法大多基于統計學和自然語言處理方法人工構造特征信息,輸入到機器學習模型中進行訓練,然后預測未知專利的類別信息。這些方法大多屬于淺層模型,僅僅學習了專利文本簡單的詞義信息,無法獲取深層的上下文語義信息。而且專利中包含了大量的非結構化信息,如專利之間的引用信息,通常將專利作為網絡節點構建專利引用網絡,然后基于網絡分析的方法對專利節點進行分類。此類方法專注于學習網絡的結構信息,忽略了專利文本信息對預測專利類別的影響。
本文提出一個基于專利混合表征的專利分類框架,可以同時學習專利的文本信息和網絡結構信息,充分保留專利的結構化信息和非結構化信息,為多元異構屬性場景下的專利分類提供了新思路。在真實的專利數據集中的實驗結果表明,本文提出的專利分類方法具有較高的準確性。
傳統的分類方法將專利分類作為一項有監督的機器學習任務,以人工構造的專利特征作為輸入,訓練不同的分類器預測專利文檔的標簽。Wu[7]等人將專家篩選方法與基于遺傳的混合支持向量機模型相結合,提出具有高分類精度和泛化能力的專利分類系統。Ko[8]等人提出一種基于期望最大化算法和樸素貝葉斯分類器的組合,基于有標簽樣本訓練分類器,預測出標簽缺失的樣本的標簽,然后基于所有樣本訓練新的分類器,并在新樣本上進行分類。Cai[9]等人提出了一種基于共享近鄰的KNN文本分類方法,在BM25相似度的基礎上,通過結合詞頻和文檔頻率并平衡文檔的長度來計算專利文本的相似度,然后引入共享近鄰的概念,利用樣本間的共享近鄰信息對BM25相似度進行修正,最后使用KNN算法計算專利類別。
以上方法都是基于特征工程和傳統機器學習的方法,甚至需要依賴專家的領域知識,幾乎無法挖掘專利文本的深度語義信息,導致專利分類結果的準確性和泛化能力較低。
近年來,隨著深度學習在許多應用中取得了巨大的成功,部分學者使用深度學習技術進行專利分類,例如卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡,可以學習專利中的語法和語義信息以獲得更好的分類結果。Julian[10]等人提出了針對專利領域的詞嵌入預訓練,先使用FastText在大規模專利數據集上訓練專利領域的詞向量,然后提出一種基于門控回歸單元的深度學習方法,基于預訓練的詞嵌入實現專利自動分類。Li[4]等人提出deeppatent模型,以TextCNN為核心組件,通過設置多個不同大小的卷積核捕獲連續語句的局部關鍵信息,豐富專利的語義表示。Lin[11]等人提出BiLSTM-SA模型,基于雙向循環神經網絡和自注意機制捕獲具有非連續和長距離語義的上下文信息。Lee[5]等人提出基于預訓練模型的PatentBert模型,在超大規模語料庫進行預訓練,然后在專利數據語料庫進行微調實現專利文本分類。
在數據庫中,專利具有更加豐富的信息,如專利之間的宏觀相似關系?,F有的研究大多只關注于單個專利的文本內容進行分類,而忽視了專利及其標簽的宏觀關系。一方面,存在引用關系或描述相似實體的兩項專利很有可能屬于相同的類別。另一方面,經常分配給相同專利的標簽之間的相關性更高。這些宏觀關系可以提供重要的輔助信息,提高分類性能。
本節給出專利引用網絡、專利實體共享網絡、標簽共現網絡和專利分類任務的相關定義,三個網絡的詳細統計信息如表1所示。

表1 網絡的統計信息
專利引用網絡:專利引用網絡定義為Gc=(Vc,Ec),其中Vc表示專利節點集合,Ec表示專利引用鏈接集合,Ec中的每條邊表示兩個專利之間存在引用關系。
實體共享網絡:實體共享網絡定義為Ge=(Ve,Ee),其中Ve表示專利節點集合,Ee表示專利實體共享鏈接集合。Ee中每條邊表示兩個專利之間具有多個相同實體鏈接。
標簽共現網絡:標簽共現網絡定義為Gl=(Vl,El),其中Vl表示標簽集合,El表示標簽共現鏈接集合。El中每條邊表示兩個標簽之間的逐點互信息(Pointwise Mutual Information,PMI)為正值。具體地,Ei,j=log(p(i,j)/(p(i)p(j))),其中p(x)表示標簽x的出現頻率。
專利分類:給定一個包含專利文檔的文本信息、引用信息及其標簽信息的數據集D,本文的目標是預測新加入專利文檔的可能的標簽。
基于前文所述相關研究工作及其可改進之處,本文提出了一種融合專利和標簽宏觀關系進行專利分類的方法。首先,利用專利的引用關系、共享實體關系和標簽的共現關系構建專利引用網絡、專利共享實體網絡和標簽共現網絡,這三個網絡分別表示專利和標簽的宏觀結構關系。在此基礎上,本文提出了一種基于混合表征的專利分類框架(Hybrid Representation Based Framework for Patent Classification,HRPC),該框架由專利表示學習(Patent Representation Learning,PRL)和標簽表示學習(Label Representation Learning,LRL)組成,框架結構如圖1所示。其中PRL結合專利的文本信息和結構信息學習專利的向量表示。對于專利文本信息,采用CNN和注意力機制學習專利文本的語義表示;對于專利結構信息,基于專利引用網絡和專利共享實體網絡設計了多通道圖神經網絡,從多個專利關聯網絡中學習專利的結構表示。LRL使用圖卷積神經網絡(Graph Convolutional Neural Network,GCN)在標簽共現網絡中學習標簽的表征,用于保留標簽之間的共現依賴關系。最后,利用專利和標簽的表征,使用協同過濾(Collaborative Filtering,CF)策略預測標簽概率。

圖1 HRPC的結構圖
3.1.1 專利文本表征學習
在研究[5]、[12]中,描述專利細節的文本內容對于專利分類的準確性非常重要。為了不失一般性,本文同樣選擇專利的標題和摘要來作為相應的文本信息。其中標題是單獨的語句,而摘要則是由多個語句組成的序列?;贑NN的深度學習模型可以有效地學習語句的表征,本文將CNN作為專利文本表示模塊的基本單元。標題PTi和摘要PAi作i個專利的文本輸入,其中每條語句視為一個單詞序列s=[v1,v2,…,vn],其中n表示句子中單詞的數量,vi∈Rd0表示通過Word2vec[13]算法訓練的d0維詞嵌入向量。因此第i個專利的摘要可以表示為PAi=[s1,s2,…,sm],其中m表示摘要中語句的數量。通過對輸入文本的預處理,得到標題和摘要的初始化表征PTi∈Rn×d0和PAi∈Rm×n×d0。CNN具有稀疏連接、權值共享和降采樣的特點,對于提取輸入語句的局部信息具有高性能,且速度較快。因此使用CNN作為基本單元學習專利文本中每個語句的信息表征,輸入為x的卷積計算公式如下:
Conv(x)=ReLU(k⊙X+b) (1)其中⊙為對應位置元素相乘,k為卷積核,b為偏置項,ReLU為非線性活函數。經過多個卷積層和池化層后,專利的標題表征向量為Vt∈Rd1,其中d1為卷積神經網絡的輸出維度。通過相同的卷積與池化操作,得到摘要中第i句的表征向量為Vai。
摘要中不同語句存在語義上的差異,并且與特定任務的相關性也不同。因此,本文使用注意機制為摘要中每個句子分配不同的權重,通過加權求和的方式獲得摘要的單一表征。由于標題包含了專利的核心信息,本文根據標題與每個句子的相關性來計算相應的權重分數。摘要V^a的具體計算方式如下:

其中αi表示第i個句子的權重,W*表示參數矩陣。最后,本文對專利的標題表征與摘要表征進行拼接操作,得到專利的文本表征。對于第i個專利,文本信息表征的計算方式如下:

3.1.2專利網絡表征學習
專利關聯網絡,即專利引用網絡和實體共享網絡,代表了專利的宏觀關系。GCN是CNN在非結構化數據上的遷移應用,在圖表征領域得到廣泛研究。本文選擇GCN作為基本模型學習專利節點的表征向量。首先分別在多個網絡上訓練GCN模型,然后將多個GCN結果進行合并得到專利節點在網絡中的表征向量。然而,該方法忽略了多個網絡之間的相關性,無法得到全面的專利網絡表征向量。具有引用關系的兩個專利可能使用相同的技術或解決同一問題,這使得專利包之間含有相同的科技實體。因此,考慮不同網絡之間的相關性可以獲得更加全面的專利網絡結構表征。
本文參考AM-GCN[14],使用多通道圖神經網絡聯合學習專利在兩個圖網絡上的表征向量。其核心思想是學習專利在特定網絡中的特定信息和在多個網絡中共享的公共信息,以便同時保留多個網絡的共性與差異。為專利節點定義的兩個表征向量分別表示專利的個性表征和共性表征。個性表征向量用于學習專利節點在每個網絡中的特定信息,共性表征向量則用于學習專利節點在多個網絡中的公共信息。
如圖1所示,首先構造兩個特定的GCN,分別學習專利節點在專利引用網絡和專利實體共享網絡的個性表征向量,Ac和Ae分別表示專利引用網絡和實體共享網絡的鄰接矩陣。然后,初始化專利節點的特征矩陣X∈RN×d2,其中N表示專利節點數量,d2表示特征矩陣的初始化維度。在兩個特定的GCN中,使用相同的特征矩陣作為輸入。對于專利引用網絡,第l層GCN的輸出表 示 如 下:


然后,構造兩個特定的GCN,分別從專利引用網絡和專利實體共享網絡中學習專利節點的共性表征向量Zc,m和Ze,m。為了能夠從多網絡中學習專利節點的共性信息,兩個GCN在相同層共享參數矩陣。 因此,第l層計 算 方 式 如 下:


在得到專利的個性表征向量和共性表征向量之后,通過簡單拼接操作獲得專利節點的結構信息表征:

在獲得專利的文本信息表征和結構信息表征后,第i個專利的表征向量Pi表示為:

3.1.3 表征約束
本文借鑒AM-GCN[14]的方法,添加一致性約束項和差異性約束項來增強專利節點在多網絡結構中的個性表征和共性表征。
對于專利節點的共性表征向量Zc,m和Ze,m,添加一致性約束項增強在多個網絡中學習的共性信息。其中,一致性約束的目的是確保不同網絡中通過共性表征向量計算的專利相似性是相似的。專利節點在兩個網絡上的相似性矩陣由Zc,m和Ze,m通過以下方式計算:

其中Sc和Se分別是引用網絡和實體共享網絡的相似性矩陣。定義一致性約束項Lc表示兩個相似性矩陣的差異。Lc值越小,表示學習到的共用信息越多,Lc值越大,則表示學習到的共用信息越少。Lc計算方式如下:

對于專利節點的個性表征向量Zc,s和Ze,s,添加差異性約束項,確保它們學習專利在網絡中的特定信息,目的是確保同一網絡中專利的共性表征向量與個性表征向量之間具有較大的差異。本文中同樣使用希爾伯特-施密特獨立標準(Hilbert-Schmidt Independence Criterion,HSIC)來衡量這種差異,HSIC指標已被廣泛用于衡量向量之間的獨立性。在專利 引 用 網 絡 中,Zc,s和Zc,m的HSIC指 標 計 算 方 式如下:


定義差異性約束項為Ld,Ld值越小,表示專利在特定網絡中的個性表征和共性表征的差異越大,更能表示兩個表征向量分別學到了不同的結構信息。

如圖1所示,將專利的表征向量Pi應用于專利分類任務,實現端到端的專利分類框架。
3.2.1 標簽表征學習
部分標簽頻繁出現在相同專利中,這些標簽可能含有相似的語義信息,表示標簽之間存在一定程度的相關性或依賴性。因此,在標簽共現網絡中使用GCN學習標簽的表征向量,同時捕獲標簽之間的相關性。本文使用PMI衡量標簽之間的相關性:

其中,p(i)和p(j)表示第i個標簽和第j個標簽的出現頻率,p(i,j)表示第i個標簽和第j個標簽同時出現的頻率。依據PMI矩陣中的正值構建標簽共現網絡中的鄰接矩陣:

然后,初始化標簽特征矩陣Xl∈RC×d3,其中C表示標簽數量,d3表示初始化的維度。將標簽的特征矩陣Xl和鄰接矩陣Al作為GCN的輸入,第l′層的輸出如下:其 中是 第l′層 的 權 重 矩 陣的對角度矩陣最后一層GCN的輸出表示標簽的表征向量L。

3.2.2 專利分類
現有的專利分類方法是將高維的專利特征或專利表征直接輸入到全連接神經網絡中,并將其輸出結果作為輸入樣本的分類結果。當樣本集的標簽分布不均衡時,這些方法可能使分類器傾向于頻繁出現的標簽,忽視處于長尾部分的標簽。因此,采用CF的策略進行專利分類,將專利和標簽的共現信息作為監督信息增強專利和標簽的表征學習。通過式(21)的方式得到專利的標簽概率。

其中Pi是第i個專利的表征,Lj是第j個標簽的表征,y^i,j是預測第i個專利第j個標簽的概率。一個專利可能具有多個標簽,因此使用二進制交叉熵損失函數作為目標函數,如下所示:

其 中,N表 示 專 利 的 數 量,C表 示 標 簽 的 數 量,yi,j表示第i個專利第j個標簽的真實值。本文使用L2正則化約束模型參數,緩解模型過擬合現象。

最后,將交叉熵損失函數、一致性約束項、差異性約束項和正則化約束項相加,作為HRPC的目標函 數,λ1、λ2和λ3分 別 為 一 致 性 約 束 項 系 數、差 異性約束項系數和正則化約束項系數。

實驗中用到的真實專利數據集來自美國專利及商標局,數據集包含超過600萬項專利。專利文本中包含多個實體,每個實體是句子中具有實際含義的單詞或短語。本文先使用NLTK工具對專利文本進行預處理,單詞小寫、詞形還原和去除停用詞,去除在語料庫中出現次數少于5的單詞。然后在TAGME接口中設置獲取實體鏈接的置信度閾值ε,得到與專利關聯度較高的實體鏈接。當專利之間共享的實體數量不少于2時,建立專利之間的實體共享鏈接,并根據共享鏈接構建實體共享網絡。同時通過專利引用數據構建專利引用網絡,使用NetworkX工具過濾網絡中節點度小于30的專利,過濾孤立節點并增加網絡密度。本文選擇專利的子類作為專利分類任務的標簽,該類別為聯合專利分類體系中的第三層分類標準。最后,通過上述過程得到的專利數據集包含12 648條專利樣本和312個子類標簽。數據集的統計信息如表2所示。

表2 專利數據集的統計信息(個)
為了準確、全面的評估模型的性能,實驗中采用準確率(Precision)、召回率(Recall)和歸一化折損累計增益(NDCG)作為評價指標,然后使用top_K的評價指標量化實驗性能,分別記為P@K、R@K和NDCG@K。本實驗中,為了與現有模型進行對比,K值分別取1、3、5。


本文選擇了多個對比算法,其中FastText[15]、BiLSTM-SA[11]、DeepPatent[4]、PatentBert[5]、STCKA[16]為基于文本分類的專利分類方法,Deepwalk[17]、GCN[18]、GraphSAGE[19]、AM-GCN為基于網絡節點分類的專利分類方法。為了公平起見,本文構造了幾種結合文本信息和網絡結構信息的方法,其中GCN-Texts的構造方法為由文本表征模塊與GCN學習的結構表征拼接組成專利的表征向量,僅學習專利節點在引用網絡中的表征,拼接兩個表征向量后通過MLP預測專利標簽;GCN-Text-d的構造方法與GCN-Text-s相似,使用兩個GCN分別學習專利節點在引用網絡和實體相似網絡中的結構信息表征,拼接三個表征向量得到專利的表征向量,同樣使用MLP預測專利的標簽;AM-GCN-Text的構造方法與上述相似,通過AM-GCN學習專利節點在多通道網絡上的結構信息,然后進行專利分類。該方法同樣使用MLP進行專利分類。
實驗結果如表3所示,與所有的對比方法相比,HRPC在多個評價指標上均取得了明顯提升。在基于文本分類的方法中,FastText僅僅關注字符級的語義信息,忽略了更加重要的上下文信息,因此取得了較快的運行速度和較差的精度。DeepPatent和BiLSTM-SA都是基于深度學習的模型且關注于文本的上下文信息,因為BiLSTM-SA采用了雙向循環神經網絡和自注意力機制,學習了更加豐富的上下文信息,因此略優于DeepPatent。PatentBert使用預訓練模型BERT,通過設置大量的參數和在超大規模的語料庫上進行訓練,獲得了更強的文本表征能力,因此比前幾個方法效果要更好。同樣,經過外部知識的信息增強,STCKA也取得了很好的分類性能。

表3 不同方法在數據集中的指標對比 (%)
在基于網絡表征的方法中,Deepwalk通過截斷的隨機游走捕獲整個網絡的結構信息能力較弱,而GraphSAGE由于采樣鄰居節點缺失了部分鄰居的信息而具有相同的缺點。GCN聚合了所有鄰居節點的特征取得相對較好的實驗結果。AM-GCN使用GCN作為基礎組件,學習了更加豐富的結構信息取得了更好的性能。顯然,基于文本的分類方法通常都優于基于網絡的分類方法,這表明在專利分類任務中,專利的文本信息比結構信息更重要。
最后,將HRPC與GCN-Text-s、GCN-Text-d和AM-GCN-Text的組合方法進行對比,僅使用引用網絡的GCN-Text-s由于缺少足夠的信息而獲得最差的評價指標。此外,GCN-Text-d的性能比HRPC差,這表明簡單拼接兩個網絡結構表征無法有效學習節點在多網絡下的表征。同樣,AM-GCN-Text的性能也弱于HRPC,這表明通過學習標簽的共現關系可以達到更好的分類效果。綜上所述,HRPC的性能優于所選取的基準算法。
為了探究數據集中不同訓練比例的訓練數據對HRPC實驗性能的影響,本文隨機抽取20%、30%、40%、50%、60%、70%和80%的專利數據集作為訓練集,其余的作為測試集。在實驗中,選擇以下三個指標評估模型的性能,Precision@1、Recall@5和NDCG@5。實驗結果如圖2所示,隨著訓練比例的增加,HRPC的相關評價指標得到快速提升,當訓練比例達到80%時,HRPC的分類性能最高。表明增加訓練樣本時,模型可以學習更加充分的先驗數據分布,得到更好的分類效果。

圖2 不同比例的訓練數據對專利分類性能的影響
為了探究關聯實體的置信度閾值對模型性能的影響,本文針對置信度閾值的多個取值進行實驗。測試獲取實體鏈接的置信度閾值ε分別取不同值時對專利分類性能的影響。當閾值ε取較小值時,可以通過TAGME工具獲得較多的關聯實體,然而當閾值ε取較大值時,僅能得到較少的關聯實體。實驗結果如圖3所示,隨著閾值ε的增長,NDCG@1、NDCG@3和NDCG@5均是先上升然后下降。這是因為閾值ε較小時,提取了較多的實體單詞,其中包括與專利主題相關度較低的實體,增加了過多的噪音信息,干擾模型的訓練。隨著閾值ε的增加,過濾掉部分無關實體,降低了噪音實體帶來的負面影響,使得HRPC的性能得到提升。隨著閾值ε的繼續增加,過濾噪音實體的同時,也過濾掉了過多的有效實體,使得HRPC無法有效學習實體信息,導致模型的性能受到抑制。最終置信度閾值ε取值為0.15。

圖3 置信度閾值ε對實驗性能的影響
為了探究一致性約束項和差異性約束項對模型性能的影響,本文針對不同的取值范圍進行實驗。λ1和λ2分別表示一致性約束和差異性約束的程度,其中λ1的取值變化范圍是1×10-6~1×10-1,λ2的取值變化范圍是1×10-10~1×10-5,實驗結果如圖4所示。如圖4(a)所示,隨著λ1的增大,NDCG指標均先上升后快速下降,當λ1取值為1×10-4時,模型達到最佳性能。如圖4(b)所示,與λ1相似,隨著λ2的增大,NDCG指標先緩慢上升后快速下降,當λ2取值為1×10-7時,模型取得最優結果。綜上所述,當λ1取值為1×10-4,λ2取值為1×10-7時模型性能達到最優。

圖4 約束項系數對實驗的影響
本文提出了一種基于混合表征的專利分類框架,該框架同時學習專利的文本信息和網絡結構信息,然后和標簽向量相乘計算專利屬于每一個標簽的概率。進一步,本文使用圖卷積神經網絡在標簽共現網絡上學習標簽的表征,使模型在計算專利的標簽概率時,可以融入標簽之間的共現信息,提高模型預測專利標簽的準確性。實驗結果表明,本文提出的融合專利文本信息和網絡信息的混合表征保留了更加豐富的專利信息,在專利分類任務中取得了較高的準確性。下一步的研究目標是挖掘更加有效的專利信息,進一步提高專利分類的準確性。