基于深度學習的專利知識推薦服務研究

2022-08-09 05:44:54李振宇戰洪飛余軍合鄧慧君

計算機工程與應用 2022年15期

李振宇，戰洪飛，余軍合，王瑞，鄧慧君

1.寧波大學機械工程與力學學院，浙江寧波 315211

2.寧波大學信息科學與工程學院，浙江寧波 315211

隨著經濟全球化的發展，市場環境動態多變，企業之間的競爭日益激烈。面對激烈的市場競爭，企業創新設計能力已成為決定企業競爭是否占優的關鍵，企業需要不斷提高自己的創新能力來提升自身的核心競爭力。產品創新設計是一個創新密集型過程，需要大量的知識和設計經驗[1]。在產品創新設計過程中，知識重用和重組已被證明是創新的主要來源[2]，但如今的知識重用研究主要集中在同一應用領域設計知識的重用。然而其他應用領域的知識往往更好解決產品創新中的問題，從各種各樣的領域汲取靈感進行創新設計正成為一種趨勢。因此，研究如何利用多領域知識進行產品創新具有巨大的現實意義。

專利知識包含了各個應用領域最新的技術和研究成果，許多學者使用詞頻統計、機器學習、深度學習三種方法分析專利中的知識來輔助產品創新設計。其中基于詞頻統計和機器學習的研究有梁艷紅等人[3]基于發明問題解決理論（TRIZ）提取專利中產品創新知識。Yoon等人[4]利用線性判別式分析算法提取專利主題，并根據協同過濾算法識別潛在競爭對手，以此輔助產品設計。陳憶群等人[5]利用支持向量機（SVM）算法將關鍵詞抽取轉化為分類問題提取關鍵詞。林園園等人[6]構建功能-原理-結構模型，使用K均值聚類算法（K-means）對專利進行聚類，實現推薦相關的專利組合方案給產品設計者。Chen等人[7]提出了一種結構函數式知識抽取方法，識別包含結構和功能的潛在知識。劉龍繁等人[8]提出一種使用樸素貝葉斯算法（Naive Bayes），以功能基為分類標準的專利分類方法，為設計者提供相關專利知識。但基于統計詞頻以及共現的方法只能統計專利的顯性信息，對產品創新提供幫助較小，機器學習方法抽取知識較為片面且精度不高、效率較低。而深度學習可以解決以上問題，可以抽取專利實現的功能效果，為產品創新設計提供類似的成功案例。例如董文斌等人[9]利用BERT-BiLSTM-CRF算法識別專利中的功能、原理、結構三類實體，并提取實體之間的關系，構建專利知識結構模型。Chen等人[10]預先定義實體類型和語義關系庫，提出一種利用BiGRU-HAN算法的專利知識提取框架。張盤龍[11]利用實體識別算法構建專利知識圖譜進行專利推薦。但現有的深度學習研究大多缺乏對專利知識應用情境和專利技術原理的深入分析，因而無法有效解決跨領域推薦專利的準確性。

除此之外，專利數量呈指數級上漲，并非所有專利都具有同等重要的創新意義[12]，有必要為設計師評估檢索到的專利。劉勤等人[13]采用熵權法對專利特征、發明人特征及權力人特征進行賦權，構建專利價值評估模型。Verhoeven等人[14]使用IPC分類號和引用信息來衡量技術的新穎性。李欣等人[15]選取專利技術、經濟、法律和主體四大維度，運用機器學習方法對專利質量進行評估。但大多數研究僅用一個指標對專利進行評估，缺乏從多個角度評估專利創新價值。

基于以上問題，本文提出一種基于深度學習的專利知識推薦模型，從文本分類的角度提取專利的功能信息。其次，利用深度學習算法提取情境、技術屬性，結合IPC分類號信息，生成專利知識空間。為滿足設計者不同的知識需求，提出技術成熟性，新穎性和可擴展性三種評價指標，以向設計者推薦其他領域專利知識，激發設計者創造更多的創新設計理念。

1 基于深度學習的專利研究進展

目前，由于出色的表示學習能力，深度學習在自然語言處理領域取得了巨大的成功，許多學者致力于利用深度學習提取專利中的隱形知識，主要分為專利知識提取、專利知識推薦、專利評估及演化三個方向。文獻[10]、[16]利用實體識別算法提取專利中的技術術語，構建了專利知識提取框架，方便使用者更快地理解專利。文獻[9]、[11]、[17]在專利知識提取框架的基礎上，提取專利的功能、技術等知識構建專利知識圖譜，推薦合適的專利輔助產品創新。文獻[18]、[19]利用深度學習構建專利相似性網絡，根據技術進行專利聚類，判斷專利技術的潛在價值，準確地預測新興技術，為未來技術發展提供方向。

從現有研究成果來看，當前的專利知識研究主要集中在當前領域知識推薦的準確性，忽略了知識的多樣性，即其他領域的專利知識。而其他領域的知識往往更好地解決當前的設計問題。因此本文對專利知識情境進行深入分析，解決產品創新設計的多樣性知識需求，提高專利知識推送質量、增強企業創新能力和競爭能力。

2 基于深度學習的專利知識推薦模型框架

在產品設計中，設計者通過知識重用和重組來解決設計問題。專利作為包含大多數應用領域知識的重要知識資源，可以幫助設計者完成各種設計任務。其中產品是由功能和功能承載結構所組成的系統，功能分析貫穿產品設計的整個過程。將設計問題抽象解釋為功能需求問題可以在任何領域中使用，但通過功能檢索到的專利通常大量重復或者相似，設計者仍需要花費大量時間去尋找和理解檢索到的所有專利，最終找到合適的專利。不同的知識具有不同的應用情境[20]，在特定情境下其他領域知識才可以發揮效用。此外，不同的專利文本具有不同的技術成熟性和新穎性，這對不同的設計者有著不同的啟發性影響。因此，本文提出一種基于深度學習的專利知識推薦模型，它可以推薦其他應用領域的專利知識，實現了跨領域的知識遷移。

跨領域專利知識推薦模型框架如圖1所示。設計問題經過問題表征被描述為功能需求，并描述當前知識需求情境，對功能進行建模并分解為三層功能結構，根據功能基和需求情境將其解釋為設計問題空間。由于專利文獻為半結構化數據，閱讀專利全文獲取知識需要花費高昂的時間成本、人力成本等。于是本文提出一種TG-TCI（two granularity-three classifier integration）半監督文本分類算法從文本分類的角度提取專利的功能信息，分別從字符級（BERT）和詞語級（Word2vec）對專利文本進行特征向量表示，可以有效解決專利文本中一詞多義、歧義等現象。并集成支持向量機（SVM）、貝葉斯（Naive Bayes）、K近鄰分類（KNN）三種不同基分類器的優點，提高專利功能分類的準確性。采用BERTBiLSTM-CRF實體識別算法從專利說明書中自動提取專利的知識應用情境、技術術語，實現使用計算機自動提取專利知識，降低人力成本和研發時間。結合IPC分類號信息分別代表專利的功能、情境、技術、領域屬性，構成專利知識空間。其推薦過程如圖1所示，首先根據功能基和知識情境實現設計問題空間到專利知識空間的映射，搜索相關專利。其次，檢索后的專利通過技術術語將實現同一功能并技術手段相似的專利采用K-means算法進行聚類，形成專利技術集群，之后設計者根據設計需求選擇相應的評估指標通過IPC信息對專利技術集群進行評估和排序。最后，向設計者推薦三層呈現的專利知識信息，以激發設計者的創新思維，進行新產品概念設計中的知識轉移。必要的是，需要定時從專利網站中搜尋專利文本，通過上述知識抽取過程，將這些專利文本存儲在本地專利數據庫中，以便可以實時更新專利知識空間。

圖1 基于深度學習的專利知識推薦模型框架Fig.1 Patent knowledge recommendation model framework based on deep learning

3 基于功能基和知識情境的專利知識推薦方法

3.1 研究思路

當前設計者搜尋專利由于受到自身知識經驗和專利的分類體系（IPC）的約束，只能找到本專業或本領域的專利文獻。從產品創新角度來說，其他領域知識往往更好激發設計者的創新思維，因為不同領域的產品設計問題，可能會采用相似的技術方案。因此，本文將功能基和知識情境引入產品設計流程中，來為設計者提供跨領域專利知識，輔助產品創新設計，其產品設計流程對比如圖2所示。

圖2 產品設計流程對比圖Fig.2 Product design process comparison chart

在引入功能基和知識情境之前，設計者由于自身知識的不足影響了功能層與原理解層的映射，從而限制了產品概念方案的生成。通過引入功能基和知識情境方便設計過程信息的表達，建立了統一的表達標準。由于功能基高度抽象，可以突破功能應用領域的限制，并根據知識應用情境的匹配程度對其他領域知識進行篩選，獲得更多創新解決方案。

3.2 基于功能需求和知識需求情境的設計問題空間

產品創新設計是復雜的思維活動，設計問題求解可以理解為“發掘設計問題與已有知識之間的相關性，并進行知識的遷移和組合”的過程[21]。功能是產品的核心要素，而產品創新設計的核心是知識從一種情境轉換到另一種情境[21]。通過對設計問題的功能需求和知識需求情境的問題表征，將設計問題進行標準化表達，可以得到產品的功能結構模型和知識情境模型，同時形成設計問題空間。設計者利用功能基和知識情境檢索專利知識庫中已有的解決方案和知識，并將其與當前的設計問題進行類比，以生成新的設計方案。

3.2.1 功能建模

產品設計的本質是設計具有特定功能、滿足特定設計要求的產品。產品建模是產品設計的基礎，功能建模是產品設計的首要任務。為了對功能進行統一的表達，Stone等人[22]提出了功能基（functional base）的概念，采用“元功能+流”的表示形式。Hirtz等人[23]整合并統一了元功能和流的分類，建立了功能基的標準詞典。但該詞典創建距今已經十多年時間，不能很好地適用于當前的設計活動。為此，本文根據TRIZ功能分析理論，提出一種采用“動作+對象”描述功能，如圖3所示，“動作”描述了功能的作用方式，“對象”描述工作的對象。其中動作包括導向、聚集、轉換、連接、感知、調節、分離、供應、支持九個一級功能類別，結合Hirtz對流的分析進一步細化為39個二級功能類別與234個三級功能類別。表1顯示了一個功能基的實例，設計者可以選擇合適的功能基來定義任何產品的功能。由于功能基高度抽象，使用功能基表示設計問題的功能需求可以在任何領域中使用。

圖3 功能基的結構Fig.3 Functional base structure

表1 功能基的實例Table 1 Functional base instance

3.2.2 知識情境建模

基于功能基向設計者推薦其他領域專利知識時，大量跨領域專利滿足當前功能需求，檢索結果冗余度高，無法滿足知識推薦的準確性。然而知識的產生和應用都具有特定的背景和環境[20]，知識情境可以視為知識應用的限定條件，是知識共享和知識重用的重要基礎，能夠有效解決基于功能基檢索后的專利知識過載問題[24]。通過對設計問題和知識主體之間的情境匹配度計算將極大地提高設計者知識檢索的效率，進而縮短產品創新設計的開發周期，提高創新質量。為此，本文建立一個可擴展的知識情境模型，用以判斷其他領域知識解決當前設計問題的可行性。

在產品設計過程中，根據5W1H分析法可得知識情境就是描述當前的設計者的5W1H信息（Who、What、Where、When、Why、How），即設計者在某一時間某一地點用某種方法從事當前的設計活動。但僅這六個維度可能造成設計需求識別不完整，降低工作效率。因此，本文以設計過程為線索，結合5W1H分析法將知識情境維度進行提煉，構建知識情境模型，形式化表達為：知識情境={問題、任務、設計過程、設計執行者、設計活動、設計對象、知識資源、地點、時間}，其中設計執行的時間和地理位置和在設計活動中沒有實際意義，本文將產品的業務周期作為時間維度，產品工作時的應用地點作為地點維度。具體維度釋義如表2所示。

表2 知識情境維度含義及說明Table 2 Knowledge situation dimension meaning and explain

知識情境各維度之間存在著緊密的聯系，知識情境交互關系模型如圖4所示。問題維度、任務維度、知識執行者維度以及設計活動維度之間存在相互傳遞轉換關系：設計問題分解成多個任務目標；任務目標由設計活動實現；設計活動由相關部門和組織組成的設計執行者全權負責；并且在設計活動維度中，時間和地點兩個維度是設計活動執行的條件限制，設計活動使用相應的知識資源驅動設計過程的執行。在知識執行者維度中，知識員工存在于各個業務執行組織，在特定的設計活動中具備一定的求解技能、求解經驗以及對應的執行職位。需要說明的一點是，本文列出了知識情境的主要維度，企業在實際應用時需根據自身的業務特點和業務數據進行維度的擴展和細化。

圖4 知識情境多維度交互關系模型Fig.4 Knowledge situation multi-dimensional interaction model

3.3 專利知識空間的知識表示

專利知識是創新的重要資源，有效地整合產品創新所需的專利知識資源方便企業創新人員對相關專利知識的檢索和利用[25]。密阮建馳等人[26]提出知識應與情境相結合，以方便設計者更全面地理解知識，促進知識之間的共享和重用。為此，本文將情境化設計引入FBS模型，構建功能描述層、技術描述層、詳細描述層三層知識表示結構，形成專利知識空間，如圖5所示。功能描述層體現了專利發明人的主觀意愿，是產品的最終目的。技術描述層包括情境屬性、技術屬性、領域屬性，分別由專利應用情境、技術術詞、IPC分類號信息組成，方便設計者更快速理解專利的應用場景和所使用的技術。詳細描述層包含專利中的具體實施方式和專利顯性信息。該專利知識空間模型從左到右的知識抽象程度逐漸減少，較高抽象的知識更容易進行知識轉移，利于設計者從多個角度理解專利知識。

圖5 專利知識表示模型Fig.5 Patent knowledge representation model

3.3.1 功能描述層

定義1功能描述層是指利用功能基的層次結構表示專利的功能信息。

其中，p代表專利，FB1、FB2、FB3分別代表專利功能的第一類別、第二類別、第三類別。

專利中的摘要可分為目的、方法、結論三個部分，目的和結論體現了專利的主要目標，可以表示專利主要實現的功能。本文使用專利摘要數據，根據功能基對專利進行分類和標注，將專利分為三層功能類別。但人工標注費時費力，于是本文從文本分類的角度實現計算機自動提取專利的功能信息。目前文本分類主要分為半監督學習和有監督學習。有監督學習需要大量人工標注數據，專利數據專業性強，進行人工標注需要消耗大量的時間成本。傳統的半監督算法可以利用少量的標注數據和大量的未標注數據進行文本分類，但專利術語專業性強，存在一詞多義現象，使用未標注數據會影響分類器性能，影響準確率。

為此，本文提出一種TG-TCI（two granularity-three classifier integration）半監督文本分類算法，同時引入基于分歧思想（disagreement-based methods，DBM）和集成學習（co-training）兩個方向同時對半監督文本分類方法進行改進，采用BERT和Word2vec構建雙通道語言模型，加大專利樣本之間的分歧，并對KNN、SVM、Naive Bayes三種分類器進行集成，既可以發揮數據集多空間特征的優勢，又可以集成各分類器的優點，提高專利功能分類的準確性。分類過程主要包括專利數據集準備、專利特征抽取、訓練，其功能信息提取流程圖如圖6所示。

圖6 功能信息提取流程圖Fig.6 Function information extraction flowchart

3.3.1.1 專利數據集準備

本文從商業專利數據網站（incopat）獲取有效發明專利文獻，選擇“標題+摘要”作為專利信息的代表進行實驗，專家組根據功能基對專利文本進行人工標注和分類，將專利文獻分為測試樣本、訓練樣本和待分類樣本三個部分，以進行專利功能提取。

3.3.1.2 專利特征抽取

采用jieba分詞對專利原始文本進行預處理。對專利進行文本清理、分詞、去停用詞，形成計算機可理解的結構化形式，提高專利功能分類的效率和質量。

由于在中文文本中，字和詞是最主要的兩個粒度，所以TG-TCI模型利用BERT構建字符級的專利文本特征，利用Word2vec構建詞語級的專利文本特征。Word2vec模型有CBOW和Skip-gram兩種訓練模式，由于本實驗使用的數據集較小，Skip-gram模式一個中心詞可以預測多個周圍詞，在小數據集也能取得較好的效果，于是選擇Skip-gram模型構建詞語級特征訓練。將雙通道的向量作為基分類器的輸入，如公式（2）所示：

yi為專利功能類別，f為分類函數，x1、x2分別為BERT和Word2vec兩種模式訓練下的特征向量。這樣的文本特征向量表示可以讓模型學習到不同粒度上的特征，使TG-TCI模型比傳統半監督分類模型學習更多的信息。

3.3.1.3 基分類器訓練

（1）基分類器的選擇

目前機器學習領域有多種分類器。其中SVM在二分類問題效果顯著，可以有效解決數據分布不均的問題，但在多分類問題和高維度情況下效果不佳，求解較慢。KNN算法準確率高，對異常點不敏感，但在小樣本集中易出現誤分類情況。Naive Bayes可以處理多分類問題，并且過程簡單速度快，在小樣本集中有著很好的效果，為了保證TG-TCI算法的分類速度、多分類情況的準確性、不同樣本維度和不同規模樣本集的適應性，因此本文選擇SVM、Naive Bayes、KNN3個基分類器，將這三種分類器集成，發揮各分類器的分類優勢。

其中SVM算法是一種在一個多維數據空間中通過尋找最優分離超平面，將數據映射到高維空間，將數據分成兩類，實現文本的高效分類的算法。其中核函數可以有效避免“維數災難”，得到最優的分離超平面。目前常用的核函數有線性核、多項式核、高斯核等，根據數據集的規模選擇合適的核函數可以有效地提高分類精度。本文專利文本數據集規模較小，且向量維度適中，因此選擇高斯核作為SVM的核函數。超平面的定義如下所示：

其中，ω、b為需要訓練的參數、φ(x)為核函數。

構造待有約束條件的優化問題，公式如下：

樸素貝葉斯算法是一種基于統計的分類器。核心思想是當不能準確知悉一個事物的本質時，可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率[23]。該算法假定屬性之間相互獨立，沒有某個屬性變量對于決策結果有較大的比重。樸素貝葉斯算法極為簡單，對于未分類的文本d i，所選特征向量為d i=(ω1,ω2,…,ωn)，文本d i屬于特定類別(Fb)的概率為p={F=Fb|d i=(ω1,ω2,…,ωn)}，當等式表示的后驗概率達到最大值時，該文本屬于該類功能。

KNN算法是一種簡單、有效的分類器。核心思想是每個待分類文本根據在特征空間中與它最接近的K個鄰近值的類別進行分類，是一種非參、惰性的算法模型。無需對數據做出假設，無需對數據進行提前訓練，對多分類任務有著較好的效果。KNN算法計算公式為：

其中，Sim(d i,d j)表示文本中d i與d j之間的相似度，W ik代表文本d i中第k個詞語的權重。

（2）基分類器的集成

目前基分類器有多種集成方式，為了提高分類器的泛化能力和降低數據集對分類器的影響，本文將Bagging、Stacking結合對基分類器進行集成?；诸惼骷山Y構如圖7所示。

圖7 基分類器集成結構Fig.7 Base classifier integration structure

首先TG-TCI模型將字、詞兩種專利本文特征向量輸入到兩個由SVM、Naive Bayes、KNN構成的基分類器組。在每個基分類器組中，使用Stacking方式對3個基分類器進行集成，讓3個分類器學習相同樣本的特征，獲取3個分類器之間的分歧，整合3個基分類器的優點。其次，使用Bagging方式對兩組基分類器組進行集成，讓分類器學習同一樣本在兩種粒度的特征向量，得到同一樣本在不同空間特征的信息。最后，集成結果采用投票的方式產生，投票公式如式（7）所示：

f1,f2,f3分別為3個基分類器的分類函數，count為計數函數。

其中考慮算法的復雜度，Stacking方式選擇三折交叉驗證，該方法使TG-TCI模型獲得樣本和分類器的兩種差異，從分歧設計的角度上對傳統半監督分類算法進行改進，提高分類算法的準確率。

（3）算法流程

TG-TCI專利功能分類算法流程如圖8所示。

圖8 TG-TCI算法流程圖Fig.8 TG-TCI algorithm flowchart

輸入：標記樣本集L、未標記樣本集U、待分類樣本集T。

輸出：專利功能分類結果。

步驟1對標記樣本集L、未標記樣本集U、待分類樣本集T分別采用BERT和Skip-gram進行特征向量表示，得到字符級向量L1、U1、T1，詞語級向量L2、U2、T2。

步驟2將L1、L2分別輸入兩組基分類器中，進行基分類器第一次訓練。

步驟3將U1、U2分別輸入經過第一輪訓練的六個基分類器中，得到同一樣本的六個預測結果。根據投票選擇相對準確的預測結果和標記樣本L結合形成新的標記樣本集L′，進行第二次訓練基分類器。

步驟4將T1、T2分別輸入兩組訓練好的基分類器，得到同一樣本的六個預測結果，通過投票的方式得到最終的分類結果。

3.3.2 技術描述層

定義2技術描述層由情境屬性、技術屬性、領域屬性組成。其中情境屬性和技術屬性通過BERT-BiLSTM結合CRF的命名實體識別方法提取，領域屬性（IPC分類號）從專利網站獲得。

實體識別方法是一種從非結構化文本中提取特定類型詞的方法，如人名、地名等。該方法通過BIO序列標注對專利文本進行逐字標注，以B和I分別標注需要類型詞的首字和非首字，以O標注其他無關的詞。將標記好的文本通過BERT映射為詞向量并作為BiLSTM的輸入，通過神經網絡的不斷訓練自動提取句子特征，最后以CRF層為預測結果添加約束，保證預測的精度。

（1）定義3專利的情境屬性是由專利知識的應用情境術語組成。根據專利數據對知識情境描述的情境要素進行適當調整，選擇問題、任務、知識資源、設計對象、地點五個主要素。專利中背景技術介紹了當前的技術空白和技術現狀，發明內容包含了專利技術功效、實現目標和應用的物理環境。權力要求介紹了所需的機器設備、生產資料和產品裝置。因此，問題維度可以映射到專利的背景技術，任務和地點維度可以映射到專利的發明內容，知識資源和設計對象映射到專利的權力要求中。其專利知識情境模型如表3所示。從專利中提取知識應用場景，表示為：

表3 專利知識情境模型及位置Table 3 Patent knowledge situation model and location

S1,S2,…,S n代表專利中知識情境術語。

（2）定義4專利摘要中包含了所使用的技術原理，從專利摘要中提取專利技術術語以表示專利的技術屬性，例如太陽能、激光切割、高能脈沖等。技術術語體現專利實現功能的技術原理，表示為：

T1,T2,…,T n代表專利中的技術術語。

（3）定義5領域屬性是規范引入的國際專利分類（IPC）信息。IPC是基于專利的不同應用領域的層次分類系統，分為部、大類、小類、組四個層次。每個層次都有其相應的域名描述信息。表示為：

其中，S代表部，C代表大類，subC代表小類，G代表組。

3.3.3 詳細描述層

定義5詳細描述層包含專利的顯性信息和說明書中的實施方式。這些信息可以直接從專利搜索網站直接獲取。設計者可以詳細查看該專利的法律狀態，產品的實例應用等，幫助設計者更具體地理解專利。

3.4 設計問題空間到專利知識空間的相似度匹配

匹配過程如圖9所示，在產品概念設計中，根據需求系統工程師確定系統的不同功能，對于每個功能，都定義一個功能子系統，結合當前設計者的知識情境將設計問題抽象表征為設計問題空間。例如，存在一個“設計道路橋梁除雪機”的設計問題，其中一個子功能為清除道路上的積雪。積雪根據功能特性可以表示為固體，通過分析采用“清除固體”作為該設計問題的功能基，并給出當前設計問題的知識情境。其中功能基之間的映射為關鍵詞檢索，知識情境相似度是通過之前神經網絡訓練將情境術語表示為詞向量，利用余弦相似度公式計算設計問題空間和專利知識空間情境術語的相似度，計算公式如式（11）所示：

圖9 需求-專利空間映射過程Fig.9 Demand-patent space mapping process

其中，a i、k i分別為設計問題空間和專利知識空間的情境術語詞向量。Sim(a i,k i)代表相似度。當相似度大于閾值認為該專利可以解決當前設計問題，閾值需根據實際情況進行確定。

通過知識情境和功能基檢索專利知識空間的專利，搜索到“一種多功能清淤機（CN201821880967.3）”。實現利用功能基和知識情境實現從設計問題空間到專利知識空間的匹配。

3.5 專利文本的聚類與評估

通過功能基和知識情境可以在專利數據庫中搜索大量的相關專利，但是從各個應用領域中選擇合適的專利將浪費大量的時間和精力。因此，需要對檢索的相關專利進行進一步的評估，以推薦適當的專利給設計者。

首先將檢索后的結果根據專利的技術屬性將技術相似的專利采用K-means進行聚類，每個類別形成一個專利集群，其中包含的技術是相似的，設計者只需要閱讀每個專利集群的技術術詞即可了解整個集群。集群內的專利根據情境相似度進行排序，將檢索到的具有相似技術屬性的專利分組推薦給設計人員。然后根據領域屬性的IPC信息引入成熟性、新穎性、可擴展性對專利集群進行評估和排序，如圖10所示。

圖10 專利聚類和評估過程Fig.10 Patent clustering and evaluation process

在專利集群評估中Verhoeven等人[14]使用IPC分類號和引用信息來衡量技術的新穎性。在產品設計和開發中，不僅要考慮技術的創新性還要考慮市場應用的前景。當前發明或實用新型專利的申請需具備新穎性、創造性、實用性，本文參考上述專利申請條件提出成熟性、新穎性、可擴展性三種評價指標，方便設計者針對不同設計問題選擇相應的評估指標對專利技術進行評價。為了減弱聚類數K的選擇對評價指標的影響，對所有結果進行歸一化處理。

定義6成熟性是指技術越成熟，越有可能應用于其他領域。成熟度指數應該與集群內專利應用域數量和專利數量成正比，它成熟性計算公式為：

定義7新穎性是指該技術越特殊，對該技術應用的專利就越少。越是新穎性高的技術，其申請專利的數量和應用域數量就越少，新穎性計算公式為：

定義8可擴展性是為了探索其潛在的應用領域和發展方向。更好的技術可擴展性表明該技術涉及多個領域。一項擴展性好的技術往往應用在多個領域，但可能該技術的專利申請可能不容易找到，可擴展性計算公式為：

其中，d k是第k個專利技術集群包含的專利應用域的數量。n k是第k個專利技術集群中專利數量。D是所有集群中專利應用域的總數。N是所有專利技術集群中的專利總數。d k D表示第k個技術的應用域比重。n k N表示第k個技術的申請數量比重。式（12）中的M k越高，技術成熟性越高，同樣式（13）、（14）中的S k、E k越高，技術的新穎性和可擴展性越高。

針對不同的設計問題，設計者用不同的指標對專利集群進行評價。為了調整或更新現有的結構以滿足最終功能的要求，選擇成熟性較高的專利進行產品設計。如果設計任務是在特定領域改進結構的某個組成部分，則可以選擇新穎性作為評價標準。在設計新產品時，選擇擴展性來評估專利集群，擴展潛在的應用領域。

4 實例驗證

為了驗證本文提出的專利知識推薦模型的可行性，以橋梁冰雪清除裝置設計進行實例驗證。通過將傳統的基于關鍵詞檢索和本文提出的方法進行對比，并根據專利技術集群生成四種清除積雪的設計方案，驗證本文提出的專利知識推薦模型在跨應用領域推薦專利知識方面的有效性和可行性。

4.1 專利數據獲取及處理

本文在專利商業網站（incopat）中下載50 000條發明專利數據。本文使用的專利數據包括標題、摘要、說明書和權力要求等，采用jieba分詞對專利數據進行分詞，去除停用詞，以便進行更深入的信息分析。

4.2 設計問題空間的構建

在寒冷地區，大雪和低氣溫的情況比較普遍。積雪在道路橋梁上會造成堆積和結冰影響行車安全的問題。目前除冰方式主要是人工灑融雪劑或借助機械設備完成。但由于人工清理有被車撞到的危險，且融雪劑會污染環境、清雪車的清雪結構簡單清雪不徹底，對于冰面和已經壓實的雪清理效果不好。因此，有必要設計一種有效、安全的除冰設備。

通過分析“如何去除道路橋梁的冰雪”設計問題，其功能基的主要類別是“分離”，第二類別是“除去材料”，第三類別是“清除固體”，其知識情境如表4所示。通過以上分析構建設計問題空間。

表4 設計知識情境描述Table 4 Design knowledge situation description

4.3 專利知識空間構建

4.3.1 功能描述層

（1）數據準備

本文選擇兩個數據集對TG-TCI算法進行驗證。數據1為專利“標題+摘要”數據，共50 000條。根據功能基對2 000篇專利文本進行人工標注和分類，按照9∶1的比例分為訓練集、測試集，選取其他沒有貼上標簽的18 000項專利作為未標記樣本集對分類器進行二次訓練。其他30 000條專利根據訓練好的分類器對進行功能基標記，文本數據集標注分布情況如表5所示。在本文中，僅基于功能結構的一級分類為例進行開發，此外，該方法可以通過全面的分類器輕松擴展到所有功能基礎級別。數據2為THUCNews新聞數據集種的10萬條新聞標題，文本長度在20～30之間，一共10個類別，每個類別10 000條。

表5 數據集分布Table 5 Data set distribution

（2）評價指標

將標記的專利文本語料集通過TG-TCI半監督文本分類方法訓練基分類器，將專利根據功能基分類。在這項研究中，準確性是檢索結果中相關專利的部分，而召回率是實際檢索到的相關專利總量的部分。專利數量如此之多，以至于設計者不需要查看所有專利，在這個模型中只考慮準確率的影響。準確率是指預測為該類別且正確的樣本數TP與預測為該類別的樣本總數TP+FP的比值，公式如下：

（3）算法有效性分析

為了驗證本文提出TG-TCI模型的有效性，本文首先使用數據1對比單通道和雙通道分類模型的分類效果，再使用數據2與當前基于分歧的半監督文本分類方法的重要成果做對比，說明本文模型的有效性。

單通道模型采用BERT對文本進行特征建模，使用標記樣本集對KNN、SVM、Naive Bayes構成的基分類組進行訓練，訓練好之后對未標記樣本集進行標注，將投票一致的樣本補入標記樣本集對基分類器組二次訓練，最后對待分類樣本集進行標注。另一個單通道模型采用Word2vec對文本進行特征建模，其余與上述相同。其中按照數據集的5%、10%、20%、30%分別作為標記數據集，比較三組模型的效果，實驗進行5次取平均值，效果如圖11所示。

圖11 單通道與雙通道算法分類準確率對比Fig.11 Single-channel and dual-channel accuracy comparison

由圖11可知，單獨使用Word2vec和BERT的單通道模型在標記數據集占比5%情況下準確率均低于本文提出的TG-TCI算法，隨著標記數據占比的增加，各模型準確率逐漸增加，但單通道模型始終不如TG-TCI算法，驗證了使用Word2vec和BERT兩種方法結合的方式能夠有效地學習同一文本的不同信息，形成樣本之間的分歧，對算法準確率有積極的影響，并驗證自然語言技術實現專利功能知識的自動提取具有可行性。

本文進一步地將TG-TCI算法與傳統的基于分歧的算法進行對比，對比的算法有Co-training[27]、Tri-training[28]、改進Tri-training[29]三種模型。本文引用文獻[30]提出的精度差值（precision difference，PD）作為新的評價指標，將半監督分類模型的分類精度與對應的有監督分類模型分類精度的差值的絕對值大小評估算法的有效性，如公式（16）所示：accuracy(SC)為有監督的準確率；accuracy(SSC)為半監督分類的準確率。其中半監督模型在標記數據集占比20%的條件下進行。每組實驗分別進行5次取平均值，各模型準確率和PD值如圖12所示。

圖12 算法準確率對比Fig.12 Algorithm accuracy comparison

可以看出本文提出的TG-TCI半監督算法在半監督和有監督兩種方式中分類準確率均優于其他半監督分類算法，且PD值也小于其他算法，說明本文提出TGTCI模型更接近半監督學習的最優效果，有效地證明了TG-TCI算法可以更好地應用到標記樣本少或人工標記難度大的半監督文本分類任務中。

（4）算法復雜度分析

算法有效性和算法復雜度是評價算法的兩個重要指標。因此，在數據經過預處理后，本文對比TG-TCI模型與傳統分歧半監督模型的訓練時間，對算法時間復雜度進行分析，訓練時間如表6所示。

訓練時間實驗在單機下進行，實驗平臺為Windows 10 64位操作系統，CPU為Intel?Core?i7-8150H，顯卡為GTX1660S，物理內存為16 GB。由表6得知TG-TCI算法效率略低于改進Tri-training算法，這是因為本文算法采用了stacking集成方式，對每個基分類器需進行三折交叉驗證。但其他算法需要對參數花費大量時間進行驗證，TG-TCI算法無需花費過多時間對參數進行調整也有很好的效果，相比于傳統的基于分歧的半監督算法更適用于標記樣本少或人工標記難度大的半監督文本分類任務中。

表6 各模型算法訓練時長Table 6 Training duration of each model algorithm min

（5）重要參數的影響分析

本文提出的TG-TCI半監督文本分類算法中主要參數包含基分類器SVM中的懲罰參數C和KNN中的K值。本文使用數據1和數據2對這些參數進行進一步的實驗，研究其對于分類結果的影響。

首先固定KNN中的K值，對C值進行調整，分析C對算法精度的影響，K值的實驗分析過程與上述相同，實驗圖如圖13所示。

由圖13可知，C值和K值過大或過小會影響算法的準確性，在C值在400～600之間，K的個數在6的時候，最終TG-TCI算法的預測結果可以取得最高的精度，保證了最佳的整體分類性能。

圖13 C值、K值對分類結果的影響Fig.13 Influence of C and K on classification results

4.3.2 技術描述層

對專利中的情境術語和技術術語進行BIO標注，將標記好的專利樣本集通過BERT-BiLSTM-CRF的方法訓練出一個判斷模型，利用該模型從專利文本中抽取情境屬性和技術屬性，領域屬性（IPC）直接從網站中提取，為之后對專利的聚類和評估做準備。結合功能描述層和詳細描述層，專利知識空間表示如圖14所示。

圖14 專利知識空間表示實例Fig.14 Patent knowledge space representation example

4.4 設計問題空間到專利知識空間的相似度匹配

根據上述分析對設計問題空間的構建，利用功能基和知識需求情境在專利知識空間中檢索專利，檢索流程如圖15所示。并且為了驗證文本提出的專利知識推薦模型可以有效地推薦跨應用領域的專利知識，使用“清除固體”作為關鍵詞在專利網站（incopat）進行檢索。圖16顯示并比較了前10名、前50名、前100名檢索到專利應用域的數量。

圖15 專利知識推薦過程Fig.15 Patent knowledge recommendation process

圖16 兩種檢索方法的專利應用領域數量Fig.16 Two search methods patent domain quantity

對于前10名，關鍵詞檢索的結果包括三個應用域（B01D33、B08B9、E02B15），功能基檢索包括6個應用域（E01H5、G05B19、A23L1、F16K1、C02F1、B61K9）。前50名和前100名，本文提出的檢索方法明顯優于傳統關鍵字檢索方法。因此，在本文的專利知識推薦模型之后，跨領域專利檢索效率顯著提高。

4.5 專利聚類和評估

檢索后的專利需要進一步地聚類和評估。首先基于專利的技術術語對專利文本進行聚類，設計人員可以主動選擇專利集群的個數。本文選擇專利集群數量為4，聚類圖如圖17所示，專利被分為四個集群，每個專利集群呈現不同的技術，如表7所示。設計者只需要閱讀每個集群的術語列表就可以快速理解專利集群的技術信息，減輕設計者的認知負擔。之后設計者可以根據設計需求從各類專利技術集群中選擇合適的專利進行產品創新設計。通過分析可以得到如圖18的四種設計方案。

圖18 設計方案概念圖Fig.18 Design plan conceptual drawing

表7 專利聚類結果Table 7 Patent clustering results

圖17 聚類效果展示Fig.17 Clustering effect display

方案1該集群技術術語為偏心輪、振動、高能脈沖、刮板等。找到名為“幫助從鑄件上除去砂型”的專利。該專利通過高能脈沖激勵鑄膜，使鑄膜破碎。于是可以得到方案1，利用偏心輪產生振動震碎道路橋梁上的結冰，并通過刮板進行除雪。

方案2該集群技術術語為太陽能、震蕩熱管、熱利用等。找到名為“一種太陽能與中深層地熱能復合融雪化冰系統”的專利。該專利采用太陽能供熱系統提供熱水，融化地面的冰。得到方案2利用太陽能為震蕩熱管提供熱能，對道路進行加熱，以達到除雪目的。

方案3該集群技術術語為壓縮空氣、熱風機、氣泵、噴嘴等。找到名為“鑄件清砂修用氣鏟”的專利，該專利通過壓縮空氣去除鑄件上的砂膜。于是方案3為通過壓縮空氣釋放強力氣流，剝離吹除冰層，在道路上形成干燥空氣循環的局部環境，以進行道路除雪。

方案4該集群技術術語為輥輪、研磨、滾壓、減震彈簧等。找到名為“新型鋼管外壁除銹機”的專利，該專利通過輥輪滾動對鋼管外壁進行除銹。得到方案4為通過電機使輥輪滾動，對結冰路面進行研磨，并與減震彈簧連接，對弧形、高低不平路面進行除雪。

最后根據領域屬性評價了每個專利集群的成熟性、新穎性和擴展性，評估結果如表8所示，結果表明聚類1成熟度最高，聚類3新穎性最高，聚類4可擴展性最高，設計者可以根據設計問題選擇不同的評價指標對技術進行評估，其映射結果如圖15所示。在設計者尋求實現某一功能的技術時，突破了不同應用領域的局限性。

表8 專利聚類結果Table 8 Patent cluster evaluation results

4.6 模型有效性的定性分析

從道路橋梁清雪機的概念設計可以看出，通過對設計問題進行歸一化表達，設計者可以得到更多具有相同功能基和相似知識情境的跨領域專利文本。同時本文構建的三層專利知識空間結構既包含了專利的功能信息也包含了其技術信息和詳細信息。便于幫助設計者突破本領域的限制，豐富設計者的知識空間，從而產生更多具有創新性的概念解決方案。

5 結束語

為了更好地滿足設計者知識多樣性的需求，本文提出了一種基于深度學習的專利知識推薦模型框架。主要貢獻總結為三點：（1）基于功能基和知識情境的設計問題表征。本文對產品功能和知識情境分別建模，在產品設計流程中引入功能基和知識情境對設計問題進行標準化表達，對比實驗證明本文方法可以在更大范圍找到更多的解決方案。（2）自動提取專利知識并構建表示模型。本文提出TG-TCI算法根據功能基從本文分類角度提取專利功能信息，利用實體識別方法提取專利情境、技術術詞構建專利知識空間，便于設計者快速理解當前專利。（3）多指標專利評估方法。本文利用K-means算法對相似專利進行聚類，并提出成熟性、新穎性、擴展性三種指標對專利聚類進行評價，方便設計者選擇合適的評價指標滿足自己的設計需求，提高設計知識重用率。

但仍存在一些問題需要解決。首先本文的領域屬性是根據專利的IPC分類來定義，具有局限性。其次，本文僅對專利一級功能進行分類提取，之后需要根據二級類別、三級類別進行進一步分類。最后專利知識表示需要行更深入的分析，專業技術術語和知識情境專業性較強，需要更高的知識背景。今后將進一步深入研究領域之間的知識轉移，完善功能詞典，改善專利功能分類的準確性，并且進一步完善專利內容研究，需要更深入地開發專利知識，更全面地發現潛在的領域知識，進而更智能化地實現設計者的知識需求。