劉斌,馮嶺,王飛,彭智勇
?
支持技術創新的專利檢索與分析
劉斌1,2,馮嶺1,王飛1,彭智勇1,2
(1. 武漢大學計算機學院,湖北武漢 430072;2. 武漢大學軟件工程國家重點實驗室,湖北武漢 430072)
介紹了目前專利檢索和分析的主要研究工作,包括專利的可檢索性、技術現狀檢索和相關性檢索方法等,以及專利地圖分析、新穎度分析和PatentDom專利分析框架等分析方法。最后基于深度學習的思想,討論了新一代的支持技術創新的專利檢索方法、專利論文檢索方法以及專利趨勢分析方法。
專利;專利檢索;專利分析;深度學習
近年來,科學技術日新月異,經濟全球化趨勢增強,產業結構調整步伐加快,國際競爭日趨激烈[1~3]。知識或智力資源(包括專著、專利、商標、科技論文、技術報告以及科學實驗數據等)的占有、配置、生產和運用已成為經濟發展的重要依托,技術知識的重要性日益凸現。以知識為基礎的產業在國內經濟所占的比重不斷提高,知識產權已成為國家之間、企業之間競爭的焦點。
專利是最典型的知識產權,也是數量最大的、增長速度最快的技術信息來源。美國專利申請始于1790年,中國則開始于1985年。表1反映了美國和中國的專利申請量的增長速度[1~3]。

表1 專利發展趨勢
截至2014年底中國有效發明專利擁有量共計66.3萬件,全世界范圍內的專利數量已經達到7 300萬件。根據世界知識產權組織的統計,專利文獻中包含了世界上95%的研發成果。如果能有效地利用專利信息,不僅可以縮短60%的研發時間,還能節省40%的研發經費[4, 5]。
專利蘊含著巨大的價值,吸引許多研究者的注意。2002年開始,日本國立情報學研究所在其舉辦的NTCIR會議設立專門的專利檢索專題討論會,并發布了若干專利測試數據集(如表2所示),其中,NTCIR-3數據集包含跨語言檢索任務。NTCIR-4,5,6數據集包含技術現狀檢索,專利分類等任務[6~8]。
CLEF(cross language evaluation forum)是面向歐洲語言的信息檢索開放評測平臺,從2009年開始設立專門針對專利檢索的主題研討會CLEF-IP,同時提供大約130萬個英文專利,供研究者下載測試。
此外,一些重要的國際會議如CIKM、SIGIR等都設置了相應的專利Workshop,供研究人員進行交流。

表2 NTCIR數據集
專利研究目前可以分為3類:1) 專利檢索;2)對專利文本進行各種深入分析;3) 與專利相關的其他研究,如推薦合作者[9]、專利續費等[10]。
2.1 專利檢索評價標準
專利檢索作為信息檢索的一個分支,可以采用準確率和召回率對算法進行比較。但是準確率和召回率互相影響,理想情況下兩者都要高[11]。一般情況下準確率高時,召回率就低;而召回率高時,準確率就低。專利檢索側重于召回率,為了更好地反映算法的全局性能,Magdy等[12]經過分析,設計專利檢索評價值(PRES, patent retrieval evaluation score)。

其中,r是第個相關專利文檔的排名,是專利文獻集合中相關專利的數目,max是用戶最大檢索的專利數。算法的值越高,則召回率越高,且相關的文檔排名越靠前。
專利檢索按照檢索目的可分為:可專利性檢索(patentability search)也叫新穎性檢索(novelty search)、專利技術現狀檢索(prior art search)、相關性檢索等。專利的檢索和一般的科技文獻檢索相比,有其特殊性,主要體現在以下4個方面。
1) 撰寫方式的特殊性。論文撰寫時,作者一般采用大家熟悉的描述方式,這樣可以讓讀者更容易理解作者所要表達的含義。但是專利撰寫時,申請人為了擴大自己所申請專利的保護范圍和提高專利授權的可能性,往往使用一些模糊的術語和表達,甚至創造新的術語。
2) 對于專利檢索,召回率比查準率更重要,因為如果漏檢一條重要的專利,會給企業帶來重大的損失。
3) 專利數據格式復雜。專利包含了分類號、權利聲明等豐富信息。其中,專利分類號用來對專利文獻進行分類,充分利用專利分類號等其他信息,可以使檢索結果更準確。
4) 檢索條件長度不同。對于專利申請人和專利審查員,他們更希望提供全文檢索的功能,因此專利檢索文本包含幾百個關鍵字。而目前現有的一些檢索比如即席檢索(ad hoc search)、Web檢索和文獻檢索的檢索文本長度相對比較短,例如Google搜索的最佳長度為155個英文字符。
2.2 可專利性檢索
因為專利檢索的文本長度很大,所以縮短檢索文本是一個簡單可行的方法[13~18]。最常用的方法就是對專利文本各個詞的頻率(TF, term frequency)進行統計,選擇Top-高頻詞來代替原有查詢進行檢索。信息檢索已有研究結果表明采用高頻詞來進行檢索并不能得到很好的檢索效果,因此提出了IDF(inverse document frequency)指數,并利用TF-IDF來計算每一個詞的權重。然而,專利撰寫者往往為了規避已有的技術,會創造一些新詞,它們的TF-IDF值很高[11]。所以采用TF-IDF方法僅能檢索到少量的相關專利。Hideo等[13]針對跨庫檢索提出了一種詞過濾的技術,每個詞被賦予一個過濾權重TDV(term distillation value)。

其中,表示詞在查詢條件中的重要性,表示詞在目標語料庫中的重要性。假設為詞在查詢條件中出現的概率,為查詢詞在目標集合中出現的概率。對于一個詞,概率可以利用標題()和摘要(a)中詞的頻率進行計算,計算方法如式(3)所示。
或(3)
其中,n是專利標題中包含該詞的專利數量,n代表專利摘要中包含該詞的專利數量,N代表集合中的專利總數量。
概率利用目標集合()和整個專利文檔的詞()的分布進行計算,計算方法如下

其中,n是目標集合中包含該詞的文章數,N是目標集合總的文章數,n是專利中包含該詞的專利數量,N代表NTCIR-3中專利數量。
對于一個檢索詞,論文依據不同的規則設計了9種計算的方法,以及5種計算的方法。采用NTCIR-3的數據作為測試集,該算法效果排名第1(如表3所示),表明該方法可以有效地進行跨庫檢索。表3中2的含義是一個詞的值等于該詞的頻率。0含義是1,即的值僅依賴于。,和是預先定義好的常量,P@10為前10個專利準確率。

表3 NTCIR-3數據集測試結果
審查員(或者發明人)通過輸入待審核專利的權利聲明(claim),算法自動抽取相關的關鍵詞進行檢索,返回相應的文檔,進而判斷權利范圍要求的合法性。從表3中可以看出,算法的平均準確率()小于0.3,在排名前10的專利準確率不超過0.4。這是因為專利中存在大量語義含混不清的詞,導致詞過濾技術方法面臨較大的挑戰。
2.3 技術現狀檢索
技術現狀檢索就是給定一個技術背景(如一篇專利),找出與其相關的專利。技術現狀檢索可以幫助公司掌握最新相關領域的發展現狀,輔助公司確定新的開發領域,合理分配寶貴的資源。檢索條件的抽取是技術現狀檢索成功的關鍵,由于專利檢索更注重召回率,采用查詢擴展是比較有效的方法,所以尋找有效的擴展詞就成為研究的重點。
2.3.1 第三方知識庫的擴展方法
專利現狀查詢面臨2個挑戰:1)由于輸入為一組關鍵詞,而各個關鍵詞可能屬于不同的主題,因此無法表達一個準確的查詢需求。2)查詢中常常存在歧義詞,如“蘋果”可能表示蘋果公司,也可能表示水果。信息檢索已有研究表明,借助于維基百科這樣的公共知識庫可以提高檢索的準確率和召回率。IPC分類是國際通用的專利分類方法,它描述該類專利的特點、功能,因此可以把IPC分類描述看成是一種知識庫,借助于IPC可以用來進行語義消歧,提高專利檢索的準確率和召回率。例如,當“蘋果”出現在電子分類的IPC下時,它通常指的是蘋果公司,當出現在農業和林業等分類下時,蘋果可以看成是水果[19, 20]。
Mahdab[17]利用IPC描述作為擴展詞典,提出了一種基于位置近鄰的查詢擴展方法,并對檢索結果進行重排序,從而提高檢索的準確率和召回率,算法步驟如下。
1) 對于被檢索的專利,使用第一條權利聲明代替整個專利作為查詢條件。
2) 提取IPC文本中專利特征的相關性描述,去除專利領域的停用詞,建立候選擴展詞表。
3) 對專利庫中的每一條專利,計算擴展詞和查詢詞的相關度,選擇Top-個相關度最高的詞作為查詢擴展詞。擴展詞和查詢條件相關度計算方法如下

其中,(|t)是查詢詞t在查詢條件中出現的概率;是查詢詞在專利文檔中的位置。(|t)可以采用最常見的詞頻統計的方法計算。(|)用來計算專利文檔中第個位置是擴展詞與第個位置是查詢詞的相關性概率。它的計算可以采用位置核函數來進行計算,如高斯距離核函數、拉普拉斯距離核函數等。該公式的含義是查詢詞在查詢條件中出現的概率越大,擴展候選詞離查詢詞在文中位置越近,它們的關系就越緊密,則該權重越大。
4) 利用查詢擴展詞進行查詢,并對查詢結果利用式(6)重新計算專利相關度。

其中,代表專利文檔中詞的總數,(|,)表示第個詞是擴展詞的概率。如果第個詞是擴展詞,那么它的概率是擴展詞所有出現位置總數的倒數,否則概率為零。
以CLEF2010作為實驗數據,該方法效果如表4所示,和其他方法相比,檢索的準確率有了較大的提高(8%)。主要原因是專利申請人在撰寫專利時都要參考和使用IPC的描述信息,因此利用IPC作為擴展詞可以最大限度地把擴展詞的歧義降到最低;此外,計算相關度時將詞的分布和位置結合起來。

表4 IPC擴展檢索對比
2.3.2 基于主題的檢索
專利作為一種文檔,必然包含一定的主題。判斷2個文檔相似性的常規方法是通過統計2個文檔中共同出現的單詞數,這種方法沒有考慮到文字背后的語義關聯,可能存在2個文檔共同出現的單詞很少,但2個文檔是相似的情況。LDA模型可以提高檢索的準確性,因此在信息檢索和自然語言處理中得到了廣泛的應用。
Krestel等[23]將LDA模型應用到專利推薦,提出了基于潛在主題的專利推薦方法。根據專利的特點,將專利分成5個部分:題目(title)、摘要(abstract)、權利聲明(claims)、概要(summary)和具體實施(details),利用DMR(dirichlet multinomial regression)對專利和查詢條件進行計算,選擇相似度高的專利進行推薦,具體方法如下。
1) 對于一個給定的專利,利用TF-IDF從專利集合中選取Top-個內容相關的專利,生成初始候選集。
2) 對于Top-個專利,分析專利引用部分,如果該專利引用了其他專利,將這些被引專利加入到候選集合中。
3) 對候選集中的每一個專利,按照下面的方法計算值。

(8)
(9)
式(9)中是專利包含的主題數,取值為專利總數的開方()。N是每一個部分詞的總數,N是專利包含的總詞數。和是詞和主題的后驗概率估計,可以通過Gipps抽樣的方法進行計算。
該方法隨機選擇了2012年12月3日發布的100個專利,對每一個專利選擇500個相似度最大的專利,加上被引專利得到一個包含27 500個專利的集合。表5是將該方法和BM25、語言模型(LM)進行比較的結果。

表5 基于LDA的專利檢索對比
LM主要考慮詞的分布,LM-DMR和LM-LDA方法是用DMR、LDA對語言模型進行擴展。以LM為基準,可以發現利用主題可以提高平均準確率,將語言模型和主題模型進一步結合使檢索結果更精確,這也符合一般的規律。
2.3.3 基于引用關系的查詢擴展方法
專利申請書還包含了豐富的引用信息。Mahdabi[24]對專利文檔進行實驗觀察,發現2個專利之間的相關性不僅與兩者的文本相似度相關,而且很大程度上與兩者之間的引用關系相關,進而提出基于時間感知的加權PageRank算法AQE-TPR,具體步驟如下。
1) 查詢專利集合,得到Top-個文本相似度高的專利作為根集合,然后找出所有引用該Top-個專利以及Top-所引用的專利,根據引用關系構建專利引用網絡。
2) 對其中每一個節點按照式(10)計算其初始概率。是專利授權時間,是時間間隔因子,專利授權越早和查詢條件相關的可能性越低。

如果專利引用專利,那么和之間就存在一條邊,邊的權值對應于專利和之間的關聯程度。AQE-TPR綜合考慮專利和的IPC分類、內容相似度,發布時間間隔、共同發明人、共同的專利權人。當組合權重大于0.5時,a=1,反之a=0。這樣就構成一個專利引用網絡cit,利用PageRank算法計算每一個專利的值。
3) 計算每一個詞的權重,方法如下

其中,()對應于專利的PageRank值,()是該詞在專利中出現的概率。如果一個專利的PageRank值越大,那么該專利處于核心地位,如果一個詞在很多專利中出現,那么該詞非常重要。
4) 綜合考慮查詢條件orig和專利引用網絡,利用式(12)計算擴展詞的概率,選擇Top-個概率最高的詞作為擴展詞,是預先定義的常數。

以CLEF-IP2011的數據為實驗對象,比較結果如表6所示。可以發現AQE-TPR方法好于Nijm和Hyder算法,Nijm和Hyder算法在CLEF-IP 2011比賽中排名第一和第二。本方法的貢獻就是通過PageRank算法綜合考慮專利各個部分的信息,從而提高檢索的準確率和召回率。

表6 基于引用的專利檢索對比
此外還有一些方法利用查詢擴展提高專利檢索的召回率[25,26]。Bashi[27,28]利用詞語位置計算語料庫和查詢條件的相關性,并選擇最相關的若干文檔,利用偽相關反饋進行查詢擴展。Bhatia[26]將專利文獻分割成大小相同的片段(snippet),并將查詢條件分割成較小的句子。將查詢條件和專利文獻進行比較,選擇相似度最大的片段,并以此返回相應的專利文獻,該方法能提高查詢的響應時間。較早的方法有Hironori[25]提出的利用聚類進行查詢擴展,該方法將專利聚類成一個層次結構,在不同的層次上進行查詢擴展以提高召回率。
2.4 相關性檢索
專利相關性是指該專利和哪些專利相關。英文專利包含專利之間的引用關系。和論文的引用關系不同,專利對其他專利的引用意味著本專利的權利聲明受到限制,即本專利的價值會變得更低,所以專利發明人在引用其他專利時會顯得非常“小氣”,這對已有的專利是非常不公的[29,30]。
Sooyoung等[29]提出了基于價值驅動的專利引用推薦方法CV-PCR。CV-PCR將專利D表示為一個五元組<T,C,V,a,R>,其中,T代表專利的文本內容,C代表專利的IPC代碼,V是專利發明人,a是專利所有權人,并以此構建專利異構信息網絡,如圖1所示,網絡中邊的含義如表7所示。

表7 網絡拓撲含義
對于一個給定的專利D,CV-PCR分為3步推薦相關的引用。
1) 采用常規的專利檢索方法檢索出若干個相關的專利,并計算專利相關度。
2) 以專利異構信息網絡為基礎,根據式(13)計算專利的特征值。特征包括:專利之間是否有引用關系、專利的相似度、專利主分類號、專利次分類號、專利發明人、專利權人、專利內容。

其中,分母的含義是對于專利D以及它的特征,有多少專利具備特征;分子的含義是這些專利中同時引用專利D的數量。
給定一個查詢專利D,對網絡中每一個專利計算所有特征值的平均值,方法如下。

3) 對這些專利采用基于監督排序學習算法(RankSVM)進行重新排序。
CV-PCR和BL1方法和BL2方法進行了對比[19,31]。其中,BL1方法是基于排序學習的相關專利檢索,BL2方法是科技論文引文推薦方法,比較結果如表8所示。通過比較可以發現該方法在推薦相關專利方面具有優勢。主要原因是該方法不僅考慮了專利的內容,而且考慮了專利的其他有用信息。這進一步說明了專利檢索有其特殊性,不能簡單地照搬傳統的信息檢索方法。

表8 專利相關性檢索對比
專利分析是對專利說明書或者專利公報中大量專利信息進行分析、加工、組合,并利用統計學的技巧和方法使這些信息轉化為具有總攬全局及預測功能的競爭情報,從而為企業技術、產品及服務研發提供決策參考。常見的專利分析有:專利地圖、專利價值計算、專利新穎性分析等。
3.1 專利地圖
專利地圖(patent map)是采用統計分析方法加以縝密及精細剖析整理制成的各種可分析解讀的圖表信息,具有類似地圖指向功能。專利技術功效地圖通常將專利分解成技術手段和技術效果2個維度,制作成矩陣或圖表,橫軸代表一項技術,而縱軸代表技術效果[32, 33]。
圖2是對手機領域從2002年~2007年專利申請進行劃分得到的專利技術功效矩陣,從中可看出,每一年手機功效的發展趨勢,例如,2002年多媒體技術、智能化技術和時尚外觀設計催生了手機中的照相功能。圖2中包含3個技術空白區。如技術空白區2表明手機產業中外觀設計發明不多,還有很大的發展空間;空白區3表明多媒體、智能化和數據連接技術在手機GPS導航中運用還不多[34, 35]。
其實,從最近幾年手機的發展趨勢可以看出,外觀設計已經成為手機一個很重要的賣點,且目前的手機都具備GPS導航功能,導航中各種語音提示,以及近乎真實三維地圖、實時路況信息以及周邊相關的娛樂、餐飲、住宿等信息都已經有效地集成到導航中。所以好的專利地圖可以幫助用戶快速了解領域技術現狀、發現技術真空,對指導專利研發有著重要作用。目前專利地圖的制作仍然采用半人工半自動化的過程。例如對于專利技術/功效矩陣圖,因為技術和功效通常很難區分,所以提取一篇專利中技術與功效往往是一件非常難的事情。此外,專利的數量過于龐大,且所屬的領域具有很大的差異[26]。
3.2 新穎性分析
專利新穎性并沒有一個公認的定義。一般可以這樣理解專利的新穎性,新穎性是指發明不屬于現有技術,也沒有任何單位或者個人就同樣的發明向專利局提出過申請,并記載在申請日以后(含申請日)公布的專利申請文件或者公告中。
Hasan等[36]提出了一個利用詞新穎度計算專利新穎度的方法,并設計一個專利排序系統COA (claim originality analysis ),針對專利的價值(包括專利的新穎性和重要程度),對專利進行排序。
COA方法基于專利的總體貢獻度對專利進行排序。總體貢獻度是該專利所有關鍵短語的貢獻度之和,總體貢獻度越大,代表該專利所具有的價值越大,具體步驟如下。
1) 提取專利文本的關鍵詞,COA采用自然語言處理方法中的元語法(-gram)從專利文本中提取所有短語。在關鍵短語識別部分,作者構建了背景詞典,將出現頻率大于的短語放入背景詞典。通常,這些短語出現頻率較高,但對專利的價值貢獻較小,所以將這部分短語過濾掉。經過以上2個部分,剩下的短語被識別為關鍵短語。同時,COA引入了時間窗口的概念,僅考慮最近年內新出現的短語,進一步減少了關鍵短語的數量。
2) 計算關鍵短語貢獻度。在COA中,關鍵短語的貢獻度基于2個方面:關鍵短語的頻度和短語出現的時間長度。貢獻度值的大小與關鍵短語出現的頻度成正比,與短語出現的時間長度成反比。
3) 計算專利的價值。COA設計了2種專利價值計算方法:①對每條專利的所有關鍵詞的貢獻度進行線性累加,得到該條專利的總體貢獻度;②將關鍵短語的數量作為專利的價值。
該方法以IBM申請的專利為實驗數據進行效果評估。首先采用領域專家對每一個申請的專利人工分為3類:1核心(excellent),2重要(good)和3一般(not-so-good)。作者然后采用COA方法對專利進行打分,并和人工分類的結果進行比較,比較結果如表9所示。從表中可以看出屬于類1專利的COA值遠遠大于屬于類3專利的值。

表9 COA對專利打分結果
反過來,當一個專利的COA值確定后,可以對專利進行分類。基于COA值,作者設計了一個線性分類器,分類結果如表10所示。

表10 專利分類結果
一般來說,一個專利如果被越多的專利引用,則該專利越有價值。通過實驗發現,COA方法比直接利用引用關系評估專利價值準確率高。
3.3 PatentDom分析框架
PatentDom是一個基于網絡的專利分析框架[37,38],基于該框架設計了3個應用:PatentLine、PatentTrace和PatentLink。PatentDom引入多視圖專利圖(multi- view patent graph)概念,=(,w,s,s,E,w)。其中,對應于每一個專利,每個節點都有一個權值,為該專利被引用次數的倒數,所以權值越小代表該專利越重要。圖中包含2種類型的邊。如果2個專利的相似度超過一定的權值,那么它們之間就存在一條無向邊,相似度對應于該邊的權值。如果專利之間存在引用關系或者2個專利發布的時間小于預先設定的時間間隔,那么2個節點之間存在一個有向邊,每個有向邊的權重為1。由于該網絡包含2種類型的邊,因此稱為多視圖專利圖。
3個應用的核心是從圖中選擇個最重要的專利。PatentDom將此問題歸結為圖論中最小支配集問題,利用貪心算法,選擇起決定性作用的個專利。
PatentLine主要分析核心專利隨時間變化的關系。該框架將問題歸結為最小代價的Steiner樹,利用生成樹建立核心專利之間的聯系。
PatentTrace用來分析一個給定的專利和最重要的個專利之間的關系,即分析該專利最大可能和那個重要的專利之間存在關聯。PatentTrace采用式(15)計算節點的權值。

該計算方法綜合了專利之間文本的相似度和引用關系。
PatentLink則利用中心子圖(center-piece)分析2個專利之間潛在的聯系。
通過典型案例研究表明,這3種分析方法的結果是有效的,能夠分析出專利技術發展的脈絡。
由于3種分析方法都依賴于核心專利的選擇,表11是PatentDom方法、COA[28]方法、PageRank方法以及CorePatent方法檢索結果的對比。通過對比可以看出,PatentDom在目前已有的方法中對專利價值的計算是比較好的。

表11 核心專利檢索結果對比
面對海量的專利數據,即使是技術很全面的專利工作者也往往力不從心。由于專利撰寫的特點使專利檢索的召回率和準確率有待進一步的提高[39]。目前,專利檢索與分析主要針對專業人員,一般人很難利用,因此需要專利檢索與分析更加準確和智能化,下面本文從專利檢索、專利論文檢索以及專利趨勢分析3個方面舉例說明深度學習在專利檢索與分析中的應用[40,41]。
4.1 專利檢索
圖3是一個基于深度學習的專利檢索方法,對于一個待檢索的專利,從專利庫中檢索類似的專利1,2,…,C。該方法分為2步。
1) 特征提取,將專利語料庫映射到一個維的空間。對于一個給定的專利,利用卷積神經網絡(CovNN,convolutional neural network)將專利文本通過多層卷積,提取其維語義特征[41]。
一篇專利包含標題、摘要、正文(實施)和權利聲明等幾個部分。如果一個專利包含圖表,則還有相應的關于圖表的說明。專利每一部分所表達的內容不同,以及申請人在每一部分的撰寫方式不同,因此本文認為每一部分存在不同的特征。所以在卷積神經網絡的第一層,本文設置了4個卷積核1(),2(),3(),4(),對每一個部分進行初始特征提取。
由于專利每一部分的長度不一樣,摘要部分言簡意賅,實施部分詳細明了,權利聲明部分則居于兩者之間,因此需要設計每一個卷積函數的步長,每一次卷積操作可以看成是對步長內的文本信息進行特征提取。通過第一層卷積神經網絡,本文完成專利文本的原始輸入,并提取了初步特征。但這些特征還比較局部,為了進一步提取全局特征并降低輸入的維度,需要通過多層卷積神經網絡對第一層卷積神經網絡的輸出進行再次卷積。在每一層卷積網絡中,本文同樣需要設計多個卷積核,這樣可以從不同的角度提取專利文本的特征,當提取多重特征后,需要設計合適的池化(max-pooling)方法對特征進行融合。最終對于給定的專利P,本文得到它的維向量,設為V。
卷積神經網絡的參數訓練過程可以采用梯度下降的過程進行逐層訓練。這里再引入一個相似度函數使提取的特征是有效的。由于提取的是專利的語義特征,本文采用傳統余弦相似度對2個專利進行相似度計算。如果專利P和P相似,P和P不相似,那么(V,V)>>(V,V)。如果不等式不成立,那么卷積網絡提取的特征是有偏差的,這樣本文利用相似度作為目標函數去優化卷積神經網絡的卷積核。
2) 利用排序學習的方法,對檢索到的專利進行排序。這里排序學習考慮的因素有專利的語義相似度、專利發布的時間、專利的法律狀態、專利之間的引用關系等。專利的語義相似度采用余弦相似度進行計算。假設專利P和P的發布時間分別是(P)和(P),那么專利之間相對價值采用式(16)計算。其含義是優先推薦最近的專利。

專利之間存在引用關系,這樣就可以構造專利引用網絡,根據專利在網絡中的相對關系,采用網絡的度量指標(如距離、跳數)計算專利在技術上的關聯程度。這樣就可以構造一個排序學習算法向用戶推薦最相似的專利。
4.2 專利論文檢索
4.1節主要研究在專利文檔集合中檢索相似的專利,同樣論文也是一個很重要的技術文獻集合,論文中包含了大量的技術。
對于一個專利,檢索與之相關的論文可以幫助專利審查員決定該專利是否新穎,同樣對于一個公司可以幫助公司研發人員掌握更全面的相關領域的技術現狀。因此對于一個專利檢索相似的論文也是一個值得研究的問題。圖4是一個基于深度學習的專利論文檢索框架。
Step1 特征提取。同樣采用卷積神經網絡對論文和專利分別提取其相應的特征。由于論文和專利分屬不同的科技文獻種類,因此需要設計不同的卷積函數對其進行特征提取。
Step2 空間變換。由于論文和專利屬于不同類的科技文獻,因此可以認為提取的特征屬于不同的空間,為了計算其相似程度需要對它進行空間變換。假設V和V分別為專利P和論文A所對應的維向量(假設為列向量)。本文定義存在一個×維的矩陣,使V=MV。它的含義是,如果P和A是相似的,那么在向量空間存在某種形式的矩陣變換使向量變換成。
本文使用目標函數優化的方法計算矩陣,目標函數如式(17),其中,是給定的測試數據集中數據的個數。

目標函數中采用余弦函數,這是因為如果2個向量在線性空間越相似,其余弦值越大,1?cos(,)越小。對目標函數采用梯度下降的算法對其進行優化,從而得到轉換矩陣。
Step3 利用排序學習的方法,對檢索到的專利進行推薦。這里排序學習考慮的因素有論文的語義相似度、論文發布的時間、論文的質量以及論文之間的引用關系等因素。
4.3 結合論文的專利趨勢分析
專利趨勢分析就是分析某個領域現有專利技術發展的現狀。正如前面提到科技論文也是一個非常重要的技術來源,在分析專利發展趨勢時必須考慮科技論文。
在前面已經設計了卷積神經網絡提取專利和論文的特征,并構建了專利和論文之間進行特征轉換的矩陣,這樣就可以將論文和專利映射到同一個語義空間。
Step1 利用現有的聚類算法,將專利和科技論文進行聚類。
Step2 對于每一類,利用深度學習提取專利和論文中的技術短語(算法1)。
Step3 對每一類技術短語建立Logistic模型,確定其參數,并預測專利的發展趨勢。
此外,專利和論文是從不同的方面反映了技術發展的歷程。有的領域論文在先,研究人員開展大量的基礎研究或者理論研究,到達一定實用階段時可以去申請大量的專利。有的領域可能是專利在前面,再有大量的研究,如PageRank算法。類似產品的生命周期,本文將技術的生命周期分為4個階段:導入期、成長期、成熟期和衰退期。
在每一類中,分別對論文和專利建立其相應的Logistic模型,并分析所處的階段,建立每一個階段論文和專利之間的時間對應關系,這樣更好地幫助企業去預測技術的發展。
算法1 ExtractTechnicalTerm//提取技術短語
1) 使用公開的語料庫建立初始的字向量,向量維度為100,迭代100次。
2) 抽取德溫特專利數據庫中人工標注的技術短語作為訓練數據。
3) 使用左右各4個字做為上下文,9×100個神經元為輸入層,隱藏層為100,輸出層為4,神經網絡結構為[900→100→4],進行次迭代,建立深度神經網絡DNN-TM[40,41]。
4) 用DNN-TM神經網絡抽取專利和論文中的技術短語。
這一節研究了專利檢索、結合論文的專利檢索方法,均采用了卷積神經網絡提取專利和論文的特征,避免了文本稀疏帶來的“維數災難”。方法的核心就是確定卷積神經網絡的結構:卷積核的個數及其參數、卷積網絡的層數。其次,本文設計了空間轉換矩陣,利用目標函數優化的方法實現了論文和專利之間的語義轉換。
在專利趨勢分析中,本文提出利用深度神經網絡提取技術短語詞匯,利用生命周期模型,建立論文和專利生命周期之間的對應關系,幫助用戶更好地預測技術發展的趨勢。
國家和企業越來越重視知識產權的保護,研究人員提出專利的技術現狀檢索和相關性檢索等專利檢索方法,設計專利新穎度分析和專利地圖分析等專利分析方法,使企業用戶可以快速地了解領域的研究現狀,把握技術趨勢變化,做出合理的企業決策。
在專利檢索方面,學者們已經取得了豐碩的成果,提出基于主題的檢索、基于引用的檢索、基于詞庫的擴展檢索等多種檢索方法,但是準確率和召回率仍然有待提高。在專利分析方面,盡管已經取得了一定的成果,但對專利數據的分析仍然較淺[39]。如專利中包含的引用關系很少被考慮到,而進行專利搜索與分析的研究時,如果能夠結合引用關系,會使檢索和分析結果更加準確。此外,專利文獻不僅包括中文,還有英文、日文專利等,并且科技論文中同樣包含大量的技術,因此本文必須設計新的智能化專利搜索與分析算法,使之能夠適應跨語言、跨語料庫的專利檢索和分析,這樣才能夠真正發揮它們的巨大作用。
[1] State Intellectual Property Office of PRC. 2014 key IP5 statistical data[EB/OL].http://www.sipo.gov.cn/tjxx/wjndbg/201507/P020150707534432342721.pdf.
[2] State Intellectual Property Office of PRC. 2013 key IP5 statistical data[EB/OL].http://www.sipo.gov.cn/tjxx/wjndbg/201509/P020150901583608432123.pdf.
[3] State Intellectual Property Office of PRC. 2012 key IP5 statistical data[EB/OL]. http://www.sipo.gov.cn/tjxx/2012tjbgen.pdf.
[4] CHEN C. Searching for intellectual turning points: progressive knowledge domain visualization[J]. PNAS, 2004, 1011(Suppll): 5303-5310.
[5] ERDI P, MAKOVI M, SOMOGYVARI Z, et al. Prediction of Emerging technologies based on analysis of the US patent citation network[J]. Scientometrics, 2013, 95(1): 225-242.
[6] FUJII A, ISHIKAWA T. NTCIR-3 patent retrieval experiments at ULIS[C]//NII Test Collection for IR Systems-3. c2002: 1-6.
[7] FUJII A, ISHIKAWA T, KANDO N. Test collections for ptent-to-ptent rtrieval and ptent map generation in NTCIR-4 workshop[C]//The 4th International Conference on Language Resources and Evaluation. c2004: 1643-1646.
[8] FUJII A, ISHIKAWA T, KANDO N. Overview of the patent retrieval task at the NTCIR-6 workshop[C]//NII Test Collection for IR Systems-6. Tokyo, Japan, c2007: 359-365.
[9] WU S, SUN J, TANG J. Patent partner recommendation in enterprise social networks[C]//WSDM, Rome, Italy, c2013: 43-52.
[10] JIN X, SPANGLER S, CHEN Y, et al. Patent maintenance recommendation with patent information network model[C]//ICDM. Vancouver, Canada, c2011: 280-289.
[11] MANNING C, RAGAVAN P, SCHUTZE H. An introduction to information retrieval[M]. London: Cambridge University Press, 2009.
[12] MAGDY W, JONES G. PRES: a score metric for evaluating recall-oriented information retrieval applications[C]//SIGIR. Geneva, Switzerland, c2010: 611-618.
[13] HIDEO I, HIROKO M, YASUSHI O. Term distillation in patent retrieval[C]//The ACL-2003 Workshop on Patent Corpus. c2003: 41-45.
[14] VERBERNE S,HONDT E D. Prior art retrieval using the claims section as a bag of words[C]//The Cross-language Evaluation Forum Conference on Multilingual Information Access Evaluation: Text Retrieval Experiments. c2009: 497-501.
[15] VARMA M, VARMA V. Applying key phrase extraction to aid invalidity search[C]//International Conference on Artificial Intelligence and Law. Pittsburgh, PA, c2011: 249-255.
[16] KONISHI K. Query terms extraction from patent document for invalidity search[C]//NTCIR-5 Workshop Meeting. Tokyo, Japan, c2005.
[17] MAHDABI P, ANDERSSON L, Keikha M, et al. Automatic refinement of patent queries using concept importance predictors[C]// SIGIR. Portland, USA, c2012: 505-514.
[18] TAKAKI T, FUJII A, ISHIKAWA T. Associative document retrieval by query subtopic analysis and its application to invalidity patent search[C]//CIKM. Washington, USA, c2004: 399-405.
[19] ADAMS S. Comparing the IPC and the US classification systems for the patent searcher[J]. World Patent Information, 2001, 23(1): 15-23.
[20] MAHDABI P, GERANI S, HUANG J X, et al. Leveraging conceptual lexicon: query disambiguation using proximity information for patent retrieval[C]//SIGIR. Dublin, Ireland, c2013: 113-122.
[21] GANGULY D, LEVELING L, MAGDY W, et al. Patent query reduction based on pseudo-relevant documents[C]//CIKM. Glasgow, Scotland, UK, c2011: 1953-1956.
[22] MAGDY W, JONES G. A study on query expansion methods for patent retrieval[C]//PAIR. c2011: 19-24.
[23] KRESTEL R, SMYTH P. Recommending patents based on latent topics[C]//Recommender Systems. c2013: 395-398.
[24] MAHDABI P, CRESTANI F. Query-driven mining of citation networks for patent citation retrieval and recommendation[C]//CIKM. Shanghai, China, c2014: 1659-1668.
[25] HIRONORI D, YOHEI S, et al. A patent retrieval method using a hierarchy of clusters at TUT[C]//NTCIR-5 Workshop Meeting. Tokyo, Japan, c2005.
[26] BHATIA S, HE B, HE Q, et al. A scalable approach for performing proximal search for verbose patent search queries[C]//CIKM. Maui, HI, USA, c2012: 2603-2606.
[27] BASHIR S, AUBER A. Analyzing document retrievability in patent retrieval settings[C]//DEXA. c2009: 753-760.
[28] BASHIR S, AUBER A. Improving retrievability of patents in prior-art search[C]//ECIR. Dublin, Ireland, c2010: 457-450.
[29] SOOYOUNG O, ZHEN L, LEE W C, et al. CV-PCR: a context-guided value-driven framework for patent citation recommendation[C]// CIKM. San Francisco, CA, USA, c2013: 2291-2296.
[30] HUANG W, KATARIA S, CARAGEA C, et al. Recommending citations: translating papers into references[C]//CIKM. Maui, HI, USA, c2012: 1910-1914.
[31] XUE X,CROFT W. Automatic query generation for patent search[C]//CIKM. Hong Kong, China, c2009: 2037-2040.
[32] JUN S H, PARK S, SIK J D. Technology forecasting using matrix map and patent clustering[J]//Industrial Management & Data Systems. 2012, 112(5): 786-806.
[33] CHEN X, PENG Z, ZENG C. A co-training based method for chinese patent semantic annotation[C]//CIKM. Maui, HI, USA, c2012: 2379- 2382.
[34] LIU D, PENG Z, LIU B. Technology effect phrase extraction in Chinese patent abstracts[C]//APWeb. Changsha, China, c2014: 141-152.
[35] DRAZIC M, KUKOLJ D, VITAS M, et al. Technology matching of the patent documents using clustering algorithms[C]//The 14th IEEE International Symposium on Computational Intelligence and Informatics. c2013: 405-408.
[36] HASAN M A, SPANGLER S, GRIFFIN T, et al. COA: finding novel patents through text analysis[C]//SIGKDD. Paris, France, c2009: 1175-1184.
[37] ZHANG L H, LI L, LI T, et al. PatentLine: analyzing technology evolution on multi-view patent graphs[C]//SIGIR. Boston, Massachusetts, USA, c2014: 1095-1098.
[38] ZHANG L H, LI L, LI T, et al. PatentDom: analyzing patent relationships on multi-view patent graphs[C]//CIKM. Shanghai, China, c2014: 1369-1378.
[39] TADURI S,YU H,LAU G, et al. Developing a comprehensive patent related information retrieval tool[J]. Journal of Theoretical and Applied Electronic Commerce Research. 2001, 6(2): 1-16.
[40] BNEGIO, Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research. c2009: 1137-1155.
[41] WANG M X, LU Z D, LI H, et al. GenCNN: a convolutional architecture for word sequence prediction[C]//ACL. c2015.
Patent search and analysis supporting technology innovation
LIU Bin1,2, FENG Ling1, WANG Fei1, PENG Zhi-yong1,2
(1. School of Computer, Wuhan University, Wuhan 430072, China; 2. State Key Laboratory of Software Engineering, Wuhan Uvinersity, Wuhan 430072, China)
The main research work of patent search and analysis were summarizes. The patent search includes patentability search,prior art search,and query expansion. And the patent analysis includes patent map, novelty analysis, and a new analysis framework named PatentDom. Finally, based on the idea of deep learning, three new methods of patent search and analysis are put forward.
patent, patent search, patent analysis, deep learning
TP391.1
A
10.11959/j.issn.1000-436x.2016055
2015-10-10;
2016-01-20
彭智勇,peng@whu.edu.cn
國家自然科學基金資助項目(No. 61232002);湖北省科技支撐計劃基金資助項目(No. 2015BAA127);武漢創新團隊計劃基金資助項目(No. 2014070504020237)
The National Natural Science Foundation of China( No. 61232002), The Science and Technology Support Program of Hubei Province (No. 2015BAA127), The Wuhan Innovation Team Project (No. 2014070504020237)
劉斌(1975-),男,江蘇泰興人,博士,武漢大學講師,主要研究方向為復雜數據管理、數據挖掘等。
馮嶺(1986-),男,河南鄭州人,武漢大學博士生,主要研究方向為專利分析與挖掘等。
王飛(1989-),男,江蘇連云港人,武漢大學博士生,主要研究方向為專利檢索、分析和挖掘。
彭智勇(1963-),男,湖北武漢人,武漢大學教授、博士生導師,主要研究方向為復雜數據、可信數據和Web數據管理。