劉連政,唐 堯,笪 偉
(南京市知識產權保護中心,江蘇 南京 210000)
2016 年國家知識產權局陸續開始在各地建設知識產權保護中心過程中提出專利申請預審業務,其作為知識產權保護中心核心業務職能,主要負責對特定區域創新主體符合特定領域的專利申請進行預先審查,對審查合格的案件準予進入快速審查通道。預審業務的開展一方面可以提高備案主體專利申請質量,另一方面也可大幅縮短專利申請授權周期。知識產權保護中心預審員主要針對備案主體提交的預審案件的新穎性和明顯創造性進行檢索,因此在整個專利申請預審機制中,專利申請文件的檢索準確率和效率對整個預審業務的開展顯得尤為重要。而在檢索過程中,預審員輸入的檢索關鍵詞對最終檢索結果影響甚大。
目前預審員對于在預審案件審查中的關鍵詞輸入主要依靠預審員自我提取,預審員在閱讀專利申請文件后提取出能體現專利申請技術方案發明點的關鍵詞,然后通過預審員的審查經驗進行關鍵詞擴展,這種方式過多依賴預審員的個人經驗,如果能輔助使用相關關鍵詞詞庫自動擴展技術,將在一定程度上提升預審員的審查效率,而目前市場上并沒有統一的針對新一代信息技術領域的專利檢索詞庫幫助預審員對關鍵詞進行有效的拓展。即使有可供部分預審員參照使用的也是不同的各類技術詞典和互聯網搜索碎片,也需要預審員花費時間精力去尋找類似關鍵詞拓展資料,且該類資料并沒有突出特定行政區域內的產業技術發展共性。因此有必要通過構建統一、全面、動態的針對南京市新一代信息技術這一特定領域的關鍵詞庫,使得預審員在檢索關鍵詞擴展的時候具有更有效、更便捷的參考,從而解決專利申請預審員在檢索關鍵詞擴展中的詞條局限性和檢索效率低下的問題。
關鍵詞提取技術隨著自然語言處理技術發展而來,屬于文本挖掘的一種,廣泛應用于人工智能和語義識別等諸多領域。在現有應用中,關鍵詞提取算法一般可以分為無監督和有監督2種關鍵詞提取方法。
無監督關鍵詞提取方法是指沒有監督學習的過程,不需要進行人工語料標注,只需要利用某種規則對文本中比較重要的詞進行提取即可形成主要關鍵詞。根據提取過程中使用的規則,大致可以分為基于統計特征的關鍵詞提取、基于詞圖模型的關鍵詞提取和基于主題模型的關鍵詞提取方法。基于統計特征的關鍵詞提取算法的思想是利用文檔中詞語的統計信息抽取文檔的關鍵詞;基于詞圖模型的關鍵詞提取首先要構建文檔的語言網絡圖,然后對語言進行網絡圖分析,在這個圖上尋找具有重要作用的詞或者短語,這些短語就是文檔的關鍵詞;基于主題關鍵詞提取算法主要利用的是主題模型中關于主題分布的性質進行關鍵詞提取[1],這一類關鍵詞提取方法由于不需要進行大量的人工標注語料集合訓練,使用過程更加便捷,多用于科研和實驗環境中。
有監督關鍵詞提取方法是運用二分類原理,簡化關鍵詞提取過程,訓練關鍵詞抽取分類器。對于新的待選文檔,首先提取出所有的候選詞,并利用訓練好的關鍵詞提取分類器,然后對每個候選詞進行分類,最終生成具有關鍵詞標簽的候選詞作為關鍵詞[2]。此類關鍵詞提取方法由于需要不斷進行訓練器訓練,調節多種影響關鍵詞提取的參數信息,因此提取效果要高于無監督關鍵詞提取方法,但是由于訓練過程需要花費高昂的人工成本,因此現有的文本關鍵詞提取方法主要還是使用無監督關鍵詞提取方法。
《同義詞詞林》是梅家駒等人于1983年編纂而成,時間久遠,收錄內容相對較少,對于目前的使用不太適合,哈爾濱工業大學實驗室基于該詞林進行擴展,構建了《同義詞詞林擴展版》,它按照樹狀的層次結構把所有收錄的詞條分成大、中、小3類,12 個大類分為人、物、時間和空間、抽象事物、特征、動作、心理活動、活動、現象與狀態、關聯、助語、敬語,共18 490 個詞群,每個詞群有1個8 位的編碼,第8 位編碼有3 種,分別是“=”“#”“@”,其中“=”表示本詞群的所有詞條在意義上相等或同義[3]。擴展后的詞林相比于原先的詞林,詞條數從53 895 個擴展到77 343 個,編碼層數從三層提高到了五層,前三層與1983 版的詞林相同,而后兩層中的第四層用大寫英文字母表示,第五層使用二位十進制整數表示。具體編碼規則如表1 所示。

表1 編碼說明
構建南京市新一代信息技術關鍵詞庫的首要步驟是對符合該領域的專利申請文件中最常見的關鍵詞進行聚類分析,在聚類前需要對南京市新一代信息技術領域專利申請文件進行分類號篩選,以便更精準篩選屬于新一代信息技術領域的專利申請文件。
對分類號進行篩選的過程主要包括對照國民經濟行業代碼和專利IPC 分類號,選取與新一代信息技術領域最相關且申請量排名靠前的60 個新一代信息技術領域分類號作為南京市新一代信息技術領域關鍵詞庫基礎分類號,并對該60 個分類號細分為10 個具體領域組,分別為半導體,測量,電機、電氣裝置、電能,電信,光學,基礎通信程序,計算機技術,控制,數字通信和音像技術。分組后的部分分類號如表2 所示。最后通過使用incopat 商業專利檢索網站,并根據該分組后的60 個IPC 分類號篩選出中國專利庫中近五年該部分分類號內的南京市的全部專利申請文本。

表2 技術領域IPC 分類
關鍵詞提取的步驟即為對在IPC 聚類與分組過程中篩選出的專利申請文本進行關鍵詞提取,提取出的專利關鍵詞應該是可以體現專利發明主要內容和主要發明點的詞語。本文選取無監督關鍵詞提取方法中的RAKE(Rapid Automatic Keyword Extraction)工具用來提取主要關鍵詞,該工具的設計思路是首先使用標點符號將一篇文檔分成若干分句,然后對于每一個分句,使用停用詞作為分隔符,將分句分為若干作為最終關鍵詞的候選詞短語,最后利用詞頻等統計信息降序輸出提取出的關鍵詞。該關鍵詞提取方法的優勢在于算法簡單高效而且能取得不錯的效果,并且適用于提取一些較長的專業術語。
對每一個分類號下的專利申請文本提取關鍵詞后,通過自動化軟件自動摘選出在這些專利申請文本中出現頻次排名靠前的主要關鍵詞,并進行人工分類和組合,最終形成約15萬條有效的關鍵詞條原始數據,作為南京市新一代信息技術領域關鍵詞庫的基礎標引詞。
在關鍵詞提取步驟中對所有符合領域的專利申請文本進行關鍵詞提取和篩選后,需要對基礎標引詞進行詞義擴展,本文主要將關鍵詞擴展詞段分為技術領域、IPC 分類、英文詞、上位詞、下位詞、同義詞和相關詞等部分。其中技術領域、IPC 分類和英文詞主要通過人工標注的方式拓展,而對于其中的上位詞、下位詞、同義詞和相關詞主要通過同義詞詞林進行擴展。其同義擴展的主要步驟包括以前述關鍵詞提取過程后形成的基礎標引詞的集合作為算法輸入,在同義詞詞林中查找與基礎標引詞對應的詞群,將該詞群下的詞語作為該關鍵詞的同義詞和相關詞進行輸出,重復上述步驟可完成關鍵詞同義詞和相關詞擴展。
通過上述關鍵詞提取和關鍵詞擴展過程后,最終形成完整的南京市新一代信息技術領域專利檢索關鍵詞庫。最終構建的關鍵詞庫中某條數據的示例如表3所示。

表3 關鍵詞擴展示例
為解決構建的關鍵詞庫更新的問題,本文還建立了詞庫共享機制,在關鍵詞庫使用過程中預審員可以動態地對詞庫進行修改和補充,不斷循環改進關鍵詞庫的內容。在具體的預審工作中,預審員可以通過專用平臺系統錄入檢索詞后,由專人進行分類后補充專利檢索關鍵詞庫。
專利申請預審機制的關鍵在于通過檢索在現有技術中找尋相關對比文件,而輸入的檢索關鍵詞的準確度和全面性決定檢索結果的查準率和查全率。因此本文針對專利申請預審員在專利檢索過程中關鍵詞擴展不全面的問題,利用專利主題分析、關鍵詞聚類和同義詞擴展技術構建針對南京市新一代信息技術領域的專利檢索關鍵詞庫。該詞庫的構建可以使專利申請預審員在檢索關鍵詞的拓展中得到有效的參考,避免出現專利申請人通過規避檢索的方式轉換技術表述導致審查員檢索結果查準率低的情況,該詞庫對于提高專利申請預審效率也具有重要的意義。下一步,筆者將把該特定領域關鍵詞庫融入專利智能檢索開發過程中,完成關鍵詞自動摘取、自動擴展、自動檢索和自動排序的智能化檢索系統的設計和實現。