摘 要:中文專利獨立權利要求分為前序部分和特征部分。文中構建的專利無效檢索模型,充分考慮了這一信息,從專利數據庫中統計出40個分割詞對獨立權利要求進行分割處理。具體檢索中采用兩步檢索:第一步進行布爾檢索以提高召回率,第二步對申請專利與第一步返回專利獨立權利要求的前序部分和特征部分分別進行相似度計算,適當組合后作為整體的相似度。試驗中對分割前后以及分割后不同的詞語權重選擇方法對檢索效果的影響作了比較,結果顯示該模型是非常有效的。
關鍵詞:中文專利;專利檢索;無效檢索;權利要求;相似性
中圖分類號:TP301 文獻標志碼:A
文章編號:1001-3695(2008)07-0001-00
Invalidity search model for chinese patent based on the claim structure information
LIU Yuqin,WANG Xuefeng,LV Lin
(School of Management Economics, Beijing Institute of Technology, Beijing 100081, China)
Abstract:Chinese patent independent claim contains a preamble portion and a characterizing portion. Invalidity search model for Chinese patent proposed in the paper draws on the structure information. Forty split words are extracted from patent database artificially; these words can divide independent claims into preamble portion and characterizing portion effectively and automatically. For it is impossible to compute similarity on the whole database twostep search method is used in practice: at 1step Boolean query is applied to improve recall, at 2step vector space model is used to compute similarities of preamble portion and characterizing portion between applying patent (query) and previous patents (documents) obtained at 1step respectively, and then combines them properly to sort the search results in order to improve precision. Experiment data set comes from SIPO; search results with split claims are contrasted with that without them; different methods of termweighting are compared. Evaluation results show that the model works well.
Key words:chinese patent; patent search; invalidity search; claim; similarity
0 引言
伴隨著經濟全球化競爭愈演愈烈,商業模式已經有所改變。許多公司尤其是國際型大公司采用獲取、利用、管理知識產權的戰略。專利信息作為知識產權戰略中的關鍵因素,已經得到越來越多國家、企業的重視,他們努力保護自己的知識產權,爭奪每一項可能給他們帶來利潤的專利技術。
在這種環境下,專利的重要性日趨明顯。當進行產品開發前、專利申請前或判斷一個已經申請的專利的有效性時,一項非常重要的工作就是搜索專利數據庫尋找相關專利,這些相關專利很有可能使某項專利發明無效,通常稱這種目的的專利檢索為專利無效檢索(invalidity search)。
然而對于專利發明者、申請者、專利審查員來說,在龐大的數據庫中找出相關專利并不容易。網絡上有許多免費專利檢索系統,這些系統大多使用布爾型檢索進行簡單的匹配,即沒有采用有效的檢索算法,又沒有考慮到專利文本的結構特征,檢索效果低下。因此,有必要設計一個準確、高效的檢索模型,本文的研究致力于解決相關的問題。
1 專利文本特點與專利檢索研究現狀
1.1 專利文本特點
專利是一種具有法律效力的半結構化文本,含有大量的結構化與非結構化信息。中國專利申請包含如下信息:申請時間、申請號、授權時間、授權號、專利類型、國際分類號、申請人、發明人、題目、摘要、權利要求等30余項字段。摘要和權利要求是典型的非結構化信息,使用了許多技術術語和新名詞,甚至有些還含有圖片。另外,專利權人為擴大權利范圍,經常使用一些概念模糊的詞語,使得專利更加難以理解。一般情況下,進行專利檢索也是依據這兩個字段,同時配以結構化信息對檢索范圍加以限定。
1.2 專利檢索研究現狀
商業專利檢索系統已經存在很長時間了,但是,相關研究直到近些年才得到信息檢索和自然語言理解研究人員的重視,相繼召開了有關國際會議(SIGIR, 2000[1]、ACL,2003[2]、NTCIR-3,2002[3]、NTCIR-4,2004[4]、NTCIR-5,2005[5])。這些研究主要針對英文、日文、韓文專利進行的,部分涉及到中文的也只是將外國專利翻譯成中文,并不是真正意義上的中文專利。檢索的任務多樣化包含有:專利分類、技術調查、無效檢索、跨語言專利檢索、專利地圖繪制等等。本文的研究是針對中文專利無效檢索進行的。
無效檢索的目的是找出與某一專利權利要求相關的專利,通過這些專利使該權利要求無效,甚至使整個專利無效。它是一種專利對專利的檢索方式,通常由知識產權部門專利審查員進行。在檢索中采用時間進行檢索限制可以達到技術新穎性和專利侵權性檢索。因此,隨著企業對專利的重視,企業內部也逐漸開始進行相關的檢索,以達到實施自己專利戰略的目的。LARKEY L S在USPTO支助下采用分布式檢索方法設計一個專利檢索系統[6],該系統同時能夠對專利進行分類處理。SHINMORI A、JaeHo Kim介紹了在日文專利深加工的基礎上進行相關性檢索的方法[7,8],試驗證明該方法非常有效。
3 中文專利權利要求的結構特征[9]
我國專利法規定一項發明或者實用新型應當只有一項獨立權利要求,并且寫在同一發明或者實用新型的從屬權利要求之前。獨立權利要求:從整體上反映發明或者實用新型的技術方案,記載解決技術問題的必要技術特征。從屬權利要求:如果一項權利要求包含了另一項同類型權利要求中的所有技術特征,且對該另一項權利要求的技術方案作了進一步的限定,則該權利要求為從屬權利要求。
獨立權利要求撰寫時應當包括前序部分和特征部分:
(1)前序部分:寫明要求保護的發明或者實用新型技術方案的主題名稱和發明或者實用新型主題與最接近的現有技術共有的必要技術特征;
(2)特征部分:使用“其特征是……”或者類似的用語,寫明發明或者實用新型區別于最接近的現有技術的技術特征,這些特征和前序部分寫明的特征合在一起,限定發明或者實用新型要求保護的范圍。
本文設計的檢索模型充分的利用了權利要求的結構特征,因此為了使敘述更加清晰:
定義1 權利要求分割詞:中文發明或實用新型專利權利要求中能夠將前序部分和特征部分分割開的慣用詞語,如“其特征是”、“其特點”、“方法為”等等。
獨立權利要求分兩部分撰寫的目的,在于使公眾更清楚地看出獨立權利要求的全部技術特征中哪些是發明或者實用新型與最接近的現有技術所共有的技術特征,哪些是發明或者實用新型區別于最接近的現有技術的特征。當然,某些情況下獨立權利要求也可以不分前序部分和特征部分。例如,開拓性發明; 由幾個狀態等同的已知技術整體組合而成的發明; 已知方法的改進發明等等。
4 中文專利無效檢索模型
4.1 確定權利要求分割詞
現有的統計方法與機器學習理論可以用來為專利檢索服務,但專利文本是一種特殊的半結構化文本,有其自身的特點,專利檢索中應該考慮這些特征。在專利無效檢索中要求較高的準確率,如果僅僅是用權利要求或者摘要進行布爾匹配或者使用簡單的向量空間模型進行相似性計算,對結果進行排序,都難以獲得滿意的結果。因此,結合中文專利權利要求的特點,設計下面的檢索模型,基本思想就是:布爾檢索與向量空間模型相結合提高召回率和準確率,前序部分與特征部分分別處理進一步提高準確率。
對2000年申請的發明專利中具有獨立權利要求的55866件專利進行人工觀察,統計出常用的40個分割詞,將它們分為三類:特征類、組成類、過程類,如表1所示 。這些分割詞能有效的將權利要求前序部分和特征部分分割開,分割率約為94.6%。
4.2 無效檢索模型
兩步檢索在信息檢索領域廣泛應用,因此依據已經確定的分割詞,設計如下兩步無效檢索模型,第一步進行布爾初檢,盡可能擴大檢索的范圍提高檢索召回率;第二步對輸入獨立權利要求和第一步返回的專利獨立權利要求進行分割處理,分別計算前序部分相似度和特征部分相似度,根據兩部分的相關性最終獲得返回結果的相似度,從而完成結果的排序工作。這樣既節省了計算的時間又提高了檢索的準確性,因為在整個專利數據庫中進行排序計算是不現實的。具體流程如下(圖1是其相應的流程圖)。
(1)確定檢索要素進行布爾檢索:對新申請的專利進行分析,根據獨立權利要求確定檢索要素后,利用同義詞詞典進行擴展,確定檢索關鍵詞。基本檢索要素可以根據技術領域、技術問題、技術手段、技術效果等方面進行確定。
(2)利用關鍵詞在專利數據庫中進行布爾檢索,獲得初步檢索結果并臨時存儲。
(3)分割處理:對申請專利的獨立權利要求和第一步返回結果的權利要求進行分割處理。
(4)相似性計算:對初步檢索結果采用向量空間模型進行相似性計算。計算方法如下:
in),表示返回結果專利獨立權利要求的前序部分、特征部分和整個獨立權利要求,tdij,tdp
利要求前序部分、特征部分和整個獨立權利要求,tqij,tqpij,tqcij表示相應部
關鍵詞權重的計算,對排序結果有影響,因此有必要對不同的權重計算方法進行比較,擇優而定。
(5)人工觀察檢索結果是否達到檢索要求,如果沒達到返回步驟(1)重新確定檢索要素。否則,結束檢索。該步同時進行同義詞典的擴充:閱讀檢索結果,找出明顯的與檢索要素同義的詞語加到同義詞典中。
5 實驗與結果評價
5.1 試驗數據與試驗設計
為了驗證該模型的有效性,對比不同詞語權重方法的效果,進行兩組實驗:第一組對比權利要求分割前后檢索效果的不同,用“分割前”表示;第二組是在分割處理前提下對比詞語權重的選擇對檢索效果的影響,權重選擇方法一為fq,t×fd,t×idft, 用“分割后A”表示,二為bq,t×bd,t,用“分割后B”表示,其中fx,t表示x中詞t出現的頻度,idft表示詞t的倒排文檔頻度,bx,t表示x中詞t存在(1)與否(0)。
為此,隨機選取5件專業性不強的發明專利作為申請專利:95118××1,02121××7,200410096××7,200510000××7,200610049××4,分別用NO.1—NO.5表示,確定其檢索要素并進行同義詞擴展。被檢索專利為申請時間在1985.01.01-2006.2.28內的所有發明專利。初步檢索返回結果分別為2087、628、67、123、140,進行分割處理時不能用表1中分割詞進行分割的獨立權利要求,采用人工分割。但這樣的數據很少,分別占初步檢索結果的4.3%,5.4%,6.8%,1.7%,2.3%。
5.2 結果評價
對于檢索返回的結果,采用人工的方式評價其與輸入申請專利的相關性。因為檢索的目的是快而準的找到與申請專利密切相關的專利,所以只評價排序在前20位的返回結果。為綜合比較兩組試驗的結果,將結果數據繪制到同一個圖中。圖2是返回結果中排序前20位的專利與相應的申請專利之間具有相關性的專利數量。
從圖中可以看出:(1)權利要求分割處理后(分割后A),除NO.1外其余檢索效果都有所改善,尤其是NO.5和NO.6的改善效果更加明顯;(2)當采用bq,t×bd,t詞語權重時(即分割后B),除NO.3外其余檢索效果比采用fq,t×fd,t×idft詞語權重(即分割后A)要好,這與一般的信息檢索有所不同;(3)分割處理后,并且采用bq,t×bd,t詞語權重方法(即分割后B),五件發明專利檢索效果較分割前都有所改善。
6 結束語
本文構建的中文專利無效檢索模型,充分考慮了中文專利的獨立權利要求結構特征信息,借助分割詞進行分割處理;在具體檢索中采用兩步檢索方法,使得檢索的準確率和召回率都得到提高。同時,對詞語權重選擇方法和的檢索效果進行比較。實驗結果顯示,該模型能有效的對檢索結果進行排序,使審查員能夠迅速的尋找到相關專利,從而完成專利的審查工作。
參考文獻:
[1]KANDO N,LEONG M K.Workshop on patent retrieval SIGIR 2000 workshop report[J].ACM SIGIR Forum Archives,2000,34(1): 28-30.
[2]ACL 2003.Proceedings of ACL 2003 Workshop on Patent Corpus Processing [EB/OL]. [2007-03-05].http://www.slis.tsukuba.ac.jp/~fujii/acl2003ws.html.
[3] IWAYAMA M,FUJII A,KANDO N.Overview of patent retrieval task at NTCIR3[C]//Proc of the 3rd NTCIR workshop on research in information retrieval, automatic text summarization and question answering.Tokyo:[s.n.],2003:21-24.
[4]FUJII A,IWAYAMA M,KANDO N.Overview of patent retrieval task at NTCIR-4[C]//Proc of the 4th NTCIR workshop on research in information access technologies, information retrieval, question answering and summarization.Tokyo:[s.n.],2004:225-232.
[5]FUJII A,IWAYAMA M,KANDO N.Overview of patent retrieval task at NTCIR-5[C]//Proc of the 5th NTCIR workshop on evaluation of information access technologies, information retrieval, question answering and crosslingual information access.Tokyo:[s.n.],2005:269-277.
[6]LARKEY L S.A patent search and classification system[C]//Proc of the 4th ACM conference on digital libraries[S.l.][s.n.] 1999:79-87.
[7]SHINMORI A,OKUMURA M.Patent claim processing for readabilitystructure analysis and term explanation[C]//Proc of ACL workshop on patent corpus processing.Tokyo:[s.n.],2003:56-65.
[8]KIM J,HUANG Jinxia,JUNG Hayong.Patent document retrieval and classification at KAIST[C]//Proc of the 5th NTCIR Workshop on evaluation of information access technologies, information retrieval, question answering and crosslingual information access.Tokyo:[s.n.],2005.
[9]中華人民共和國國家知識產權局.審查指南[M].北京:知識產權出版社,2006:218-242.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”