摘要:針對中國國家知識(shí)產(chǎn)權(quán)局專利審查中的專利檢索任務(wù),設(shè)計(jì)了一個(gè)兩步專利檢索模型:第一步進(jìn)行布爾初步檢索;第二步采用向量空間模型進(jìn)行相似性計(jì)算,從而得到排序的二次檢索結(jié)果。實(shí)驗(yàn)數(shù)據(jù)來源于中國國家知識(shí)產(chǎn)權(quán)局,結(jié)果顯示該檢索模型是有效的,部分地克服了現(xiàn)有檢索方法的不足,大大減輕了審查員的工作負(fù)擔(dān),提高了工作效率。
關(guān)鍵詞:專利審查; 專利檢索;詞語權(quán)重; 相似性
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)05-1483-02
專利信息作為商業(yè)戰(zhàn)略中的關(guān)鍵因素,已經(jīng)得到越來越多國家、企業(yè)的重視,他們努力保護(hù)自己的知識(shí)產(chǎn)權(quán),爭奪每一個(gè)可能給他們帶來利潤的技術(shù),因此專利申請急劇增加。目前,在中國申請的專利累計(jì)已經(jīng)達(dá)到200多萬件。每一件發(fā)明專利申請?jiān)诒皇谟鑼@麢?quán)前均要進(jìn)行檢索。檢索是發(fā)明專利申請實(shí)質(zhì)審查程序中的一個(gè)關(guān)鍵步驟,其目的在于找出與申請的主題密切相關(guān)或相關(guān)的現(xiàn)有技術(shù)中的對比文件,或找出抵觸申請文件和防止重復(fù)授權(quán)的文件,以確定申請的專利主題是否具有新穎性和創(chuàng)造性等專利法規(guī)定的內(nèi)容。
在過去幾年中,專利檢索已得到了許多研究人員的重視,如NTCIR[1~3](亞洲語言信息檢索評測會(huì)議)、SIGIR 2000[4]就專利檢索問題召開了專門的會(huì)議。這些研究主要針對英文、日文、韓文進(jìn)行的,所要解決的檢索任務(wù)有專利分類、技術(shù)查新、無效專利檢索、跨語言專利檢索等。然而對中文專利檢索的研究并不多見,用于專門針對審查員專利審查任務(wù)的專利檢索研究就更少了。本文提出的檢索模型試圖解決相關(guān)的問題。
1現(xiàn)有檢索流程與不足
專利審查中檢索依據(jù)的申請文本通常是申請人在申請日提交的原權(quán)利要求書和說明書,主要針對權(quán)利要求書進(jìn)行。檢索資料很多,包括各種電子形式、紙質(zhì)形式的各國專利文獻(xiàn),如專利公開說明書、專利說明書、專利摘要、權(quán)利要求等等。
1.1現(xiàn)有檢索的方法與流程[5]
1)整體分析權(quán)利要求確定檢索要素
審查員閱讀權(quán)利要求書,找出全部獨(dú)立權(quán)利要求和請求保護(hù)范圍最寬的獨(dú)立權(quán)利要求的技術(shù)方案,確定反映該技術(shù)方案的基本檢索要素。基本檢索要素是體現(xiàn)技術(shù)方案的基本構(gòu)思的可檢索要素。基本檢索要素可以根據(jù)技術(shù)領(lǐng)域、技術(shù)問題、技術(shù)手段、技術(shù)效果等方面進(jìn)行確定。
2)根據(jù)檢索要素確定檢索表達(dá)式
在確定了基本檢索要素之后,結(jié)合檢索的技術(shù)領(lǐng)域特點(diǎn),確定這些基本檢索要素中每個(gè)要素在計(jì)算機(jī)檢索系統(tǒng)中的表達(dá)形式,如關(guān)鍵詞、分類號(hào)、化學(xué)結(jié)構(gòu)式等。為了全面檢索,通常需要以關(guān)鍵詞、分類號(hào)等多種形式表達(dá)這些檢索要素。在選取關(guān)鍵詞時(shí),相應(yīng)檢索要素的各種同義或近義表達(dá)形式。
3)合并每個(gè)檢索要素的檢索結(jié)果
將用不同表達(dá)形式檢索到的結(jié)果以邏輯并的關(guān)系合并作為針對該檢索要素的檢索結(jié)果。
4)合并不同檢索要素的檢索結(jié)果
將不同檢索要素的檢索結(jié)果以邏輯與的關(guān)系進(jìn)行合并作為邏輯要素組合的檢索結(jié)果。組合的形式以實(shí)際情況而定。例如,權(quán)利要求是要素A、B和C的組合,審查員在檢索這種權(quán)利要求時(shí),應(yīng)當(dāng)首先對A+B+C的技術(shù)方案進(jìn)行檢索,如果未查找到可評述其新穎性、創(chuàng)造性的對比文件,則應(yīng)當(dāng)對A+B、B+C、A+C的分組組合以及A、B和C單個(gè)要素進(jìn)行檢索。
1.2現(xiàn)有檢索方法存在以下不足
1)檢索次數(shù)多
針對不同檢索要素的組合進(jìn)行的檢索次數(shù)多、工作量大。據(jù)統(tǒng)計(jì),平均每個(gè)新申請的專利要進(jìn)行200次左右的檢索,才能找到與專利最相關(guān)的對比文件。這對審查員來說是非常繁重的一項(xiàng)工作。
2)檢索結(jié)果無序性
按照關(guān)鍵詞進(jìn)行的布爾形檢索結(jié)果排列無序,因此審查員要閱讀每一個(gè)檢索結(jié)果。當(dāng)檢索返回的結(jié)果很大時(shí),這是非常艱難的。比如“衣服”關(guān)鍵詞在國家知識(shí)產(chǎn)權(quán)局專利檢索數(shù)據(jù)庫發(fā)明專利中返回的結(jié)果是744條,“防盜”返回的結(jié)果是1 822條[6]。如果能有效地對檢索結(jié)果排序,審查員就可以迅速地找出相關(guān)的專利,從而省去了不必要的工作。
3)對審查員要求高
當(dāng)檢索使用IPC時(shí),確定專利IPC的方法是根據(jù)關(guān)鍵詞檢索已經(jīng)確定IPC號(hào)的相關(guān)專利,或查找IPC表。因此要求審查員對IPC有非常深入的了解,以便確定全面、準(zhǔn)確的檢索要素對應(yīng)的IPC。當(dāng)使用關(guān)鍵詞時(shí),又需要對詞語的含義有全面的認(rèn)識(shí),這樣才能有效地確定同義詞、近義詞。對于涉及不同技術(shù)領(lǐng)域的檢索結(jié)果,還需要審查員具有盡可能豐富的專業(yè)知識(shí)來理解專利的技術(shù)內(nèi)容,而這些技術(shù)往往又是跨學(xué)科的。
針對現(xiàn)有專利審查檢索方法的不足,如何設(shè)計(jì)一個(gè)高效率的檢索模型即成為本文的研究重點(diǎn)。
2改進(jìn)的兩步檢索模型
兩步檢索方法在信息檢索領(lǐng)域應(yīng)用廣泛,H. Mase在專利深加工的基礎(chǔ)上使用兩步檢索進(jìn)行日文無效專利檢索的研究[7]。S. LIM用該方法進(jìn)行韓文技術(shù)查新的檢索研究[8]。面向?qū)彶槿蝿?wù)的專利檢索不同于無效檢索:它不但要找出抵觸專利文件,還要找出能夠與之對比加深對其理解的專利文件。為了高效地進(jìn)行專利檢索,提高檢索結(jié)果的準(zhǔn)確率和召回率,結(jié)合中文專利的特點(diǎn),設(shè)計(jì)如下兩步檢索模型:a)進(jìn)行初檢,盡可能擴(kuò)大檢索的范圍提高檢索召回率;b)在a)基礎(chǔ)上進(jìn)行排序操作,這樣既節(jié)省了計(jì)算的時(shí)間又提高了檢索的準(zhǔn)確性,因?yàn)樵谡麄€(gè)專利數(shù)據(jù)庫中進(jìn)行排序計(jì)算是不現(xiàn)實(shí)的。具體流程如圖1所示。
a)確定檢索要素進(jìn)行布爾檢索。對新申請的專利進(jìn)行分析,根據(jù)權(quán)利要求確定檢索要素后,利用同義詞詞典進(jìn)行擴(kuò)展,確定檢索關(guān)鍵詞。同義詞典的質(zhì)量直接影響關(guān)鍵詞的確定,進(jìn)而影響檢索結(jié)果,因此,建立全面高質(zhì)量的詞典非常重要。
b)利用關(guān)鍵詞在專利數(shù)據(jù)庫中進(jìn)行布爾檢索,獲得初步檢索結(jié)果并臨時(shí)存儲(chǔ)。
關(guān)鍵詞權(quán)重的計(jì)算,對排序結(jié)果有影響,因此有必要對不同的權(quán)重計(jì)算方法進(jìn)行比較,擇優(yōu)而定。
d)人工觀察檢索結(jié)果是否達(dá)到檢索要求。如果沒達(dá)到返回步驟a)重新確定檢索要素;否則,結(jié)束檢索。該步同時(shí)進(jìn)行同義詞典的擴(kuò)充:閱讀檢索結(jié)果,找出明顯的與檢索要素同義的詞語加到同義詞典中。
3實(shí)驗(yàn)與結(jié)果評價(jià)
3.1實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證該模型的有效性,選取實(shí)驗(yàn)用的專利數(shù)據(jù):數(shù)據(jù)來源于國家知識(shí)產(chǎn)權(quán)局共有專利2 397 261。其中發(fā)明、實(shí)用新型、外觀設(shè)計(jì)專利各912 185、871 452、613 624。隨機(jī)選取的五件發(fā)明專利申請,確定其檢索要素并進(jìn)行同義詞擴(kuò)展,如表1。它們分別為95 118××1,02121××7,200410096××7,200510000××7,200610049××4,分別用No1~5表示。被檢索專利為申請時(shí)間在1985.01.01~2006.02.28的所有發(fā)明專利。
3.2結(jié)果評價(jià)
對二次檢索結(jié)果中前5、10、15、20件專利進(jìn)行人工評價(jià),觀察其與申請專利的相關(guān)性,表2列出了實(shí)驗(yàn)結(jié)果。從表中可以看出:a)該檢索方法能夠?qū)Y(jié)果進(jìn)行有效的排序,使審查員能快速地找到相關(guān)專利。b)考慮倒排文檔頻率idf因素會(huì)使檢索返回的結(jié)果更加有效。
4結(jié)束語
本文針對專利審查中專利檢索任務(wù)提出了兩步檢索模型,從而部分克服了現(xiàn)有檢索方法的不足。實(shí)驗(yàn)證明該模型有效,大大提高了檢索效率,節(jié)省了審查員的工作量。下一步的工作目標(biāo)是建立更加專業(yè)化、準(zhǔn)確、全面的同義詞詞典,同時(shí)根據(jù)該模型建立一個(gè)可實(shí)際應(yīng)用的專利審查檢索系統(tǒng),為審查工作提供支持。
參考文獻(xiàn):
[1]IWAYAMA M, FUJII A, KANDO N,et al.Overview of patent search task at NTCIR-3[C]//Proc of the 3rd NTCIR Workshop on Research in Information Search, Automatic Text Summarization and Question Answering.Tokyo:[s.n.],2003.
[2]FUJII A,IWAYAMA M,KANDO N.Overview of patent search task at NTCIR-4[C]//Proc ofthe 4th NTCIR Workshop on Research in Information Access Technologies, Information Search, Question Answering and summarization.Tokyo:[s.n.],2004.
[3]FUJII A,IWAYAMA M,KANDO N.Overview of patent search task at NTCIR-5[C]//Proc of the 5th NTCIR Workshop on Evaluation of Information Access Technologies, Information Search, Question Answering and Cross-Lingual Information Access.Tokyo:[s.n.], 2005.
[4]KANDO N. Workshop on patent search SIGIR 2000workshop report [EB/OL].(2000)[2007-01-20]. http://www.acm.org/sigs/sigir/forum/S2000/Patent_report.pdf.
[5]中華人民共和國國家知識(shí)產(chǎn)權(quán)局.審查指南[K].北京:知識(shí)產(chǎn)權(quán)出版社,2006.
[6]中華人民共和國國家知識(shí)產(chǎn)權(quán)局[EB/OL].http://www.sipo.gov.cn/sipo/zljs/.
[7]MASE H, MATSUBAYASHI T, OGAWA Y. Proposal of two-stage patent search method considering the claim structure[J].ACM Trans on Asian Language Information Processing,2005,4
(2):190-206.
[8]LIM S,JUNG S,KWON H.Improving patent search system using ontology[C]//Proc of the 30th Annual Conference of the IEEE Indus-trial Electronics Society.Busan:[s.n.], 2004.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”