李三
由于專利具有地域性,在專利檢索當中一般都需要在各個國家、組織和地區進行檢索,以保證其數據覆蓋的全面性,但是由于同族專利等的存在,會導致檢索結果中出現重復數據,所以需要去重。去重須建立在每條數據記錄有其唯一標識碼的基礎上,本文首先分析了數據重復的種類,然后提出一種生成標識碼的方法,在此基礎上按需求進行去重。
專利檢索中的數據重復問題
在關于主題的專利檢索中,檢索人員一般需要在各大國家、組織和地區的檢索系統中進行檢索,然后對數據進行整合清洗,其工作最基本的就是去重。下文以某條專利數據為例,分別在中華人民共和國國家知識產權局(以下簡稱SIPO)、美國專利商標局(以下簡稱USPTO)、歐洲專利局(以下簡稱EPO)進行檢索來具體說明這一問題:
在SIPO的數據庫中檢索
由于字段較多,只挑選部分來說明數據重復問題,SIPO數據樣例見表1。
從表1中可以看出:此專利是美國戴爾公司在中國申請的專利,而且在中國已經取得專利權,其生效日期從優先權日1997.08.29開始計算。
在USPTO的數據庫中檢索
由于專利的地域性,上文提到的專利CN1525325B在USPTO有相關申請,見表2。USPTO在2001前是先發明制的,公開的專利文獻即表示對其授予了專利權。
從表2中可以看出:此專利是美國戴爾公司在美國申請的專利,申請人、發明人都與CN1525325B上的信息是一樣的。需要說明的是USPTO的記錄中多了一個同族號25445431的信息。
在EPO的數據庫中檢索
EPO專利信息庫的數據收集得較為全面,不僅包含本組織公開的數據,而且還包括其他國家、組織和地區公開的數據,上文提到的CN1525325B數據記錄在EPO數據庫的表現形式見表3。


數據重復種類
在分析上文提到的數據后得知,專利數據的重復一般分為三種情況:
第一種情況:申請號、申請日、文獻號、公開日相同
此種情況一般是不同語言之間的翻譯,需按語言去重。如上文中的SIPO-數據1與EPO-數據1。
第二種情況:申請號、申請日相同
此種情況一般是專利申請的不同階段,如CN1525325A屬于發明專利申請公開階段、CN1525325B專利授權階段,需按國家去重。如上文中的SIPO-數據1與SIPO-數據2。
第三種情況:技術內容相同
此種情況一般是申請人就同一技術主題在不同國家、地區提交專利申請產生的,也就是通常所說的簡單同族,需按同族去重。如上文中的EPO-數據1與USPTO-數據1。
實際操作中分析專利分布情況的時候一般要求按照第二種情況進行去重,分析技術要點的時候一般要求按照第三種情況去重。第一種隋況主要應用在多語言系統。
文獻標識規則及去重方案
根據WIPO標準ST.1——關于唯一化標識專利文獻所需最低限度數據元素的建議中提到的內容,只需要文獻號、公開日信息就可以唯一確定一篇文獻。但是如果需要按國家去重就必須加入申請號、申請日信息。
針對上文提到的數據重復種類提出以下模型,根據專利數據的基本信息,如申請號、申請日、文獻號、公開日、公布語言等來生成標識碼,在此基礎上進行去重。
以表1中的SIPO-數據1為例,對標識碼的結構進行說明見表5。
按表5的標識結構規則對上文提到的數據生成標識碼見表6。
按語言去重
通過分析數據,我們得知,EPO-數據1、EPO-數據2其實只是SIPO-數據1、SIPO-數據2的翻譯,所以SIPO-數據1與EPO-數據1的標識碼只有46-47位的語言種類不同、根據標識碼的唯一性原則,如果需要中文數據則留SIPO-數據1,需要英文數據則留EPO-數據1。
對于USPTO-數據1與EPO-數據3,其標識碼完全相同,根據標識碼的唯一性原則,只保留其中一條。按國家去重
SIPO-數據1與SIPO數據2分別是專利申請的公開信息與授權信息,其標識碼只有18-42的文獻號、公開日信息不同,如果按國家去重只能保留其中一條,或選公開文獻或選授權文獻。
按同族去重
表6中所有的數據如果按同族去重的話只能保留一條,其標識碼的48-60位都是相同的,如果我們需要中國數據則保留SIPO-數據1或SIPO-數據2,如果需要最早公開的話則保留USPTO-數據1或者EPO-數據3,用戶可以自己制定相關規則來確認保留哪條記錄。
結語
本文提到的去重方法其核心是生成唯一標識碼。此標識碼的生成必須建立在對各個國家、組織和地區不同時期的申請號、文獻號編碼規則清楚了解的基礎上,因此,此種方法的具體實施步驟需要長期的分析整理。
此方法可以應用在專利的數據收集、數據交換、數據補充等方面,提高數據質量,從而為向用戶提供高質量的專利信息檢索報告提供堅實的數據基礎。