黎子輝,劉亞娟
(1.華南理工大學知識產權信息服務中心,廣東 廣州 510640;2.北京棧橋知識產權代理事務所(普通合伙),北京 100090)
自黨的十九大以來,明確提出了“倡導創新文化,強化知識產權創造、保護、運用”的新時代知識產權工作歷史使命,國家的知識產權事業進入高質量發展新征程[1]。在此背景下,情報界對知識產權信息服務的探討研究更加廣泛[2-3]。無論是傳統的科技查新和專利檢索,還是新興的專利技術分析、專利導航和知識產權分析評議等,都要求檢索人員配備適用的檢索工具,以提升專利檢索與分析的工作效率[4-6]。據筆者了解,目前國內公司開發的專利相關數據庫就超過20個,實際工作證明,各個專利數據庫的可檢索能力各有不同。有研究者曾對國家知識產權局網站(SIPO)、中國知識產權網(CNIPR)等9個中國專利檢索網站進行了比較[7]。但該研究只是憑借檢索結果數量衡量各庫的優劣,并未結合檢索結果的細致比對和文本分析,未能挖掘檢索結果差異的原因。事實上,進行資源數據庫檢索能力的對比,需要做更豐富的樣本測試和更精細的結果差異對照。較早前也要學者對中國專利三個檢索系統進行比較分析,但檢索案例單一且未能實現精細對比和深層次的信息挖掘[8]。而且,時至今天,各常用專利庫的可供檢索字段已大同小異,用戶普遍關心的是數據庫的資源情況。據用戶采訪顯示,對于中國專利文獻檢索,普通檢索用戶認可的是國家知識產權局官方網站,圖書館員經常使用CNIPR、中國知網和萬方數據,而專業專利分析人員較多使用合享IncoPat和智慧芽Patsnap。由于廣大用戶迫切關心各個常用中國專利庫的使用感受,不少的網絡測評提供了用戶真實體驗對比,但都是從定性層面進行簡要陳述,未能進行系統研究[9,10]。
本文以CNIPR、萬方專利數據庫、中國知網(CNKI)專利數據庫、合享IncoPat以及智慧芽Patsnap五個常用的中國專利數據庫為研究對象,通過檢索結果記錄的精細比對和文本分析,探尋各庫檢索結果的差異是由數據源因素還是檢索系統因素造成的,從數據完整性和準確性、數據更新情況以及檢索精確度等方面對以上常用專利庫做出評價,為專利檢索用戶及情報分析人員提供重要參考和使用建議。
以CNIPR、萬方專利庫、CNKI專利庫、IncoPat以及Patsnap這5個常用的中國專利數據庫為研究對象,并以國家知識產權局免費官網(http://psssystem.cnipa.gov.cn/,以下簡稱“官網”)數據作為比對標尺,隨機選取了5個具有代表性的不同領域技術(見表1),分別使用基礎檢索、專利名稱檢索、綜合檢索以及針對新專利的檢索等,考察相同的檢索策略下檢索結果數量差值,并以此出發挖掘結果記錄差異的原因,從數據源上比較上述5個常用中國專利數據庫的數據準確性和檢索完整性,從而評價各庫的檢索能力及各自的優勢。檢索結果涵蓋中國發明專利申請(以下簡稱“發明”)、中國實用新型專利(以下簡稱“新型”)和中國外觀設計專利(以下簡稱“外觀”)。為了更好地進行橫向對比,檢索過程中均不啟用“主題詞擴展/同義詞擴展”,且檢索詞限定為“精確檢索”。全部測試數據采集時間為2019年2月19日晚。
在專利檢索過程中,一般先將檢索字段限制在“專利名稱或摘要”,再根據該初步檢索結果調整檢索策略[11]。對此,本環節測試將檢索字段限制為“專利名稱或摘要”,比較在基礎檢索中5個研究對象的檢索結果(見表2)。
從表2可以看出,本環節測試中CNIPR的檢索結果基本上略多于官網,但差異微小;IncoPat和Patsnap的檢索結果非常相近,且往往獲得比CNIPR稍多的檢索結果(具體原因將在以下測試中繼續分析),未見出現檢索結果少于官網的“漏檢”情況;而萬方和CNKI的檢索結果相對官網則略有偏差,大多表現為明顯少于官網,“漏檢”情況較為突出。為了探尋CNIPR的檢索結果略多于官網的原因,進行人工比對發現,官網的檢索在“查全”方面確實存在缺陷。
如樣本3的外觀設計,在官網的檢索結果為0,但在CNIPR、IncoPat和Patsnap都能檢索出“數據采集傳輸儀CN201830575133.0”和“電積槽CN201530411136.7”兩件外觀設計專利,而且說明書摘要中的確出現了“重金屬”“廢水”“處理”3個檢索詞,證實該2件外觀設計專利出現在檢索結果中是正確的。通過專利號或專利名稱反查,均能在官網上檢索到所述2件專利的數據記錄,說明在官網上是有相應專利記錄,但檢索過程中系統未能檢全,反映出官網系統的檢索不一定能在自身數據中確保100%檢全。

表2 基礎檢索的結果數量
在技術調研的過程中,如果檢索結果過多,往往會把關鍵詞限制在“專利名稱”以獲取密切相關的專利文獻[12]。本環節測試將檢索字段限制為“專利名稱”,比較在定位檢索中5個研究對象的檢索結果情況(見表3)。

表3 定位檢索的結果數量
從表3可以看出,本環節測試中CNIPR、Inco-Pat和Patsnap的檢索結果與官網基本相同;相比之下,萬方和CNKI的大部分檢索結果數量仍明顯少于官網,反映出該兩個常用中文數據庫在專利檢索“查全”方面仍顯劣勢。另外,官網的檢索結果仍然全部出現略少于CNIPR的情況,如樣本3在官網的發明記錄為553條,而CNIPR為557條。
通過人工比對,發現缺少的記錄是“一種待處理廢水重金屬成分檢測工藝CN201811402768”、“一種重金屬絡合廢水處理電Fenton氧化裝置CN109354128A”等4件最新公開的專利,該4件專利公開/公告日都是2019-02-19,即本文測試組數據采集當天。通過專利號或專利名稱在官網上反查,未能檢索到上述4件專利,證實官網的確缺少相應數據,而并非系統的原因未能檢出。本環節測試顯示,CNIPR在數據完整性方面最具優勢,其新公開專利上線速度甚至比官網更快。
專利檢索中,最普遍的檢索方式是“專利名稱/摘要+IPC分類號+申請年份”,以此精準獲得相關專利技術信息[13]。本環節測試將檢索字段限制為“專利名稱或摘要”,并添加IPC分類號(表1)和申請年份(2013.01.01—2018.12.31)兩項限制條件,進一步比較5個研究對象在綜合檢索中的結果情況。因外觀設計不使用IPC分類號,本環節測試不考慮外觀設計的檢索結果(見表4)。

表4 綜合檢索的結果數量
從表4看出,和前面的測試類似,CNIPR的檢索結果比官網略多,人工比對后發現多出來的記錄同樣是測試組數據采集當天公開的最新專利。IncoPat和Patsnap的檢索結果依然基本相同的,但與表2部分數據類似,也是普遍出現檢索結果數量比CNIPR和官網都稍多的情況。經人工比對、專家咨詢及官方確認,證實多出來的專利記錄主要是由于異常申請的原因(重復申請等),部分已被公開的專利申請文本(特別是2018年前后申請的)被撤回且在官網系統中被刪除了數據記錄,但在IncoPat、Patsnap、CNKI和萬方等商業數據庫中仍保留了該部分數據,形成了類似“百度快照”的記錄效果。如此,反而讓商業數據庫可實現對已刪除記錄的另類“檢全”作用。
此外,萬方和CNKI則仍舊在“查全”上表現不佳,但在樣本4中發生異常,其在萬方檢出的實用新型數量是21件,比CNIPR還多3件。經過文本比對,樣本4中萬方的檢索結果更多的原因,是即便使用了“精確”檢索,該庫在檢索中仍會自動拆分檢索詞,例如萬方檢出的專利“一種指紋真偽識別裝置CN201621460937.8”的文本中,實際并未出現“指紋識別”的詞組,而是分別出現了“指紋”和“識別”兩個被拆分開來的關鍵詞,因此該記錄僅出現在萬方的檢索結果中,而并未出現在其他幾個平臺的檢索結果中。以此看出,萬方的自動拆詞使該庫在詞組精確檢索中未能嚴格獲得精準的結果,但另一角度而言,又一定程度保證了用戶在其資源庫上“查全”。
從前面的測試結果看出,導致5個測試對象以及官網各自數據源的差異重要原因之一是有否最新公開的專利,即數據庫的新增記錄更新速度。為了更好地反映實驗數據庫對新專利的檢索情況,本環節測試將專利申請時間設置為“2018.01.01—2019.02.19”,檢索字段限制為“專利名稱或摘要”,比較研究對象的檢索結果情況。
從表5看出,CNIPR在各次檢索中結果數量最多,通過人工比對,再次發現CNIPR比其余庫多出的記錄確實就是與本文測試組數據采集同一天公開的新專利,反映出CNIPR的新記錄上線速度最快。IncoPat和Patsnap數據上線速度稍遜于CNIPR,但接近與官網同步。而CNKI的新專利數據量上則明顯遜色,萬方更是在數據更新方面明顯不佳,各個測試樣本在其上的新專利檢索結果數據量均為最低值。
為了進一步測試實驗數據庫對新專利的收錄情況,隨機選取10件3個月以內的新公開專利,考察實驗數據庫是否可檢索出所述測試組新專利。

表5 新專利檢索結果數量

表6 新專利檢索情況
從表6看出,CNIPR數據最完整,最適合做專利數量標尺;IncoPat和Patsnap基本與官網同步,都可保證一周以內的更新速度;CNKI在測試組中近2個月的新公開專利數據尚未見收錄,公開時間2個月以上的測試組專利則均可檢索;而萬方在測試組中的全部新公開專利均未見收錄。
專利統計與分析往往需要進行專利申請人/專利權人統計。本環節測試選取清華大學、中國科學技術大學、哈爾濱工業大學、南京理工大學和華南理工大學5所具有代表性的不同區域的理工類高校,用以測評幾個實驗數據的數據準確性與檢索精確度。為了排除數據上線速度的影響,專利公開時間選擇為2013年1月1日—2017年12月31日。由于萬方專利檢索只能限制發表時間(即申請時間)區間,不可限制專利公開時間區間,因此暫未不列入對比。

表7 機構檢索結果數量
通過對表7結果的數據分析及相應文本比對,發現一些情況。
(1)數據準確性方面:①官網在機構2上只檢出1件外觀設計專利,但CNIPR等其余數據均可檢出2件,經比對,該專利“上轉換單光子探測器CN201530041934.5”的文本在官網的申請人(專利權人)著錄項是“山東量子科學技術研究院有限公司”,而在CNIPR等其余的數據庫相應著錄項是“山東量子科學技術研究院有限公司;中國科學技術大學先進技術研究院”,即同一專利的申請人(專利權人)著錄項在官網和CNIPR等數據庫不一致,經專家咨詢和官方確認,該情況屬于官網修正了數據記錄,但其余商業數據庫未能實現相應修改,即商業數據庫對已錄入數據的修改更新不能保證。②Patsnap在機構3的數據發生異常,明顯多于官網及其余商業數據庫。經人工比對,發現Patsnap在該次檢索中將“黑龍江大學”的相關數據也列入其內,屬于系統錯檢的情況,但在其他測試組中并未出現類似問題。③在排除更新速度的影響后,CNKI的檢索結果與官網高度相符,反映出CNKI對已公開1年以上的專利檢索準確度很高。
(2)檢索精確度方面:①官網在機構1的外觀設計出現較多漏檢專利,如“液體工作站(Labkeeper)CN201330221507.6”出現在除官網以外其余數據庫的檢索結果中。經過專利號或專利名稱反查,發現該專利在官網中的申請人(專利權人)著錄項是“博奧生物有限公司”,而在CNIPR等則是“博奧生物有限公司;清華大學”,出現了兩種不同的著錄信息。事實上,該專利發生了專利權人變更,變更后為清華大學,應該被作為有效數據統計入內,屬于因著錄項未及時更新導致的漏檢,即官網也會因部分信息更新不及時導致漏檢。
根據上述針對檢索結果數據完整性、準確性以及檢索精確度的系列測試結果,對國家知識產權局官方網站、CNIPR專利檢索平臺、萬方專利庫、中國知網專利庫、合享IncoPat專利數據庫以及智慧芽Patsnap專利數據庫幾個常用的中文專利數據庫作出以下評價和使用建議:(1)作為數據源標準,國知局官網仍可能會發生因著錄項變更(如專利權人轉移)更新不及時導致漏檢的情況,也可能會發生因系統原因未能在其數據源中100%檢全的問題,而且檢索速度較慢、檢索功能相對單一,因此在科技查新、專利信息分析等需要兼顧查全率及工作效率時,建議使用商業數據庫進行輔助檢索;(2)CNIPR的數據更新速度基本可實現每日更新,其新公開專利數據上線最快,也未見發生明顯的“漏檢”情況,適宜用作專利的常規檢索與統計工具;(3)IncoPat和Patsnap的檢索功能齊全且具有一定的專利分析功能,有較多可以直接輸出的可視化數據圖表,便于專利分析人員完成專利分析報告,而且新記錄更新速度基本能與官網同步,但其對已錄入數據的部分修改與更新仍望跟進,以實現該部分數據與官網的一致性;(4)作為常用中文文獻綜合檢索平臺,CNKI和萬方能為跨庫的一站式檢索提供很大的便利,適用于技術調研、成果評價等文獻綜合分析的場景,但僅針對其專利庫而言,兩者的數據更新速度還需提升,尤其是對近2~3月內的新公開專利數據缺失嚴重;(5)對新專利的檢全率及數據更新速度排序是:CNIPR>官網≈IncoPat≈Patsnap>CNKI>萬方;(6)單個數據庫(包括官網)容易出現錯檢漏檢情況,做精準統計時建議聯合使用不少于兩個專利檢索平臺;(7)萬方、CNKI、IncoPat和Patsnap等商業數據庫保留了官網和CNIPR中被刪除了的數據記錄,形成了類似“百度快照”的記錄效果,其數據的不同步反而使所述商業數據庫可實現對已刪除記錄的另類“檢全”作用,有可能用于研究專利不良申請行為等。