張詩伯
摘 要: 本文結合IPC和CPC,對CPC在生物信息領域檢索中的應用進行分析,通過CPC技術分支的關聯性,分析了實際使用過程可能存在的漏檢問題,探索了CPC分類號在生物信息領域檢索的檢索策略。
關鍵詞: CPC;生物信息學;檢索策略;漏檢
一、引言
CPC分類體系是歐洲專利局和美國專利與商標局聯合開發的用于專利文件的全球分類系統,目前CPC包含約26萬個分類號,分類的細致程度遠超其他分類體系,涉及的主題更加具體,從而能夠有效提高專利檢索的效率[1]。然而在實際的檢索中,往往存在符合度較高的分類號卻又有漏檢發生的情況,主要原因還是在分類時分至了關聯性較高的其他分類下。
生物信息領域是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一。其研究重點主要體現在基因組學和蛋白質組學兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。隨著生物信息學的不斷深入,生物信息學產業進入跨越式發展,IPC和CPC分類表中根據該類專利設置了相應分類小組G06F19/00下的一點組G06F19/10。
二、G06F19/10下CPC與IPC分類系統
G06F19/10的IPC分類定義為生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統,并在附注中指出:本組也包括固有或暗含,但并不明確提及的數據處理的生物信息學系統和方法。CPC中G06G19/10小組下細分條目與IPC是大體一致的,并無更細的分類。這里為分析該一點組下各二點組技術分支的關聯性,首先在SIPOABS數據庫(2017年6月)得到各個細分標引數量,并計算得到IPC和CPC檢索的重合度。藉由IPC和CPC的分類思想有明顯區別,前者偏向于整體上體現發明構思,而后者則試圖從多個維度來描述發明構思。該標引數量和重合度的可以很好的反映出以某項技術為發明點的發明(IPC)和包含該項技術的發明(CPC)之間的關系。
通過對比表1中各二點組的IPC、CPC標引量可以明顯的看出,雖然CPC實施時間晚于IPC該小組的實施時間(2011.1),但其標引數量卻已經遠高于IPC。兩者數量的巨大差異的原因可能是包含某項技術的發明本來就是要多于以該項技術為發明點的發明。此外,同一細分下的IPC和CPC所標引的文章重合度也不高,如表1所示,總體上來說在70%左右??梢?,在檢索過程中,直接將其IPC對應的CPC分類號進行檢索,具有較高的漏檢風險。
進一步分析,重合度的不高可能由技術分支存在關聯性導致。由于生物信息技術的分類中相應的技術分支關聯性較高,導致易被分至臨近的組中。本文基于IPC和其他CPC分類號之間的重合度,對G06F19/10小組的技術分支關聯性進行分析。如,IPC分類號為G06F19/12代表以生物學/基因模型的為發明點的發明,將其與CPC分類號為G06F19/12~G06F19/28進行與計算(檢索式:G06F19/12/ic and G06F19/12/cpc),再將與計算的結果數除以該IPC分類的結果數計算得到跨組重合度。如圖1所示,G06F19/12以生物學/基因模型領域的發明,與G06F19/18遺傳學/基因變異、G06F19/24利用學習機進行數據分析關聯性較高。而G06F19/18遺傳學/基因變異的發明則與G06F19/22序列比較、G06F19/24利用學習機進行數據分析關聯。
通過對G06F19/10分類的分析可以得到:(1)CPC分類號標引量遠大于IPC,在檢索時可優先根據其分類號選擇相應及關聯性大的CPC號進行檢索,反之,通過IPC分類號進行限制是不合適的;(2)分類號上的關聯性體現出在CPC通過該組多個二點組分類號來作為基本檢索要素是需要謹慎的,例如在一個通過神經網絡進行序列分析的發明,G06F19/22和G06F19/24可以很好的表達出該構思,此時考慮G06F19/22和G06F19/24技術的關聯較小,可以采用與計算以提升檢索效率。
三、總結
生物信息學作為一項新技術,其專利分類號在具體技術分支的分類上還有很多不完善的地方。本文分析得到的分類號相應技術分支具有一定程度的關聯性,該關聯性易導致漏檢,從而給檢索過程中具體分類號的使用增加了難度。所以在該領域CPC分類號的選用應充分考慮技術的關聯性,擴展關聯性高的分類號,采用并集的方式避免漏檢。
參考文獻
[1] 廖佳佳,高菲,呂良,“聯合專利分類體系研究”[J],現代情報,第34卷第1期,2014年1月.