徐倩 李曉曼,2 郝心寧 孫巍
(1. 中國農業科學院農業信息研究所,北京 100081;2. 中國農業科學院研究生院,北京 100081)
農業生物技術是指運用基因工程、細胞工程、發酵工程、酶工程及分子育種等生物技術,改善動植物及微生物品種生產性狀、培育動植物及微生物新品種,以及生產生物農藥、獸藥與疫苗的新技術[1]。農業生物技術的開發應用已經成為現代農業的特征之一。
專利文獻是技術創新和法律制度相結合的產物,以高度信息化和國際化的特點,快速反映著當今世界技術發展的最新前沿水平,是指導技術創新的重要信息來源之一。對農業生物技術領域專利文獻進行系統分析,宏觀層面,其研究結論對于政府規劃、決策,對于優化農業產業布局、調整產業結構、引導產業創新有決策支持作用;微觀層面,其分析結果對于挖掘技術空白點、跟蹤競爭對手、預測技術發展趨勢,進而確定技術發展方向、掌握具有自主知識產權的核心技術具有重要的參考價值。數據質量直接影響到分析結果的準確性。如何通過檢索策略優化獲得一個相對準確而全面的數據集,是本文要探討的問題。
目前,世界范圍內所采用的專利分類體系主要包括世界知識產權組織(WIPO)所編制國際專利分類體系(IPC)、美國專利商標局(USPTO)編制的美國專利分類體系(USPC)、歐洲專利局(EPO)編制的基于IPC細分的歐洲專利分類體系(ECLA),以及日本專利局(JPO)基于IPC的編制的日本專利分類體系(FI/F-Term)。韓國知識產權局(KIPO)和中國國家知識產權局(SIPO)均使用IPC。2013年,EPO和USPTO共同啟用聯合專利分類系統(CPC),這也是一種專利文獻的細分類體系[2]。截至2016年7月,世界上已有45個專利局開始使用該分類體系[3],CPC目前仍在不斷完善和修訂之中。
USPC雖然類目詳細,但卻十分復雜,掌握和使用上都具有難度。ECLA和FI/F-Term是基于IPC的擴展和細分。ECLA雖然具有分類準確、更新快的優點,但是全球專利數據中僅有部分專利申請具有ECLA分類號。FI/F-Term采用日文,對于全球專利檢索應用具有局限性。
IPC作為一種語言獨立的專利文獻檢索、管理工具,對全球專利文獻進行了統一分類,是目前世界范圍內應用最廣泛的專利分類體系。所實行的主要分類標準是采用功能(發明的內在特征與性質)和應用(發明的用途)相結合,且以功能為主的分類原則。IPC的內容設置包括了與發明創造有關的全部技術領域。但IPC版本更新速度慢于熱門技術的發展速度,缺少新興領域技術分類。同時IPC分類體系中存在一個技術主題可能存在多重分類位置的情況,例如“植物生長調節劑”這一技術主題,該主題下,化合物本身入C01、C07、C08大類;作為肥料入C05大類;土壤改良劑或穩定劑入C09K17/00大組。因此,基于IPC分類號進行技術主題檢索,就必須對IPC分類位置之間的內在橫向聯系進行全面檢索。如果僅對某一具體技術點,查找其全部橫向關聯IPC號尚且可行,但是對于農業生物技術這一宏觀技術領域,將是一個巨大的工程。
農業生物技術屬于跨學科、跨領域的技術,目前在各個專利分類系統中都尚無該技術的專門分類體系。準確識別農業生物技術在IPC分類中的位置,是提高查全率和查準率的一項關鍵工作。
首先,自然語言常常有一詞多義的現象,可能造成輸入一個關鍵詞,會查到眾多的專利記錄,而其中混雜了大量不相關條目。如“PCR”這一縮寫,既可以表示“Polymerase Chain Reaction”(聚合酶鏈式反應),也可以用來表示“Photo-conductive Relay”(光電導繼電器)。如何實現關鍵詞的“忠實表達”是檢索過程中的一大難題。
同時,農業生物技術領域專利會涉及相當一部分通過化學結構或生物序列等方式描述的化合物,不能通過常規關鍵詞進行有效檢索,而這部分專利往往涉及技術含量很高的原始創新化合物,在檢索時必須借助化學結構、基因序列等專業化檢索手段。這項工作對于情報分析人員是存在一定難度的。
第三,同一個關鍵詞,在形式和意義上都很難做到表達完整和準確。形式上的準確和完整,包括英文檢索名詞的單復數形式、不同詞性、英美不同拼寫形式,以及生物的拉丁文名稱;意義上的完整和準確,要考慮關鍵詞的各種同義詞、上位概念、下位概念、等同特征等。例如,表1中所列出的“基因型”這一關鍵詞,其同義詞、上下位概念和相關詞就多達十幾種;用截詞符“*”進行檢索詞的單復數形式和不同詞性的擴展,則將產生更多的檢索詞。一味追求高查全率會導致檢索結果數量過于龐大,里面過多低相關性信息的存在對數據清理和數據分析都會造成很大困難。
可見,利用常規關鍵詞檢索方法實現農業生物技術領域專利準確而全面的檢索,面臨諸多難題。
針對傳統的專利分類號檢索和關鍵詞檢索在農業生物技術專利檢索應用中存在的問題,本研究根據國際專利分類標準的特點,在IPC位置識別方法和檢索式規則設計兩方面進行研究,構建了農業生物技術專利檢索策略。

表1 “基因型”關鍵詞表達
專利分析在對數據庫進行選擇時,應考慮到以下幾個方面:首先是數據的全面性和權威性;其次是數據項描述的完整、全面和準確性,以便進行多角度、多層次的深入分析和評估。
本研究中我們選用智慧芽專利檢索與分析系統(Patsnap)[4]。Patsnap涵蓋歐專局、世界知識產權組織、美國、中國、德國、日本、中國臺灣等7個地區或組織的專利全文以及100多個國家地區的摘要數據,總數超過1億余條;支持中、英、日、法、德等多語言全文搜索。對專利的法律狀態、同族信息進行了深度加工,豐富了字段信息,更加便于查全和檢準。
Web of Science(WOS)學科分類是目前最為細分的學科分類體系,由來自自然科學、社會科學和藝術人文領域的252個學科構成。該分類模式通過將每一本期刊劃分至一個或多個學科而構建。它將一個大學科,例如農業,細分為“園藝”、“農業經濟政策”、“農業工程”等若干分支學科[5]。細化的學科定義成為WOS學科分類模式的最重要特征之一。但由于農業與其他學科領域的交叉融合,完全依靠人工對其中的農業領域學科分支進行判讀缺乏客觀性。
基本科學指標數據庫(Essential Science Indicators,ESI)是基于WOS所收錄的全球12 000多種學術期刊的1 000多萬條文獻記錄而建立,設置了包括農業科學(Agriculture)、植物與動物科學(Plant & Animal)在內的22個學科分類,每一條文獻記錄都被唯一劃分到22個ESI 分類中的一個[6]。也就是說,被劃分到ESI Agriculture學科下的文章與農業科學技術領域相關度最高,沒有重疊的學科設置能夠使學科和技術界定和細分達到較理想的效果。同時Plant & Animal 與農業領域也有較強的關聯性,因此,也將Plant & Animal分類下的文獻作為領域細分的基礎數據,但需要在后期進行人工閱讀和去噪。
但ESI沒有對這22個學科分類進行進一步細化,Agriculture 學科分類只能對應到國際專利分類中A01大類中(農業;林業;畜牧業;狩獵;誘捕;捕魚),顆粒度過大帶來極多的噪聲,不利于農業生物技術IPC位置的準確識別。因此,我們采集ESI學科體系中Agriculture和Plant & Animal分類下的全部論文,形成農業領域科技文獻數據集,進一步生成這些論文歸屬期刊數據集,通過識別每本期刊所在的WOS學科分類中的位置,完成了ESI Agriculture和Plant& Animal兩個領域的寬泛學科分類向WOS細化學科分類的轉換,專家判讀后,最終得到WOS分類下的15個農業細分技術領域(表2),完成了農業生物技術領域的界定,及生物技術在農業領域中可能的應用方向。
以此為依據,經過文獻調研和多方專家論證,從IPC中篩選出與之對應的不同層級的專利分類號,構建了農業領域WOS-IPC映射關系初稿。通過分類號輔助檢索驗證、并進行檢索結果的數據抽樣核查,不斷對WOS學科分類和IPC的對應關系表進行調整,最終得到較為優化的農業領域WOS-IPC映射關系表,作為今后農業領域專利檢索的參考依據,具有參考價值和意義。

表2 基于WOS學科分類的農業領域細分
經濟合作與發展組織(OECD)基于第八版IPC對生物技術領域IPC分類號進行了識別,選擇的IPC類別包括轉基因動物動物和植物;生物技術方法、過程和測試;生物信息學和生物材料等。具體包括 A01H1/00、A01H4/00、A61K38/00、A61K39/00、A61K48/00、C02F3/34、C07G(11/00、13/00、15/00)、C07K(4/00、14/00、16/00、17/00、19/00)、C12M、C12N、C12P、C12Q、C12S、G01N27/327、G01N33/(53*、54*、55*、57*、68、74、76、78、88、92)[7]。中國國家知識產權局結合專利審查工作需要,也對生物技術領域在IPC中主要分類位置進行了梳理,相比較OECD版本,國家知識產權局在C12M、C12P和C12S幾個小類中提取了相關性更高的大組分類號[8]。
生物技術在農業領域的應用方向尤為廣泛。根據2009年版OECD、2012年版國家知識產權局對生物技術的定義和提取的IPC號,結合農業領域WOSIPC映射表進行具體應用方向限定,最終確定了以下與農業生物技術領域密切相關的IPC分類(表3)。
一件專利通常被賦予一個主IPC號和若干副IPC號,每個IPC 號對應一個特定的技術領域。盡管專利的各IPC號通常被等同對待,但主IPC號與專利技術創新的相關性最高[9],通常用來代表該發明的專有知識領域或技術主題,即發明的內在特征與性質;而該發明涉及的其他相關知識或技術主題則被分配給多個副IPC號[10],可以視為主IPC號所代表知識或技術的具體應用方向。例如,A01H4/00出現在某件專利的主IPC號位置,則代表該專利的核心技術主題是植物的組織培養技術;如果它出現在副IPC號位置,則代表這些專利涉及運輸、化工、冶金、機械、物理、電力相關方法和理論在植物組織培養技術中的具體運用。因此,用主IPC號進行某技術主題檢索噪聲率相對要低,副IPC號的噪聲率偏高。但為了避免遺漏,對副IPC號可以其進行必要的上位組擴展,雖然會帶來大量噪聲,但其必然符合查全的需要。
本研究根據各IPC號與農業生物技術的相關程度,并結合專家論證,通過主、副IPC號進行限制,基于智慧芽數據庫構建檢索策略如下:
(1) 主 副 分 類 包 含 A01H1/00、A01H4/00、C05F11/08、C05F15/00、C07K14/415的專利;
(2)主分類為C12N、C07K14/195、C07K14/37并同時包含A01H、A23K和A01N分類的專利;
(3) 主 分 類 為 A61K38/00、A61K39/00、A61K48/00的專利,最終檢索式確定為:
MIPC :(C12N OR C07K14/195 OR C07K14/37)AND IPC :(A01H OR A01N OR A23K))or MIPC :(A61K38/00 OR A61K39/00 OR A61K48/00)or IPC:(C05F11/08 OR C05F15/00 OR C07K14/415 OR A01H1/00 OR A01H4/00。
在結果中選定發明專利,總計得到249 832件發明專利(檢索時間2017年12月14日)。

表3 農業生物技術領域在IPC中涉及的主要分類位置
檢索策略效果一般通過查全率和查準率兩個指標進行評價。如圖1所示原理,查全率和查準率的計算公式如下:

生物技術在農業領域的應用方向尤為廣泛,檢索結果數量龐大。本研究通過專利權人抽樣,選取孟山都公司(MONSANTO TECHNOLOGY LLC)2010年申請專利和史坦恩種子公司(STINE SEED FARM INC)2011年申請專利進行查全率和查準率計算。具體過程如下:
(1)本研究構建檢索策略檢索得到249 832件發明專利,對專利權人和申請年字段進行過濾,得到孟山都公司2010年發明專利申請量507件、史坦恩種子公司2011年發明專利申請量30件。
(2)對上步篩選出的專利進行人工閱讀、去噪,最終得到檢索到的符合要求的文獻分別473件和29件。

圖1 查全率與查準率
(3)在智慧芽數據庫中分別檢索專利權人為孟山都和史坦恩種子公司的專利,即檢索式分別為為 AN_FACET_CN:”MONSANTO TECHNOLOGY LLC” 和 AN_FACET_CN:” STINE SEED FARM INC”,對結果進行IPC篩選和人工閱讀、去噪,最終得到農業生物技術領域孟山都公司2010年發明申請590件、史坦恩種子公司2011年發明申請35件。檢索結果驗證情況如表4所示。
結果表明,本研究所構建的全球農業生物技術專利檢索策略覆蓋面是比較全面的,檢索結果的可靠性較高。

表4 查全率和查準率抽樣驗證結果
本論文構建了全球農業生物技術專利檢索策略,并利用此檢索策略完成了全球農業生物技術專利文獻的初步采集工作,經驗證該數據集較為理想,可以作為全球農業生物技術態勢分析的數據基礎。
但本項研究也存在一定局限性:IPC分類最初是為滿足專利分類和檢索需求而編制,可以從一定程度上反映農業生物技術領域的技術主題分布,但難以準確揭示學科交叉性和主題創新性的專利內容,例如,現階段研究較熱的農業合成生物技術、基因編輯技術、纖維素生物裂解等生物技術等,并未有與之對應的準確的類目,在進一步的研究中應盡量彌補這個缺陷。ivepatentclassification. org//index. html, 2017-12-10.