李 程(國家知識產權局知識產權出版社,北京 100081)
?
構建以專利為核心的科技大數據平臺以促進創新的設想
李 程
(國家知識產權局知識產權出版社,北京 100081)
摘 要:隨著我國知識產權行業的發展,專利申請量不斷創出新高。2015年中國發明專利申請量突破100萬件,同比增長18.7%,連續5年位居世界首位。我國已經積累了海量的專利數據,同時也積累了大量的非專利數據、應用數據、檢索數據等,并且建立了相應的檢索系統和分析系統。本文分析了以專利為核心的科技文獻大數據的現狀,提出了基于大數據關聯與整合思路和基于專利信息服務產業鏈整合思路的兩個創新應用觀點,并從“五個一”的建設內容、六大關鍵技術等方面闡述了以專利為核心的科技文獻大數據信息服務平臺的構建設想,最后從產業整合、信息服務、成果轉化、價值評估、數據挖掘等5個方面強調了大數據服務平臺對促進創新的作用。
關鍵詞:專利;大數據;科技文獻;信息服務;創新
作為具有國家知識產權局背景的專利信息服務行業領導者之一,知識產權出版社多年來積累了大量的國內外專利文獻數據和非專利科技文獻數據。2014年~2016年,我們的數據收集范圍從專利擴大到商標、標準、科技期刊、知識產權和創新類圖書等,專利信息也從單純的文摘和全文擴展到法律狀態、審查文件、流程信息、運營信息、復審和無效決定、知識產權司法判例等,數據量從1億擴大到近5億,數據量達500TB。如此巨大的數據量必須得到有效應用才能產生巨大的價值,推進我國技術創新和科技發展。現在有很多專利信息服務商能夠提供傳統的專利檢索和分析服務,但是都僅限于專利,而且數據質量參差不齊,不夠全面、準確和權威,服務價格相對較高。如果能以知識產權出版社的大數據為基礎,進行整合加工處理,并進行大數據關聯,構建一個以專利為核心的科技大數據信息服務平臺,向終端用戶提供質優、價低、權威的“一站式”信息服務,以及在此基礎上的專利大數據管理、運營、交易等擴展服務,則可以更好地促進我國的知識產權和科技創新工作。
(一)現狀分析
以專利為核心的相關科技文獻數據有較大規模。根據我們當前所積累的與專利相關的科技文獻數據,總體分為專利文獻數據、非專利科技文獻數據(二者合稱為核心資源數據)、檢索數據、應用數據、平臺數據和管理數據。具體包括:
1. 核心資源數據
主要分為專利數據(含審查過程數據)、商標數據、標準數據、法律文書數據、期刊數據、其他數據。主要內容如下:
(1)中國專利全文文本數據;
(2)國外專利全文文本數據(包括美國、歐洲、日本、韓國、世界知識產權組織WIPO、英國、德國、法國、瑞士、奧地利、加拿大、澳大利亞等);
(3)國外專利著錄項目數據(共包括100余個國家及地區、組織);
(4)中外專利法律狀態數據;
(5)中外專利引證文獻數據;
(6)中外專利生物序列數據;
(7)中外專利化學結構數據;
(8)中外期刊元數據數據庫;
(9)中外標準數據;
(10)中國知識產權類法律文書數據;
(11)知識產權法律法規數據;
(12)中國商標數據;
(13)美國商標數據;
(14)馬德里國際商標數據;
(15)知識庫及詞表數據庫;
(16)中外專利說明書及附圖全文圖像數據。
2. 檢索數據
主要包括為實現檢索而收集整合的原始數據和加工數據,特別是各個檢索字段。
3. 應用數據
應用數據包括專利檢索數據和非專利檢索數據(主要是檢索表達式和檢索結果)、專利分析數據、項目管理數據、大數據商城數據、客戶服務數據。
4. 平臺數據
平臺數據包括系統和網站的資源目錄、表單、文本、圖片、視頻和網頁。
5. 管理數據
系統管理數據包括用戶數據、權限數據、日志數據、統計發布數據、監控數據、運維數據。
根據我們當前的檢索業務運行情況,數據檢索日訪問量在10萬左右,數據記錄與分析記錄量在10億,在線服務數據量在150TB左右。
(二)基于大數據關聯與整合思路的創新應用分析
根據與專利相關的科技文獻大數據內容分析,專利文獻與非專利文獻表現出很強的相關性,例如專利與科技文獻間引證關聯關系、檢索內容關聯關系、文獻信息相似性關系等,需要用大數據關聯的思想對其進行分析、挖掘和整合,將相關數據整合后對外展示和提供服務,產生一系列新的價值。
以專利為核心的科技文獻大數據關聯與整合的主要過程包括:
1. 對專利和非專利文獻進行收集、整理、存儲。
2. 對數據進行清洗、整合、深加工、翻譯、代碼化等處理。處理完成的數據經過大數據分析,采用數據挖掘算法、預測性分析、語義引擎等技術進行智能關聯,將文獻引證關系、技術關聯性、新穎性、創造性、商業價值等展現出來,同時對部分內容進行人工或自動標引,提高關聯分析的有效性。
3. 在此基礎上形成應用服務,例如檢索服務、分析服務、預警服務、專利價值評估、交易撮合服務、信息推送服務等。
其過程如圖1所示。
(三)基于專利信息服務產業鏈整合思路的創新應用分析
科技文獻大數據服務對知識產權信息服務產業鏈有非常巨大的整合作用,知識產權信息服務產業鏈中包括:直接服務供應商、間接服務供應商、整合服務集成商、最終客戶等。其構成如圖2所示。
我們未來的定位是從直接服務提供商向整合服務集成商轉變,通過以專利為核心的科技大數據信息服務平臺構建,來實現對產業鏈前后的業務進行整合。向后可以聯合其他間接服務商利用其能力快速拓展業務,向前建立服務運營平臺來為用戶提供更多更好的服務,知識產權出版社作為平臺服務者,與供應鏈上各個環節的用戶共同創造價值。平臺的核心作用是讓各服務供應商基于平臺的海量“大數據”靈活、便捷的構建自己的“小數據”,在此基礎上創造自己的各種服務產品提供給最終用戶。
由于多年來不斷地數據積累和各類應用系統的開發,知識產權出版社已有充足的數據資源儲備和檢索技術儲備來構建科技文獻大數據信息服務平臺,提升數據服務,整合知識產權信息服務產業鏈。下面從用戶群劃分、大數據關聯與檢索技術、數據項目管理、大數據服務交易等幾個方面考慮平臺的功能:
平臺本身的用戶群劃分要側重于服務公眾,尤其是中小企業和個人等缺乏創新資金的目標群體,同時為平臺管理者提供完善的數據和業務管理功能。
平臺采用的技術,一方面要自動進行專利數據與非專利數據的關聯分析,另一方面要保證海量數據的檢索性能和準確性,能以最高效的方式展現檢索結果,直接命中用戶最關切的部分。
平臺應具備大數據項目管理功能,用戶能將數據自定義劃分成集合,在此基礎上進行個性化加工,形成定制化的數據產品和服務。
為了提高專利創新能力,平臺還應該提供大數據服務交易平臺,構造專利價值評估體系,建立大數據商城,提升專利價值,“盤活”數據,促進創新。
(一)主要建設內容
對于將要建立的科技文獻大數據信息服務平臺,其主要內容應該包括“五個一”:
1. 構建一個以專利為核心的知識產權產大數據平臺,提供大數據管理和訪問服務支撐,包括建立大數據存儲架構、提供高效的檢索服務與分析服務、提供統一的數據展現。
2. 構建一個以基礎服務為支撐的運營平臺,未來基于專利核心數據以及相關的科技文獻數據,開展檢索、分析、評估、交易等多元化的市場運營,并為知識產權產業鏈上的各個環節提供更為開放的服務支撐,包括提供統一的客戶管理、產品(服務)管理、供應商管理、計費管理、交易支付、資源(項目數據)管理等功能。
3. 構建一個統一的應用開發支撐平臺,為以數據為支撐的各個應用開發組提供統一的基礎服務和應用組件,使各開發組直接可以復用平臺基礎功能,或降低技術難度和開發風險,提升開發效率,并讓各開發組將精力集中于向用戶提供特定服務的功能上。包括統一的用戶權限管理組件、系統日志服務、消息服務、自然語言處理組件、翻譯服務、數據可視化展現組件、知識庫管理組件、消息隊列組件等。
4. 通過構建統一的技術架構解決方案,提高各個應用質量,提升最終用戶的體驗,提高系統的性能、穩定性、安全性以及可擴展性,降低總體成本。包括負載均衡解決方案、分布式緩存、分布式服務、分布式存儲解決方案、安全服務解決方案等。
5. 通過構建統一的管控平臺,對各個應用系統進行統一管理從而提升運維質量,并提供運維輔助工具來降低運維成本。包括系統監控平臺、自動化運維工具、數據核查和修改工具等。

圖1

圖2
(二)平臺關鍵技術
1. 大數據存儲技術
科技文獻大數據存儲需求包括3部分:
(1)傳統結構化數據庫,存放系統基礎數據、專利及非專利結構化數據、操作數據等。
(2)大數據存儲,存放海量文件,主要是專利和科技文獻全文、附圖、外部文件、部分關聯關系等。
(3)檢索數據庫,檢索引擎自身配置的數據庫,存放檢索索引、關聯關系等。
其中大數據存儲要解決的問題包括:數據源多、分布式存儲、海量文件、快速存取以及存取結構應便于統計和分析等。
因此,大數據存儲架構設計是一個分布式文件系統,用以實現專利和科技文獻全文、附圖、外部文件、部分關聯關系的分布式存儲。它有高容錯性的特點,并且部署在價格較為低廉的硬件上;而且它提供高傳輸率來訪問數據,適合那些有著超大數據集的應用程序。
大數據存儲的分布式架構,將大數據處理引擎盡可能地靠近存儲,實現了將單個任務打碎,并將碎片任務發送到多個節點上,之后再以單個數據集的形式加載到數據倉庫里,采用的具體技術包括分布式文件系統、分布式并行數據庫、映射規約處理模式等。
2. 大數據管理及檢索技術
科技文獻大數據管理主要面臨以下幾個問題:
(1)專利與非專利數據檢索涉及海量數據,且隨著業務發展,數據量日益增加。
(2)系統用戶廣泛,需要在支持高并發量的同時,保證檢索性能。
(3)系統穩定性是衡量一個應用系統的重要指標,需要保證不會因某個節點設備的異常,而影響整個系統對外所提供的服務。
(4)需保證系統的高可擴展性,可通過增加節點方式,擴展系統容量與對外服務能力。
(5)支持結構化、半結構化及非結構化數據的統一檢索。
大數據管理及檢索架構設計采用了大數據管理系統并提供大數據檢索服務,其處于提供全文檢索服務的基礎組件位置,即基于分布式或虛擬化技術的硬件支持,為所有通過二次開發接口進行檢索的請求提供響應服務。大數據管理系統與實現大數據存儲的數據庫處于同等地位,只不過數據庫負責數據存儲,大數據管理系統則負責數據當中非結構化數據的全文檢索。
大數據檢索工具應具備以下技術特性:
扁平化設計,彈性擴展;異常感知、自動恢復;柔性多引擎技術;高效分區索引機制;多副本機制;混合索引方式;內存表與列存儲;異步檢索;多層次、多粒度的分布式緩存;可擴展的檢索模式,同根詞檢索,算法和詞典結合的英文詞根檢索,支持基于同義詞、主題詞的擴展檢索。
3. 大數據智能化檢索及分析技術
數據智能化檢索和分析技術的目標對象是結構化、半結構化或非結構化數據,包括自然語言文本為對象的數據挖掘技術,它是從大規模的結構化數據和文本數據集中發現隱瞞、潛在的和重要規律的過程。首先從數據和文本中提取適當的特征,表示成計算機能理解的形式,然后采用各種挖掘方法發現隱藏的知識模式,最后以用戶可以理解和接受的形式輸出。
針對專利檢索、特別是智能高級檢索,大數據檢索涉及到了詞庫管理、概念識別、文本抽詞、關鍵詞擴展關聯、相關度計算等內容,這些功能將基于數據智能化檢索和分析技術來實現。具體技術包括:自動分詞、文本聚類、自動分類、自動重排、自動摘要、主題詞提取、信息抽取、常識校對、拼音檢索、相關短語檢索、關聯關系分析、內容過濾等。
4. 大數據展現技術
對用戶友好的展現大數據分析結果是提升大數據價值的一項重要工作,如何基于分析數據集進行形象、直觀的數據可視化展現是平臺的關鍵技術點之一。數據可視化展現的核心是通過各種復雜的圖形,直觀地將數據中包含的內在關系以人們更易接受的方式展現給用戶,在平臺中數據可視化展現的關鍵技術主要在于以下方面:
(1)豐富的圖形功能。圖表展示組件需要提供各種圖形的展現形式,除了基本的線圖、餅圖、區域圖,還應提供漏斗圖、金字塔圖、線性波譜圖、子彈圖等多種圖形來滿足各種分析功能的圖形展現。
(2)支持多種數據格式。包括XML、JSON、多元數據組等多種接口的數據格式。實現專利分析與分析服務的一體化標準,能夠支持未來其他用戶根據分析要求自行開發相關的應用功能。
(3)有優秀的兼容性。能夠不依賴于任何Active-X或擴展控件并兼容多種腳本語言,能夠支持未來廣泛用戶的使用。
(4)有良好的開放性。能夠提供二次開發接口,支持用戶自行開發相關的分析產品,支持復雜的圖形展現(例如專利人合作關系等的展現)。
5. 大數據項目管理體系
數據項目的建立是為了幫助用戶更好地管理自己生成的操作結果,方便后續工作的使用。基于此,平臺應提供獨立的管理功能,并提供對其他功能接口的調用。用戶可以通過此模塊建立多個項目,每個項目是若干個數據存儲單元的集合。數據集合以樹形結構存儲,每個數據集合包括但不限于形成當前數據集合的檢索式、專利數據和數據分析結果等內容。一個項目是由多個數據集合包構成,每個數據集合包又可以由下一層數據集合包或者一組專利的集合構成,每個專利包括著錄項目、標準信息、標引信息、加工信息以及大數據包等內容構成。大數據項目管理功能應包括:項目信息展示、項目管理基本操作、項目內容管理、內容統計分析、文獻多方式瀏覽等。
6. 大數據服務交易平臺技術
科技文獻大數據信息服務平臺中應構建服務交易平臺,數據商城是其特色功能之一:作為賣家,用戶可在數據商城中實現專利分析報告、專題數據庫和專利文件資料包的銷售,還將實現應用工具和專題數據庫的定制服務。在商城中可實現商城信息的檢索、導航、在線訂購、支付、交易確認、點評等業務。系統的注冊終端用戶均可作為買家參與商品交易,提供服務產品的注冊用戶兼具賣家的身份。
如何實現數據商城的可持續發展,確保數據商城能夠匯聚眾多專利服務需求者和供應者,在業務設計上要借鑒互聯網思維,對數據商城進行有一定的前瞻性、超前性的設計,為用戶提供創新性的服務,并形成創新的服務模式。其業務重點在于對交易過程進行全面地梳理、對流程進行細致地規劃、設立完備的糾紛解決機制、建立賬務管理體系對交易資金進行全面管理,并通過為用戶提供智能化供需信息匹配服務等交易撮合功能來提升用戶體驗。
以專利為核心的科技文獻大數據信息服務平臺建立后,通過大數據的關聯與整合,在產業鏈中占據了樞紐地位,整合了上下游,并可在此基礎上,開發出多種數據服務促進創新工作。
(一)整合專利相關科技文獻信息服務產業鏈,促進用戶創新
平臺將上游專利和相關數據源、服務、軟件進行整合,面向下游用戶,提供整合后的智能服務。組織鏈條上各個供應商,利用各自的優勢,通過不同服務者的合作來滿足用戶的最終要求。實現了上游數據與服務的增值,整體上提升了對下游最終用戶的服務水平,由此促進了最終用戶的創新工作。
(二)提供低成本的智能化服務,促進中小企業創新
企業在創新的過程中需要檢索大量科技文獻,對于大型企業來說,可以采購科技文獻數據庫,建立自己的檢索系統或者購買相關機構的專業服務。但是,對于小企業和普通科研人員來說,傳統的免費檢索效率太低,依靠專業機構則大幅增加了創新成本。
科技文獻大數據信息服務平臺將提供一套智能化檢索服務,給不熟悉科技文獻檢索的用戶提供完善指導,比如自動分類、標引、導航,自動化的相關文獻分析,自動化的信息推送和預警分析等。系統的智能化程度達到部分取代專業機構的程度,能夠給個人和中小企業提供近似于專業機構的查新服務。平臺本身的檢索服務可以采用免費或低費用的方式,大幅降低了個人和小企業的創新成本。
通過本平臺,用戶可以了解技術的最新進展,預測相關發展趨勢;跟蹤競爭對手的活動;發現和避免專利侵權行為;充分利用失效專利經濟和技術價值;減少重復的研發項目。
(三)完善的信息推送機制,促進科研和成果轉化
由于系統會根據大數據分析模型分析已有數據,并對新進入的數據進行關聯分析,可以實現如下應用:
1. 平臺自動分析客戶以往關注的領域,然后搜尋相關新進文獻,及時提醒用戶其該領域的技術革新,并推送相關文獻。
2. 平臺還可以根據其他用戶的檢索式、閱讀行為、文獻引證關系,找出與當前用戶關注領域相關的其他領域文獻,將其推送給用戶。拓展用戶檢索覆蓋面,幫助用戶尋找新思路,在其創新過程中起到自動化地進行科技情報收集的作用。
3. 對于正準備進行專利交易和成果轉化的用戶,平臺提供智能的消息服務,通過對交易數據的分析和預測,提供發盤提醒、報價參考、同類產品比較、市場預警等服務。
(四)構建專利價值評估體系,促進規范化的專利交易
平臺本身將提供一套專利價值評估體系,專利價值由評估模型、專業人工評估、專利交易價值等綜合而成。專利價值評估可以配合數據商城為專利交易雙方提供客觀的價值判斷,供交易雙方參考,從而加強專利交易的可靠性,促進交易業務的發展。
(五)通過用戶的大數據交易和數據挖掘利用,進一步促進創新
用戶可以將自己生成的專利分析報告、專題數據庫和專利文件資料包放到大數據商城中進行交易,所產生的利潤反過來可以進一步促進用戶對數據的深度挖掘和利用。對專利等科技文獻數據的深度利用,會讓用戶能夠收集更全面的信息,認識差距、找到創新點,又必將進一步促進創新的發展。
參考文獻
[1]徐樹振,羅學禮,王森,楊莉,段嘉杰,張德剛,企業非結構化數據檢索研究[J].信息技術,2014(4):196-200.
[2]馬惠芳.非結構化數據采集和檢索技術的研究和應用[D].東華大學,2013.
[3] [美]Ian H. Witten, [美]Alistair Moffat [美]. Timothy C. Bell著,梁斌,楊青譯.管理海量數據:壓縮、索引和查詢(第2版)[M].北京:電子工業出版社,2014:26-98.
[4]郭建波.海量結構化大數據存儲檢索系統探討[J].軟件,2013(2):95-96.
[5]于海斌.基于知識發現的專利檢索系統分析與設計[D].東北林業大學,2012:18-60.
中圖分類號:C931
文獻標識碼:A