武蘭芬
摘要
近年來,云計算和大數據的共同發展極大地提高了決策的效率、科學性和精確性。作為技術創新的重要知識來源,專利大數據蘊含的豐富的技術、法律和經濟價值信息,亟待深度挖掘和充分利用。本文闡述云計算和大數據的關系,分析專利大數據的特點,探討云計算在專利大數據分析中的應用。
【關鍵詞】云計算 專利大數據 數據挖掘
全球的專利數據總量至今已經超過1億條,而且專利數據每周都在進行更新。專利大數據蘊含的豐富的技術、法律和經濟信息具有巨大的經濟和社會價值。以云計算技術推動專利大數據的深度挖掘和分析,可以加快實現專利大數據在我國創新驅動發展戰略和經濟社會發展中的應用。
1 云計算與大數據
云計算作為一種計算資源配置模式,通過提供泛在、便捷、按需的網絡訪問,使用戶進入可配置的計算資源共享池,按照需求使用網絡、服務器、存儲、應用和服務等。云計算的基本特征包括按需自助服務、廣泛的網絡訪問、資源池化、快速擴展性、服務可計量化。
大數據的本質是從海量的數據中發現隱藏在其中的規律并對事物發展的可能性做出預測。國際商業機器有限公司(IBM)的數據科學家將大數據的特性歸納為四個方面:
(1)數量巨大(volume),據估計每天產生的數據量可以達到2.3萬億GB;
(2)形式多樣(variety),數據來源于商業交易、智能設備、社交媒體和互聯網日志等,數據格式包括著錄數據、文本、圖片、音頻、視頻等各種結構化、半結構化和非結構化數據;
(3)速度快(velocity),數據產生和處理的速度都非常快;
(4)真實性要求高(veracity),數據分析和決策的精確依賴于數據的可靠性和正確性。
云計算和大數據的發展對人們的思維、管理方式和決策能力都產生了深遠影響。云計算解決的是計算資源的共享和高效利用,而大數據的意義在于對數據的深度挖掘、分析和應用。對海量數據的挖掘需要高速實時運行的數據分析技術和計算資源,云計算所具備的按需服務、動態調配、快速擴展等特點正好解決了大數據處理技術的需求。云計算和大數據的結合可以加速實現海量數據資源的深度挖掘和利用。
2 專利大數據的特點
專利是反映科技創新最重要的知識產權形式,保護對象為整個實用技術領域,許多發明成果僅通過專利文獻公開,并不見諸于其它科技文獻。專利信息不僅揭示發明創造的實用技術,也用來確定專利權人獨占的權利范圍,還可以反映專利產品和投資的市場趨勢,是集技術、法律和經濟于一體的信息。專利信息是知識產權戰略管理和決策中最基礎最重要的信息來源,高質量的專利信息對于知識產權的創造、運用、保護和管理起著重要的促進作用。
專利大數據是指專利相關活動中產生的數據,包括專利申請、審查、許可、轉讓和訴訟等各方面的數據。專利大數據的挖掘,不僅要關注專利數據本身的價值,也要重視專利與產業、經濟和貿易等數據的關聯分析,實現專利數據對產業和經濟社會發展的貢獻和價值。對專利大數據進行深度挖掘和充分利用,不僅可以提高我國知識產權的發展水平,而且可以為我國創新驅動發展戰略和產業轉型升級提供良好的助力。專利大數據蘊含著極其豐富的知識資源,其特點主要有:
2.1 數據量巨大,更新周期快
作為最能體現技術創新水平的發明專利,2011-2015年間全球申請量從214萬件增長到288萬件,我國的申請量從52萬件增長到110萬件,連續5年位居世界首位。隨著各國技術創新速度的不斷加快,專利申請量逐年增長,專利文獻數據也越來越多。各國專利局都在不斷地對專利數據進行更新,更新的速度縮短到了每周。更新的專利文獻和數據被隨時添加到專利數據庫中。
2.2 數據繁雜,差異性顯著
由于專利保護的地域性特點,各國專利制度存在明顯差異,專利收錄時間、專利類型、保護期限等因素的不一致性導致各國專利數據存在很大的差別。除了專利申請審查過程中產生的專利申請公開和授權數據,專利數據還包括專利交易中發生的專利許可轉讓數據,以及侵權訴訟中出現的專利訴訟數據等。另外,由于各國專利審查標準和程序不同,專利的質量和價值也存在很大的差異。這些都導致在專利數據的海洋中尋找真正有價值信息的成本較高。
2.3 數據處理和挖掘難度大
專利數據分為結構化數據和非結構化數據。結構化數據以著錄項目為主,包括專利號、申請號、申請日期、授權日期、申請人、發明人和專利分類號等。非結構化數據包括文本數據和圖像數據,通常專利分析中以文本信息為主,包括專利的名稱、摘要、權利要求書和說明書等。結構化數據可以使用數理統計分析方法,而非結構化數據因為技術和法律用語晦澀難懂,尤其對于中文專利文本,文本挖掘難度很大。
目前我國對于專利大數據的開發和利用還處于發展階段的初期,存在巨大的市場需求和發展空間。
3 專利大數據分析中云計算的應用
在大數據背景下,企業、研究機構、服務中介、政府部門和公共群體都需要在海量的專利信息中提取、處理和利用可使用的數據、信息和知識。數據的爆發式增長,對于低成本、低能耗、高可靠性的存儲方式提出了更高要求。大數據需要高度發達的計算中心作為支撐。云計算能夠為大數據提供強大的存儲和計算能力。采用云計算技術建設國家專利數據中心,可以推進專利數據的集中化和標準化,實現專利基礎數據資源的統一管理。為了保證應對海量數據時的分析效率,高效并行處理能力也是不可或缺的。應用云計算技術于數據挖掘和分析的過程中,可以提高和改善大數據的使用效率和效果。
數據分析是大數據的處理核心。專利大數據挖掘和分析過程包括專利數據的檢索、提取、清洗、分析和利用。云計算技術可以運用在數據分析的不同階段,不同的階段可以采用公共云、私有云和混合云等不同的服務模式。
在專利數據檢索和提取階段,需要使用專利大數據網絡平臺,該網絡平臺是以提供專利大數據檢索服務的“云端”應用平臺,可以為用戶提供大批量、實時和智能化的專利大數據檢索。專利大數據網絡平臺可以根據用戶的使用目的、時間、流量和方式等收取不同的平臺使用費用。在此階段,對海量的專利數據進行篩選和臨時存儲,可以采用公共云的服務方式,能夠充分利用公共云無限擴展的計算和存儲能力,同時大幅降低用戶的信息存儲成本和空間。
在專利數據的清洗和分析階段,可以運用云計算的并行處理技術提高數據整理、加工和分析的效率,服務模式則可以采用混合云的形式。對于技術、產業發展趨勢等的宏觀性分析,可以利用公共云的海量數據處理和分析優勢,對于與用戶自身相關的專利數據、競爭對手研判信息、企業兼合并知識產權數據等,可以采取私有云的服務方式,進行更深層次的專利數據挖掘。
在專利大數據的利用階段,數據分析獲得的有價值信息和知識可以以“云”的形式在用戶內部實現共享。由于這些信息和知識需要與用戶運營和發展戰略相結合,為保護信息和決策的安全性,適宜采取私有云的方式。
4 結語
在大數據時代,提高對專利數據的深度挖掘、分析和利用,獲取更多更有價值的隱性信息,可以極大地提升知識產權戰略管理和科學決策的水平。云計算應用于專利大數據領域,將會達到降低數據存儲成本,提高數據加工和分析能力,加快數據處理速度等良好的效果。云計算和大數據的綜合運用,可以為我國的發明人、企業、政府決策者、公共用戶等提供更快更全面的專利數據服務,推動決策從“經驗加感覺型”向“數據加事實型”轉變,為我國的科技創新提供更科學更高效的信息來源和情報服務。
參考文獻
[1]尹林.大數據與云計算的關系探討[J].通信與信息技術,2015(09):50-52,92.
[2]陳燕,黃迎燕,方建國等.專利信息采集與分析(第2版)[M].北京:清華大學出版社,2014.
[3]鄧鵬.大數據時代專利分析服務的機遇與挑戰[J].中國發明與專利,2014(02):29-31.
[4]敖翔,謝虹霞.專利大數據發展路徑研究[J].中國發明與專利,2016(05):14-16.