姜琦紅 王黎明
摘 要:大數據時代已經到來,發達國家多已進行政府大數據管理,我國政府也應把握這一機遇,尤其是在信息數據資源急速增長的知識產權領域。由于經濟飛速發展和科技的不斷創新,商標和專利等數據激增。目前對于知識產權的保護技術和管理水平已無法滿足現代社會的要求。本論文簡要闡述了專利分析的現狀,介紹了大數據的應用和特點以及大數據時代帶來的變化,探討了利用大數據技術的專利信息集成與分析系統的應用趨勢。
關鍵詞:大數據;專利分析;數據挖掘;可視化
DOI:10.16640/j.cnki.37-1222/t.2019.07.123
1 引言
大數據密集型時代,利用有效整合的專業數據進行科研發現是一種趨勢。專利是一種綜合性的信息資源,與期刊論文、交易、標準和訴訟等信息聯系密切。在專利分析的過程中,為了獲得有效、全面的分析成果,往往需要整合大量、相關的信息資源。因此,基于大數據本身的應用,無疑能夠更好的實現以及促進整體專利分析技術的發展,讓其更好的實現專利信息整合以及分析,促進專利技術的有序發展。
2 大數據技術概述
2012年,高德納(Gartner)將大數據的定義修改為:“大數據是一種巨大的、高速的、可變的信息資產,需要新的處理方法來增強決策能力。”總的來說這三個性質很好的概括了大數據的特性以及發展方向,大數據的建設必須依靠計算機對數據的統計,只有通過數據才能確定最終的客觀結果。后來高德納(Gartner)再次修改了對大數據的定義,在量、速以及多變的基礎之上添加了第四個性質即真實性,大數據只有通過計算機才能對數據進行客觀的處理從而得到有效的結果。歐美發達國家早在二十一世紀初便開始對大數據的發展保持重視,政府部門在大數據開發上投入大量資金的同時,數據挖掘也正開始探索分析大數據的方法。阿里巴巴董事局主席馬云則直接地指出,雖然阿里巴巴是全球最大的零售平臺,但是阿里巴巴不是一家零售公司,而是一家數據公司。
麥塔集團(Matita Group)的分析師道格·萊尼(Doug Laney)指出數據增長的挑戰和機遇在于三個方向:數量、速度和多樣性。基于此,IBM進一步將數據增長的挑戰和機遇擴展為五個“V”,即:(1)容量(Volume),大數據時代的數據量已達到PB(1024TB)甚至EB(1024PB);(2)種類(Variety),大數據時代中有著十分復雜的數據類型,包括結構化數據和非結構化數據;(3)速度(Velocity),快速處理方式是大數據獲得有效信息的重要途徑。現今數據更新速度十分迅速,只有快速地獲得數據才能更好的整合所需信息;(4)低價值密度(value):合理地運用大數據技術,盡可能地用低成本獲取高價值的信息;(5)真實(Veracity),您需要從大數據中過濾所有非真實數據以獲取真實信息。
3 專利信息整合與分析現狀
一般認為,專利分析起源于1949年Seidel提出的專利文獻重要性的專利引文分析概念,但在上世紀90年代后,隨著信息、網絡和數據庫技術的發展,專利分析才在企業戰略和競爭分析中的應用得以實現。
4 大數據時代專利信息整合與分析系統應用
基于大數據分析的主要內容和專利分析的現狀,未來大數據專利數據集成與分析系統的應用和發展可以包括以下幾個方面:
4.1 基于語義引擎數據采集處理
在過去的機器檢索中,計算機只能識別字符匹配級別的用戶輸入信息,不能理解信息的含義,特別是在搜索專利信息的過程中。檢索策略的設定和調整都需要人為操作。而隨著計算機技術和人工智能的發展,通過對網絡大數據的語義標注處理,使計算機能夠從語義層級理解輸入信息,例如,Apple的語音識別工具Siri,專利檢索系統Patentics等。都采用了語義引擎。在此基礎上發展專利數據采集,例如實現語義專利信息檢索,可以降低對專利分析人員個人能力的依賴,降低專利分析的成本。
4.2 基于數據挖掘算法、預測分析和數據質量管理的專利分析
大數據分析的核心是數據挖掘算法。從海量數據中挖掘和使用價值信息,研究物體之間的相關性,從而發掘物體之間的差異。知聯系,利用這種相關性信息,可以實現定制化分析,并將專利分析的結果與企業需求結合得更加緊密。通過預測分析模型,可以從海量數據中獲得存在規律性的信息,從而可以利用這些信息預測專利的發展趨勢和技術,甚至行業的發展趨勢。它允許企業根據專利分析的結果對專利的布局做出預先判斷,由于專利發布的滯后,技術開發路線可以盡量避免影響專利分析的準確性。通過數據質量管理方法,借助質量管理方法和標準化數據處理流程對數據進行處理,它確保了高質量和可靠性的分析結果。
4.3 基于視覺分析的報告形成和結果顯示
可視化分析的作用是可以將數據分析結果自動轉換為圖表。我們可以使用圖表的簡單直觀功能顯示復雜的大數據分析結果。樣的分析對這就像選擇不同的呈現方法和顯示內容一樣,可以有效降低專利分析的門檻,擴大用戶群的使用范圍。
5 結語
大數據時代的到來為專利分析提供了新的技術工具和技術思路,這對于從業者來說既是挑戰又是機遇。未來,專利分析的重要研究方向是充分利用大數據分析,提高專利分析的用戶體驗,對專利信息進行數據挖掘和可視化預測。
參考文獻:
[1]趙向陽,王亮,梁晨隴.基于專利數據的大數據技術發展研究[J].軟件,2017,38(08):190-196.
[2]汪滿容,劉桂鋒,孫華平.基于專利地圖的全球大數據技術競爭態勢研究[J].現代情報,2017,37(01):148-155.
[3]李鵬飛,盧瑾,辛一.基于專利的大數據技術發展情報分析及戰略研究[J].情報雜志,2014,33(09):45-50.
[4]姚衛浩,金江軍.專利大數據及其發展對策[J].中國高校科技,2014
(06):17-18.
[5]梁建軍.專利“大數據”[N].中國知識產權報,2013-08-21(005).
[6] Karki M M S. Patent citation analysis: A policy analysis tool[J].World Patent Information,1997,19(04):269-212.
*為通訊作者