田蔚+李駿宇



摘 要:通過信息情報調研,分析國內和國際的大數據挖掘與分析產業的發展環境及發展情況,從全球、中國和貴州省三個維度,對大數據專利技術發展趨勢、專利區域分布、專利主要申請人和專利技術主體分布等進行研究。文章分析了主要專利技術主題的專利申請分布以及隨時間變化的情況,掌握大數據挖掘與分析技術的研究保護熱點以及發展方向,對未來技術發展規劃提供指導。
關鍵詞:大數據;挖掘與分析;專利戰略;Hadoop
目前我們生活的方方面面都存在數據傳輸——無論是智能手機、電子產品和城市基礎設施,毋庸置疑,一場數據革命就在眼前。據易觀國際統計,2015年我國大數據市場規模達102億元,2017年有望達到170億元,這看似百億級別的市場,背后卻能撬動數萬億元的相關市場規模。近年來,阿里巴巴投資優酷和新浪微博,騰訊集團入股京東和大眾點評等,背后都有大數據整合的影子。這些掌握著流量的大數據平臺,已經成為互聯網資源的聚集地。
在如今的大數據時代,數據信息在帶給人們生產生活極大便利的同時,還會被諸多社會數據信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數據信息,完善和健全數據分析技術和數據挖掘手段,通過各種切實可行的數據分析方法科學合理地分析大數據時代下的數據,做好數據挖掘技術工作。因此,我們有必要對國內和國際的大數據挖掘與分析產業相關專利深入分析,掌握關鍵技術和核心算法等研究熱點及發展方向,為未來技術發展規劃提供指導與建議。
1 大數據挖掘與分析技術
大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合。大數據應用流程與傳統數據處理流程一致,都包括數據產生、聚集數據、分析數據和利用數據4個階段,只是這一業務流程是在大數據平臺和系統上執行的。目前,大數據平臺的主流技術是Hadoop+MapReduce,其中Hadoop的分布式文件處理系統(HDFS)作為大數據存儲的框架,分布式計算框架MapReduce作為大數據挖掘、分析處理的框架。
1.1 基本概念
數據挖掘是將隱含的、尚不為人知的同時又是潛在有用的信息從數據中提取出來。機器學習為數據挖掘提供了技術基礎,可用其將信息從數據庫的原始數據中提取出來,以可以理解的形式表達,并可用作多種用途。
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。在大數據處理的過程中,數據分析是核心,因為大數據的價值全部在數據分析過程中產生。大數據產業中賺錢的重點在于如何提高數據的分析能力,通過分析發現數據的更多潛在的價值。在大數據時代,數據分析是數據價值發現的最重要環節,也是決策的決定性元素[1]。
1.2 關鍵技術與核心算法
通過對科技文獻及各方面資料的調研,在結合中國大數據產業自身情況的技術特點的基礎上,分別針對大數據挖掘與分析算法和大數據挖掘與分析應用領域進行技術分解,得到表1。
2 專利申請保護態勢分析
2.1 專利來源與檢索策略
本分析報告涉及的專利信息檢索工作全部在INCOPAT合享新創專利信息服務平臺上完成,檢索截止日期為:2016年12月20日。該平臺收錄了全球102個國家、地區和組織的超過1億條專利信息,支持中英文混和檢索。本報告檢索專利數據范圍包括國內主要專利數據。
通過對大數據挖掘與分析相關專利技術的調研,結合重點關注的技術內容,從檢索要素中的關鍵詞和IPC的兩個維度作出表2,然后依據檢索要素表中的相應信息通過檢索系統進行檢索、分析。
2.2 專利類型及法律狀態分析
截止到檢索日期,共檢索到大數據挖掘專利與分析算法領域有569件,其中發明563件,實用新型6件,發明占了總量的98%以上。
對大數據挖掘專利與分析應用領域專利法律狀態進行統計,其中有效專利指授權并且正常維持的專利;審查中專利指已公開但尚未授權的專利申請;失效專利指因專利保護期屆滿、未繳費、專利無效等原因失去專利權、不再收專利法律保護的專利。發明專利中有效專利115件(20.21%),審中專利346件(60.81%),失效專利102件(17.93%),審中專利數量明顯多于其他。實用新型專利中有效專利3件(0.53%),失效專利3件(0.53%)。
綜合而言,大數據挖掘專利與分析應用中有效專利118件,審查中專利346件,失效專利105件。該領域的有效專利量占專利申請總量的20.74%,專利有效率較低;審中專利占申請總量的比例為60.81%,表明當前本領域的發明創造活躍度較高;失效專利占申請總量的比例為17.93%,失效率較低。實用新型專利數量幾乎可忽略不計,說明在該技術領域的發明創造中單純的產品類創造專利數量較少。
2.3 專利趨勢分析
在1993年知識產權局受理了第一件相關專利,但在2005年之前相關專利申請基本只維持一個“有”的狀態,其中1994年、1995年、1996年、1997年、2001年都未有專利申請,在2005年之后相關專利申請開始出現增長,且增長數據增速明顯這件,到2015年達到了專利申請數量最高點,126件,并且該年申請的專利還有部分未公開的。
從總體看,大數據挖掘專利與分析算法領域目前專利申請依舊處于快速增長態勢,并且未受經濟發展趨勢(經濟增速明顯放緩)的影響,因此預計未來幾年也將保持該快速增長的趨勢。
2.4 技術主題分析
通過對相關領域專利的國際分類號(IPC)進行統計分析,了解大數據挖掘專利與分析算法領域主要涉及的技術領域及相關專利申請分布情況。從涉及最多的專利IPC大組前三最多占專利總量的38.49%可以看出,在大數據挖掘專利與分析算法領域直接涉及算法的專利數量不占絕對多數,說明在算法技術領域核心技術較少,較多的是現有核心技術與具體運用技術的結合。
2.5 區域申請情況分析
通過對各省份相關專利申請情況的研究,可以有效的了解各省份的在該技術領域的技術實力,為可能的技術引進與技術合作提供合作省份方向指導。
圖3為大數據挖掘專利與分析算法領域專利申請省市地圖,可以看出,申請相關專利最多的是北京,有133件專利,其后擁有40件以上專利的省市有江蘇(92件)、上海(49件)、浙江(47件),內陸地區只有四川擁有的專利數量較多,而目前貴州沒有相關專利的申請,在技術上不具有明顯優勢。
從整體區域上來看,在大數據挖掘專利與分析應用領域最多的算法技術主要集中在長江流域省份、珠三角及北京地區,同時內蒙古、山西、貴州、青海、新疆、西藏未有相關專利的申請。
2.6 主要申請人分析
將申請人分為大專院校、科研單位、企業、個人、機關團體、其此他6大領域進行統計。專利申請人中大部分專利都是大專院校申請(340件,56.29%),達到了總申請量的55%以上,排在之后的企業申請量也達到186件(30.79%),科研單位擁有39件,占總量的6.46%,個人、機關團體和其他各申請了23件(3.81%)、15件(2.48%)和1件(0.17%)專利。可以發現大專院校和科研單位是該技術領域技術進步的主導力量,企業也是技術進步的較重要因素。
整體上可以看出,在大數據挖掘專利與分析算法領域相關技術主要集中在大專院校和科研單位,除了國家電網公司以外,企業在該技術領域有一定的技術投入,但投入相對小于大專院校和科研單位。
3 結束語
目前大數據作為新興技術,各地對發展大數據產業都處于探索階段,大數據產業的核心是數據挖掘和應用,結合中國自身的產業及知識產權情況,提出如下建議:
一是制定更加有利于大數據產業發展政策。結合國內大數據產業實際發展情況,在經過全面、深入、徹底的知識產權及技術評估后,針對性的對中國大數據挖掘及分析產業提出指導性、綱領性的文件,并配套相應的扶持政策。
二是積極契合國家及省內的大數據相關扶持政策。積極引導企業在保證市場前景和技術開發難度的情況下,盡可能的使開發或引進技術及產業符合政策扶持要求,通過政策扶持的手段最大程度上減少企業的產業發展成本及技術研發成本。
三是加強技術攻關、搶占技術前沿。擬在科技計劃中設立大數據科技專項,圍繞海量數據挖掘、海量數據分析、數據信息應用等重點方向,以企業為主體加強關鍵技術攻關并推動成果產業化,同時在此基礎上進行全面的、細致的專利布局,對自身的發明創造實現全方位的保護。
四是加強知識產權宣傳力度。大力宣傳知識產權對企業的價值,促使企業提高對知識產權方面的重視程度,特別是對知識產權運用的重視程度,讓企業在規避知識產權方面風險的同時實現自身知識產權價值的最大化。
參考文獻
[1]陳良臣.大數據挖掘與分析的關鍵技術研究[J].數字技術與應用,2016(2).
[2]單海波.淺談大數據時代的數據分析[J].科技創新與應用,2016(24).