999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop的專利現狀研究

2018-03-20 09:09:53成都柳沈知識產權服務有限公司王琦玥
電子世界 2018年4期
關鍵詞:分析

成都柳沈知識產權服務有限公司 王琦玥

一、Hadoop概況

隨著計算機性能以及存儲能力的不斷增加,數據的產生以及獲取變得越來越容易。我們正處于一個數據爆炸的年代,然而面對海量的數據,如何通過計算機進行分析從而利用真正有用的信息是現代社會急需解決的問題。Hadoop是目前最流行的共享存儲和分析系統,為高效正確的處理海量的Web數據提供了可能性。它通過HDFS實現數據的存儲,然后通過MapReduce來實現數據的分析和處理,提高了數據的處理能力,并有機會針對海量的數據進行分析與創新。目前公開的國內外專利中與Hadoop技術相關的專利有11448篇,國內專利有4816篇,大多數申請均集中在2013年-2017年間。目前,Hadoop已經廣泛應用于各個領域中,比如,醫療物聯網,電力物聯網,地理時空數據采集與預測,監控數據分析采集等,Hadoop為各個領域的數據挖掘提供了基礎的數據分析支持,給數據賦予了全新的意義。

二、Hadoop專利技術概況

1.概況

為了獲得用于Hadoop專利技術的相關情況,本文選擇Google Patent系統,選擇相關的關鍵詞,如云計算、Hadoop分布式文件系統、數據集、鍵值對、半結構化數據、Hadoop、cloud computing、HDFS、clust+、mapper、unstructured data、MapReduce等關鍵詞,檢索Google Patent數據庫來獲得進行統計分析的專利樣本。檢索的截止日期為2018年1月24日,由于未申請提前公開的發明專利申請通常在申請日之后18個月才公開,由此導致部分的專利申請由于未公開而不再本次文獻采集之列。

本章從Hadoop技術的分類、專利分布、主流技術發展等角度分析了Hadoop技術的技術演進過程以及Hadoop的主要技術特點。

2.專利技術分類

與Hadoop相關的技術相關的工具構成了Hadoop生態圈,各大工具從數據庫、存儲、管理、配置、一致性等方面對Hadoop進行了相關的改進。由于Hadoop技術的核心價值在于MapReduce和HDFS,這兩項技術使得Hadoop相比與其他的數據存儲分析系統具備了獨特的優勢。下面就這兩方面進行重點分析。

(1)MapReduce

在Google Patent專利庫中涉及到MapReduce的專利文件約8000篇,中國專利申請約3000篇。MapReduce是一種數據并行處理的編程模型,其將大規模的數據分析任務分發給擁有足夠多機器的數據中心,可以在很短的時間內處理大規模數據集[1]。MapReduce相對于關系數據庫的優勢是非常明顯的,它可以處理半結構化的數據,并僅在處理數據時才對數據進行解釋,即是是冗余或是不完整的數據也可以獲得可用的分析結果。MapReduce包括兩個處理階段,Map和Reduce。

Map(映射)是MapReduce中進行數據處理的數據準備階段,其主要目的是進行數據的提取以及去除受損數據,為之后的數據優化做準備。在向中國專利局申請的專利中涉及到map函數的共2112篇,其主要改進點在于針對冗余數據的處理、負載均衡、聚類與屬性約簡。由于原始數據的特性不同,有近四分之一的專利申請將mapper針對其應用領域進行了定制化的改進,例如針對用電數據、行車記錄數據、物聯網、視頻數據使用特殊的聚類方式以及針對各個領域的特殊性建立與領域相適應的聚類表。

圖1 Hadoop技術演進年代圖

Reduce(歸約)的主要功能則在于將mapper的輸出作為輸入,進行數據的合并,最后將數據寫入HDFS系統中。Reduce通常是基于數據分析的需求,進而獲取與需求數據特征匹配的數據。在向中國專利局申請的專利中涉及到reduce函數共2774篇,其主要改進點在于數據的分類與聚類以及冗余、錯誤數據的清洗。由于Reduce函數是根據數據分析需求建立的,因此大約70%的專利均涉及了具體的數據類型的處理,例如針對人臉識別的圖像數據處理,針對用電量流量流向的分析處理等等。

(2)HDFS

在全球專利庫中涉及到HDFS的專利文件共4481篇,中國專利申請占2400項。HDFS作為Hadoop特有的分布式文件存儲系統,其具備超大文件、流式數據訪問、低時間延遲的數據訪問、支持多用戶寫入修改文件、以及將一個數據集分化為多個小文件等特性[1]。目前來看,近一半的Hadoop技術專利申請中涉及到HDFS系統。

HDFS通常具有兩類節點,namenode和datanode,分別在HDFS集群中擔任管理者和工作者的角色。Namenode管理以及維護文件系統的目錄,Dadanode則是文件系統的工作節點,定期向Namenode發送相應的塊列表。在Google patent中涉及到這兩類節點的專利共723篇,其多數改進在于故障修復,調度選擇,提高傳輸效率,完整性驗證等等。

HDFS作為一種文件存儲系統,其演進基本遵循存儲系統的改進特點,基本針對輸入輸出的改進、文件尋址索引、文件壓縮分片等方面進行相應的改進,同時由于HDFS是一種典型的分布式結構,因此針對各個文件的傳輸流程、傳輸方式的優化也具備不錯的應用前景。目前HDFS在文件系統以及文件傳輸的主流工具包括:flume、sqoop、distcp、avro、sequencefile、mapfile、fuse、blob、hbase等,在Google patent中涉及到這些工具的使用的中國專利文獻占HDFS相關文件的39%左右。

三、Hadoop專利技術發展演進

從專利的角度進行分析,Hadoop的專利申請中的技術特征也基本遵循著Hadoop技術的發展歷史路線,根據Google最初設計的MapReduce框架以及HDFS存儲結構,針對資源/數據的在實際應用中的各個層面進行了相關的改進。作為一個共享存儲和分析系統,針對該系統的改進主要還是在數據管理(Data Management)、數據獲?。―ata Access)、數據處理(Data Processing)和數據存儲(Data Storage)這4個方面。圖1是根據技術分類表以及技術演進方向做出的年代圖。

由上述技術演進圖可以看到,目前Hadoop生態圈中主流的工具YARN、Hive以及Flume都能在公開的專利申請中找到其演變來源。

從HadoopV2中的YARN工具的發展分析,可以看到MapReduce框架的演變。目前MapReduce已經從一個版本0.0的簡單的集中式集群構架演變為版本2.0雙層調度架構,將單一的Jobtracker分成三個不同的管理角色Resource Manager、Node Manager和Application Master,簡化了Jobtracker的任務,提高了集群規模,并易于擴展。YARN的相關技術特征可以從亞馬遜公司獲得的兩篇公開號分別為US8260840B1和US9210048B1授權專利中一窺一二,這兩篇專利分別從MapReduce中集群節點的動態任務調配和通過網絡流量調配節點之間的任務負載的角度去優化MapReduce的框架,以實現各個節點的負載均衡。尤其在US8260840B1中指出,采用一種動態決定集群的規模大小的框架,包括使用一部分節點作為核心節點參與任務的分配管理,另一部分節點作為輔助節點,可以進一步提高集群的運行速度。這兩篇專利的技術特征不僅體現在了工具YARN中,還應用于亞馬遜公司EC2云計算體系里,為亞馬遜公司的發展帶來了巨大的經濟利益?,F在YARN已經從MapReduce的結構中獨立出來,作為一個獨立的工具,使得MapReduce的工作更輕量。

Hive原本是Facebook構建在Hadoop的數據倉庫框架,其設計目的是為了讓Hadoop精通SQL技能[1],它目前成為了應用于各種數據分析場景中的一個通用的、可伸縮的數據平臺。在Hive誕生之前,曾經就有兩篇專利嘗試將SQL技術與Hadoop技術結合起來,它們分別是Yahoo!公司的US7921416B2和US8150723B2,它們嘗試將結構化,正式化的SQL語言翻譯為可以被并行處理的語言,進而將SQL語言準確、冗余量少與Hadoop并行高速處理的特性,使得大量采用SQL搭建的數據庫也可以享受分布式運算的優點。進一步,它們采取的方式是在SQL語言和可以被Hadoop處理的語言中建立一個新的綜合了聲明性和程序性的語言,以讓其支持多個數據表之間的協同工作,而在這兩篇專利中提到這種新型語言則演進成Hive中的HiveQL語言,輔助Hive外殼環境和HDFS的交互。

Flume是cloudera提供的一個高可用、高可靠的開源分布式海量日志收集系統,日志數據可以經過Flume流向需要存儲終端目的地[2]。關于日志數據收集早在2010年的專利US931772B2中提到,該授權專利就提出了需要對Hadoop集群中的各個節點進行日志分析與收集,以便于監控各個節點的狀態。Cloudera公司的重點專利US8880592B2則進一步的在日志收集的基礎上,提出了部分日志的采集與更新,作為Hadoop的后臺進行集群節點監管的軟件,其性能得到了進一步的提升。

四、總結

在Hadoop領域申請量排名靠前的國外主要申請人包括國家商業機器公司、威睿、雅虎、甲骨文、Cloudera等公司,主要涉及用于針對Hadoop系統的管理、配置、監管和接入的相關改進。國內主要申請人包括南京大學、國家電網、華中科技大學。和國外相比,中國在Hadoop相關技術的申請主要是針對特定領域使用Hadoop技術,并根據該領域的特性,對Hadoop技術進行定制化改進,其主要的考慮還是希望通過專利的方式對相關產品(比如南京大學的醫藥軟件和國家電網的用電數據軟件)進行保護。

本文對用于Hadoop專利技術進行分析和整理,除了以上內容,還關注了本領域的核心專利以及專利技術發展演進路線,得出的結論對于相關公司的專利布局具有一定的參考意義。

[1]Tom White.Hadoop權威指南(第3版)[M].清華大學出版社,2010:19-23,49-50.

[2]http://www.cnblogs.com/edisonchou/p/4445491.html,2017年7月24日訪問.

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 日本久久免费| 国内精品久久久久久久久久影视 | 国产91高跟丝袜| 成人在线观看不卡| 亚洲第一极品精品无码| a级高清毛片| 91视频精品| 国产精品第| 亚洲成a人在线播放www| 国产毛片基地| 国产欧美日韩综合一区在线播放| 爱爱影院18禁免费| av在线无码浏览| 国产大全韩国亚洲一区二区三区| 国产精选自拍| 极品国产在线| 午夜精品福利影院| 99色亚洲国产精品11p| 亚洲系列无码专区偷窥无码| 中文无码日韩精品| 五月天福利视频| 亚洲精品日产精品乱码不卡| 大香网伊人久久综合网2020| 亚洲视频一区在线| 色成人综合| 人妻一区二区三区无码精品一区| 亚洲日本在线免费观看| 2021国产在线视频| 国产精品成人AⅤ在线一二三四| 无码精品一区二区久久久| 亚洲综合极品香蕉久久网| 欧美国产成人在线| 亚洲欧洲综合| 亚洲精品少妇熟女| 亚洲综合18p| 精品视频福利| 亚洲成综合人影院在院播放| 国产精品乱偷免费视频| 国内精自线i品一区202| 99在线观看精品视频| 国产精品久久久久无码网站| 精品一区二区三区无码视频无码| 拍国产真实乱人偷精品| 国产亚洲精久久久久久久91| 亚洲精选无码久久久| 丁香六月激情综合| 亚洲精品777| 热re99久久精品国99热| 免费aa毛片| 一级成人欧美一区在线观看| 亚洲精品不卡午夜精品| 久草青青在线视频| 亚洲国产中文欧美在线人成大黄瓜| 女人18毛片一级毛片在线| www精品久久| 就去色综合| 99精品免费在线| 成人精品在线观看| 国产福利一区视频| 亚洲一道AV无码午夜福利| 日韩天堂网| 91口爆吞精国产对白第三集| 国产区在线看| 五月天久久婷婷| 一级毛片在线直接观看| 国产AV无码专区亚洲精品网站| 成人亚洲国产| 久久夜色撩人精品国产| 亚洲无码精品在线播放| 狠狠色丁香婷婷| 国产精品熟女亚洲AV麻豆| 日本高清免费一本在线观看| 日韩东京热无码人妻| 国产免费看久久久| 日本色综合网| 欧美怡红院视频一区二区三区| 一级毛片中文字幕| 啪啪啪亚洲无码| 91伊人国产| A级毛片无码久久精品免费| 亚洲欧洲自拍拍偷午夜色无码| 在线国产综合一区二区三区 |