999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科技情報大數據業務平臺設計

2018-01-10 07:09:34吳素研呂志堅吳江瑞李文波
現代情報 2018年1期

吳素研 呂志堅 吳江瑞 李文波

(1.北京市科學技術情報研究所信息技術研究部,北京100044;2.河南工學院材料工程系,河南 新鄉 100044;3.中國科學院軟件研究所總體部,北京100081))

·業務研究·

科技情報大數據業務平臺設計

吳素研1呂志堅1吳江瑞2李文波3

(1.北京市科學技術情報研究所信息技術研究部,北京100044;2.河南工學院材料工程系,河南 新鄉 100044;3.中國科學院軟件研究所總體部,北京100081))

[目的/意義]本文分析了目前大數據時代科技情報工作面臨的問題和機遇,針對情報服務領域大數據服務模式進行了分析。[方法/過程]該論文結合信息技術領域的虛擬化技術、云平臺技術、高性能技術和人工智能技術,設計了科技情報大數據業務平臺架構,詳細闡述了硬件層、虛擬層、支撐層和業務層主要功能和所需技術;并對大數據處理首要任務存儲進行了探索,搭建了基于hadoop和hbase的大數據存儲平臺。[結果/結論]本文提出的大數據情報業務平臺從整體架構進行了設計,并實現了存儲模塊,下一步實現分析和可視化部門,可以為情報的收集和處理提供大數據支撐服務。

科技情報;大數據;hadoop;hbase

傳統的科技情報工作主要是從公開的、正規的紙質事實文獻上,如科技論文、專利、標準、圖書等獲取信息,提煉出來的客觀情報知識。信息技術和互聯網的出現,使得科技情報來源的信息載體由紙質演變為數字化,情報信息的獲取方式也從專門的機構變為可以隨時隨地訪問的開放網絡上。

目前,一方面,網絡上的信息隨著互聯網技術的蓬勃發展,尤其以由用戶主導而生成的內容互聯網產品模式的Web2.0技術和以融合為主的第三代互聯網技術的發展,讓信息爆炸式地增長,人類社會也進入了大數據時代,目前都是從海量信息中發現有價值的東西。依據時代的發展,科技情報工作已由傳統的以文獻服務、知識服務為標志的情報1.0、2.0時代,進入了以智能服務為標志的情報3.0時代[1]。

另一方面,計算機硬件技術和軟件技術也有了新的突破,硬件方面的DSP、GPU、高性能處理芯片,軟件方面云計算、sdn等技術[2-4],軟件方面的互聯網的爬蟲技術可以實現從網上自動采集信息,人工智能、機器學習、數據挖掘、自然語言處理技術也發展到相對成熟的階段,這些技術可以實現文本的自動分類、聚類,可以從大量數據中學習有價值的知識,文本檢索技術可以實現從海量數據中找出想要的數據,這些技術為快速處理海量數據提供了基礎[5-7]。

有這兩方面需求的驅動和技術的支撐,大數據技術應運而生,主要包括進行數據表示的知識表示技術、對數據進行表示的知識圖譜技術、對數據進行挖掘發現的深度學習技術,這些技術是目前進行情報分析的基礎,必須引入這些技術來完成對大規模信息的處理和分析,解決情報3.0時代所面臨的問題。才能完成數字化、網絡化的新時期的情報分析任務。

進行情報分析任務,首先面對的就是數據的高效存儲,關系數據庫在面對高并發,高負載的低效,以及不易進行升級和擴展,往往需要停機維護和數據遷移等缺點是不適宜應用在大數據業務平臺上,搭建高效的存儲平臺是建立大數據業務的首要任務。因此本文首先分析了大數據時代情報業務模式,其次探索利用hadoop和hbase技術進行大數據存儲平臺的搭建。

1 大數據情報業務平臺架構

大數據指的是數據量超過單個臺式機存儲能力數據,無法用傳統的關系型數據庫進行存儲、單機數據分析統計工具無法處理的數據,這些數據需要存放在擁有數千萬臺機器的大規模并行系統上進行存儲和分析。大數據情報業務平臺,需要提供對情報信息的高可靠性、高性能、可伸縮分布式存儲系統和實時的、多維的、智能的分析功能。

大數據情報業務員平臺需要對硬件計算和存儲資源的進行合理虛擬化以實現高效的調配,需要對虛擬的資源進行高效內存計算以達到高效計算,在此讓利用深度學習工具加強平臺智能化,最終通過大數據可視化實現結果的展示。它主要分為4層。分別是:硬件資源層,虛擬資源,支撐平臺和情報業務服務??萍记閳蟠髷祿脚_架構如圖1所示。

1)硬件資源層:大數據平臺對硬件的需求主要是:可作為計算設備的主機、進行數據存儲的磁盤和滿足內部服務和對外服務的網絡設備。大數據平臺硬件的建設可以采取2個方案:①采用托管的方式,可以租用云計算平臺。

圖1 科技情報大數據平臺

②可以采用自建的方式。采購20臺以上的服務器和磁盤陣列,搭建私有云平臺即能滿足基本情報服務。

2)虛擬資源層:此層對上是透明化底層物理硬件,對下是打破實體結構間的不可切割的障礙,使這些資源的不受現有資源的架設方式、地域或物理組態所限制,實現最大化的利用物理硬件。虛擬化技術分為商用軟件和開源虛擬化技術兩種。

3)支撐平臺層:支撐平臺主要完成數據的存儲和處理,因此分為數據平臺和處理平臺。

情報的數據主要分為無結構的、半結構的和結構化的。對于結構化數據可以采用關系型數據庫存儲。對于半結構化的數據采用非關系型數據庫存儲。無結構化的數據可以采用文件系統存儲。如果對數據要進行快速的查找和訪問,還需要有索引的存儲,對索引的處理也有很多成熟的開源技術,如sola、彈性搜索等。

情報大數據平臺處理數據最大特點是數據量大,因此對數據處理性能要求要高。要達到這點首先處理的數據就要有原來的硬盤上改為在內存出處理,因此內存計算技術是大數據平臺的基礎。內存技術主要是對流處理、圖、統計的處理,都已經有很多成熟的方法。情報大數據的處理除了速度,還需要智能。利用數據挖掘技術從海量信息中找出有價值的情報是大數據情報平臺主要的作用之一。因此在對數據處理上,深度學習是很重要的。目前已經有很多深度學習的算法和工具,并在實際應用中獲取過很多有價值的成果。比如,作者曾經利用Google開源的Deep Learning工具Word2vec訓練出來的知識應用于對人大建議和政協提案進行模糊查找中和主題詞的推薦中,得到了很好的效果。

4)情報業務層:這一層是大數據平臺的業務層。情報主要是在對數據的處理過程中,獲取價值,數據具有多樣性,包括類型,文字的、圖片的。結構化的,非結構化的,所屬領域不同,如低碳、節能、農業、林業等。目前對數據處理的自動化技術也是發展得很好,如對文本處理的搜索、分類、聚類等。對圖像的提取、檢索等。因此根據情報所情報業務的需求和目前的計算機技術結合起來,建立能為情報服務的數據處理平臺。這一層是可擴展、組件化的,可以根據需求不斷進行技術的更新。目前根據最基本的需求,設計了幾個模塊。情報搜索,他和一般的搜索不一樣,它具有行業性,搜索需要對具有新穎性的東西加以特別關注、還具有多樣行。當然依托于大數據平臺,提高性能更是必不可少的。知識庫的構建:目前在自然語言處理比較火的概念之一。建立一個好知識庫,可以對概念進行推理和延伸??梢宰屘幚碜呦蛘Z義化。而知識庫的建立是具有領域性的,可以針對情報所的特定服務建立該領域知識庫。其次知識庫需要建成能自我完善的,其眾包技術能很好地起到這個效果。

基于大數據平臺,提供的服務最終體現在用戶價值上,從服務的層次上,分為初級和高級。初級可以面向大眾免費提供,如進行情報的檢索和情報數據的自動提煉上。而高級服務可以定制進行,為用戶提供行業情報,對技術進行趨勢估計等。

2 基于hadoop+hbase的大數據存儲平臺

關系型數據庫適用于存儲結構化數據,不適宜于高并發訪問和大數據量的大數據平臺。 Nosql(Not-Only-SQL)就是為半結構化數據存儲而生的。Nosql數據庫采用Key-Value的形式對數據進行存儲,且結構不固定,也就是說一個表的任意一行的列的數量可以不相同。并且就算定義字段,在不使用的情況下,也并不會占用存儲空間,這樣在某種程度上來說也降低了一定的存儲開銷。同時還具有易擴展性和高可用性的特性,方便部署在廉價的PC服務器上集群用于處理大規模的海量數據。HBase是Hadoop平臺下數據存儲引擎,它能夠為大數據提供實時的讀/寫操作。HBase具備開源、分布式、可擴展性以及面向列的存儲特點,使得HBase可以部署在廉價的PC服務器集群上處理大規模的海量數據。HBase最早是由Google的Bigtable演變而來,他提供了2種存儲方式:一種是使用操作系統的本地文件系統;另外一種則是在集群環境下使用Hadoop的HDFS,相對而言,使用HDFS將會使數據更加穩定。同時HBase存儲的是松散型數據,也就是半結構化數據,那么注定HBase的存儲維度是動態可變的。也就是說HBase表中的每一行可以包含不同數量的列,并且某一行的某一列還可以有多個版本的數據,這主要通過時間戳范圍進行區分。HBase不僅可以向下提供運算,它還能夠結合Hadoop的MapReduce向上提供運算,這些都是HBase所具備的特點[8]。根據上面大數據業務平臺的架構,結合hadoop+hbase技術搭建了大數據存儲的原型系統,具體方案如下文所述。

2.1 系統基礎架構

在兩臺配置處理器:CPU四核,處理速度3.3GHz,內存16G,硬盤:1T的Window7的系統上分別安裝Vitualbox,并在每個Vitualbox上安裝5個Ubuntu系統,每個性能內存2G,存儲200G。按照Hadoop集群的基本要求,其中一個是master結點,主要是用于運行hadoop程序中的namenode、secondorynamenode和jobtracker任務。另外9個結點均為slave結點,其中一個是用于冗余目的,如果沒有冗余,就不能稱之為hadoop了。slave結點主要將運行hadoop程序中的datanode和tasktracker任務。

在準備好這10個結點之后,需要分別將Linux系統的主機名重命名和配置IP地址(因為前面是復制和粘帖操作產生另外9個結點,此時這10個結點的主機名是一樣的),依此對虛擬系統設置IP從10.10.1.60到10.10.1.69,修改各個虛擬機hostname文件,將節點機器名字依次設置為maste、slave1、slave2、slave3、slave4、slave5、slave6、slave7、slave8、slave9。之后修改各個機器的hosts文件。設置為:

圖2 hostname文件配置

2.2 系統配置

2.2.1 hadoop配置

1)設置Core-site.xml

圖3 Core-site.xml文件配置

2)設置hdfs-site.xml

圖4 hdfs-site.xml文件配置

3)設置mapred-site.xml

圖5 mapred-site.xml文件配置

4)設置yarn-site.xml

圖6 yarn-site.xml文件配置

2.2.2 hbase集群配置

1) 配置hbase-site.xml

圖7 hbase-site.xml文件配置

hbase.rootdir指定Hbase數據存儲目錄。hbase.cluster.distributed指定是否是完全分布式模式,單機模式和偽分布式模式需要將該值設為false,hbase.master指定Master的位置,hbase.zookeeper.quorum指定zooke的集群,多臺機器以逗號分隔。

2)修改conf下的regionservers文件

圖8 regionservers文件配置

3)修改Hadoop hdfs-site.xml下的一個屬性值

維寧爾(veoneer)的前身是全球汽車安全領域的領導者瑞典奧托立夫(Autoliv)公司的電子事業部。維寧爾(中國)電子有限公司專注于汽車安全電子及自動駕駛等新興市場業務,維寧爾的目標是成為高級駕駛輔助系統(ADAS)和自動駕駛系統的領先供應商。維寧爾(中國)電子有限公司積極順應市場需求,著力研發相關產品,以期成為汽車安全電子產品市場的領導者。

圖9 regionservers文件配置

該參數限制了datanode所允許同時執行的發送和接受任務的數量,缺省為256,hadoop-defaults.xml中通常不設置這個參數。這個限制缺省值實際使用情況下有些偏小,高負載情況下影響集群性能,需要根據實際集群條件設置一下。

2.2.3 hadoop和hbase啟動和停止

啟動順序:先啟動Hadoop-?hbase。

進入hadoop文件夾下執行命令:./sbin/start-dfs.sh;./sbin/start-yarn.sh;分別啟動hadoop的文件系統和任務調度系統。通過jps查看節點狀態,在maste和slave上分別顯示如下圖所示,表示hadoop啟動成功。

圖10 hadoop啟動任務

進入hbase文件夾下執行命令:./bin/start-hbase.sh,運行后通過jps查看節點狀態,出現黃色框起來的任務表示啟動成功。

圖11 hbase啟動任務

停止順序:hbase->hadoop,依次執行./bin/stop-hbase.sh;./sbin/stop-yarn.sh;./sbin/stop-dfs.sh;即可停止hbase和hadoop。

2.2.4 java代碼實現hbase簡單存儲

圖12 hbase建庫和插入數據代碼

3 結 語

本文分析了目前大數據時代科技情報工作面臨的問題和機遇,結合信息技術領域的虛擬化技術、云平臺技術、高性能技術和人工智能技術,設計了科技情報大數據業務平臺架構,并對大數據處理首要任務存儲進行了探索,搭建了基于hadoop和hbase的大數據存儲平臺。下一步,將在此基礎上,將人工智能技術嵌入到大數據平臺上,實現情報的大數據挖掘,最終,嵌入大數據可視化技術,對情報結果進行展示。

[1]吳晨生,李輝,付宏,等.情報服務邁向3.0時代[J].情報理論與實踐,2015,38(9):1-7.

[2]Bolz J,Farmer I,Grinspun E,et al.Sparse matrix solvers on the GPU[J].Acm Transactions on Graphics,2003,22(3).

[3]Hayes B.Cloud computing[J].Communications of the Acm,2008,51(7):9-11.

[4]Dixit A,Fang H,Mukherjee S,et al.Towards an elastic distributed SDN controller[M]// ACM SIGCOMM Computer Communication Review.ACM,2013:7-1

[5]Naimi A I,Westreich D J.Big Data:A Revolution That Will Transform How We Live,Work,and Think.[J].American Journal of Epidemiology,2014,17(9):181-183.

[6]Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.

[7]吳信東.數據挖掘十大算法[M].李文波,吳素研,譯.北京:清華大學出版社,2013.

[8]Mehul,Nalin,Vora.Hadoop-HBase for large-scale data[C]// International Conference on Computer Science and Network Technology.IEEE,2012:601-605.

BigDataPlatformforScienceandTechnologyIntelligence

Wu Suyan1Lyu Zhijian1Wu Jiangrui2Li Wenbo3

(1.Beijing Institute of Science and Technology Information,Beijing 100044,China;2.Henan Institute Technology,Xinxiang 453003,China;3.Institute of Software Chinese Academy of Science,Beijing 100081,China)

[Purpose/Signficance]This paper analyzed the current big data era of science and technology Intelligence work problems and opportunities.[Method/Process]Combined with information technology,virtualization technology,cloud platform technology,high performance technology and artificial intelligence technology,design science and technology information data service platform architecture,described the hardware layer,virtual layer,support layer and business layer and main function the required technology;and explored the primary task of big data storage,to build a large data storage platform based on Hadoop and hbase.[Resule/Conclusion]Big data business intelligence platform was proposed in this paper was designed from the overall architecture,and implemented the storage module,realized the analysed and visualization department next,could provide support services for large data collection and processing of information.

scientific and technical intelligence;big data;hadoop;hbase

10.3969/j.issn.1008-0821.2018.01.019

TP393

A

1008-0821(2018)01-0131-05

2017-08-04

北京市財政項目(項目編號PXM2017_178214_000005)、北京市科學技術情報研究所改革與發展專項(2017)。

吳素研(1977-),女,副研究員,博士,研究方向:科技情報、大數據。呂志堅(1975-),男,副研究員,博士,研究方向:科技情報、人工智能。吳江瑞(1968-),男,高級技師,研究方向:焊接。

孫國雷)

主站蜘蛛池模板: 国产凹凸一区在线观看视频| 免费人欧美成又黄又爽的视频| 青青极品在线| 不卡无码网| 美女无遮挡被啪啪到高潮免费| 永久在线播放| 亚洲一区二区日韩欧美gif| 91丝袜在线观看| 青青热久麻豆精品视频在线观看| 永久免费AⅤ无码网站在线观看| 天天激情综合| 97视频在线精品国自产拍| 欧美日韩免费观看| аⅴ资源中文在线天堂| V一区无码内射国产| 国产性精品| 欧美无遮挡国产欧美另类| 97国产一区二区精品久久呦| 亚洲a级毛片| 欧美a级在线| 真人免费一级毛片一区二区| 免费在线色| 欧美精品另类| 激情无码视频在线看| 在线国产91| 99久久精品免费观看国产| 国产又黄又硬又粗| 国产福利拍拍拍| 亚洲女同欧美在线| 青青国产视频| 久久精品国产国语对白| 一级毛片在线免费视频| 91久久偷偷做嫩草影院电| 亚洲三级a| 亚洲有无码中文网| 国产va免费精品| 人人爽人人爽人人片| 国产精品短篇二区| 亚洲欧洲自拍拍偷午夜色无码| 国产黄色视频综合| 欧美另类精品一区二区三区| 无遮挡一级毛片呦女视频| 国产在线视频导航| 亚洲第一成网站| 色呦呦手机在线精品| 成人午夜视频免费看欧美| 欧美中文一区| 青青热久麻豆精品视频在线观看| 最新亚洲av女人的天堂| 亚洲精品第一页不卡| 日韩一区精品视频一区二区| 无码精品福利一区二区三区| 欧美日韩免费观看| 99久久免费精品特色大片| 色悠久久久久久久综合网伊人| 亚洲精品国产综合99久久夜夜嗨| 亚洲欧美色中文字幕| 99热亚洲精品6码| 欧美激情二区三区| 欧美国产成人在线| 国产91精品调教在线播放| 国产精品lululu在线观看| 亚洲欧美自拍一区| 亚洲色图另类| 国产男人天堂| 欧美日韩中文国产| 日本爱爱精品一区二区| 日韩第一页在线| 日韩A级毛片一区二区三区| www.亚洲一区| 中文字幕 91| 亚洲色欲色欲www在线观看| 成人福利在线视频免费观看| 免费一级成人毛片| 91午夜福利在线观看精品| jizz国产视频| 国产白浆在线| 日韩精品一区二区三区免费在线观看| 在线欧美a| 亚洲国产成人久久精品软件| 国产成人综合网| 久久国产拍爱|