999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡環境下的大數據采集和處理

2019-07-18 12:03:17耿貞偉保富
軟件工程 2019年6期
關鍵詞:網絡環境大數據

耿貞偉 保富

摘 ?要:在信息媒體技術高速發展的今天,網絡信息日新月異,大數據正在世界掀起一股狂熱浪潮,成為人類社會的一大生產力。網絡環境下的大數據技術不僅僅只是對信息的收集,同時也是對信息的分析和處理,整合信息背后所隱藏的價值。大數據技術將會為人類社會帶來新的改革方向,促進人類社會的文明發展。文章主要通過探索網絡環境下大數據發展的規律,以及網絡環境下大數據存在的特點,針對大數據資源的有效應用途徑,進一步研究其數據的采集及處理技術。

關鍵詞:網絡環境;大數據;采集和處理

中圖分類號:TP399 ? ? ?文獻標識碼:A

Abstract:With the rapid development of information and media technology,network information is changing with each passing day.Big data is setting off a craze wave in the world and becoming a major productive force for human society.Big data technology in the network environment is not only used to collect information,but also analyze and process information,so as to integrate the potential value hidden in the information.Big data technology will bring new direction of reform for human society and promote the development of human civilization.This paper mainly explores the development laws and characteristics of big data in the network environment,and further studies the data acquisition and processing technology for the effective application of big data resources.

Keywords:network environment;big data;acquisition and processing

1 ? 引言(Introduction)

大數據主要指超過數據系統收集和處理能力的數據,是網絡環境中常見的數據信息。大數據對信息規模和傳送能力的要求都比較高,由于與原數據系統不相匹配,大數據信息并不會得到系統很好的整理及處理。大數據對于當今時代的發展具有重要作用,能促進新生產力的發展。所以,在信息更迭速度加快的信息時代,為了獲取大數據所隱藏的信息價值及促進生產力發展,相關技術人員應有所行動,采取行之有效地方法對之進行采集和處理。

2 ?網絡環境下大數據的發展(Development of big data in network environment)

最早給出大數據時代已經到來定義的是咨詢公司麥肯錫。該公司在社會研究調查報告中指出,大數據信息已經融入到了社會各行各業中,成為社會各領域中重要的生產力。而隨著人們對海量數據的運用又預示著新信息與生產率增長時代的到來。大數據的發展是人類社會進步發展的標志,它預示著人類社會將朝向更文明、科技化、信息化方向進步發展。在現代社會中,大數據已經成為計算機網絡媒體技術中的熱門內容,引起了電子計算機行業的研究熱潮,成為相關企業發展的主要動力因素。目前大數據在我國的發展和研究都還處于初級階段,但大數據的市場價值已經顯現出來,在很長一段時間內我國都會注重對大數據的研究與應用,大數據在我國市場中擁有可觀的發展未來。

大數據的未來整體態勢及發展趨勢主要表現在幾個方面:大數據與人類社會活動;大數據與人類文化藝術;大數據隱私安全;系統處理;應用關鍵技術;產業影響。在大數據的整體態勢中,數據的規模將會逐漸擴張,數據信息成為引用資源,數據共享將會成為推動企業發展的核心內容。在大數據發展環境下,會催生出一批批新興產業,伴隨開創一些新興職業,如數據分析師、數據工程師、數據分析師等。這些新興職業能為各國社會提供更多的就業崗位,一方面也為國家解決了就業的民生問題。大數據下信息共享是必不可少的,伴隨著又會帶來信息隱私安全的問題,信息共享帶來便利的同時也蘊藏了較大的信息隱私安全問題。數據信息資源化發展,大數據在各個國家及地區都會成為競爭中最有力的戰略資源,成為新的競爭優勢和新發展動力。

3 ?網絡環境下大數據的分類及特點(Classification and characteristics of big data in network environment)

3.1 ? 大數據的分類

3.1.1 ? 以實時性特點劃分,分為實時數據分析和離線數據分析

實時數據分析應用的領域主要是B2C產品,包括金融、互聯網和移動領域內的B2C產品。這類產品往往會要求在限定時間內反饋上億次的信息,以此來達到提高用戶體驗的目的。實時數據分析對處理體系的要求比離線數據分析的要高,而當前對大數據采集和處理的研究也主要針對的是實時數據信息。對于大多數對反饋時間要求不高的應用,如機器學習、推薦引擎計算、離線統計分析等,可以采用離線數據分析的方式,通過采集的數據將其轉移到專用的分析平臺。面對海量數據的沖擊,傳統ETL工具往往會出現崩潰的問題。ETL在格式轉換上對資金的需求較高,所以在性能上根本無法滿足對海量數據的采集和處理需求。從實時數據分析與離線數據分析來看,大數據在量上遠高于其他物質流量,因此需要抓緊對大數據采集和處理體系的研究。

3.1.2 ? 以數據量分析,分為內存級別、海量級別、BI級別

大數據中的內存級別是指不超過群體的內存最大值;海量級別是指對于BI產品和數據庫都已經失效或者成本過高的數據量;BI是區別于內存較小來說,具有過大特征的數據量。這類數據一般可以放在傳統BI產品和量身定做的BI數據中進行分析。無論是內存級別還是海量級別或BI級別的數據來說,都是以數據量為基礎進行分析,同時也都滿足大數據的概念。所以,在具體應用中需要對數據類型進行分類比較,以采取適當的采集及處理方法[1]。海量級別的大數據流量是當前發展的一個主要趨勢,在這里所有的數據信息都會匯聚于此。而當前技術發展的要求是建立具體的海量數據分析系統,以確保信息特征的有效分類采集和處理。

3.2 ? 大數據的特點

大數據在社會實踐過程中表現了以下幾個特點:海量性、易變性、多樣性、高速性。社會各行各業都面臨數據量范圍增長的挑戰。比如,在最近一次的IDC報告預測中曾說,在2020年,世界范圍內的信息量將會擴大為原來的50倍。當前,大數據的增長規模仍然存在一個不確定的指標,單一數據集的范圍可以從數十TB到數PB不等。1PB的數據需要兩萬臺50GB硬盤的電腦才能進行處理,可見大數據的增長規模是非常巨大的。此外,在這個過程中還會催生出其他數據信息,數據量也會持續不斷的增加,最終形成海量的數據信息流量。大數據一般都具有多層結構,各層結構都具有不同的特征表現,因此大數據也會有不同的類型和形式。相較于傳統業務數據而言,大數據在該系統下會存在特征不明顯、形狀不規則等問題,傳統數據處理軟件是很難對其進行有效處理的。傳統業務數據已經能生成符合自身發展的標準個數,能夠被智能軟件所識別。

目前,社會發展所面臨的難題就是從海量數據中發覺其市場價值。社會大眾普遍都認為,使用互聯網進行搜索是造成數據增長的主要原因,改觀點是不正確的[2]。數據的增長主要是新型多結構數據的原因,其中包括了網絡日志、互聯網搜索、手機通訊錄等。數據的快速增長一直是處理大數據的一大難題,在這里人們需要考慮到更多方面的因素,以免出現數據采集和處理不恰當的情況。此外,傳感器的安裝也增加了數據量增長、范圍擴大的可能性,推動數據多樣性的發展;高速主要是指被創建和被移動的速度。在網絡大環境下,流行的趨勢是通過基于實現軟件性能優化的高速電腦處理器和服務器。企業需要掌握快速創建數據、處理信息、反饋方法的方法,以此來對數據進行采集和處理。

4 ?網絡環境下大數據的處理和分析(Processing and analysis of big data in network environment)

要將大數據作為一種資源,就必須對大數據進行相關處理和分析。大數據的處理和分析對海量數據處理,信息價值的提取都有較高的要求。大數據具有不同的類型及特征,所以目前,針對市場針對靜態數據主要還是采取批處理的方法,對實時在線數據采取流處理。批處理方法首先需要將原始數據進行分類處理,以得出數據的具體含義,然后分配給不同的任務區進行處理,最終形成有效的處理措施。把計算推到數據是大數據處理的有效辦法,對文本中構建良好的模型具有重要影響。于大數據的靜態數據而言,比較適用于先儲存后計算的處理系統。Dremel交互式數據分析系統是Google公司推出了一款實時數據處理系統,這款系統一經問世便引領電子計算機行業向實時數據處理邁進。實時數據的處理大致可分為流式處理和交互式處理兩種模式,交互式的處理在具有靈活、直觀、操作便捷的特點,處理的結果可以直接得到運用。交互式數據處理比較常用于服務器實時日志數據的采取上,交互式處理系統可以適當將網絡上的PB級數處理時間縮短到最小,盡可能地對數據進行處理和分析并給出結果[3]。交互式處理是常見的大數據處理方式,在應用該技術的過程中需要更加注意對數據PB級數的處理,以提高大數據的處理效率。

電子設備的普及和發展,催生了海量的圖像、影音數據信息,由于數據信息本身的特征能表示事物之間的相關關系,大數據融合的特征使信息范圍的規模不斷增長,達到了上百萬或上億個節點的大圖數據庫,這也對計算機的數據采集和處理技術提出了巨大的挑戰。圖數據需要選取適當的圖分割和計算機模型來進行處理挑戰,以實現對大數據的采集和處理效果。大數據在互聯網領域、公共服務領域及安全防護領域內的運用以初見成效。目前據調查顯示,在微博、微信中人們都會對根據文本、圖片、聯系方式等信息來推薦的內容倍感興趣,提升了用戶本身的體驗效果。對大數據的處理是信息快速發展的要求,受大數據海量性、易變性、高速性等特點的影響,處理大數據需要更多行之有效地方法。大數據的分析系統需要依靠傳感分析處理系統,對抓取的數據進行分塊處理,發現每個文本信息所對應的特征,將信息歸類到具體的板塊。

5 ?網絡環境下大數據的采集和篩選(Acquisition and ? ? screening of big data in network environment)

5.1 ? 網絡大數據采集的基本流程與關鍵技術

5.1.1 ? 網絡大數據采集的基本流程

數據采集的整體框架主要包括六大板塊:網站頁面、鏈接抽取、鏈接過濾、內容抽取、爬蟲URL隊列和數據。這些板塊各自所帶有的功能分別是:網站頁面的功能是獲取網站的網頁內容;鏈接抽取是抽取網站頁面中的鏈接地址;鏈接過濾是辨別該鏈接地址下的網頁內容是否被抓取過;內容抽取是從網頁內容中抽取需要的屬性,然后提取所需內容值;URL隊列是為爬蟲提供需要抓取數據網站的url;數據主要包括Site Url,被抓取的數據網站中的url、Spider Url,已經抓取過的網站數據Url和Spider Content,被抓取的網頁內容[4]。

網絡大數據的采集過程主要包括:將被抓取的網站Url信息寫入Url Queue程序中;在URL隊列中獲取被抓取網站的信息;集中獲取某一網站的網頁內容;在網頁內容中抽取鏈接地址;在數據庫中讀取被抓取網站的網頁地址;過濾Url,對比抓取前后的Url信息;分類處理,將沒有被抓取過的網頁地址寫入Spider Url數據庫,已抓取過的放置對該網頁地址的抓取;獲取網頁地址內容,抽取所需屬性的內容值;將抽取的內容值寫入數據庫[5]。對大數據的處理必須具備條理清晰的處理流程和方法,這樣才能井然有序地對海量數據信息進行處理。此外,在處理大數據時還要針對數據信息的特征來進一步來分析處理,以確保其精準度。

5.1.2 ? 數據采集的關鍵技術

數據采集的關鍵是布隆過濾器。鏈接過濾技術的核心是判斷當前鏈接是否在已被抓取過的鏈接里面。在進行網頁大數據的采集時,可以增加布隆過濾器來完成對鏈接的篩選。運用布隆過濾器的想法是:當集合中加入一個新元素,可以通過X個散列函數實現對該元素的X個映射點數組,并將這些數組置為1。在檢索的過程中我們只需要觀察這些點是否為1就基本能判斷該集合中有沒有這個新元素了。若這些點數組中存在一個0,則被檢測的元素一定不存在;若都是1,則被檢測的元素很可能會存在于這些點數組中[6]。布隆過濾器在橫向和縱向上都具有很大的優勢:

(1)在簡潔程度方面,布隆過濾器的簡潔程度達到了最大值,該過濾器的儲存空間和插入、查詢時間都為常數。

(2)在相互關系上,散列的函數并沒有連接關系,有利于各硬件的并行運行。

(3)在儲存方面,布隆過濾器并不儲存元素本身,這一點是布隆過濾器在保密性要求較高場合中的優勢。布隆過濾器的運行方法是,已被抓取的url,以X個hash函數計算,得出X個值,再與一個bit數組的這X個位置的元素對應起來(元素值已被設為1)。根據上面所論述過的方法即可得出判斷。

5.2 ? 網絡大數據篩選的基本流程與關鍵技術

5.2.1 ? 網絡大數據篩選的基本流程

網絡大數據篩選的整體框架和處理過程主要包括四個板塊:分詞、排重、整合、數據。四個板塊的功能主要是:分詞,是對抓取到的網頁進行切詞處理;排重,是對網頁內容進行多重排重檢查;整合,是對不同源信息進行格式層面的整合;數據,主要指Spider Data和Dp Data兩方面的數據。網絡大數據處理的基本流程主要有六個步驟:將抓取的網頁進行分詞;將分詞處理的結果寫入數據庫;將抓取網頁進行排重檢查;將排重結果寫入數據庫;更具分詞和排重結果,對數據進行整合;將整合結果寫入數據庫。

5.2.2 ? 網絡大數據篩選的關鍵技術

網絡大數據篩選的關鍵技術之一是排重技術,而排重技術則需要依靠Simhash算法來實現高效排重。Simhash算法是實現對海量數據進行文本排重的算法,simhash算法在一定程度上避免了文本比較的復雜方式,于余弦角、Jaccard相似系數而言,效率得到了有效提高。運用Simhash算法對抓取的網頁內容進行排重,可以有效擴大數據容量,提供更快速的數據處理速度。運用Simhash算法的想法是:輸入一個為K的維向量V,如文本的特征向量,但需要保證每個特征都具有一定的權重。輸出一個N位的二進制簽名X[7]。

(1)初始化一個N維向量Q為0,N位的二進制簽名S為0。

(2)對向量K中的所有特征使用傳統的Hash算法算出一個N位的散列值H。判斷式子為1≤i≤N,如果H中的第i位數是1則Q的第i個元素減去該特征的權重。

(3)如果Q的第i位元素大于0,則S的第i位數為1反之則為0。

(4)返回簽名S。在Simhash算法得出每篇文檔的簽名之后,需要再計算兩個簽名間的海明距離。根據實踐經驗,64位的Simhash海明距離在3以內可以認為相似度較高。

數據篩選的又一關鍵技術便是整合技術,整合就是把抓取來的網頁同各企業間建立連接關系。對于企業來說,可以使用一組關鍵詞對企業進行描述,同樣,經過處理的網頁內容也可以使用一組關鍵詞來進行描述。所以,整合就成了兩組關鍵詞之間的信息整合。網頁內容的分詞結果通常表現出兩個特點:分詞結果數量大;大部分分詞對網頁內容來說沒有價值。所以,需要對網頁內容的分詞進行簡化處理,使用常頻詞匯來描述網頁內容[8]。簡化之后,關鍵詞信息的整合效率得到了很大的提升,精確度也得到了保障。在關鍵詞的信息整合之后,抓取來的網頁內容就與企業之間建立了聯系,就能知道某一企業的相關數據信息了。

6 ? 結論(Conclusion)

網絡環境下大數據的信息類型是豐富多樣的,需要采集和處理的數據量龐大,對信息數據展現的要求較高,并且會著重關注數據的高效性和可用性。大數據是促進社會生產力新發展的關鍵因素,是引起人類社會變革的重要條件。所以,在網絡環境中要抓緊對大數據采集和處理技術的研究,以提高大數據的高效性和可用性,促進社會生產力的發展。

參考文獻(References)

[1] 丁俊,鄭輝.大數據時代下的動態可配置數據采集系統的研究與設計[J].計算機應用與軟件,2018(3):75-79.

[2] 陳廉芳.大數據環境下圖書館用戶小數據的采集、分析與應用[J].國家圖書館學刊,2016,25(3):069-074.

[3] 亓峰,唐曉璇,邢寧哲,等.未來大數據環境下的配用電通信網虛擬網絡架構及應用[J].數據采集與處理,2015(3):511-518.

[4] 鞠娜.移動互聯網的大數據處理關鍵技術[J].信息與電腦(理論版),2015(23):38.

[5] 張繼棟,許鵬.大數據采集系統的設計與應用[J].大觀,2017(11):40.

[6] 李明.大數據環境下無線終端智能通信信號采集系統設計[J].電子設計工程,2017,25(16):94-98.

[7] 林文輝.基于Hadoop的海量網絡數據處理平臺的關鍵技術研究[D].北京郵電大學,2014:29-36.

[8] 楊剛,楊凱.大數據關鍵處理技術綜述[J].計算機與數字工程,2016,44(4):694-699.

作者簡介:

耿貞偉(1973-),男,碩士,工程師.研究領域:云計算信息技術.

保 ?富(1993-),男,碩士,助理工程師.研究領域:云計算信息技術.

猜你喜歡
網絡環境大數據
網絡環境下中職計算機教學的探析
職業(2016年10期)2016-10-20 22:29:07
網絡環境下大學生安全意識的培養及教育途徑的機制研究
試論高校圖書館在網絡環境沖擊下的人文建設
商(2016年27期)2016-10-17 06:30:59
網絡環境下的大學生道德與法治教育淺析
考試周刊(2016年79期)2016-10-13 23:21:20
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
網絡環境下的商務英語課程資源庫的建設研究
大學教育(2016年9期)2016-10-09 08:26:48
網絡視域下初中作文教學初探
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 91精品专区国产盗摄| 久996视频精品免费观看| 国产网友愉拍精品| 久久天天躁狠狠躁夜夜躁| 成人自拍视频在线观看| 亚洲无线一二三四区男男| 国产在线无码一区二区三区| 久久黄色视频影| 黄片一区二区三区| 国产精品午夜福利麻豆| 国产乱子伦无码精品小说| 国产欧美高清| 免费在线观看av| 精品无码日韩国产不卡av| 91口爆吞精国产对白第三集| 欧美自慰一级看片免费| 另类综合视频| 性视频一区| 国产靠逼视频| 亚洲国产欧美目韩成人综合| 亚洲欧洲综合| 99re在线观看视频| 欧美日韩国产在线人| 激情综合图区| 啊嗯不日本网站| 新SSS无码手机在线观看| 青青青国产视频| 国产三区二区| 欧美成人看片一区二区三区 | 久久狠狠色噜噜狠狠狠狠97视色| 久久久久亚洲av成人网人人软件 | 一个色综合久久| 久久精品人妻中文视频| 亚洲网综合| 国产本道久久一区二区三区| 亚瑟天堂久久一区二区影院| 国产第一页免费浮力影院| 高清无码不卡视频| 国产在线观看91精品| www.日韩三级| 欧美高清日韩| 波多野结衣的av一区二区三区| 国产欧美日韩18| 国产日韩欧美成人| 伊人久久综在合线亚洲91| 久久久久亚洲AV成人网站软件| 国产特级毛片| 日韩 欧美 国产 精品 综合| 国产成人h在线观看网站站| 在线观看国产黄色| 四虎综合网| 91精品亚洲| 国产又粗又爽视频| 97人人模人人爽人人喊小说| 亚洲男人的天堂在线观看| 色网在线视频| 国产精品不卡永久免费| 国产香蕉在线| 久久伊人操| 成人精品午夜福利在线播放| a亚洲视频| 亚洲综合色婷婷中文字幕| 国内精自线i品一区202| 少妇精品网站| 国产欧美在线观看视频| 91久久偷偷做嫩草影院| 麻豆精品在线视频| 精品久久久久久中文字幕女 | 欧美性色综合网| 国产欧美视频在线观看| 四虎在线高清无码| 中文字幕不卡免费高清视频| 国产18在线| 日韩AV无码免费一二三区| 91久久精品国产| 日韩精品视频久久| 9丨情侣偷在线精品国产| 中文字幕不卡免费高清视频| 毛片网站观看| 香蕉视频国产精品人| 亚洲成a人片在线观看88| 99热免费在线|