999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Hadoop的大數據挖掘云服務及應用研究

2016-07-09 08:06:51沈永梅王暉
數字技術與應用 2016年6期
關鍵詞:應用

沈永梅 王暉

摘要:對于數據擁有者來講,數據挖掘服務的提供能夠為其開展相關工作提供較大的便利。因此,基于這種認識,本文對一種基于Hadoop的大數據挖掘云服務進行了分析,并且對其在網頁數據信息挖掘和分析上的應用展開了探討,從而為關注這一話題的人們提供參考。

關鍵詞:Hadoop 大數據挖掘 云服務 應用

中圖分類號:TP311.5 文獻標識碼:A 文章編號:1007-9416(2016)06-0000-00

1基于Hadoop的大數據挖掘云服務

1.1云服務架構分析

云服務WMCS是新一代基于Hadoop的數據分析和挖掘平臺,其集成了多種基于Hadoop的數據挖掘算法,能夠為政府機構、企業進行數據挖掘提供支持。而所謂的Hadoop,其實就是可以進行穩定且可靠的接口及數據服務提供的平臺,可以實現MAP/Reduce算法,并且能夠將文本劃分成可重復執行的若干個單元。在整個平臺中,MAP/Reduce算法、分布式文件系統(HDFS)和分布式按列存儲數據庫(HBase)將始終貫穿。利用這些算法和數據庫結構,系統能夠以較高傳輸率進行大量數據訪問,并且能夠實現文本數據的分流訪問[1]。此外,Hadoop平臺也能夠實現數據分解,并且完成大量數據的分析和處理。

從云服務WMCS體系結構上來看,該平臺主要由用戶管理模塊、數據管理模塊、任務管理模塊和結果顯示模塊等幾大模塊構成。采用分布式文件系統和分布式按列存儲數據庫,平臺將能進行大量數據的存儲,并且確保用戶能夠進行數據的快速訪問。利用Web界面,平臺則能向用戶展示數據挖掘結果。利用用戶管理模塊,平臺則能夠對用戶進行權限管理,從而使用戶只能進行有權限的數據的訪問和管理,并且進行相應的數據挖掘功能的使用。利用任務管理模塊,用戶則能夠進行挖掘任務和監控任務進度的查看。而平臺的各個模塊需要與后臺挖掘系統進行對接,才能夠實現各種功能,并且最終利用圖形進行算法分析結果的展示。

1.2數據挖掘的實現

從數據挖掘實現角度來看,云服務WMCS是并行數據挖掘系統,其中含有40多種數據挖掘算法,能夠利用多種算法完成數據的預處理操作。在該系統中,包含有文本處理與建模系統、信息采集系統、數據挖掘系統和前臺接口。在系統運行的過程中,信息采集系統會將數據存儲至分布式文件系統中,然后將網頁描述信息存儲至分布式按列存儲數據庫中。而信息采集需要以基于MAP的并行網絡爬蟲為主體,可以為多種采集模式提供支持。在文本預測及建模系統中,則包含包括中文分詞模型建模、文本特征提取等多種文本挖掘預處理模塊[2]。利用數據挖掘系統,則可以利用情感分析算法、關聯分析算法、摘要提取算法等多種數據挖掘算法完成海量數據的挖掘。而利用MAP,則可以使這些算法獨立運行。此外,在并行數據挖掘系統中,還包含基于內存計算框架Spark的數據挖掘算法,可以為用戶提供開放服務。

2基于Hadoop的大數據挖掘云服務的應用研究

2.1應用介紹

利用Hadoop的大數據挖掘云服務WMCS,可以從網絡數據信息中挖掘出有效的信息,從而為政府開展相關管理工作提供便利。就目前來看,社會熱點和重大新聞在網絡上的傳播速度較快。政府管理者在開展民情調查和社會調查等工作時,可以借助互聯網數據挖掘技術進行管理決策的制定。而使用云服務WMCS,則可以利用較為簡便的數據挖掘流程進行網絡事件的話題分析。同時,通過簡單的配置,系統分析結果也將以多維度圖形呈現出來,從而為用戶開展相關管理工作提供便利。

2.2應用流程

以2015年年末的國內熱點事件“習馬會”為例,如果用戶想要了解該話題的分布情況,就可以直接在系統界面上輸入“習馬會”這一關鍵詞。而通過修改采集網頁數量等參數,用戶就可以完成系統的簡單配置。在此基礎上,系統將開始運行挖掘任務。具體來講,就是以關鍵詞為檢索項進行搜索請求的發出。根據這一請求,搜索引擎進進行相關網頁的搜集,然后返回設定數量的網頁。所以,從云服務WMCS的應用流程上來看,系統運行是一種話題分析流程。在系統運行的過程中,后臺將同時進行多個子話題的并行預處理,然后利用基于單掃描增量式聚類的并行主體發現算法完成數據的挖掘分析。通過將半結構化的原始網頁處理成稀疏詞頻向量,系統將能利用并行主題發現算法實現向量的主題發現,然后進行網頁文檔群隱含話題的自動挖掘。完成挖掘流程之后,系統就可以利用多維度呈現技術進行用戶關心熱點事件分析結果的呈現。

2.3應用效果

從云服務WMCS的應用效果上來看,系統將利用餅圖進行“習馬會”話題分析結果的展示。在執行的話題分析任務中,分析的網頁將形成7個聚類,每個聚類所占的比例也將得到顯示。而在餅圖的下方,也會出現用于展示聚類內部網頁文檔標題、內部關鍵詞和相關統計信息的表格。針對網絡中大量存在的網頁,云服務WMCS還能夠進行話題關鍵詞檢索服務的提供。通過對超過167萬網頁進行話題分析,系統將完成超過100GB原始數據量的分析,并且最終形成5002個話題類。而通過將話題的關鍵詞進行倒排索引,則能夠為用戶提供關鍵詞檢索服務。

參考文獻

[1]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數據挖掘內涵及解決方案研究[J].情報理論與實踐,2015,07:103-108.

[2]余永紅,向曉軍,高陽等.面向服務的云數據挖掘引擎的研究[J].計算機科學與探索,2012,01:46-57.

猜你喜歡
應用
配網自動化技術的應用探討
科技視界(2016年21期)2016-10-17 19:54:47
帶壓堵漏技術在檢修中的應用
科技視界(2016年21期)2016-10-17 19:54:05
行列式的性質及若干應用
科技視界(2016年21期)2016-10-17 18:46:46
癌癥擴散和治療研究中的微分方程模型
科技視界(2016年21期)2016-10-17 18:37:58
紅外線測溫儀在汽車診斷中的應用
科技視界(2016年21期)2016-10-17 18:28:05
多媒體技術在小學語文教學中的應用研究
考試周刊(2016年76期)2016-10-09 08:45:44
微課的翻轉課堂在英語教學中的應用研究
大學教育(2016年9期)2016-10-09 08:28:55
分析膜技術及其在電廠水處理中的應用
科技視界(2016年20期)2016-09-29 14:22:00
GM(1,1)白化微分優化方程預測模型建模過程應用分析
科技視界(2016年20期)2016-09-29 12:03:12
煤礦井下坑道鉆機人機工程學應用分析
科技視界(2016年20期)2016-09-29 11:47:01
主站蜘蛛池模板: 国产乱人伦偷精品视频AAA| 久久久波多野结衣av一区二区| 四虎精品黑人视频| 人妻出轨无码中文一区二区| 亚洲黄色视频在线观看一区| 国产偷倩视频| 毛片免费观看视频| 国产精鲁鲁网在线视频| 中文字幕2区| 18禁高潮出水呻吟娇喘蜜芽| 91久久大香线蕉| 人人爽人人爽人人片| 久久大香香蕉国产免费网站| 四虎国产在线观看| 久久香蕉国产线看观看精品蕉| 伊人激情综合网| 精品伊人久久久大香线蕉欧美| 97精品伊人久久大香线蕉| 激情六月丁香婷婷四房播| 欧美国产在线看| 熟妇丰满人妻av无码区| 国产成人资源| 久久久91人妻无码精品蜜桃HD | 特级毛片免费视频| 亚洲欧美在线综合图区| 欧美激情视频二区三区| 免费国产好深啊好涨好硬视频| 国产精品刺激对白在线| 98精品全国免费观看视频| 99国产在线视频| 青青草原国产av福利网站| 成年午夜精品久久精品| 国产精品jizz在线观看软件| 国产亚洲成AⅤ人片在线观看| 欧美日韩综合网| 最新国产网站| 一区二区偷拍美女撒尿视频| 少妇精品网站| 亚洲激情区| 国产精品性| 国产亚洲精品97在线观看| 亚洲欧美精品一中文字幕| 全部免费特黄特色大片视频| 91无码人妻精品一区| 亚洲中文字幕国产av| 91九色国产porny| 国产素人在线| 欧美精品v欧洲精品| 喷潮白浆直流在线播放| 五月婷婷丁香综合| 亚洲中文字幕97久久精品少妇| 丰满人妻中出白浆| 无码免费视频| 亚洲男人在线| 天堂亚洲网| 99爱在线| 国产美女自慰在线观看| 国产成人在线无码免费视频| 亚洲IV视频免费在线光看| 国产日韩欧美中文| 老司机久久精品视频| 国产日韩精品一区在线不卡| 亚洲丝袜第一页| 一本大道香蕉中文日本不卡高清二区 | 多人乱p欧美在线观看| 亚洲黄网在线| 精品人妻AV区| 久久精品免费看一| 中文字幕天无码久久精品视频免费 | 国产精品免费露脸视频| 国产亚洲一区二区三区在线| 91伊人国产| 国产在线观看第二页| 国产二级毛片| 99热这里只有精品久久免费| 精品91视频| 国产网站免费| 九九热免费在线视频| 日韩无码精品人妻| 国产精品播放| 久久综合色播五月男人的天堂| 国模粉嫩小泬视频在线观看|