沈永梅 王暉
摘要:對于數據擁有者來講,數據挖掘服務的提供能夠為其開展相關工作提供較大的便利。因此,基于這種認識,本文對一種基于Hadoop的大數據挖掘云服務進行了分析,并且對其在網頁數據信息挖掘和分析上的應用展開了探討,從而為關注這一話題的人們提供參考。
關鍵詞:Hadoop 大數據挖掘 云服務 應用
中圖分類號:TP311.5 文獻標識碼:A 文章編號:1007-9416(2016)06-0000-00
1基于Hadoop的大數據挖掘云服務
1.1云服務架構分析
云服務WMCS是新一代基于Hadoop的數據分析和挖掘平臺,其集成了多種基于Hadoop的數據挖掘算法,能夠為政府機構、企業進行數據挖掘提供支持。而所謂的Hadoop,其實就是可以進行穩定且可靠的接口及數據服務提供的平臺,可以實現MAP/Reduce算法,并且能夠將文本劃分成可重復執行的若干個單元。在整個平臺中,MAP/Reduce算法、分布式文件系統(HDFS)和分布式按列存儲數據庫(HBase)將始終貫穿。利用這些算法和數據庫結構,系統能夠以較高傳輸率進行大量數據訪問,并且能夠實現文本數據的分流訪問[1]。此外,Hadoop平臺也能夠實現數據分解,并且完成大量數據的分析和處理。
從云服務WMCS體系結構上來看,該平臺主要由用戶管理模塊、數據管理模塊、任務管理模塊和結果顯示模塊等幾大模塊構成。采用分布式文件系統和分布式按列存儲數據庫,平臺將能進行大量數據的存儲,并且確保用戶能夠進行數據的快速訪問。利用Web界面,平臺則能向用戶展示數據挖掘結果。利用用戶管理模塊,平臺則能夠對用戶進行權限管理,從而使用戶只能進行有權限的數據的訪問和管理,并且進行相應的數據挖掘功能的使用。利用任務管理模塊,用戶則能夠進行挖掘任務和監控任務進度的查看。而平臺的各個模塊需要與后臺挖掘系統進行對接,才能夠實現各種功能,并且最終利用圖形進行算法分析結果的展示。
1.2數據挖掘的實現
從數據挖掘實現角度來看,云服務WMCS是并行數據挖掘系統,其中含有40多種數據挖掘算法,能夠利用多種算法完成數據的預處理操作。在該系統中,包含有文本處理與建模系統、信息采集系統、數據挖掘系統和前臺接口。在系統運行的過程中,信息采集系統會將數據存儲至分布式文件系統中,然后將網頁描述信息存儲至分布式按列存儲數據庫中。而信息采集需要以基于MAP的并行網絡爬蟲為主體,可以為多種采集模式提供支持。在文本預測及建模系統中,則包含包括中文分詞模型建模、文本特征提取等多種文本挖掘預處理模塊[2]。利用數據挖掘系統,則可以利用情感分析算法、關聯分析算法、摘要提取算法等多種數據挖掘算法完成海量數據的挖掘。而利用MAP,則可以使這些算法獨立運行。此外,在并行數據挖掘系統中,還包含基于內存計算框架Spark的數據挖掘算法,可以為用戶提供開放服務。
2基于Hadoop的大數據挖掘云服務的應用研究
2.1應用介紹
利用Hadoop的大數據挖掘云服務WMCS,可以從網絡數據信息中挖掘出有效的信息,從而為政府開展相關管理工作提供便利。就目前來看,社會熱點和重大新聞在網絡上的傳播速度較快。政府管理者在開展民情調查和社會調查等工作時,可以借助互聯網數據挖掘技術進行管理決策的制定。而使用云服務WMCS,則可以利用較為簡便的數據挖掘流程進行網絡事件的話題分析。同時,通過簡單的配置,系統分析結果也將以多維度圖形呈現出來,從而為用戶開展相關管理工作提供便利。
2.2應用流程
以2015年年末的國內熱點事件“習馬會”為例,如果用戶想要了解該話題的分布情況,就可以直接在系統界面上輸入“習馬會”這一關鍵詞。而通過修改采集網頁數量等參數,用戶就可以完成系統的簡單配置。在此基礎上,系統將開始運行挖掘任務。具體來講,就是以關鍵詞為檢索項進行搜索請求的發出。根據這一請求,搜索引擎進進行相關網頁的搜集,然后返回設定數量的網頁。所以,從云服務WMCS的應用流程上來看,系統運行是一種話題分析流程。在系統運行的過程中,后臺將同時進行多個子話題的并行預處理,然后利用基于單掃描增量式聚類的并行主體發現算法完成數據的挖掘分析。通過將半結構化的原始網頁處理成稀疏詞頻向量,系統將能利用并行主題發現算法實現向量的主題發現,然后進行網頁文檔群隱含話題的自動挖掘。完成挖掘流程之后,系統就可以利用多維度呈現技術進行用戶關心熱點事件分析結果的呈現。
2.3應用效果
從云服務WMCS的應用效果上來看,系統將利用餅圖進行“習馬會”話題分析結果的展示。在執行的話題分析任務中,分析的網頁將形成7個聚類,每個聚類所占的比例也將得到顯示。而在餅圖的下方,也會出現用于展示聚類內部網頁文檔標題、內部關鍵詞和相關統計信息的表格。針對網絡中大量存在的網頁,云服務WMCS還能夠進行話題關鍵詞檢索服務的提供。通過對超過167萬網頁進行話題分析,系統將完成超過100GB原始數據量的分析,并且最終形成5002個話題類。而通過將話題的關鍵詞進行倒排索引,則能夠為用戶提供關鍵詞檢索服務。
參考文獻
[1]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數據挖掘內涵及解決方案研究[J].情報理論與實踐,2015,07:103-108.
[2]余永紅,向曉軍,高陽等.面向服務的云數據挖掘引擎的研究[J].計算機科學與探索,2012,01:46-57.