章泳
進入21世紀,網絡信息技術取得了較快的發展,一些以此為基礎的新型服務業開始發展起來,而Web數據也迅猛增長。新時代下Web數據背后隱藏價值越來越受到關注,如何對Web數據進行集成和挖掘也面臨著重大挑戰。本文中,筆者介紹了Web數據的相關概念,并就其集成與挖掘方面面臨的挑戰進行了分析。
【關鍵詞】Web數據 集成 挖掘
隨著網絡信息技術的快速發展,物聯網、社交平臺、Web2.0等技術不斷涌現,Web數據迅猛增長,大數據成為時代的熱點話題。在當前發展中,Web數據主要呈現出兩方面的特點:一是人們開始關注數據背后所隱藏的價值,并期望能夠挖掘出這部分價值;二是大數據中隱藏著大量的虛假信息,而人們在利用和挖掘大數據背后的價值時就需要花費大量的時間來辨別數據的真偽。所以,如何進行Web數據的集成和挖掘就成為了這個時代迫切需要解決的難題。
1 Web數據相關概念
1.1 Web數據集成和挖掘
Web數據集成和挖掘是大數據應用中的一種,其中,數據集成是數據挖掘的前提。Web數據集成是指借助某一種輔助工具來進行數據的搜集,并將搜集到的數據按照一定的規范進行分類整理。數據挖掘則是在數據集成之后對數據進行分析,從而發現隱藏在數據背后的深層次信息。
1.2 Web數據的特點
(1)Web數據的來源極其廣泛,不同來源的數據類型也就存在著差異,這同時也意味著數據類型多樣化。這種來源廣泛雖然在一定程度上保證了數據的“大”,但數據的質量就難以保證,需要后續分析加以甄別。
(2)Web數據具有強實時聯系的特點,網絡化條件下信息傳播速度快,所搜集到的數據也具有較強的時效性。
(3)Web數據具有跨媒體關聯的特點,它能夠將來自不同媒體的數據集合到一塊。按照數據挖掘的程度可以將Web數據分為surface Web和deep Web,后者的挖掘深度比前者更深,deep Web是指那些普通的搜索引擎無法發現的數據或者是引擎商不愿意去搜索的一些數據。
2 Web數據分析的應用
大數據處理的關鍵環節就是數據分析,數據分析是指有目的地分析數據,并使這些數據能夠構成有用的信息,數據分析能夠挖掘出數據背后所隱藏的有價值的信息。當前,數據分析主要應用于以下幾個領域。
2.1 自然語言處理上的應用
自然語言處理是指計算機對于人類語言的識別、分析,這種識別分析包括對語言句法的分析、語義的分析以及句子情感的分析等。在大數據興起的背景下, Web數據為自然語言處理提供了更加可靠的數據支撐,當然Web數據在今后的語言處理上的應用中也面臨著諸多的挑戰:包括未知語言的難以預測、新語言現象更新不及時以及無法很好地詮釋語言中的文化內涵等。
2.2 社會化計算上的應用
社會化計算是一種科學,它能夠對數據來源的廣度和數據分析的深度產生重大影響,尤其是其在社交網絡方面的應用,更是能夠拓展Web數據來源。社會化計算的發展趨勢是高效和高精準度,但是當前大數據背景下的社會化計算仍處于一個初級發展階段,在今后仍面臨著一些挑戰,包括算法選擇上的問題、軟件可信度的問題以及不確定性問題等。
2.3 推薦系統上的應用
推薦系統是一種信息過濾機制,能夠有效解決信息超載的問題,這種推薦系統能夠根據用戶的偏好來研究出用戶和信息資源之間的聯系,進而進行個性化計算。這種推薦系統包括基于知識、關聯規則、內容等方面的推薦,它能夠有效引導用戶發現自己所需要的信息,進而滿足自身的要求。
3 Web數據集成和挖掘面臨的挑戰
Web數據集成和挖掘雖然在部分領域得到了應用,但其今后的發展仍面臨著一些挑戰,主要集中在以下幾個方面:
3.1 數據規模迅速增長
Web大數據是人們在進行數據抽取和挖掘過程中面臨著“海量”的數據,這些數據不僅僅量大,而且數據具有高度的復雜性,這就要求在數據挖掘過程中面臨著更大的難度。另外,對于“海量”數據的儲存也面臨著重大挑戰,這就要求數據庫追求擴展性和系統可用性,這樣才能保證數據存儲的效果。
3.2 數據類型多樣
在當前大數據的背景下,數據類型也在發生著重要的變化,正在逐步由結構化向融合數據類型轉變,這是傳統的數據分析平臺面臨在又一個挑戰。數據挖掘的關鍵環節是算法的彈性和有效性,然而當前的算法僅僅適用于常駐內存的小數據庫,這種情況下大型數據庫的數據難以同時導入到內存,因此,高效率的算法成為數據挖掘中面臨的重要挑戰。
3.3 時效性
數據規模增大以及數據類型的多樣化都會導致數據處理的時間延長,然而當前時代對于數據挖掘提出了更高的時效性要求,甚至有些數據要求進行實時處理,以便更加及時地挖掘出其中有價值的信息。這種對于數據的實時處理,在數據流較小的情況下較為容易實現,而隨著數據流的增大,而且數據環境復雜多變,這種對數據全貌的掌控就很難實現。因此,對于數據流技術的開發和應用是今后發展中的難題。
3.4 隱私保護存在隱患
隨著網絡社交平臺的發展,人們日常生活中的各種信息和軌跡能夠迅速在網絡中傳播,而Web數據的價值凸顯使得一些不法分子開始關注這些數據,采用一些非法手段獲取用戶的數據信息,危害用戶及整個國家的利益,所以,大數據時代下的隱私保護問題也是當前數據挖掘中不得不面對的問題。
4 結束語
網絡信息技術的發展催生了Web大數據,這種大數據背后隱藏著巨大的價值,當前已經受到社會各界的關注。Web數據在自然語言處理、社會化計算以及推薦系統上取得了初步的應用,但今后的發展中仍面臨著重大挑戰。在今后,面對多樣的數據類型,海量的數據資源,如何通過更快的方法進行數據挖掘,以及在數據挖掘中怎樣保護用戶的隱私,這些都是大數據背景下需要解決的問題。雖然大數據已經不是全新的東西,但在今后的發展中仍舊面臨中重大挑戰。
參考文獻
[1]吳銳,孫銀香.云計算平臺下的Web數據挖掘研究[J].網絡安全技術與應用,2014(08):67-68.
[2]桑志超.電子商務環境下的Web數據挖掘系統研究[D].河北工程大學,2014.
[3]張承明.基于Web的數據挖掘研究[D].山東科技大學,2003.
作者單位
武警警官學院 四川省成都市 610213endprint