唐云凱 王芳 劉淑英
摘要:我國的信息技術水平不斷提升,海量數據的復雜性與多樣性對數據挖掘形成了較大困難。基于大數據環境下,為了更深入、充分地掌握是數據挖掘相關技術的研究進展與應用,可以從海量數據挖掘過程的技術框架、算法、理論、模式等方面進行嘗試。綜上所述,該文將對海量數據挖掘過程相關技術研究進展進行分析。
關鍵詞:海量數據;數據挖掘技術;研究進展;討論
中圖分類號:TP311? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)36-0001-02
數據挖掘的過程是在海量數據中追尋有趣模式與認知的過程,利用海量數據挖掘技術,可有效針對大數據,從而在其中發現有用的信息與知識。針對海量數據,采用傳統的分類算法、關聯分析、聚類分析等數據挖掘技術顯然有些無力,因此為了提取與挖掘更多有價值的數據,是人們對大數據進行研究的主要目的。
1 海量數據挖掘過程相關技術研究進展及問題
1.1 海量數據挖掘過程相關技術研究進展
1.1.1 云計算與MapReudce
Google公司早在2006年就已經提出了海量Web數據的云計算,可將其定義為將經濟與拓展性作為基礎的超大規模數據分布式模式,利用互聯網將虛擬、抽象的數據進行計算、資源存儲,最后通過平臺與服務對外部的客戶進行傳遞。在Google的內部,海量數據的處理計算與應用平臺都采用了云計算的方式,其中較為典型的海量數據挖掘技術為GFS(Google file system)、MapReduce、對海量數據進行處理的Hadoop平臺。在Hadoop平臺中較為核心的部分是MapReduce編程模式與文件分布式系統。這種編程模式在2004年由計算機專家Dean與Ghemawat共同提出,目前已經開始被廣泛應用在海量數據挖掘過程中。一般來說編程模式在對海量數據進行處理時,會經過兩個階段:Map與Reduce階段,無論哪個階段的運行都會運用key-value模式對數據進行輸入與輸出。在Map階段進行處理時,HDFS即分布式文件系統將大量的數據進行分割,成為split塊,之后為其每一個都創建獨立的Mapper,利用相應的Map函數處理之后,選取出相同key的數據傳遞到Reduce任務中,之后將海量數據重新進行整合,再對其進行細致化的處理。
1.1.2 算法領域
算法領域作為海量數據挖掘過程相關技術中的研究重點,在2006年召開的ICDM回憶中,已經選出了較為常用的十種數據挖掘算法。其中包含分類算法、聚類算法等。但這種傳統的算法并不能對海量數據合理處置。為了使傳統算法更加高效,可使用經典的數據挖掘算法與MapReduce以框架的形式互相結合[1],例如對關聯規則進行并行、聚類算法并行等方式,通過廣大學者的不斷研究與實踐,已經取得了較為可觀的成果。除了對各類算法領域的研究,還包含了多種相關理論,第一,統計分析理論。在早先的海量數據挖掘理論基礎中,主要包含數據回歸分析、因子分析等方面。事件有較大的隨機性,不能夠利用概率模型進行有效處理。但在實際中的海量數據中,由于其具備較強的模糊性,尤其針對海量數據的多樣性特點,不能夠利用傳統的精確處理,因此模糊數學理論等相關理論可發揮出極大優勢。第二,模糊數學理論。模糊數學理論作為有效的不確定性數據的處理方式,尤其對于海量數據進行處理時,可以發揮良好的應用效果。
1.2 海量數據挖掘過程相關技術存在問題
1.2.1 相關技術架構問題
在對海量數據進行挖掘的過程中,需要在不同的領域進行架構,由于不同領域存在較大的差異性與特殊性,對架構形成了極大的挑戰。例如在農業的海量數據中,包含大量的農業基本資源如耕地、田地等,農業生產方面如育種、施肥等。在對農業中海量數據進行挖掘與處理時,面臨災害風險預測、糧食安全等多方面問題。與此同時,在構建農業云計算平臺時,需要獲得計算機技術的相關支持,還需要大量的農業經驗與農業知識,地方政府也要提供相應的支持,為農業的云計算平臺構建形成較大難度與挑戰。
1.2.2 數據獲取
海量數據挖掘需要將數據的獲取與收集當作基礎,目前常用的數據收集方法為數據檢索,例如人們常用的Google、百度、傳感器技術[2]、條形碼技術等。但基于大數據時代的背景下,雖然數據的數量極為龐大,還是會經常出現無有效數據可用的窘迫情況,如數據壁壘問題、取得關聯背景數據較為困難等,都對海量數據的挖掘形成阻礙。
1.2.3 用戶隱私與安全
在目前經常會出現用戶隱私泄露的問題,不僅會對用戶形成較大的困擾,也會形成較多的虛假數據從而降低數據的分析效果。因此在海量數據挖掘過程中用戶的隱私與安全問題亟待解決,主要是由于技術本身存在缺陷,且沒有構建有效、科學的數據管理機制,造成用戶隱私泄露。
1.2.4 數據處理
在獲取數據之后會對數據進行預處理,例如數據清洗、數據融合、數據分析等技術。其中數據的清洗尤為關鍵,在2014年我國召開的數據技術大會中,有學者提出了數據記錄邏輯檢測辦法、大數據清洗過程優化等相關控制模型,增強了數據處理的效果與效率。但在數據清洗之后會進行數據的分析,會產生時效性的問題,由于數據清洗有時不會及時完成,從而對數據挖掘的效果產生不利影響。
2 海量數據挖掘過程相關技術的處理思維
在對海量數據進行處理時會存在較多問題,為了增強海量數據挖掘過程的相關技術水平,應采用合理的海量數據處理思維即大數據與腦科學,采用人腦的思考方式可以加強大數據的處理效果。第一,深度學習。進行深度學習時,需要對人腦的思考機制進行模仿與學習。基于大數據的環境下,使用深度學習可對數據進行準確分析,并使人工智能獲得有效處理,也會對傳統的思維按時進行改變。無論是大數據與簡單模型還是大數據與深度學習,目前大部分學者都認為基于大數據的背景下,利用簡單的線性模型要好于復雜的模型。然而從人腦的思考模式來看,其機理與機制都可以從大數據挖掘過程中取得有效成果,利用模擬人腦的思考方式以及學習方式,可以獲得更多、更有效的信息數據。例如在“Google Brain”研究的項目(http:en.wikipedia.org/wiki/Google_Brain)[3]便可以看出。在機器學領域的關鍵人物Hinton與其學生Salakhutdinov對深度學習做出的巨大貢獻,這種方式也在學術界與工業界掀起了深度學習的潮流。第二,認知計算。在對海量數據進行挖掘處理的過程可以將其看作為認知過程。將數據進行轉化、收集、計算、分析、表達,從而形成預估與決定,這便是標準的認識模式。但在人進行認知時候還會包含心智等方面的問題,例如情商、感受、信仰等,因此在對海量數據進行認知計算以及相關研究時,需要包含以下多個方面:首先需要考慮認知能否被計算。可以表達為人腦的認知是否可以用具體的公式或模式進行表現。在我國舉辦的第八屆Web智能學術研討會中,任福繼教授為人們展示了情感交互智能機器人,通過實踐完全可以說明認知可以利用計算的方式進行,至少在局部是可以進行計算的。其次應考慮認知應該怎樣計算。其方式可以包含對數據的提取、心智局部表現、等方面。最后應考慮知識的全部相對性。對于人腦的學習過程來說,數據的量無論是多還是少都可定義為相對應的概念,如果環境出現變化,會對心智造成影響。因此需要在不斷增加的數據量與環境變化中汲取知識,采用計算認知的方式,構建嶄新的理論與實踐模型。
3 結束語
基于大數據環境下,海量數據的挖掘過程以及相關技術不僅存在巨大價值,也面臨著險峻的挑戰。希望在廣大的學者與研發人員不斷努力、實踐下,可以構建出更加完善、科學的大數據管理機制與計算模型,凸顯大數據的真正價值,為人們的生活、社會的發展提供有效的數據服務。
參考文獻:
[1] 米允龍,米春橋,劉文奇. 海量數據挖掘過程相關技術研究進展[J]. 計算機科學與探索,2015,9(6):641-659.
[2] 尹洪.基于數據驅動的衛星故障診斷關鍵技術研究[D].國防科學技術大學,2015.
[3] 何超. 基于數據挖掘的企業競爭情報智能分析研究[D].武漢大學,2014.
[通聯編輯:唐一東]