海量數據挖掘過程相關技術研究進展

2018-03-04 07:03:20唐云凱王芳劉淑英

電腦知識與技術 2018年36期

唐云凱王芳劉淑英

摘要：我國的信息技術水平不斷提升，海量數據的復雜性與多樣性對數據挖掘形成了較大困難。基于大數據環境下，為了更深入、充分地掌握是數據挖掘相關技術的研究進展與應用，可以從海量數據挖掘過程的技術框架、算法、理論、模式等方面進行嘗試。綜上所述，該文將對海量數據挖掘過程相關技術研究進展進行分析。

關鍵詞：海量數據;數據挖掘技術;研究進展;討論

中圖分類號：TP311? ? ? ? 文獻標識碼：A? ? ? ? 文章編號：1009-3044（2018）36-0001-02

數據挖掘的過程是在海量數據中追尋有趣模式與認知的過程，利用海量數據挖掘技術，可有效針對大數據，從而在其中發現有用的信息與知識。針對海量數據，采用傳統的分類算法、關聯分析、聚類分析等數據挖掘技術顯然有些無力，因此為了提取與挖掘更多有價值的數據，是人們對大數據進行研究的主要目的。

1 海量數據挖掘過程相關技術研究進展及問題

1.1 海量數據挖掘過程相關技術研究進展

1.1.1 云計算與MapReudce

Google公司早在2006年就已經提出了海量Web數據的云計算，可將其定義為將經濟與拓展性作為基礎的超大規模數據分布式模式，利用互聯網將虛擬、抽象的數據進行計算、資源存儲，最后通過平臺與服務對外部的客戶進行傳遞。在Google的內部，海量數據的處理計算與應用平臺都采用了云計算的方式，其中較為典型的海量數據挖掘技術為GFS（Google file system）、MapReduce、對海量數據進行處理的Hadoop平臺。在Hadoop平臺中較為核心的部分是MapReduce編程模式與文件分布式系統。這種編程模式在2004年由計算機專家Dean與Ghemawat共同提出，目前已經開始被廣泛應用在海量數據挖掘過程中。一般來說編程模式在對海量數據進行處理時，會經過兩個階段：Map與Reduce階段，無論哪個階段的運行都會運用key-value模式對數據進行輸入與輸出。在Map階段進行處理時，HDFS即分布式文件系統將大量的數據進行分割，成為split塊，之后為其每一個都創建獨立的Mapper，利用相應的Map函數處理之后，選取出相同key的數據傳遞到Reduce任務中，之后將海量數據重新進行整合，再對其進行細致化的處理。

1.1.2 算法領域

算法領域作為海量數據挖掘過程相關技術中的研究重點，在2006年召開的ICDM回憶中，已經選出了較為常用的十種數據挖掘算法。其中包含分類算法、聚類算法等。但這種傳統的算法并不能對海量數據合理處置。為了使傳統算法更加高效，可使用經典的數據挖掘算法與MapReduce以框架的形式互相結合[1]，例如對關聯規則進行并行、聚類算法并行等方式，通過廣大學者的不斷研究與實踐，已經取得了較為可觀的成果。除了對各類算法領域的研究，還包含了多種相關理論，第一，統計分析理論。在早先的海量數據挖掘理論基礎中，主要包含數據回歸分析、因子分析等方面。事件有較大的隨機性，不能夠利用概率模型進行有效處理。但在實際中的海量數據中，由于其具備較強的模糊性，尤其針對海量數據的多樣性特點，不能夠利用傳統的精確處理，因此模糊數學理論等相關理論可發揮出極大優勢。第二，模糊數學理論。模糊數學理論作為有效的不確定性數據的處理方式，尤其對于海量數據進行處理時，可以發揮良好的應用效果。

1.2 海量數據挖掘過程相關技術存在問題

1.2.1 相關技術架構問題

在對海量數據進行挖掘的過程中，需要在不同的領域進行架構，由于不同領域存在較大的差異性與特殊性，對架構形成了極大的挑戰。例如在農業的海量數據中，包含大量的農業基本資源如耕地、田地等，農業生產方面如育種、施肥等。在對農業中海量數據進行挖掘與處理時，面臨災害風險預測、糧食安全等多方面問題。與此同時，在構建農業云計算平臺時，需要獲得計算機技術的相關支持，還需要大量的農業經驗與農業知識，地方政府也要提供相應的支持，為農業的云計算平臺構建形成較大難度與挑戰。

1.2.2 數據獲取

海量數據挖掘需要將數據的獲取與收集當作基礎，目前常用的數據收集方法為數據檢索，例如人們常用的Google、百度、傳感器技術[2]、條形碼技術等。但基于大數據時代的背景下，雖然數據的數量極為龐大，還是會經常出現無有效數據可用的窘迫情況，如數據壁壘問題、取得關聯背景數據較為困難等，都對海量數據的挖掘形成阻礙。

1.2.3 用戶隱私與安全

在目前經常會出現用戶隱私泄露的問題，不僅會對用戶形成較大的困擾，也會形成較多的虛假數據從而降低數據的分析效果。因此在海量數據挖掘過程中用戶的隱私與安全問題亟待解決，主要是由于技術本身存在缺陷，且沒有構建有效、科學的數據管理機制，造成用戶隱私泄露。

1.2.4 數據處理

在獲取數據之后會對數據進行預處理，例如數據清洗、數據融合、數據分析等技術。其中數據的清洗尤為關鍵，在2014年我國召開的數據技術大會中，有學者提出了數據記錄邏輯檢測辦法、大數據清洗過程優化等相關控制模型，增強了數據處理的效果與效率。但在數據清洗之后會進行數據的分析，會產生時效性的問題，由于數據清洗有時不會及時完成，從而對數據挖掘的效果產生不利影響。

2 海量數據挖掘過程相關技術的處理思維

在對海量數據進行處理時會存在較多問題，為了增強海量數據挖掘過程的相關技術水平，應采用合理的海量數據處理思維即大數據與腦科學，采用人腦的思考方式可以加強大數據的處理效果。第一，深度學習。進行深度學習時，需要對人腦的思考機制進行模仿與學習。基于大數據的環境下，使用深度學習可對數據進行準確分析，并使人工智能獲得有效處理，也會對傳統的思維按時進行改變。無論是大數據與簡單模型還是大數據與深度學習，目前大部分學者都認為基于大數據的背景下，利用簡單的線性模型要好于復雜的模型。然而從人腦的思考模式來看，其機理與機制都可以從大數據挖掘過程中取得有效成果，利用模擬人腦的思考方式以及學習方式，可以獲得更多、更有效的信息數據。例如在“Google Brain”研究的項目（http：en.wikipedia.org/wiki/Google_Brain）[3]便可以看出。在機器學領域的關鍵人物Hinton與其學生Salakhutdinov對深度學習做出的巨大貢獻，這種方式也在學術界與工業界掀起了深度學習的潮流。第二，認知計算。在對海量數據進行挖掘處理的過程可以將其看作為認知過程。將數據進行轉化、收集、計算、分析、表達，從而形成預估與決定，這便是標準的認識模式。但在人進行認知時候還會包含心智等方面的問題，例如情商、感受、信仰等，因此在對海量數據進行認知計算以及相關研究時，需要包含以下多個方面：首先需要考慮認知能否被計算。可以表達為人腦的認知是否可以用具體的公式或模式進行表現。在我國舉辦的第八屆Web智能學術研討會中，任福繼教授為人們展示了情感交互智能機器人，通過實踐完全可以說明認知可以利用計算的方式進行，至少在局部是可以進行計算的。其次應考慮認知應該怎樣計算。其方式可以包含對數據的提取、心智局部表現、等方面。最后應考慮知識的全部相對性。對于人腦的學習過程來說，數據的量無論是多還是少都可定義為相對應的概念，如果環境出現變化，會對心智造成影響。因此需要在不斷增加的數據量與環境變化中汲取知識，采用計算認知的方式，構建嶄新的理論與實踐模型。

3 結束語

基于大數據環境下，海量數據的挖掘過程以及相關技術不僅存在巨大價值，也面臨著險峻的挑戰。希望在廣大的學者與研發人員不斷努力、實踐下，可以構建出更加完善、科學的大數據管理機制與計算模型，凸顯大數據的真正價值，為人們的生活、社會的發展提供有效的數據服務。

參考文獻：

[1] 米允龍，米春橋，劉文奇. 海量數據挖掘過程相關技術研究進展[J]. 計算機科學與探索，2015，9（6）：641-659.

[2] 尹洪.基于數據驅動的衛星故障診斷關鍵技術研究[D].國防科學技術大學，2015.

[3] 何超. 基于數據挖掘的企業競爭情報智能分析研究[D].武漢大學，2014.

[通聯編輯：唐一東]