劉偉
中國人民大學 北京 100872
大數據信息作為人們生存發展最重要的資源,不僅包含著豐富的經驗知識,而且還能夠在一定程度上促進我國經濟社會的發展。為此,我們應該加強對大數據分析方法的研究和創新。基于人工智能技術進行大數據分析的目的是為了在有限的時間內發現信息之間的關聯性,探測出海量信息中的隱含信息,從而根據其特征制定計劃進行決策。
現階段,人工智能技術的應用方向主要是在智能制造領域,所以提升人工智能技術在處理海量數據信息過程匯總的計算效率和資源配置能力就可以在一定程度上促進智能制造領域的發展。將人工智能技術有效地應用到智能制造領域是未來社會發展的趨勢,這是因為該技術的應用不僅能夠在生產領域中完成降低生產成本、提升生產效益、縮短產品制作周期的作用,而且還能夠幫助企業有效地規避風險。因此,基于人工智能技術進行大數據分析是非常必要的。
由于大數據的信息組成大多數都是橫跨各個專業領域、媒體的,所以在實際生活中無法將傳統的聚類計算法應用于大數據聚類。為此,相關技術人員提出了映射與歸約相結合的編程模式[1]。有效地運用這種編程方式不僅能夠實現傳統聚類算法的并行運算,增強計算的便捷化,而且還能完美地完成大數據信息的分類與集合。基于此,相關的技術編程人員利用該編程模式不斷地將大數據的聚類算法進行創新,如利用Apache基金會開發的分布式系統基礎構架實現了K-means聚類算法,該算法的運行步驟分別是映射、分類、歸納;利用MapReduce編程框架不僅實現了凝聚式層次聚類分析,保證了文件信息傳輸的有效性和保密性,而且還實現了可以運用于密度計算的聚類方法。其中可以運用于密度計算的聚類方法除了可以有效地進行大數據信息的預處理,還可以查找到需要進行整合的信息做集中處理。另外,利用MapReduce編程框架還實現了并行冪迭代聚類的方法,這種計算方法是通過將數據信息進行有效壓縮來實現降低計算時間和對計算設備硬件的需求來完成的[2]。
綜上所述,隨著人們對大數據信息傳輸、儲存的要求不斷提升,采用傳統的聚類算法進行計算已經無法滿足市場的需求。因此,需要相關工作人員能夠不斷創新并行聚類算法[3]。
在大數據時代下進行關聯分析其目的是為了能夠快速地查找到信息之間的聯系。現階段,應用比較廣泛的關聯分析算法有兩種,分別是Apriori關聯規則挖掘和FP-Growth關聯規則挖掘[5]。但是這兩種關聯分析算法的計算方式不同,Apriori關聯規則挖掘需要提前設定一個算法支持的閾值,然后再進行篩選,而FP-Growth關聯規則挖掘是需要建立一個頻繁模式樹,然后分兩次完成數據的掃描。Apriori關聯規則與FP-Growth關聯規則相比,不僅需要在頻繁模式下建立大量的數據樣本,而且還需要投入較多的時間成本,因此,在實際的應用中,相關的技術人員應該使用FP-Growth關聯規則的運算方法進行分布式并行化處理。例如在SPARK平臺中運用FP-Growth關聯規則算法,首先需要將相應的數據信息進行分組,由大數據信息變成小數據信息,然后在運用FP-Growth算法得到頻繁項集[4]。
當前形勢下,大數據關聯分析已經有效地運用到了交通方面。相關技術人員根據汽車的運行軌跡,提出了能夠處理大量小文件的并行頻繁模式增長算法,不僅可以對汽車運行所處的時空數據進行關聯分析,降低交通事故發生的概率,而且還能通過建立局部頻繁模式樹來有效地解決全局頻繁模式樹算法過慢的問題。
大數據分類是應用于大數據挖掘的有效方式,它不僅能夠將相同的數據信息進行整合處理,提升大數據挖掘的工作效率,而且還能夠幫助相關工作人員快速地查找需要的信息。當前,大數據分類已經應用到各個行業。例如在醫療診斷行業中,相關技術人員利用醫療大學的數據信息來研究輔助醫療診斷腫瘤問題,并有效地運用MapReduce編程框架中的K近鄰分類器對微陣列基因進行大數據分類來檢查癌癥患者攜帶的基因[6]。
為了增強大數據預測在大數據研究中的應用性,相關技術人員開始不斷嘗試將其運用到各個領域。例如在金融行業中,可以運用機器學習算法來尋找市場之間的差異性和相似性,然后建立相應的交易模型對市場商品的價格進行實時預測。在智能安全領域,可以通過結合云計算、幾何特征學習技術以及分布式文件系統來對網頁中可能出現的入侵攻擊進行合理的預測和把控,從而提升網絡系統的安全性[7]。
雖然當前大數據預測的應用性較廣,但是依然存在著一些難以得到有效解決的難題。如包含有效信息的時間較少,從大量的數據信息中進行截取這些信息比較困難;在進行大數據的預測過程中雖然能夠獲得一個大范圍的數據信息,但是缺乏一定的精確性。
深度學習作為能夠提升機器學習的應用效率方法之一,不僅可以實現使其有效地應用到語言處理、圖像處理中,而且還能夠增強數據運算的效率。深度學習主要是處理海量密集型任務的,所以在構建模型進行訓練的過程中需要對各個參數都進行迭代運算,但是這就需要消耗大量的時間成本。為此,相關技術人員嘗試運用Map Reduce、Spark平臺來進行分布式計算和分布式儲存。而這種與大數據平臺相結合的深度學習方式可以有效地降低數據信息運算的時間成本。
雖然這種運算方式具有一定的優點,但是在實際運用中會非常容易出現由于數據樣本在質量上的缺乏而導致難以不斷地優化深度學習的數字模型。為此,相關技術人員提出了固定模型重用策略,這種方法的運用能夠從根本上減少固定模型對數據樣本的需求,從而提升運算的效率。同時還應該對深度模型本身進行優化,使其能夠在不斷地訓練中完成量變引起質變的結果。除此之外,其他技術人員還提出了一種殘差學習法,這種方法需要運用到學習殘差函數來不斷地優化深度神經網絡的訓練,從而提升數據攝取的準確度[8]。
在人工智能技術得到應用的背景下,雖然它能夠在一定程度上為大數據信息的處理提供更多便利的條件,但是也使大數據分析方法面臨更多的難題。例如能夠處理小數據的人工智能方法不能直接運用到大數據分析中,這主要是由于在大數據中運用人工智能方法不僅會降低分布式計算的時間成本,而且還會無法有效地提升算法的性能。為此,相關技術人員首先應該將考慮將大數據信息進行分布式計算[9]。當前,Map Reduce、Spark平臺已經得到了廣泛應用,所以工作人員只需要將機器學習的工作方式變成模型和數據共同協作工作的方式,將海量數據信息、模型根據相應的邏輯性進行分割處理。而人工智能運算的分布策略可以分為維度分布和種群分布,而這兩種分布方式又可以繼續進行劃分,一般可以分為群智能和進化智能[10]。
提升算法的性能是增強大數據分析方法應用率的有效措施,但是在實際的運算過程中,技術人員卻無法在提升算法性能的基礎上降低分布式計算的時間成本,提升算法的整體效益。為此,技術人員首先應該考慮這一影響算法性能的因素有哪些,是否能夠在一定程度上降低分布式計算的時間成本。通常情況下,影響算法性能的只有算法本身設置的各種參數[11]。
雖然在當前形勢下在對大數據進行分析的過程中巧妙地利用人工智能技術能夠為各行各業帶來一定程度的便利,但是現階段我國對機器學習技術、深度學習技術以及計算智能技術的研究還難以滿足市場的需求,因此,我們應該根據其需要進行進一步的研究。當前,我們的研究方向主要分為三種形式。第一,提升分布式深度學習算法的應用效率。為了滿足用戶的需求,大數據平臺會運用分布式計算和分布式存儲的方式來統計用戶的使用習慣。但是這種方式也有一定的弊端,為此,我們應該不斷地縮短深度學習模型的訓練時間,并且加強該模型在大數據分析中的應用。第二,優化分布式模型的算法。在海量數據信息中采用分布式算法能夠在保證其運算正確的基礎上提升其運算效率,保證數據信息傳輸的準確性。第三,建立先進的大數據平臺。雖然當前大數據分析法應用比較廣泛,但是采用的方法和技術并不適用于某些領域。因此,相關技術人員應該針對大數據分析技術在相關領域的具體應用情況進行分析,然后不斷地優化其運算時間[12]。
當前,我國的人工智能大數據分析法已經在某些領域得到了有效應用,但是在實際的應用中為了提升算法的應用性,相關的技術人員首先應該有目的性地對大數據聚類、關聯分析、分類以及預測這四種不同處理方式進行進一步的研究。同時還應該根據深度學習模型的實際使用情況進行不斷的優化創新,使其能夠在一定程度上提升算法的準確度。