潘志洋
天津工業大學軟件學院,天津,300387
黨的十八大以來,大數據逐步上升到國家戰略的層次。時代要求我們要把握信息革命歷史機遇,用好大數據,增強利用數據推進各項工作的本領,不斷提高對大數據發展規律的把握能力,使大數據在各項工作中發揮更大作用[1]。大數據技術是指針對包含結構化數據、半結構化數據和非結構數據在內多種多樣的數據,快速從中提取有效信息的技術。傳統的數據分析技術重點關注使用適宜的既定統計方法針對數據展開分析,以便從中發掘具體的功能和價值。相較于傳統的數據分析,大數據技術的關鍵目標之一在于在浩如煙海、結構繁復的大量數據之中發掘各類數據背后的潛在的客觀規律,借此最大化數據所能體現的價值。為此,應當切實地結合機器學習,通過計算機發掘數據,并從中篩選信息,獲取相應的知識。只有相應地發展機器學習,大數據技術的目標才可以獲得可以實現的保障。具體而言,大數據的特征大致如下:一是數據在體量方面極其巨大;二是數據在類型方面極其繁多;三是數據價值性密度較為低下;四是眾多數據需要進行即時快速的處理。因此,受制于大數據的各種特征,發展機器學習需要從研究方向、主要評測指標和相關核心技術三個維度出發,具體地結合實際進行。
機器學習屬于人工智能領域的關鍵研究內容,具體而言是指計算機借助經驗調整自身系統性能的行為。人類擁有學習能力,人類的學習行為背后蘊藏著極其復雜的運行機制,模仿這種運行機制得出的就是機器學習理論的基礎。機器學習的主要研究方向在于通過計算機模擬或是復現人類獲取知識進行學習的過程,進而經由針對既有知識進行解構、創新、再重構的過程,幫助計算機提升狀況處理效率和處理能力,最終幫助計算機從各類數據之中獲取相應的知識。
機器學習研究方向大致可以分為三個特點。一是機器學習本質屬于跨數學與計算機學科的交叉研究方向;二是機器學習具有顯著的知識集團化特征;三是近年來機器學習的理論發展和技術革新速度均大大超過傳統學科[2]。而研究學習機制是發展機器學習的基礎,且進入大數據時代之后社會各行各業對于數據分析的需求都在持續增長,更加高效的信息運用方法對于發展機器學習的重要性越發凸顯,逐漸成為促進機器學習發展的主要動力源[2]。
大數據時代,機器學習的發展更加偏向于強調學習行為本身,而機器學習逐漸成為底層技術和服務技術,研究方向主要體現在以機器學習為基礎,針對復雜多變的各類數據,進行更加深入的分析,并更加有效地運用數據中所包含的信息。機器學習的發展方向逐漸向智能化的數據分析發展,同時已經為智能化的數據分析技術提供了關鍵的基礎。此外,身處大數據時代,數據產生速率不斷加快,以至于帶來了數量遠超從前的數據增長。與此同時,嶄新數據分析需求仍在隨著時代的發展持續地出現,諸如文本理解、文本情感分析、圖像搜索與圖像理解和圖形及網絡數據分析,不僅為機器學習的研究提供了嶄新的研究方向,還促使更多的新型機器學習方法產生并投入實際應用。在對機器學習的研究中,只有切實地解決是否可以拓展的疑問,才可以更加有效地進行數據分析。大數據時代的特征及其所需要求大致包含三個方面。
在互聯網及金融行業,訓練實例的數量極其豐富,每日出現包含數十億事件的數據集合也是司空見慣的。同時,包含傳感器在內的各類設備持續性記錄觀察數據也可以作為訓練數據投入使用。而此類數據集合動輒可以高達數百TB,針對大型數據集合,最為理想的方式是結合服務器集合的存儲與帶寬。為此,可以采用最新的計算框架簡化針對大型數據集進行計算的工作。機器學習的實際應用通常包含自然語言、圖形以及視頻,而這些數據所包含的數據實例具備眾多數量特征,在數量方面遠超當下可以輕易進行處理的特征。為求促進計算擴展到更加豐富的程度,在特征空間內并行計算可以得到較好的效果,另外可以引入在特征空間內進行迭代運算的具體算法。
在部分應用場景中,諸如AI導航和智能化差異化推送,都需要及時進行預測。受限于預測速度,為求較短的預測時間,預測算法需要復合的并行化處理。計算時間通常取決于單項任務的處理時間以及時延,可以通過提升一臺機器的性能與吞吐量減少單項任務所需的計算時間;將任務設置為復數彼此相關的進程組,由于不同進程所需的處理時間不一,任務的總體處理時間取決于各個進程的計算所花費的時間,如果其中一個進程處理時間有所延長,任務在總體層面就會相應地遭遇時延,以至于拖慢任務的完成。部分精確度較高的學習算法以復雜的非線性模型或是造價不菲的計算子程序為基礎,為此,分配計算作業至不同的處理單元才是大數據學習算法的重點工作。在特殊行業內,部分數據在基礎特征方面呈現非線性的結構,在其中運用高精度非線性表現方法在性能方面勝于普通的簡單算法。這種算法的共同性質是計算較為復雜,一臺機器的學習速度會極其緩慢,使用并行多節點處理或是多核處理則可以較好地提升針對大數據使用復合算法和模型計算的速度。
在部分應用場景下,對于順序和彼此依賴的預測要求較高,其中具有高度復雜的聯合輸出空間,并行化處理可以有效提高速度。現實中的很多問題,諸如物體的追蹤、語音的識別和機器的翻譯,都需要執行一整套彼此依賴的預測,乃至需要構造預測層級。假設以一個級聯為任務,那么就會帶來充足的聯合輸出空間,而計算變得更為復雜,一般會帶來極高的計算成本。為了求出調整學習算法所包含的超參數,評估統計的重要性,需要反復執行學習行為和預測,也就是所謂的可并行化處理的具體運用,原本就很適應并行化處理。在具體的參數掃描過程中,可以通過在配置有所不同的同一數據集合上反復運行學習算法,進而在一個驗證集合上具體地進行評估。
針對大數據進行價值發現的難度較高,為大數據分析服務的機器學習技術在三個方面需具備符合預期的適應能力。
一般而言,經由訓練樣本進行訓練的機器學習算法需要具備充足的泛化能力,換句話說也就是針對新輸入合理地進行響應的能力,該項能力在對于機器學習算法性能進行評估的過程中基本具備十分重要的參考價值[3]。機器學習中最為基礎的目標在于針對訓練數據之中的實例進行相應的泛化延伸。不論如何,在測試中看到相同實例都是不現實的。而通過訓練數據得出較好的表現相對來說是較為簡單的,僅僅需要針對具體實例進行記憶。在機器學習的過程中,訓練速度與測試速度會影響學習速度,而訓練速度與測試速度是彼此相關的。部分算法的訓練速度較為理想,測試速度則相對較為緩慢;部分算法則正好相反。為此,相對重要的研究方向之一在于調整訓練速度和測試速度,以便獲得同時保證兩種速度的機器學習算法[4]。
功能可以較好滿足預期的機器學習算法大多是不透明的,對于用戶來說,可以看到的僅限最后的輸出結果,而得出結果的過程是欠缺的。伴隨著數據總量的增多、問題復雜程度的提升,對于過程的需求也在逐漸增長。偏向算法研究的機器學習的原型系統在轉向實際的機器學習的系統時會受到更加繁多復雜的內外因素影響,其中較為關鍵的是現實中不同的領域不同的誤判結果所需支付的代價間的平衡性。部分誤判結果需要支付較為高昂的代價,而部分誤判結果的代價無關痛癢。為此,應借助大數據分析的核心優勢,綜合各種數據與因素針對特定物事進行全方位無死角的解讀。代價敏感較為符合要求的學習算法可以提供較為理想的解決方向,借由引入代價相關信息衡量誤判的嚴重程度。
如今,人工智能通過模糊語言搜集快速高效化分析處理模塊,實現對龐大數據的分類和篩選。數據處理既包含有標識的數據,也包含海量未標識數據,還包含雜質較多且不一致不完整的臟數據與不平衡數據。如果按照既有習慣直接舍棄臟數據,僅僅使用有標識數據而不使用未標識數據,在數據運用方面就會造成較為可觀的浪費,同時也會影響到已掌握模型的泛化運用能力。且通過一個任務學習得到的知識應當可以遷移至有其共性的其他任務之中,以便盡可能地提高在其他任務中進行學習的性能。舉例而言,用以監督學習的公式中包含學習函數,而在大數據場景下,很多情況需要學習一連串的相關函數,盡管判斷函數存在一定的差異,但是其中仍有許多共性。
當下,機器學習的研究與實際運用過程中最為常見且相對關鍵的核心技術主要包含集成的學習、半監督式的學習與概率圖模型學習以及遷移式的學習。
在現實之中,群體決策通常高于個體決策,尤其是群體之中見解均不同的情況。在機器學習中同理,集成學習是指整合復數不同學習系統得出的結果,以便獲得超出個體學習系統的理想學習效果。通過集成學習,哪怕是更為簡單的學習系統也可以得到更為理想的學習效果。此外,集成學習所具備的架構特性原本就適合并行處理,可以為提高大數據時代背景下的訓練效率和測試效率奠定較為符合預期的基礎。傳統機器學習的核心在于檢索,檢索全部的可能函數并相應地構造假設空間集合,以便從中選取最為貼合未知函數的相近函數。而在統計、計算與表示層面會面臨一定的問題,可用的訓練數據同時存在很多,甚至存在復數精確度相近的不同假設,其或許會在相同的訓練數據上得到相同的表現,但換用新的數據則會出現較大偏差,而使用集成學習的簡單平等投票則可以避免這些問題。
參考傳統機器學習的理論框架,機器學習可以分為有監督的學習和無監督的學習。前者使用的是有標識數據,后者則僅僅使用未標識數據。進入大數據時代后,數據采集和數據存儲方面的技術高速發展,大量未標識數據的收集逐漸變得輕而易舉。同時,大量的有標識數據則需仰賴領域內專家的幫助,不僅極其耗時耗神,還需要面對容易出現錯誤的風險。因而在現實之中,未標識數據在數量方面已經遠超有標識數據,只有充分地利用未標識數據,機器學習所得模型的泛化能力才可以得到保障。大數據的發展對于處理海量不確定數據提出了較高的要求,而不確定數據廣泛存在于各行各業,通過這些不確定數據分解出信息并相應地獲取知識逐漸成為大數據分析的重點發展目標[5]。概率圖模型是概率論與圖論結合后的產物,是圖形化表現概率實際分布的結果,為把握隨機變量之間錯綜復雜的依賴關系并構造規模較大的復數變量統計模型創造了統一的條件。
進入大數據時代后,大量嶄新的數據出現在各行各業,只有獲得海量有標識數據的訓練用數據,才可以在嶄新的數據處理上運用傳統的機器學習方法。針對各行各業差異化地設置訓練數據需要占用大量的人力物力,而在不同場景間遷移轉化知識的能力可以相應地解決問題。遷移式的學習在傳統的機器學習之中較為匱乏,根源是傳統的機器學習通常要求學習的知識與應用的場景具備一致的統計特征。當二者彼此分離之后,相關統計特征會隨之發生改變,統計學習的效率會大幅降低。而遷移式的學習可以較好地解決該問題,其主要借助源頭任務中的相關知識相應地提升目標任務中的學習效率與學習性能,這不僅可以幫助計算機掌握更為有效的學習能力,還可以推動機器學習相關研究的發展。
在當下的大數據時代,無標識數據與少量有標識數據構成了絕大部分的數據,對此,采用半監督式的學習方法可以較為切實地處理這一類數據。伴隨著數據量的急速增長,單一的學習器所能得出的學習成果和學習效率難以滿足實際的需求,只有通過復數學習器進行集成的學習,才可以更加有效地得出學習成果。概率圖模型借由圖形可視化處理,可以為結構多樣的大數據分析工作提供簡約卻有效的分析模型。只有通過遷移式的學習,既有學習成果才可以在持續累積的過程中逐漸引入其他未知的學習領域。只有充分切實地關注機器學習的相關技術及其相關方式方法,機器學習才可以取得更加長足的發展。