摘要:大數據是當下熱門的話題。本文從數學建模的角度,介紹了數學建模在數據處理方面的發展,數據分析的內容,以及如何獲取有用信息等,并對數學方法解決數據處理問題作出展望。
關鍵詞:數據處理;數學建模;大數據
中圖分類號:G642 文獻標識碼:A 文章編號:1671-864X(2014)09-0092-02
隨著計算機科學技術的不斷發展,人類社會已進入大數據時代。所謂大數據,是指數據量特別大,無法通過目前主流的計算軟件工具,在合理時間內處理、并整理統計為幫助企業經營決策的信息。除了數據類型繁多之外,數據的真實性高、但價值密度低成為大數據的主要特點。如今如何使用大數據,哪些技術能更好地處理大數據是企業關注的問題。
數學在處理數據方面的作用是巨大的,其所創造的價值更是無法估量。華爾街早就開始招聘精通數據分析的理論數學家來為其設計金融產品。IBM 現在是全球數學博士的最大雇主,數學家正在將其數據分析的才能應用于石油勘探、醫療健康等各個領域。數學也開始走出象牙塔,與各個專業領域進行深度融合。
隨著數據量越來越大,也使傳統的數學建模受到嚴重挑戰。數學在處理數據方面經歷了下面幾個過程,上個世紀 80年代,數學熱促使了數學建模的發展,但經典的數學模型對帶有觀測誤差的數據處理能力有限;90年代出現了信息熱,然而當時的信息處理技術在很多方面難以達到使用的標準;從90年代中期,統計學成為大眾消費數據的熱點,使得統計學家從學術理論走到了現實世界,從而出現了統計建模。然而隨著大數據體量不斷增加、類型復雜,統計建模方法已不能完全勝任。近幾年,數據采集、數據處理、數據建模、數據應用等方法現已成為新熱點。使數據處理方法變得多樣而實用。
大數據分析通過分析獲取有價值的信息,最終確定信息是否為決定性因素。主要研究的理論有:第一,可視化分析。為了能夠直觀呈現數據的特點和規律,通常用可視化方法呈現大數據特點,便于人們認識和接受。第二,數據挖掘,它是大數據分析理論的核心。通過快速高效的算法,將不同屬性的數據規律呈現出來,并深入數據內部挖掘出數據的內在規律。第三,數據得正確性和可靠性研究。在實際應用中,高質量的數據有利于保證分析結果的可靠性。第四,預測性分析。即預測事物未來發展的規律。建立科學合理的數學模型,對預測結果的正確性尤為重要。
大數據研究不同于傳統的邏輯推理研究,而是對數量巨大的數據做統計性的搜索比較、聚類分析、模式識別、主成分分析、判別分析、對應分析、最優尺度分析等統計分析歸納,因此繼承了統計科學的一些特點。以此來判斷數據之間的相互關系,以及關聯程度,即數據的相關性,并進一步發現多個變量的取值之間存在的某種規律性,找出數據集里隱藏的相互關系,一般用支持度、可信度等參數反映相關性。
數據分析過程中掌握高效快速的處理方法是解決問題的關鍵。在大數據時代,由于數據量的快速膨脹、數據來源復雜、價值潛伏、處理速度快等特點,一些基于精確分析的科研方法越來越趕不上時代的步伐,非精確的計算方法急需出現,研究試圖找到一種模糊解決問題的手段。近來關于大數據的建模分析方法主要包括數據采集,數據存取,基礎架構,分布式文件存儲和云存儲等。
聚類分析是數學統計建模的一種常用的方法。是對于同類事物按照某些指標數據的特性(如相似程度、親疏關系等)來進行分類。一般事物的特性帶有模糊性,為此可確定相應的模糊矩陣,通常需要設置一個置信水平λ,由不同λ值可以得到不同的分類結果。也就是說,分類結果與置信水平之間有很強的關系,置信水平為多少需要根據實際問題進行經驗和論證,這一點是至關重要的,一定程度上決定了模型的好壞。那么不難看出聚類分析的分類標準是未知的。模式識別也是統計建模的方法。已知將整體事物分為若干類型的標準模式,而對于一個或多個確定的對象按照一定的原則識別它們屬于哪一類。包括:最大隸屬度原則、貼近度原則、單特性擇近原則、多特性擇近原則等。顯然模式識別是在分類標準已知的前提下計算的。
分析過程還需要做標準化處理。在實際中各類數據之間,往往存在著不可公度性,難以做統一的數據分析和比較,比如質量和長度本來就是兩類相互獨立的度量單位,如果不加處理的進行比較必然沒有意義,還會出現“大數吃小數”的錯誤,導致分析結果的不合理。所以經常用標準差法、極值差法和功效系數法、定性數據的量化方法等來標準化數據。數據處理與數據建模方法涉及的方面包括數據類型一致化方法、數據的規范化方法、標準差方法、極值差方法、功效系數方法。將數據做可比性的處理。
分析的結果需要進行進一步的檢驗和論證,統計檢驗在數據處理中是必要的。常用的統計檢驗方法包括假設檢驗、T檢驗、χ2檢驗、F檢驗和顯著性檢驗等。通過統計檢驗來論證分析方法是否可行,分析結果是否符合實際。
目前有一種說法是統計方法不必致力于尋找邏輯上真正的因果關系,只要尋找事物之間的相關關系即可,因為對企業而言,只要能從數據挖掘的信息中發現某種措施與增加企業利潤有較強的相關性,采取這種措施就是了,只要符合最大利潤原則,不必深究為什么能增加利潤,更不必發現其背后的內在規律和模型。其實長遠而言,這種做法是不可取的,不發現數據背后內在的規律和模型,就沒有一個長遠的目標,就會只注重眼前利益,這是非常危險的信號。因為有些事物的本質不能通過短期的數據處理來發現,就像透過現象看本質是一個道理。雖說從數據直接到價值是一條捷徑,但捷徑背后的意義一樣需要深入考慮。模型是現實問題的抽象,是使用數學語言來描述問題及量化問題。機理是模型的骨骼,數據是模型的血液,在大數據概念下,很多機構和公司會加大搜集力度,增加數據種類和質量,那么模型必然向復雜性更高的方向演化,復雜性更高的模型,能夠更加清晰的剖析問題。
數學建模不是新東西[2],就其實質而言,可以說凡是有數學應用就有數學建模,但是它的發展依賴于方法和技巧的不斷提升。在計算機信息技術迅速發展的今天,數學建模也得到了蓬勃的發展,使得數學不僅僅是一門工具性學科,還是一門技術。當代科技的一個突出特點是數據量化,人們在許多現代化的設計和控制中都需要有具體的數字指標,這就形成了無處不在的大數據。目前要把數學建模滲透到科技發展的每個角落,如何處理大數據就變成了一個發展的,開放性的問題。既然大數據涉及到現代化生活的方方面面,那么也就需要數學與各個專業方法的相互融合[3],研究大數據的內在機理。要做好建模這件事情,我們需要了解更多的專業知識,學習更多的專業技能,更要了解大數據背后的網絡分析。網絡的參數和性質也許能刻畫大數據背后的網絡共性,這是我們在數學建模過程中需要深入探討的問題。在日新月異的當今時代,要做好大數據的統計處理,要有合理的數學模型作為支撐,方法是科技長足發展的內在動力。
大數據時代的到來不但給數學建模帶來挑戰,更為我們提供了機遇,新的時代環境為仿真技術的發展打開了大門,只要打破常規,放開思路,用于創新,數學建模的革命必將到來。近年來數學建模競賽的規模越來越大,水平越來越高,賽題呈現出綜合性、實用性和創新性等特點。更重要的是貼近實際的海量數據的融入,加深了題目的復雜性,求解結果也變得不確定。這時候要求數學建模方法要更富有創新性、靈活性和開放性。模型更貼近實際、打破原有的方法、能解決實際問題。這樣才能使比賽變得更有意義。實際教學過程中加深數學建模對大數據的處理,能提高學生的數學能力,處理現實問題的能力,還能對專業數據做相應處理,更重要的是能夠體現數學的魅力,數學的價值!
參考文獻:
[1]畢長劍,大數據時代建模與仿真面臨的挑戰計算機仿真[J];2014年第31卷第1期.
[2]張云霞,數學建模與高等數學教學[J];2001年第8期.
[3]候政;高職數學如何更好的與專業結合[J];中國科教創新導刊;2009年第08期.