楊青俊
隨著時代的進步,互聯網快速發展,互聯網技術在各行各業得以廣泛使用。對數據的分析和使用呈現井噴式的增長和幾何式的上升,我國于2012年開始進步大數據時代。大數據時代給人們帶來便利的同時,也因為其自身的規模廣、增長快、稀疏性等特點而造成了分析的困難。為了解決這種困難,人們試著將概率論和數理統計投入到大數據分析中,并取得了相對顯著的成就。基于概率論和數理統計的大數據分析更為準確,使得互聯網技術更高效的服務于人類,需求分析和生產投放得以精準,減少了中間環節產生的成本浪費,整個社會的生產力大幅度提升。本文將針對概率論與梳理統計在大數據分析中的應用策略進行更為深入的探討,方便讀者了解什么是大數據分析,明確概率論和數理統計如何作用于大。
一、引言
現如今,概率學在我們的生產生活中的方方面面都有著廣泛的應用,它既可以幫助我們有效的認識這個世界,通過使用概率論和數理統計幫助人們冷靜客觀的分析現實生活中存在的問題,解讀數據,幫助人們提高生活質量和工作效率;又可以根據已有的數據和行為軌跡推算出事物演變的規律和發展方向以及發展趨勢,指導人們朝著科學的方向前進。因此,概率論和數理統計不僅是一門學科知識,更是指導人們認識世界改造世界的方法論,通過概率論和數理統計的應用,指引人們認清問題解決問題。時代發展至今,人們對概率論和數理統計的需要越來越迫切,對大數據分析的應用需求也越來越大,為此,筆者將對概率論和數理統計在大數據分析中的應用策略進行深入探討,希望以此幫助讀者更清晰的了解這方面的知識,為大數據在生產生活中的廣泛普及起到一定的作用。
正如我們所知道的那樣,現如今各行各業、生活的方方面面都在或多或少的使用著概率論和數理統計,一些新興且重要的行業更是如此,如電子商務、互聯網技術和互聯網廣告等,概率論和數理統計等概率學知識依然成為一項我們認識世界改造世界重要的知識手段和方法論,它不再是一門毫無生命的抽象的學科知識。我們可以通過使用概率學理論知識客觀科學的分析生產生活中的復雜的問題和技術難題,處理龐大的數據,提高生活質量了和工作效率,了解各方面的參數,更可以通過概率學知識和已有的數據與行為軌跡推算出事物演變的規律和發展方向,以及行業的發展趨勢和可能出現的問題。因此,概率論對生產生活有著重要的指導意義。隨著大數據時代的來臨,數據規模呈現井噴式增長,概率論和數理統計有效的幫助人們減少了分析數據的時間和復雜性,同互聯網的結合與應用更是將社會運轉推上了一個高效的巔峰。
二、概率論與數理統計
在高等數學中,概率論和數理統計是一種特征鮮明的分析方法,在研究對象上有著十分獨特的思維方式和特點,與其他學科有著緊密和深入的聯系,如經濟學等,是一個交叉型特別強的學科。概率論和數理統計的知識涵蓋非常豐富,使得它成為數學分支中非常重要的組成部分。直至目前,概率論和數理統計方法在社會的各個領域都有著或大或小的應用,概率論和數理統計既可以被看作是一門獨立的學科,幫助人們提高生產生活效率,在工業、互聯網和其他行業領域適用。概率論和數理統計對數據信息和計算機技術的的需求十分嚴格,在“互聯網+”和大數據分析中有著不可比擬的優勢。同時,又可以被看做是一門與其他知識聯系緊密的非獨立學科,因為它本身具有較強的交叉性,和其他學科內部存在著緊密的聯系,具有相互滲透的作用。由于概率論和數理統計具有非常廣泛的涵蓋和應用范圍,人們很難對其進行準確的定位和逐一進行解釋,因此,本文將僅就概率和樹立統計幾個方面的應用策略進行討論,以幫助讀者知曉概率論和數理統計在在大數據分析中是如何具體應用和使用的。
三、大數據分析
大數據分析是一門應用廣泛的熱門研究方向,由于其自身存在的優勢被各行各業廣泛使用。大數據分析的方法也在不斷發展和完善,隨著科學技術的前進,一些大型公司甚至有專門的大數據分析部門,運用高端的技術和設備,已達到分析的準確和客觀。
大數據分析是一門非常龐大繁雜、分支很多的學科,因為大數據涉及方面的多樣性大數據分析結果可以應用在生產生活中的方方面面,包括我們在處理海量數據時難以發現規律而帶來的一些問題,都可以運用概率論與數理統計中的一些方法來發現問題趨勢,從而解決問題。事實上概率論成了現實生活中很多問題的方法指引。但是從我們現如今的研究情況來看,不難看出,許多理論上不錯的研究方法在實際運用中卻并沒有得到廣泛的應用。這是因為這些方法還是具有一些短處。從而難以適應現如今大數據分析中的一情況。即使運用概率論與數理統計的方法來研究大數據分析,可是還是有許多研究模式或者方法難以迅速地從理論轉向實際生產。
四、概率論與數理統計與大數據分析的聯系
大數據時代的加快,使人們使用計算機和科學技術運用概率論和數理統計進行大數據分析成為可能,也加深了概率論和數理統計與大數據分析之間的聯系。具體體現在以下幾個方面:
(一)研究方向相同。概率論和數理統計與大數據分析的研究方向是一致的,都是為了更準確清晰的對數據進行分析與探索,以尋求大數據的內部聯系與規律分布。
(二)大數據的發展,使得大數據分析為統計學拓展了新的空間和領域,為概率論和數理統計的研究提供新的方向,在大數據分析的基礎上,推動概率論和數理統計的發展。
(三)大數據分析是獨立于統計學知識范疇的,不屬于其任何一門分支。大數據分析也不僅僅局限于和數理統計與概率論的聯系,它還可以被運用到其他生產生活領域,成為該領域指導方向發現規律的工具和方法論,如云儲存等。
(四)概率論和數理統計是DM中且較為成熟的知識體系和理論,這種技術在DM中發揮著重要作用與意義。
五、概率論與數理統計在大數據分析中的常用方法
概率論與數理統計在大數據分析中的常有方法有二:層次分析法和蒙特卡羅法。
(一)層次分析法
層次分析法是指“指當人們對某些不確定因素的演變規律及發展趨勢進行研究時,必須要對這些因素的影響作用及相互聯系進行綜合考慮,由于評價指標中的這些不確定性因素是可以按照層次進行劃分的,同時,在各個層次中的不確定性因素內還包含著若干要素,這就使整個復雜問題的結構看上去是一種多級遞階結構,在對這類問題進行解決時,就可以采用層次分析法來對這些層次中的不確定性因素對于整個問題的相對重要度進行判斷,而這便產生了概率。”層次分析法的建立主要包括四個方面:一是明確問題的各個要素,并對這些要素進行層次劃分,使得問題結構趨近于遞階層次結構,二是用上一級的要素作為對下一級要素進行劃分的標準,實施兩兩對比,三是按照評定尺度來對下一級要素的重要程度進行確定,構建判定矩陣,四是對問題中的各個要素的相對重要程度和綜合重要程度進行計算,幫助決策者做出正確而合理的決定。
(二)蒙特卡洛法
蒙特卡洛法是指“是在概率論與數理統計的基礎上對問題中的不確定性因素進行反復隨機的抽樣,以此模擬出該不確定性因素的自身變化給問題帶來的影響程度,并對問題中的所有不確定因素給問題帶來的影響進行計算分析,進而獲得科學的分析結果。”蒙特卡洛法的優點在于可以模擬問題的實際過程,其數字表達式為Z=k(x1,x2,x3,..., xn),xi(i=1,2,3,...,n)代表該復雜問題中存在的 n 個相互獨立的隨機變量,n個變量的函數是Z,Z則是需要求解的目標。
六、概率論與數理統計在大數據分析中的應用策略
概率論和數理統計在大數據分析中的應用策略本文主要從兩方面進行闡述,一是經濟數據分析,二是商業數據分析,具體如下。
(一)概率論與數理統計在經濟數據分析中的應用策略
數據對經濟而言,一直具有十分重要的作用。在各類數據中,經濟數據是十分典型且應用性強的一種。對經濟數據進行分析有利于推動社會的整體發展,但在分析過程中,由于經濟數據具有低密度的特點,導致經濟數據分析存在一定困難,因此,需要通過概率論和數理統計來使經濟數據分析變得更為簡單有效,就具有十分重要的意義了。如正被廣泛應用在經濟金融管理領域的正態概率分布的方法,通過此種方法對經濟數據進行分析能夠有效的預測和描述連續性隨機變量的概率,并對概率所有相關信息進行高效的分析,從而通過分析結果對市場經濟狀況進行實時掌握,幫助人們了解市場發展規律和運作模式,以及其中普遍存在的市場經濟規律,甚至能夠分析出更多的經濟信息,從而幫助決策者制定長遠的戰略目標和工作部署。
對經濟數據的分析除了對經濟市場的變化規律和發展趨勢進行分析和預測,還要預測和分析經濟運行的風險。概率論和數理統計則可以幫助經濟市場的投資者有效減少投資過程中潛在的風險,降低風險產生的可能性,增加投資者利潤獲取的概率和可能性。
(二)概率論與數理統計在商業數據分析中的應用策略
大數據時代,商業數據對于企業的生存與發展而言具有十分重要的作用,而商業數據又屬于經濟數據的一種。現如今,企業進行商業數據分析時,大都會采用概率論和數理統計,如分析計算商業數據中的大客戶流失概率,首先需先建立研究模型,確立流失數據與流失函數相對應的函數關系,其次找出對大客戶流失產生影響最大的因素,并按照劃分層次進行歸類,設定特殊時段,對特殊時段中大客戶流失情況進行匯總,制作流失情況走勢圖,計算出標準函數,進而獲得特定客戶在某一時段的流失概率,通過函數公式找出協變量,分析出影響要素的定義,最終完善模型的構造。在模型構建后需要注意的是,由于最大片似然函數對回歸參數的計算過程中影響大客戶流失的因素眾多,為了減少模型維數以降低參數估計難度,需要對這些影響因素進行選擇性使用,同時我,為了確定協變量的數量,還應按照數理統計的結果進行篩選,以避免錯誤的產生,提高正確性。
七、結語
概率論和數理統計在大數據分析中具有十分重要的作用,是有利于高效分析數據的有效工具。在未來,數據分析和數據基數將會占據越來越重要的位置,而概率論和數理統計也將成為一項能夠推動人們生產生活發展的重要研究方向。
(作者單位:中國人民大學統計學院在職研究生)