魏 斌 對外經濟貿易大學
統計學是數據分析的靈魂,而大數據分析離不開統計學理論的支持,二者是相互關聯、相互影響的關系。換句話來說,大數據告知信息但不解釋信息,想要了解這些信息背后的內涵與規律,就需要進行數據分析,雖然借助計算機技術可以實現對海量數據的評估與推斷,但沒有系統的數據科學作為指導,也很難保證數據分析的全面性與準確性。而統計學理論無疑是數據學科中非常重要的一門,將其應用到大數據分析當中,不僅可以更好地從海量數據中提取規律、創造新價值,而且還能夠量化數據中的不確定性,提高數據分析的準確率。由此可見,在當前時代背景下,加強對統計學理論在大數據分析中的應用研究,具有非常突出的現實意義。
數據在拉丁文里指“已知”,代表已經知道且存在的內容,在英文中指的是“一組事實的集合,通過對其的研究與分析,能夠得出一定結論的,統稱為數據”。在我國,數據指的就是數值,數字、文字、圖像都可以是它的一種形式,具體來說就是指通過實驗、計算得出的結果,可用于科學研究、設計和查證等當中。總的來說,凡是用某種載體記錄下來的,并且可以反饋出一定信息量的,都可以稱之為數據,比如在遠古時期,人類記載信息的方式就是結繩,進入現代社會之后,人們獲取信息的渠道逐漸增多,信息的種類與數量也愈發增多,使得數據的呈現形式也發生了巨大變化,數字、文字、圖像、音頻都可作為它的載體。
大數據與數據的本質區別就在于“大”,這里所說的“大”通常指量的增多,包括數量與種類。簡而言之,大數據指的就是巨量資料,這些資料通常來自于不同渠道,并以多元形式產生和存儲下來,具有實時性、復雜性、海量性等特征。我們的生活中處處有大數據,例如,神經科學領域中,精神分裂癥、阿爾茨海默癥等病癥都被證明與大腦連接網絡有關,而功能性核磁共振成像技術就是通過持續產生大量高分辨率的大腦圖像,來幫助研究人員厘清大腦與潛在反應之間的聯系。另外,在金融領域中,通過對大數據的收集、整理與分析,還能夠幫助企業衡量風險,做出更好的經營決策。由此可以看出,大數據最核心的價值,不是體現在其大量、高速、實時等優勢特征上,而是體現在對海量資料價值的挖掘和呈現上,這也是大數據分析的由來。
所謂的大數據分析,簡單來說就是指通過對過去發生的現象進行大量的數據采集與分析,找到事物存在的原因,并形成有效結論,然后在此基礎上給出科學合理的指導性建議。大數據分析的主要目的不僅是為了得出結論,更是為了挖掘一切有用的信息資源,生成更具有價值優勢的數據庫,為各行各業的發展提供指導。舉例來說,通過大數據分析,可以幫助大型服務類企業更好地進行精準營銷,提高市場占有率;也可以幫助中小微企業更快地進行服務轉型,以免被市場所淘汰;同時還可以幫助傳統企業更好地進行改革創新,探索出一條可行的發展之路。以上是從大方向來展現大數據分析的價值,從小方向上來看,大數據分析有著更為突出的優勢作用,比如幫助企業降低成本、提高效率;及時解決各種問題和缺陷;開發新產品、做出正確決策;識別金牌客戶、躲避欺詐行為等等。
統計學是數學學科的分支,是指通過搜索、整理、分析等方式,來推理對象本質和預測對象未來的一門學科課程,通常會運用到除數學知識以外的其他學科知識,在眾多領域中都有廣泛應用。換言之,統計學是一門認識客觀現象數量規律性的學科,具有客觀、準確和可檢驗的特征,涉及到的變量有分類變量、順序變量、數值型變量等,按照其統計方法的不同,可以將統計學理論劃分為不同的類型,比如描述統計、推斷統計等,不同的統計方法所起到的作用也是有所差異的,在具體應用過程中需結合實際情況進行合理選擇。誤用統計學所帶來的影響非常大,輕則會導致描述面或推論面出錯,造成最終結果的不準確,重則會導致應用領域出現重大變故,比如對醫療實踐的影響、對核能發電計劃結構可靠性的影響等等,因此,合理應用統計學非常關鍵。
統計學在我們的日常生活十分常見,對人們的生產生活起到了極大的促進作用,任何人都可以利用統計學實現想要達成的目標,比如學生可以用它估計自己是否被名校錄取、商人可以用它來制定銷售計劃、Netflix通過數據預測觀眾接下來想看的節目、政府可以用它來判斷是否要加強精神衛生服務建設等等。從某種程度上來說,統計學既是國家宏觀調控的重要工具,同時也是企業管理與決策制定的重要依據,加強對其的有效應用與分析,對國家和企業的未來發展都有巨大的推動作用。
通過前文對統計學理論與大數據分析的相關研究可以看出,二者在本質上的內在邏輯是有一定關聯性的。以數據分析為例,統計學理論通常是借助各種理論進行指導,并運用數理分析工具來挖掘出具背后的規律,而大數據分析采用的是先進技術手段,可以實現對海量數據的分析與推斷,得出更為全面、具體的結論,充分挖掘出這些數據背后的規律。由此可見,傳統的統計學理論在數據分析這一方面,優勢并不突出,而且在分析過程中還有可能受人為因素的影響,導致數據出錯或遺漏,進而造成分析結果出現較大誤差,但是基于計算機技術的大數據分析則可以很好地規避這類問題的發生,在分析結果的準確性方面更具優勢。總的來說,不管是統計學分析還是大數據分析,二者的基本思路、最終目標都是一致的,都是通過深入挖掘數據資料,來構建預測模型,并最終得出相應結論的過程,所以二者的內在邏輯存在較大的關聯性。
在統計學分析中,為了更好地對數據信息進行挖掘,通常需要先進行數據的統計與整理,將原本雜亂無章的數據變得更加有序,以便為后續尋找數據之間的規律做好鋪墊。同樣的,在進行大數據分析時,也需要對各類數據進行有效整合,形成一種可制表的數據形式,這樣才能更好地運用計算機技術進行數據規律的挖掘與探尋。所以,從一定程度上來說,統計學分析與大數據分析在分析方式上也存在關聯性,因為二者的分析對象必須是定量數據形式,而想要達到這一點,就需要提前對原始信息形式進行轉化,雖然轉化的方式各不相同,但目的都是為了將這些數據變成可以制表的量化數據形式,所以總體上還是一致的。
隨著大數據、云計算等技術的不斷發展,各行各業的信息化程度大幅提升,這也是使得每天所產生的數據信息量越來越多,如何從紛繁復雜的數據中提取有用的信息資源,成為企業領導者與管理者亟需解決的難題。而大數據分析技術的出現,不僅可以有效解決上述問題,而且還能發揮更大的作用與價值,充分挖掘到數據背后的規律,為企業及個人制定戰略決策提供可靠依據。時代是不斷向前發展的,數據變化速度也非常快,想要進一步提升大數據分析技術的優勢價值,還必須要重視對統計學理論的充分應用,由于二者的內在邏輯是相互關聯的,且分析方法存在一致性,因此,能更好地實現有效融合。從某種程度上來說,基于統計學理論的大數據分析,可以協助分析人員迅速搭建數據信息處理系統平臺,減少量化分析時的難度以及偶然性誤差,從而取得更好的數據量化效果。另外,在進行大數據分析過程中,數據資料的前期收集、挖掘與分析等環節都需要建立相應的數據模型,以免數據結果分析不符合要求,如果將統計學理論應用到數據分析當中,則可以實現對數據信息走向和波動情況的有效預測,從而更快地了解客戶需求,為企業帶來更大的效益。
隨著信息技術的持續發展,數據已成為一種新的資產類別,是企業和社會發展中非常重要的戰略資源,是大家搶奪的新焦點。應用大數據力量可以幫助企業和機構獲得更大的市場份額,提升自身的綜合競爭力,從某種程度上來說,大數據成為新的戰略制高點,而大數據分析同樣占據著舉足輕重的地位。在現階段的大數據分析中,處理非結構化數據還沒有非常好的舉措,尤其是針對高維數據分析這一塊,主要目標是通過開發有效方法來預測未來,如果樣本容量大,探索數據中每個子群體的隱藏結構就變得非常困難;如果樣本容量小,則會被看作是“離群值”,因而難以獲取有效信息。此外,大樣本和高緯度相結合,還會帶來一系列問題,比如算法不穩定性、計算成本增加等等,而且由于異質性數據采用不同技術,擁有不同中心,所以還必須要開發更具適應性和穩健性的程序,才能保證數據提取的有效性,這對于當前的數據分析人員來說還是存在一定困難的。除此之外,處理適量樣本與處理海量樣本所采取的措施是無法共用的,對高維數據的統計方法,也不一定適用于低緯度數據分析,這就要求研究人員必須使用新的統計思維與計算方法,而統計學理論在這方面起到了至關重要的作用,加強對這一理論的應用研究與分析,可以更好地應對大數據的異質性、偶然內生性等問題,但如何實現二者的有效結合仍是當前的主要挑戰。
神經網絡法是統計學理論應用大數據分析中非常重要的一項技術方法,其主要是通過模擬人的思維來實現對數據信息的動態推理,在模擬的過程中,通常需要先將數據信息進行轉化,使其變成串行的指令,然后再遵循一定的規則邏輯進行信息推理,并將信息在神經元上的興奮模式加以科學儲存,最終實現對數據信息的準確推理。另外,考慮到數據信息的挖掘與處理會運用到非常多不同的學科類型以及技術方法,交叉性質的特征十分明顯,因此,將統計學理論與大數據分析進行有效結合,也正好符合這種交叉學科類型,可以最大程度地發揮大數據分析的優勢價值,實現對數據信息的動態處理。
決策分析法在經濟統計中同樣占據著不可替代的位置,其主要以經濟統計理論為依據,在具體應用過程中,通過將多個事件或數據結果進行有規律的排布,使之形成一種向外延伸的分支圖形,如同樹干一樣,以此來實現對數據的預測與分析。該方法相對于神經網絡法而言,最突出的優勢就在于其數據信息是自上而下的生成,也正因如此,使得這一方法在面對龐大的數據統計項目時,更能夠彰顯其優勢特征。舉例來說,某項工程需進行設計變更,為了保證全面性,設計師設計了多個方案,由于每個方案涉及到的內容都有所區別,影響因素也各不相同,想要從眾多方案中選擇最佳的變更決策就變得尤為困難,而采用決策樹分析方法進行數據分析,就可以很好地實現對多個數據結果的預測分析,從而選出最為有效的變更方案,保障工程項目的利潤收益。
雖然粗集理論法是統計學理論中的一種分析方法,但準確來說更接近于數學范疇,其主要是通過上下近似集形式進行數據分析,整個操作過程相對比較簡單,不需要大量數據的支撐,因而更適用于一些不確定數據資料的統計項目。就目前實際情況來看,粗集理論法在大數據分析中還屬于比較新型的思維分析模式,想要使其發揮更大的作用與價值,還必須要持續加強對該方法的應用研究,尤其是要提高其在不確定經濟要素轉化方面的優勢,這樣才能更好地提升數據分析的準確性與可靠性。
遺傳算法是通過模擬達爾文的自然選擇機制來實現對數據模型的構建,其最突出的特征就是依據自然界的生物進化過程來搭建模型,可以最大程度地挖掘隱含性的數據信息,并通過遺傳算法使這些隱含信息得到延伸和優化,從而獲取到更多的信息內容,為大數據分析提供更為精準有效的分析結果。從另一層面來看,該方法是將數據和計算機仿真進行了結合,因而在大數據分析中占據更大的優勢,不僅可以從特定群體中獲取數據信息,而且還能對這些信息進行拓展,得出優化后的數據結果,所以在預測數據信息走向和波動情況方面,具有非常突出的應用價值。
綜上所述,大數據時代是信息社會運作的必然結果,大數據分析也將成為各行業領域中最為重要的發展戰略,想要充分發揮大數據分析的優勢作用,就必須要重視對統計學理論的有效應用。因此,相關研究人員應當提高對統計學理論研究的重視程度,不斷探究其在大數據分析中的應用方法與應用策略,以便更好地將數據中的信息和規律有效提取出來,助力各行業的發展。與此同時,還需要研究如何將數據中的不確定性量化出來,進一步提升數據分析的價值,這樣才能為商業組織提供更好的數據信息服務,使信息社會更上一個臺階。■