賈堯
摘要:大數據時代給很多行業帶來新的可能性,傳統的小數據研究慢慢不受重視。雖然大數據有諸多優勢,但也無法取代抽樣調查和實驗研究等小數據研究在行業里所占據的地位。因此,本文通過對大數據、小數據概念和特點的分析,而后分析大數據與傳統意義上的小數據的異同。
關鍵詞:大數據;小數據;基本概念;異同比較;特點
1. 引言
大數據是用來指數據集太大或太復雜,而不是傳統的數據處理應用軟件充分處理有許多情況(行)的數據提供了更多的統計功率,而具有較高復雜性(更多屬性或列)的數據可能會導致更高的錯誤發現率.大數據挑戰包括捕獲數據,數據存儲,數據分析搜索,共享,轉移,可視化,查詢,更新,信息隱私和數據源。小數據是“小”到足以讓人理解的數據。這是一個卷和格式的數據,使它可以訪問,信息和行動。
2. 特點分析
(1)同質性與異質性
“小數據”的哲學基礎是同質性,實踐方法是“還原論”,試圖通過發掘事物內在統一性而達成共識。在事物同質性假設的基礎上,“小數據”對事物進行抽象化提取,通過層層假設剝離事物的個性,并最終通過數學建模完成對事物的科學化認知。同質性是我們認知世界的一個重要方式,“小數據”只是為人類提供了認識同質性的工具,卻沒有提供洞察異質性的工具;“大數據”既能洞察事物的同質性,又能洞察事物的異質性。
(2)結構化與非結構化
“小數據”是以“人力為主,機器為輔”的運行模式,在數據的采集、存儲、傳輸和處理中大量地依賴人力資源;“大數據”恰好相反,計算機等各類數據設備成為數據采集、存儲、傳輸和處理的主體,人力只在模型設計、參數設置、編輯矯正等環節發揮作用。“大數據”能夠處理的數據來源更加廣泛,不僅包括結構化數據,而且包括只有機器方能處理的非結構化數據。
(3)局部與整體
“小數據”建立的基礎是抽樣調查技術,通過選擇具有“代表性”的局部樣本來洞察整體樣本。抽樣樣本的“代表性”的科學化問題是“小數據”的關鍵所在。圍繞著“代表性”的科學化問題,統計學不斷完善其抽樣技術,推出了一系列數據抽樣和處理技術。“大數據”建立的基礎是全樣本調查技術,不再用局部去“代表”整體,讓整體中的每個成員“代表”自己。“大數據”克服了統計學的拘囿,不再糾結于局部樣本的“代表性”。在小數據時代,需要對參與人員進行嚴格的標準化處理,避免參與人員的主觀性影響調查結果,但是大數據的全樣本調查技術,擺脫了參與人員的主觀性對抽樣所帶來的負面影響。
(4)靜態與動態
“小數據”是靜態性數據,只是抽取了“時間軸”上的某個片段,再加上從數據采集、存儲、傳輸到處理上的周期性,這使得“小數據”具有典型的延時性特征,不能實時反映事物發展的動態性。“小數據”為了克服靜態性的不足,采取了跟蹤調查、事前調查、事中調查、事后調查等補償性手段,但這些手段的周期性,使其依然難以反映實時性動態。“大數據”是動態性數據,通過移動互聯網技術、物聯網技術及人性交互技術等數據技術可以對調查對象全程追蹤,主動抓取實時數據。“大數據”能夠即時洞察事物發展的延續性和斷裂性,這克服了小數據“事后諸葛亮”的尷尬。
(5)描述性與預測性
“小數據”具有局部性、靜態性、單維性、非場景化和規模性等特征,在數據采集、存儲、傳輸和處理過程中,損耗了大量的細節數據,只是對各類事物的高度抽象性概括,因此,“小數據”難以從全局把握事物的變動性,在使用方式上多被用來進行描述性研究,而解釋性和預測性卻相對不足。“大數據”具有整體性、動態性、多維性、場景化和長尾性等特征,能夠對事物及其周邊環境進行空間性和歷時性洞察,“見微知著”,因此,“大數據”不僅在描述性上更優于“小數據”,而且能夠在解釋性和預測性方面更準確。
3. 對比分析
首先,從數據的規模或量來看,大數據體量巨大,規模已經超出了在常規方法和時間內搜集、利用、管理和處理數據的能力,體量是PB量級的。小數據相對來說小得多,傳統社會下生產的統計數據可以看作是小數據。
其次,從數據形態來看,傳統的數據通常是結構化數據,結構化數據(行數據)是指存儲在數據庫里的,大數據則是混合形態的數據。在大數據中,多數是非結構化的數據。
第三,小數據是目標導向數據,價值密度較高。小數據有非常明確的目的,有非常明確的價值。大數據則是記錄導向的,價值密度低,僅僅是為記錄數據,并不是首先就有為了得到或解釋某個特定事件的具體目的。
第四,大數據即時產生,隨時可用。小數據生產的時間長,從測量到可用,需要相當長的時間;而大數據是即時產生的,大數據的獲取省略了抽樣設計環節,基本不介入調查對象的行為,始終以觀察者的角色出現,直接對整體進行分析。
第五,從數據占有情況來看,在傳統社會里的小數據擁有的主體是政府(包括政府統計部門和各專業部門)、企業、民間調查機構、科研機構等。而大數據則主要掌握在互聯網公司手中,目前我國國內互聯網三巨頭BAT(百度、阿里、騰訊),數據私有化將成為一種趨勢。而對大數據的開發利用,也只有具有技術能力的網絡公司才能做到,通過網絡爬蟲在網絡上抓取數據,然后經過數據清洗,進行數據挖掘分析。不具備大數據挖掘利用能力的一般個人或者企業、機構,通過向這些公司付費后購買數據和服務,這就是我們日益熟悉的云計算、云平臺、云服務;未來的地方政府或許將不得不向私營部門購買數據。
4. 結語
本文通過對大數據和小數據的概念分析和特點分析,發現大數據和小數據在不同的領域發揮著各自的優勢,而后對兩者進行對比分析,發現大數據和小數據在數據規模、數據形態、目標導向、產生時間和占有數據情況上都有各自的特別。
參考文獻
[1]秦蕭,甄峰.大數據與小數據結合:信息時代城市研究方法探討[J].地理科學,2017, 37(03):321-330.
[2]唐文方.大數據與小數據:社會科學研究方法的探討[J].中山大學學報(社會科學版),2015, 55(06):141-146.
[3]徐立軍.數據時代的未來? 大數據與小數據融合的價值與路徑[J].新聞與寫作,2015 (11):11-15.
[4]王浩. 大數據時代下的思維方式變革[D].東華大學,2015.
[5]郭新平,黃貽俊.淺析大數據時代的小數據[J].現代經濟信息,2014(20):149.
[6]黃欣榮.大數據技術對科學方法論的革命[J].江南大學學報(人文社會科學版),2014,13 (02):28-33.
[7]王成文.數據力:“大數據”PK“小數據”[J].中國傳媒科技,2013(19):68-70.