□楊秀艷
近年來,“大數據”已成為被廣泛熱議的詞匯,有關文獻層出不窮。就統計學而言,關注重點無疑是大數據分析方法的創新與發展。與此同時,人們也慢慢意識到“小數據”的重要性。然而什么是小數據?如何理解大數據背景下統計學的相關概念?本文就此談點粗淺的看法。
在大數據興起之前,數據幾乎沒有“大數據”和“小數據”之分。在大數據炒得如火如荼的時候,人們也開始關注“小數據”。例如,德波哈爾艾斯汀教授,記錄了其父親去世之前幾個月的行為數據——發郵件、去超市菜市場買菜等數據,發現其頻率逐步下降。這些個人社會行為數據都暗示著德伯哈爾艾斯汀的父親生命特征正在逐漸衰落。然而醫院的體檢報告并未顯示出這一訊息。正因此,德伯哈爾艾斯汀意識到“小數據”的重要性,也是世界上第一個認識到“小數據”價值的人。
關于什么是大數據,討論的文章已經很多,本文不再贅述。那什么是小數據呢?目前主要有以下兩種觀點:一種觀點認為小數據就是樣本數據。例如,王成文認為小數據是為回答特定問題、通過傳統抽樣調查方式獲得的數據,即小數據是基于抽樣調查技術而建立的數據收集、存儲、傳輸、處理的安全系統,認為抽樣調查是“小數據”的本質特征。鄭宇認為小數據來源于實驗室,來自于被測試者(樣本)的調查。徐立軍認為數據體量窄小且通過傳統抽樣方式采集的數據就是小數據。按照這種理解,小數據就是體量小的數據,或者說傳統數據即為小數據。另一種觀點則認為以人為本是小數據的核心,個體信息才是小數據,例如德波哈爾艾斯汀教授所記錄的其父親的行為數據。于久賀認為“小數據”是指圍繞個人中心全方位的數據,以及其配套的收集、分析、處理和對外交互的綜合系統。呂曉莉也相信“小數據”是圍繞不同個體的人而采集的相關興趣愛好、思想行為等數字特征化的數據。
對于“小數據”的這兩種觀點,我們贊同后者。作為延伸,我們認為小數據不僅僅指來自于單個人的數據,也可以是來自于單個物體的數據。只要能從微觀層面挖掘信息,一切事物都可以成為小數據研究的對象。大數據重相關關系的發現,小數據則有利于發現因果關系,因為小數據是在海量數據下根據特定需要有針對地提供個性化服務或尋找因果關系的依據。
顯然,大數據與小數據之間存在著包含與被包含的關系。開展大數據分析必須從小數據著手,因為小數據是構成大數據的基礎,通過小數據研究可以更好地為大數據分析提供依據。完善的大數據是以真實完善的小數據為前提的,數據庫的建設必須在小數據上下工夫。
舍恩伯格和庫克耶提出在大數據時代有三個重要的思維轉變:其一,不是隨機樣本,而是全體數據;其二,不是精確性,而是混雜性;其三,不是因果關系,而是相關關系。第一個思維傳達的是“要全體不要抽樣”。大數據的“大”不僅僅是指量多,更是指量全。大數據的“大”應含有三層含義:“全體”、“可擴充”“有待挖掘”。其中全體是指在一定條件下的全體數據,且數據量必須達到一定規模。大數據區別于小數據的重要特征之一就是,快速動態變化性促使“大數據=全體數據”時,離不開一個前提,即“一定條件”。這個前提條件要視具體問題而定,正所謂具體問題具體分析。快速動態變化引起的可擴充性意味著研究者獲得的數據皆為“過時數據”,對動態總體而言,大數據仍屬于樣本,無非是大樣本與小樣本以及樣本數據類型有所差異。不少學者認為大數據的代表性強于樣本數據,于是認為大數據優于樣本數據。殊不知,大數據是計算機與互聯網相結合的產物,獲取渠道多為數字電視、網絡、社交論壇等數據平臺。活躍在眾多數據平臺的并不是所有的人而只是一部分人,若拋開數據背后的信息,研究結果往往有失偏頗。可見,如果脫離一定的條件,大數據并不一定優于小數據。
很多人知道,2009年Nature雜志上刊登一種谷歌搜索日志進行流感監測的方法。用美國居民在網絡平臺上搜索相關特殊疾病和相關藥物的信息記錄來即時預測美國疾控中心延遲發布的疑似流感比率占比。使用2003-2007年的數據作為訓練集構造模型來預測2008年的流感比例占比,其預測結果與之后美國疾控中心發布的數據高度吻合。然而在2009年,使用該模型時其預測結果顯示低估,在2009年的低估的基礎上繼續修改算法模型,修改后的模型在2013年則呈現高估。就研究對象而言,其選取的大數據也是樣本,且在之后的預測中,因樣本代表性不高,才導致預測結果低估或高估。當然也并不是指該研究中若采用樣本數據,其模型預測結果會優于大數據,用該案例只是說明大數據并不一定等同于總體數據,大數據的代表性也不一定強于樣本數據。
統計學作為一門學科存在的意義在于幫助人類去量度數據的不確定性,駕馭不確定性,從而確保人們在損失最小或風險最小情況下做出最經濟的決策。大數據與樣本數據,對研究結果都會產生一定誤差,其中包括抽樣誤差和非抽樣誤差。從數據量來看,大數據量遠大于樣本數據,這是不是意味著大數據的誤差就會遠小于小數據?答案自然是否定的。我們需要明確一點,誤差的來源與構成十分復雜,絕非以數據量多少來衡量。就大數據而言,我們要考慮它有沒有抽樣誤差、如果有如何測度等問題。有人認為大數據沒有抽樣誤差,因為它是全體數據;而我們則認為大數據只是動態數據總體中的一個樣本數據,一定有誤差,但卻不一定是抽樣誤差,因為它不一定是隨機的。大數據是樣本數據但不一定是隨機樣本數據的理由有兩個:一是大數據的積累是有時間性的,伴隨時間性就具有一定的系統性;二是大數據本身不一定覆蓋了所有的研究對象,而這種不覆蓋往往也具有系統性。所以大數據的誤差測度之困難遠遠大于隨機樣本,因為隨機樣本的代表性是可以控制的。
就非抽樣誤差而言,樣本數據比大數據更具有優越性。非抽樣誤差主要是指人為在處理數據過程(收集、記錄、計算等)中帶來的誤差。樣本數據是有針對性獲得的數據,在收集過程中已經利用了人們的先驗信息過濾了絕大部分錯誤數據,留下具有“發言權”的數據,因此對非抽樣誤差具有比較好的控制。但大數據由于事先沒有設計、沒有標準,來源復雜、結構復雜,往往對小數據的真實性難以掌控,再加上對非結構化數據解讀可能產生的歧義,使得非抽樣誤差、特別是登記性誤差產生的可能性更大,而且更加難以測度。
所以在大數據分析中,如何控制并有效測度誤差是一個大問題。我們必須把大數據與小數據結合起來,在各個環節都要注意防控各種誤差,以便保證分析結果的可靠性和有效性。
大數據重相關,小數據重因果,相關關系回答是什么,因果關系回答為什么。為此很多人提出在大數據時代用相關關系替代因果關系,不需打破砂鍋問到底,了解“是什么”即可。任何問題或現象都不是注定的內在必然抑或偶然的巧合,而是許多具體機制的組合或聯系作用的結果。根本性地解決問題和全面闡釋現象不僅僅限于了解各現象要素之間的關系,還要了解導致問題和現象發生的深層結構。換言之,解決問題或分析現象不應該只停留在外在的關聯層面上,應進一步挖掘其內涵。知道“是什么”,不一定知道“為什么”,知道“為什么”,卻能知道“是什么”,即用因果關系解釋相關關系,而非相關關系解釋因果關系。當然這并不是否認大數據提供的相關關系價值,在大數據時代,數據維度可以多到令我們咋舌。統計分析方法是建立在獨立同分布、變量個數小于樣本數(k<<n)等前提條件的基礎上,這就需要我們利用相關關系對解釋變量進行降維,由“大維度”變成“小維度”,由“大數據”變成“小數據”。實現大數據分析的第一個物理過程,數據由大變小,由厚變薄。此外需要注意的是偽相關問題,例如,如果某研究者參考啤酒與尿不濕的例子,去研究火鍋底料的銷售量和社會失蹤兒童數之間關系,并發現兩者之間有很強的相關系數,于是得出結論說火鍋底料的銷售量會導致兒童失蹤案例發生,顯然這是一謬論。大數據下,數據量大(n增加)、變量維度廣(k增加),容易造成統計結果顯著,得出統計意義上的回歸系數,但不代表兩者之間有因果關系,沒有因果關系的相關關系只是大數據對小數據的過度擬合。啤酒和尿不濕的銷售量有一定的相關性,是因為每次買尿不濕的老爸會順帶買瓶啤酒犒勞自己,其相關性有因可循,但我們不能說買火鍋底料的人會順帶拐賣兒童。是否是偽相關,關鍵是看兩者之間是否有因果關系,相關關系和因果關系是相互依賴、相互促進,綜合利用兩者關系才能有效地進行統計分析,才能進行大數據分析的第二個過程,即化學過程——-價值提取。
定性分析和定量分析是統計學兩大核心分析法,相對小數據,大數據更加側重于定量分析,筆者認為主要原因是數據背后看不見行為人,無法事先進行深層次的定性分析。就統計學而言,分析現實問題最終都將回歸到定性分析,定量分析只是更好地呈現數據,以一種簡單明了的方式呈現數據,抑或說定量分析的結果是數據的另一種表達形式,仍屬于數據,屬于數據加工處理中最后一步加工后的產物,是數據的范疇。只有經過進一步的定性分析才能稱之為信息。目前有一種現象值得關注:那就是追捧大數據,讓更多的人熱衷于定量分析而忽視定性分析。朋友圈的點贊數就能代表人們對帖子的喜愛程度嗎?網絡上搜索感冒藥就能代表搜索人有感冒癥狀?網絡評論就能代表網民對事件的真實看法?點贊有可能是行為人的言行不一,搜感冒藥有可能是親戚朋友生病,同樣的言語評論各人理解不同,同一個“呵呵”,有人認為是真誠傻傻地笑,有人認為是不屑一顧地冷笑。數據分析脫離行為人就毫無意義。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的了解。”小數據提倡“以人為本”,強調人是一切數據存在的根本。將人納入分析中,能得到更加準確的結論、深刻的見解。大數據側重的定量分析適合解決宏觀層面的問題,難以注重每個數據背后行為人的個體信息,小數據所含有的個體信息能更好地定性解讀微觀問題。宏觀與微觀結合,才能全方位無死角剖析問題。
[1]Ginsberg J,Mohebbi M H,Patel R S,et al. Detecting influenza epidemics using search engine query data[J]. Nature,2009,457(7232):1012- 1014.
[2]Marcus,Gary and Davis,Ernest. 2014. Eight(No,Nine!)Problems With Big Data. New York Time s.April 6.
[3]胡雄偉,張寶林,李抵飛 .大數據研究與應用綜述(下)[J].標準科學,2013(第 11 期).
[4]呂曉莉.大數據時代高校圖書館小數據的應用價值與路徑[J].四川圖書館學報,2016,(第4期).
[5]劉軍.大數據是原油不是汽油[J].決策與信息,2015(第 12 期).