大數據有“原罪”嗎？
——與潘綏銘教授商榷

2016-11-25 19:17:32劉林平唐斌斌蔣和超

社會觀察 2016年8期

文/劉林平唐斌斌蔣和超

文/劉林平唐斌斌蔣和超

《新視野》2016年第3期發表了潘綏銘教授《生活是如何被篡改為數據的？——大數據套用到研究人類的“原罪”》一文（以下簡稱“潘文”）。他認為，大數據不能套用到對人類的研究中。大數據把人類的行為及其結果也給量化了，從自然科學侵入到人文社會研究，從“科學”蛻變為“唯科學主義”。大數據在操作層次上將人類生活實踐改造成“數據”的過程中不可避免會出現“現實生活被裁剪”“社會情境被忽視”“主體建構被抹煞”“生活意義被取消”的問題。“潘文”還進一步認為，量化研究具有原罪，其缺陷與弊病根本無法避免，“大數據崇拜”，其實就是“唯科學主義”在人類歷史面前一敗涂地后的末日哀鳴。我們不能同意這些論斷，下面對此提出若干商榷意見。

對于大數據性質的幾點誤解

關于大數據，現在還沒有得到公認的準確定義。一般認為，大數據不同于傳統數據之處在于：它不是通過抽樣調查所獲取的樣本數據，而是人類活動的實時記錄，并大都可以通過互聯網存儲、獲取、交換和分析。“潘文”中對于大數據（包含小數據）的性質、特點存在若干誤解，這是需要澄清的。

其一，大數據記錄的都是單獨個人的行為嗎？

“潘文”引用了一篇文章作為依據說“大數據記錄的都是單獨個人的行為”，然后就此質問“在這個現實世界里，難道真的存在一種與他人毫無關系的個人行為嗎？難道個人的一切行為，不都是在一定的人際關系中，才會產生，才會帶來某種結果嗎”？

事實是，大數據既有個體（比如網上購物）層面的數據，也有組織層面（比如企業活動）的數據，還有地區層面乃至全球層面的數據；既有個體單獨活動（比如瀏覽網頁）的數據，也有人際交往（比如Facebook、twitter和微信、QQ等的好友關系）的數據。而利用電話、手機與社交網絡的大數據開展的研究已有不少。比如，社交網絡與經濟發展的研究、社會網與戀愛的研究、弱關系與信息傳播的研究等。

其二，精神活動的信息無法獲得、無法監測嗎？

“潘文”斷言：“人類一切精神活動的信息，在可預見的未來，仍然不但是無法獲得的，而且根本就是無法監測的。”但是，網絡上人們所發布的大量文獻（博客、微博、照片等）難道不是人們精神活動的結果嗎？這些難道不是大數據的組成部分嗎？與此相連，“潘文”指出：“無論大數據監測到多少人類的行為，它究竟是如何分辨出其中主體建構的成分呢？首先，以網購的大數據為例，即使您收集到全部的上網痕跡，而且全都數字化地一覽無余，那您怎么知道人家就真的就是這樣想的呢？這種‘客觀測定’，離礦物學很近，可是人卻是有主觀意志的啊，您是怎么監測到的？連物理學還有個‘測不準原理’呢，何況對于人的主觀意愿？”

在這一段話中，潘教授首先否認在大數據中有關于人類思維、精神活動成果的數據存在；其次，他將人們的行為與想法（動機、期望、判斷等）割裂開來，認為以客觀行為完全不能判斷主觀想法；再次，以網絡購物數據為例，他也忽視了網購中購物者對商品與店家的直接評價。最后，潘教授關于大數據測不準的說法，正是基于對數據的不了解。任何測量都有誤差，大數據正是通過大樣本消除誤差。大數據的客觀性有利于消除問卷調查中易于產生的回憶誤差。物理學中的“測不準”原理并不是普遍適用于任何自然現象與社會現象的，如果人們的主觀意愿完全是測不準的，那么社會科學中關于主觀意志、精神現象的研究就是瞎折騰。

其三，大數據不能表現人的偏好嗎？

“潘文”說：“以購物網站記錄下來的數據為例，它確實可以容納數千萬人在購物時不知不覺地留下的近乎無窮無盡的痕跡；但是，這就能反映出這些人的購物偏愛嗎？難道這些人就再也不在實體商店中買東西了嗎？難道他們在一時一事上表現出來的偏愛就永恒不變嗎？難道他們的每一次上網購物都能得到自我滿足嗎？”

潘教授認為大數據不能表現人的偏好，這完全是誤解。就以他所提出的購物數據為例，首先，網上購物對商品與店家服務的評價，對于品牌、樣式、質地、價格的選擇就表現出了偏好。其次，潘教授質疑說“難道這些人就再也不在實體商店中買東西了嗎”？他這里的意思似乎是要用網上購物的數據去推論實體店購物行為。網上購物數據反映的是網上購物的行為，其中也包含了偏好，至于是否可以用來推論實體店購物行為與偏好則是不同的問題，實體店購物也有實體店購物的數據，這些數據也是大數據的一部分。潘教授將兩種購物形式混淆在一起，以為只有網上購物才有大數據，而實體店購物則沒有，網上購物數據不能推論實體店購物行為，并由此莫名其妙地去責難大數據。再次，潘教授接著說“難道他們在一時一事上表現出來的偏愛就永恒不變嗎”？這一質疑更加表明他對大數據的不了解，網上購物所形成的數據是一個連續的、不同時點所組成的面板數據，它恰好可以很好地反映人們購物行為與偏好隨著時間變化的變化，而一次或數次問卷調查卻難以反映這種變化。

其四，大數據是空中樓閣嗎？

“潘文”認為：“我們的一切社會背景、生活狀況和成長經歷……往往僅僅存在于我們自己的經驗與記憶之中；往往難于言表，更往往無法記錄。從‘客觀監測’的角度來說，根本就是‘風過無痕’。”然后就憑此推斷“對于了解人類生活而言，大數據其實根本就是空中樓閣”。問題在于：如果我們的社會背景、生活狀況和成長經歷“難于言表、無法記錄”，那么社會科學又憑什么研究社會與人呢？潘教授對性工作者的研究，不是也要表現和記錄她們的生活嗎？如果這些東西是不能“客觀監測”而只能主觀回憶的，潘教授又怎么保證自己研究的客觀、真實與可靠呢？

這里的關鍵在于，“我們的一切社會背景、生活狀況和成長經歷……往往僅僅存在于我們自己的經驗與記憶之中”，所指的“我們”只是現在或過去的一代或多代人，由于時代的局限，在互聯網及其相關設備還沒有得到充分應用的前提下，的確，許多生活經歷只能用回憶的方式去復述。但是，時代是在發展的，全方位記載人們活動軌跡的可能性越來越大，而實際的記載也越來越多，就像凱文·凱利所描述的“生活流”。潘教授則以靜止的觀點看待科技的發展，妄下斷言。

與潘教授所說的正好相反，大數據并不是空中樓閣，而是人們生活的實時記錄，在這個意義上，它超出回憶性的數據，更為真實與準確。它也不僅僅是人們生活的自然、物理與生理記錄，它也是可以記載人們的社會交往、精神生活與思維活動產物的數據。

大數據加工是一種“篡改”和“偽造”嗎？

“潘文”認為，對大數據進行加工：界定、分類、定義、賦值 “完完全全是研究者自己在主觀地、人為地、強制地‘整理’那些‘可獲得信息’，把人類生活的痕跡，完完全全地篡改為自己的世界觀和價值觀所能接受的‘數據’。往好里說，這叫做無可避免地加工；往壞里說，這就是赤裸裸地偽造”。將大數據加工看作是“篡改”，然后說成是“赤裸裸地偽造”，這里完全是一個偷換概念甚至是一個赤裸裸更換概念的過程。

人類的任何研究都是一個加工過程，如果不加工，那我們就無法認知任何事物。質性研究、問卷調查和理論研究都是一個加工過程。沒有加工就沒有理論抽象。即使是最初淺的認知都有加工的過程。

進一步說，任何定量的研究過程都有一個數據加工的過程，即使使用自己設計的問卷進行調查，數據加工也不可避免。研究者必須要對數據進行審查、清理、重新分類等，才能進行研究工作。在質性研究過程中，研究者對觀察、訪談資料也必須進行加工整理，完全不進行加工地地道道使用原始資料的情況非常罕見。在這一加工過程中，研究者不可避免地要從自己的研究目的出發來使用數據，世界觀與價值觀內涵在研究者的頭腦中，當然會發揮作用。不過，對數據的加工有好的加工和壞的加工，無論是定性研究還是定量研究都是如此。

問題在于：潘教授認為對大數據的加工一定是壞的加工，甚至是篡改和偽造。不知道他究竟有何證據：潘教授是閱讀并仔細研究了有關大數據的大量研究才有此發現呢？還是基于本人的“世界觀與價值觀”就做此判斷呢？如果潘教授認定大數據加工是“赤裸裸地偽造”，他應該舉出一些典型的案例來支持自己的判斷。

在大數據的研究中，對原始數據進行加工已經成為一個非常專業的數據挖掘過程。這一過程包含對各種各樣的數據進行抓取（獲取）、整理、分類和匹配，需要一定的技術手段，但與質性研究中獲取數據、整理記錄、分類抽象在思維邏輯上并無本質區別。而在潘教授看來，自己對性工作者的調查與研究過程是一個正確的過程（盡管他沒有明說），而大數據的研究加工過程則一定錯誤。我們想請教潘教授的是：在您的研究過程中，世界觀與價值觀就沒有發揮作用嗎？您本人對性工作者的研究是如何保證不是一個“篡改”與“偽造”的過程呢？

潘教授所謂的數據“篡改”或“偽造”的說法，還表明他將研究的認知過程與研究倫理混淆起來。科學研究并不是一個絕對正確的過程，在數據處理（清理、分類、調整等）的過程中出現錯誤是正常現象，但這與弄虛作假違反研究倫理是完全不同性質的問題。

潘教授的自相矛盾還在于：一方面，他承認用問卷調查的數據進行研究是可以的，但另一方面，他卻斷然否認大數據可以用于社會科學研究。如果只是從對數據的加工方面來看，問卷調查主要是一種事前加工的過程（即預設題目來進行測量），大數據是一種事后加工的過程（即直接對數據進行加工），在是否加工的問題上，兩者并無本質區別。

大數據不能用于任何量化的分析嗎？

基于對大數據的若干誤解，“潘文”認為：“大數據并不是研究者主動去收集的人類行為及其結果，而是五花八門的所謂‘客觀記錄’……大數據所獲得的信息，首先是極端片面；其次是漫無邊際；第三是支離破碎；第四是毫無意義；根本不能用于任何量化的分析。”這一結論是非常武斷的。

其一，大數據雖然不是社會科學研究者設計好的類似問卷調查所獲取的數據。但大數據并不是就沒有設計。比如，我們可以利用手機來收集使用人的方位，這牽涉到經緯度（經緯度是人們通常用來準確定位地理位置的指標），對人的地理位置移動的測量是非常準確的。這絕不是潘所說的“漫無邊際”。

其二，大數據中的許多數據，主要是根據自然科學（包括工程技術科學、醫學等）現有測量方法而記錄和呈現的，社會、人文指標較少，但并非沒有，比如社交網站中的家庭、婚姻與朋友狀況。這說明社會科學的研究及其測量方法還沒有自然科學成熟和得到社會的廣泛認可與應用，但并不意味著大數據就不能運用到社會科學研究中，因為社會科學研究也往往借用自然科學所使用的指標，比如醫療社會學的研究就必須使用醫學測量的指標。進一步說，一些指標既是自然的也是社會的，比如年齡、性別等，既反映人的自然屬性，也表現了人的社會屬性。

其三，潘教授認為大數據不能用于任何量化分析，但是，量化的商業分析也不行嗎？事實是，大數據不但可以用于自然科學研究，也可以運用于社會科學研究，不但可以進行商業、管理分析，也可以用于社會分析。若干大數據的研究已經證明了這一點。

其四，“潘文”認為大數據“極端片面”“支離破碎”，指出：“所謂的大數據，其實一點都沒有超出‘小數據’原有的局限性：裁剪生活，撕碎人生；非要把整體生存的‘人’，視為一堆雜亂的零碎。在實際生活中，人類絕對不是，也不可能是這樣來‘量化地’認知和行動的。因此，大數據其實并不是幫助人類思考，而是企圖取代和控制人類的生活經驗，是人工智能的噩兆。”

在潘教授看來，定量的數據就是剪裁生活，就是撕碎人生。但即使是質性研究，比如潘教授對性工作者的研究，難道不剪裁生活嗎？為什么用數據就是剪裁就是撕碎，而用訪談或觀察進行質性研究就不是撕碎呢？

對人與社會的研究，都是選擇一個或數個側面，任何的研究都是裁剪，只有裁剪的好壞，而沒有剪裁不剪裁的問題。完整地表現一個人、一個群體或一個社會的全部生活是基本不可能的事情。定量與定性研究在表現人的生活時，區別在于：前者對生活進行測量，將生活理解為一個個變量，尋找變量之間的關系；后者則以一個一個的故事進行敘述，從中探討故事的前因后果。定量研究沒有可能也沒有必要窮盡所有變量，只要抓住關鍵的變量探討其中的關系就可以了。同樣，定性研究也沒有可能沒有必要將生活的所有細枝末節都呈現出來。

潘教授的邏輯混亂在于：他將現實的人的生活與對這種生活的研究混為一談。的確，如潘教授所說，人們的實際生活是完整的。但是，對此進行研究卻必須有所取舍。潘教授能否告訴我們，你從頭至尾完完整整地記錄或敘述過一個性工作者的全部人生歷程嗎？如果有，你是用什么方法與技術手段做到這一點的呢？

結語：大數據有“原罪”嗎？

“潘文”在結論處提出所謂“原罪”的說法：“原罪不但是與生俱來的，而且是背負終身的，不能通過人自己的救贖而被消除。很可惜，量化研究也是如此。無論其技術手段如何發達，無論其數據多么大，一旦應用于人文社會研究，其缺陷與弊病就根本無法避免，充其量也不過是程度的減輕而已。”

世界上任何一種研究范式（包含方法、手段與技術）都是有缺陷的，量化研究當然有其缺陷，但并不能被武斷地斷言具有“原罪”。在潘教授看來，量化研究（包括大數據）將現實生活剪裁得支離破碎、忽視了社會情景、抹煞了主體建構、取消了生活意義。他無視定量研究作為社會科學的主流研究范式所取得的豐碩成果，混淆科學研究的性質、方法、過程與其社會功能的區別，以偏見亂下結論，以靜止、片面的眼光看待大數據的發展。

在我們看來，大數據的發展是當代科技革命的產物，它給社會科學研究提供了新的機遇，有可能帶來研究范式的革命性變化。它不但適用于自然科學領域里的研究，也同樣可以并且實際上被運用于社會科學研究領域。當然，世界范圍里運用大數據進行社會科學研究還起步不久，具體的大數據也有其缺陷，但它猶如新生的嬰兒，對此抱有期望是正常的，而將之扼殺卻是罪惡的。

（劉林平系南京大學社會學院教授，唐斌斌、蔣和超系南京大學社會學院博士研究生；摘自《新視野》2016年第4期）

大數據有“原罪”嗎？——與潘綏銘教授商榷

對于大數據性質的幾點誤解

大數據加工是一種“篡改”和“偽造”嗎？

大數據不能用于任何量化的分析嗎？

結語：大數據有“原罪”嗎？

大數據有“原罪”嗎？
——與潘綏銘教授商榷