■ 劉德寰 李雪蓮
?
數據生態的危險趨勢與數據科學的可能空間
——兼談中國市場調查業的現狀與問題
■ 劉德寰李雪蓮
【內容摘要】 隨著大數據技術的不斷發展及其在商業與研究領域的應用,數據分析的重要性正逐漸使其成為一個非常明確的科學領域。本文從數據稀缺性降低、非結構化數據及數據孤島、數據分析能力稀缺三個方面梳理數據生態的重要轉變,進而指出目前數據行業本身存在的七個危險趨勢,及其對整個中國調查業發展所產生的影響。最后,本文從科學研究的角度出發,以定量研究中的數據陷阱,及中國股民結構分析為例提出數據科學的整合與細分建議,以期為數據研究領域提供一定參考和建議。
【關鍵詞】大數據;數據科學;市場調查
“探索社會學這門科學的任務,首先的困難在于要求它作為一門科學,應有社會學這個名稱,是名正言順的,但是,這個要求絕不是毫無爭議的;而且,即使容許它冠以成個稱號的地方,關于它的內容和目的,也是眾說紛紜,意見相互矛盾和含糊不清。這就一再重新助長懷疑。”(1)
數據科學,如果我們打算以此命名我們今天在數據研究領域所做的工作和借此探尋人類行為與規律的努力,無疑困難重重,而這困難首先不來自于外部,更為深刻和危險地存在于數據分析內部。提到數據分析,大數據的出現一方面在削弱這個概念及其內涵,但同時,另一方面也正在前所未有地增強這一概念。
市場調研一直以來是人們對市場調查行業的認知,作者曾在《管窺美國調查業——在游戲、質疑與驗證中走向決策支柱的民意測驗》一文中詳細梳理過民意測驗作為最早的調查對美國調查業產生影響的過程,回顧了調查業從游戲式的“好玩兒”,到追求預測的準確性,最終成為被普遍應用和廣泛接受的研究社會經濟現象的重要機構的發展歷程,這其中非常重要的過程就在于以Gallup、Crossley、Roper為代表的現代意義上的科學調查方式得以確立自己的地位。(2)
隨著大數據技術的不斷發展及其在商業與研究領域的應用,數據分析的重要性正逐漸使其成為一個非常明確的科學領域。數據分析越來越廣泛地被應用到教育、醫療等基礎行業中,公眾也越來越熟悉數據分析行業,但很少有人詳細地探討數據科學的結構和它面臨的問題。隨著應用的深入、研究的積累,我們必須對其哪怕在極盛時期所存在的問題進行清晰的界定,以便我們能在工作中明確地認定和加以區分。我們曾在2012年就大數據的風險和現存問題專門進行過探討與分析(3)。彼時,大數據尚且僅作為一種觀念在業界、學界、公眾中間流行,而以其席卷之勢,時隔兩年,大數據及其應用已經廣泛滲透到諸多領域,它的發展已經完全超出概念之爭,必將深入影響與之相關的產業,其中非常顯著的就是市場調查行業會面臨的問題。
在談數據科學潛存的結構時,我們必須考慮三個非常重要的層次:一是數據的獲取,二是數據的描述,三是數據的分析,這是三個完全不同的過程與層次。大數據的出現對整個數據行業產生重要影響,首先在數據獲取層面引發“變革”,這是我們論述的起點,也是問題的重要起源。
(一)數據資源稀缺性降低
Armen A.Alchian認為經濟資源的獨特性主要在于其稀缺性,及由此伴隨而生的競爭行為(4)。很長的歷史階段中,我們一直面對的調查行業的問題是數據資源的稀缺,掌握數據在整個調查行業首先意味著擁有議價能力,所以很多業內公司,尤其是研究公司,可以通過獲取數據來獲得高額利潤,這一時期是市場調查業的天下。早期的數據質量值得稱道,利潤不錯,于是研究型公司開始大規模介入這個本該執行公司獲取利潤的領域,擠壓執行利潤。
但是早期的質量出現問題之后,導致了積壓,于是行業就出現了非常大的非良性循環,甚至惡性循環。非良性循環有非常重要的產業鏈,一個是數據獲取利潤率高,研究公司更多地通過獲取數據來獲得利潤,而不是通過研究。然后執行公司整體利潤下降,接下來數據在獲取過程中的作弊就不是一個點發狀態,而是面發的狀態。
隨后引發的效應是整個行業缺少優質可靠的數據,客戶對這種數據不滿,進而下調價格,這個過程再蔓延下來的時候,研究公司利潤攤薄,位于下游的執行公司生存更加艱難,作弊必然會更大范圍地蔓延,這種業態會導致整體客戶滿意度的大幅下降。
就在這個過程當中,正好趕上一個新的時代,即機器化數據橫空出世,突然之間,甚至一夜之間數據不再稀缺了。與此相伴隨產生的是市場調查業議價能力的喪失,單靠獲得數據爭取高額利潤的可能性微乎其微,這就必然導致在整個市場調查行業,執行公司如果繼續在數據獲取層面作弊必將面臨大規模的倒閉潮。
未來五年內我們可以清楚地看到,研究公司如果不能以踏實的態度做研究也必將面臨同樣的生存困境,這是一連串行業過程遭遇數據生態轉變形成的雪崩效應。時代變了,無論國際還是國內,調查公司都需要清楚地認識到這一轉變。這是數據獲取領域發生的重大變化,也是今天數據分析行業產生重大轉變的起點。
問題是從數據獲取時開始的,但是現在大數據面臨的最大問題不是如何收集數據,而是如何共享這些數據。怎樣才能設計和創建一個數據共享的體系架構,既能夠允許我們出于公益目的提取數據內部的價值,同時又可以保護個人隱私。(5)共享數據的體系架構對于大數據分析是非常重要的,本文將從大數據在數據結構方面存在的問題和風險進一步闡明其必要性。
(二)非結構化數據及數據孤島
我們說數據資源的稀缺性降低,僅就數據的產生、獲取層面而言,而對于真正從事大數據應用與分析的專業人員來說,數據的質量仍舊是問題的核心。與數據獲取方式變化相伴隨而生的,是數據結構本身的巨大變化。即由結構化數據向非結構化數據的轉變,且呈現出明顯的孤島化結構。這中間會帶來一系列風險與問題,從數據結構本身來講,會存在封閉數據、斷裂數據、缺失數據的問題。(6)
首先,就封閉數據而言,涉及我們對數據生態的基本判斷,現在中國的數據和世界的數據都存在比較接近的趨勢,每一個數據都號稱“全”,實際上都是“孤島”。如騰訊公司會產生大量的用戶數據,但騰訊只有騰訊的數據,這同樣是百度、阿里面臨的數據困境,僅擁有自己的數據,對任何一個數據來講都是龐大的“孤島”。
實現精準營銷是大數據為商業公司提供的諸多美好前景之一,優酷土豆嘗試根據用戶在視頻方面產生的數據標簽做到“千人千面”的廣告投放,但這項工作至今仍然是困難的,因為網站獲取的數據,包括觀看時長、次數、類型這一類“大”數據,而無法確定到屏幕背后的人。阿里巴巴集團與優酷土豆完成并購協議之后,兩家平臺嘗試將用戶在視頻使用行為方面的數據與購物數據(阿里媽媽)進行融合,為實現相對準確的廣告投放提供了可能性,我們是希望找到確定的那個人,這方面還有許多工作需要做。(7)業界的案例旨在說明,數據的貨幣化不是有數據就可以,而是數據需要能夠對應到人。
封閉數據本身限制數據獲取的多樣性,斷裂數據、缺失數據則會使得數據獲取僅擁有表面上的全,具體到個人來講,數據是片面的,只要是片面的,對整件事情進行完整的軌跡模擬就很難實現。伊達爾戈(Cesar A.Hidalgo)以其在大數據實踐方面的經驗提出大數據的三個維度:需要數量足夠大,解析度足夠,數據的范圍或者說數據的廣度要足夠大,而這是最難達到的。數據的范圍要足夠大,是指它能夠用于了解整個系統的情況,而不僅僅限于其最初被收集來的那個領域或者說目的。所以,數據要做到范圍足夠大是最困難的,因為許多數據可能規模足夠大、解析度也足夠大,但很難做到范圍也足夠大。(8)
同時,我們需要考慮到這一生態中至關重要的另一主體,人類會自適應這種科技的迅猛變化,越來越多的手機用戶開始有意識地進行痕跡管理。所以,數據產業是一個非常尷尬的產業,到現在為止,我們并沒有發現真正實現精準預測的案例。
2014年我們做過900萬移動互聯網用戶的行為數據,時間序列持續半年,應該說,數據量已經足夠大了。考慮到數據結構本身面臨的問題,在展開深入分析之前我們對數據進行了完整的結構化處理。但即便如此,我們仍然需要注意到,這類型數據所反映的是短時間內、特定時間內的人類行為。從人性本身的角度來講,我們做任何一個判斷與決策,實際上是一個長時效果。我們都是根據我們自己腦袋里信息的沉積做出判斷,這個判斷是迭代性的,可能很多小時候的記憶和體驗都會以意識或意識不到的方式參與其中。至少在現在,要想把人類所有這些信息,尤其基于個人經歷和體驗的信息儲存到數據里,成本太高。所以無論哪個地方的數據都是到一定時間節點以后進行結構化的篩選,留下有價值的部分。我們是在金礦里面挖金子,還是在荒野上尋找鉆石,這是完全不同的意義。
回到調查行業本身,在這個時候大數據,正常來講叫機器化數據已經被過度神話,而市場研究公司被積壓在這里,其唯一優勢在于可以擁有結構化、有洞察力的數據,而要實現這一點必須滿足兩個條件:一數據是真實的,二價格相對低,這兩件事對于整個調查業來說具有重要的影響,而且這種影響將會是長期的、徹底的,整個市場調查業必須做好準備面對這一挑戰與轉型。
(三)數據分析能力稀缺
舉凡涉及數據,問題都是環環相扣,牽一發而動全身,這是不以數據獲取方式的改變而改變的事情。數據獲取的重大轉變及問題不僅影響整個調查業的生態與發展,回到數據本身,由于整個大環境巨大的變化,在描述環節上出現了非常大的問題,這個問題形成了新的不同的非良性的循環。
在一個生態環境中,在一定時間內,其元素具有一定能量轉化過程,當數據稀缺的問題解決以后,不意味著稀缺性的消失,而是原先排在首位的稀缺性因素的重要性降低,而此前不會被特殊注意的數據分析能力成為首要稀缺性資源。
描述統計是任何一所大學的統計系,及那些涉及統計學應用專業的本科生都必須掌握的通識教育,而我國很多專業的本科生尚未能夠得到很好的學科訓練,這是大學教育中需要注意的問題。大數據在美國的應用從自然科學、社會治理、理論創新的部分興起,帶來生機與科學范式革命般的前景預期。在我國則從營銷、廣告、商業領域橫空出世,受到這一發展軌跡影響,關于大數據傳播最為廣泛的是數據可視化方面的進展。
數據處理人員、部分學界專家使用機器化數據做頻率表,交互表分析,進而得出一些看起來非常美麗的圖表與論斷,這些描述的特點在于直接、簡單、快速,以其形象化和便捷化一時間帶來新鮮強大的感覺。但是數據描述不等同于數據分析,類似啤酒尿布的案例對于商業來說或許足夠(何況僅僅是這樣在小數據時代產生的基于關聯性的故事,時至今日,都仍然是大數據解決方案專家的常用案例),但如果滿足于此,數據無論在廣度、深度、范圍層面達到何種成就都只是商業附庸,而不可能擁有真正的科學內涵,并對科學研究、理論創新產生實質性的影響。
對于整個商業環境而言,機器化數據由于資料收集簡單,整理數據的過程非常容易。所以直接面向銷售,針對模型訓練和優化花一點時間都嫌跟不上市場的變化,甚至開發出“online learning”(在線學習),爬蟲、數字營銷、精準推送、數據發布、數據公關、廣告推送都呈現出生機勃勃的態勢。巨額的市場利潤確實產生了,但是數據的真實性經得住檢驗嗎?哪一個機器化的數據拿出來說可以代表市場,因為都是數據孤島。
再回到市場調查業,大型公司由于沒有應對而處于措手不及的狀態,筆者在行業這么多年,有機會就在呼吁洞察的重要性。實際上我們的研究人員正在日益變成填數工具,而忽視洞察的重要性。數據不再稀缺,在機器化數據面前,雖然數據的真假存疑,但機器化數據的成本趨近于零,傳統數據收集過程及其分析如無獨特優勢自然無法與之爭勝,所以大中型研究公司的解體、兼并、重組在不遠的將來一定會出現,這是沒有辦法的趨勢。
從數據生態本身的轉變和面臨的問題出發,我們探討了數據生態的變化情形對整個調查行業產生的影響,回到數據行業本身,我們首先來探討數據行業在整個大環境影響下會出現的七個危險趨勢:
(一)過度追求數據的抓取與擁有
“數據就是原油”這一口號盛行良久,其誤區在于,仍然在強調甚至過度強調數據的稀缺性,重視數據的抓取擁有成為業界學界的一個基本危險趨勢,其客觀準確的表述應是“優質數據是原油”,這里反映出一個比較好的現象是,人們開始培養起“用數據說話”的意識,隨移動互聯網的發展,人們本身對數據的認知在不斷增長,這也要拜數據可視化簡單直接的呈現所賜。但其負面影響是打開互聯網時,每天有無數的數據撲面而來,泥沙俱下,魚龍混雜。如果人們對世界的印象和認識建立在這樣沒有經過檢驗的數據之上,無論對誰,都是非常危險的。
(二)數據分析簡化為資料整理
承接第一條趨勢,數據分析正在被一個狹窄的概念所牽引——數據可視化,在這一狹窄概念的指引下,從業者很容易認為數據分析的任務就是整理那些來自大公司、大組織的海量數據,所謂分析就是整理數據。很少探究關聯,無論因果,將數據展示中的可視化等同于大數據分析,這一點新聞媒體更起到推波助瀾的作用。
大量的機構、公司傳播缺乏真正有研究價值的數據和結論,但是它正在統領我們這個時代。因為它是形象化、易解讀的。在整個大數據分析中,數據清洗成為其非常重要的部分,而模型選擇、數據分析主要由機器學習完成。將數據可視化這樣的展示技術和數據分析的不同功能混淆是致命的錯誤。
(三)不談抽樣和推斷
關于大數據、推斷與抽樣的關系,是數據科學不可回避的問題。不談抽樣,不談推斷,不談適用范圍,只談數字的描述性結果。這一風險我們在2012年已經從統計學角度進行過論證(9),本文不再贅述。
在實際運用中,當前非常危險的一個趨勢在于數據被廣泛應用于公關,我們在社交媒體上最常見的各種排行榜、排名即是其中之一,主要用于融資、公關宣傳。這一趨勢的風險也體現在當前創業風潮中一系列創業項目在融資完成之后市值大面積縮水,單純計算閱讀率、一個時點的點擊量是沒有實際意義的。這一過程對整個產業、數據科學甚至社會發展,將形成致命的危害。
(四)數據真實與基礎研究薄弱
以上三點造成的長期后果就是數據的真實性問題,進而影響基礎研究的發展。數據科學本身要求精確、客觀、中立。但用于公關首先威脅的就是數據真實,如果真實的數據是資方排名靠后,那為什么還要真實?這是顯而易見的商業真實,同樣從商業角度出發,這時候做基礎研究的投資回報率就會不斷降低,與美國相對照我們的應用研究一點都不差,但是基礎研究呢?基礎研究嚴重不足,學界如此,市場研究行業也是如此。
(五)算法崇拜
模型在大數據時代一早就被認為要過時了,但算法一說廣受歡迎,認為數據分析就是算法,就是不斷調整算法。但是,如何選擇某一種算法或者其競爭算法,這樣的算法又解釋或適應了人類行為中的哪些規律,這些問題鮮少問津。
數據科學家成為近年來非常受歡迎的形象,以《犯罪心理》為例,同時擁有天才數據分析師和數據庫專家的行為分析小組,在做嫌疑人側寫,或者遇到連環殺人案需要做案情預測時,其固定模式首先是負責案情分析的探員對已有數據進行深度考察與分析:現場、作案手法、性格特征分析等,這依據的是心理學、腦科學、社會學等一系列科學訓練,而數據庫專家的主要工作是依據探員們分析得出的結論和需求進行交叉比對,定位身份、地點、車牌、居住地等具體信息。數據分析過程重要的是做好每一步,這里的每一步不僅指數據整理、清洗,更重要的是來自數據分析人員縝密的思維判斷與決策過程,甚至直覺、靈感與想象力的恰當運用。現實中FBI行為分析部創始人約翰·道格拉斯將現場分析過程歸納為解答三個問題,即“什么、為什么、是誰”(10),其信條與我們在數據分析領域所堅持的方法論異曲同工。
計算機科學自2000年成為熱門專業以來,并沒有在數據科學領域貢獻多少極具價值的智慧。算法是數和數的對話,算法即便是屠龍刀,首先需要持刀者心中有道,而其次需要有龍可屠,這里的“有”既指優質數據本身,也指分析人員的科學素養,需要持刀者能識別真正的龍。我們需要分析的是人及其行為,算法到底適應人類行為的哪種規律是需要經過驗證的,而試圖驗證整個時代,這是一個偽命題。
(六)深度數據分析稀缺
我們身處一個強調速度、鏈接的世界,全球化進程不斷深入的過程中,人們用以認識世界、描述世界的方式必然會發生深刻改變。大數據時代的數據分析亦是如此,一個號稱“人人都會數據分析”的時代,每個人都能使用可視化軟件做一點數據整理,一味追求速度,嚴重犧牲了深度和質量。無論學界或者是業界都有這個風險,越來越少專家型人才,而且越來越少人愿意去做,因為這相對而言,是一個慢的過程。
2013年Gigaom(美國知名科技博客)的分析師在回應人們對大數據的批評時指出:1.大數據確實更多地依靠事物相關性而非因果關系,大數據只是通過揭示事物相關性以提醒我們哪些事情值得進一步深入挖掘。2.網頁派生的數據僅是大數據的一部分而非全部,社交媒體數據不應取代傳統的消費者服務或市場研究數據,網頁和社交媒體數據僅是為決策提供海量的數據源。為用戶推薦歌曲只是小事,但在醫療、金融甚至銷售領域,人們知道是什么之后,就會想知道為什么?你知道的比聚類算法帶給你的結果越多,你越能和客戶建立良好的聯系。(11)
應該說這是整個數據分析領域最大的問題,越來越多的數據可視化軟件、開源數據庫在網絡上都可以非常容易地找到、通過視頻教學甚至看說明就可以進行操作,這是數據時代帶來的便利之一,但作為市場研究整個行業,基于數據的研究領域不應止步于此,而至于以此為追求更是舍本逐末,為米折腰。數據可視化在提出問題、帶來假設方面具有非常好的優勢,但是如何理解問題背后的人、社會機制和變遷過程,是需要深度分析和洞察的。
(七)科學積累與延續性不足
“今天才智平庸的人就能解決的問題,過去卻是偉大人物也不能解決的問題,這一點就是對真正積累性知識的最嚴格檢驗。”這一現象是對那些科學的積累與繼承比較完善的學科一個非常形象的描繪,默頓在提到這一點時認為:“由于相當遙遠的過去的理論和發現在很大程度上被結合到現今的積累性知識中,所以對過去偉大貢獻者的紀念實質上被保留在這一學科的歷史之中。”(12)而今天的大數據應用領域,甚至數據分析領域,至少就國內的大部分情形而言,卻很可能是只做到了前者,移動互聯網的出現與深入發展正在深刻地改變著人類的日常生活圖景與社會關系,這對于科學研究、經濟發展都是非常重要的研究領域,尤其需要知識的深度積累與延續。
在數據分析這一行業中,尤其是社會統計分析領域中,創新是慢功夫,窺探堂奧決不是一兩年的事情,數據研究同其他科學領域一樣,需要時間、經驗、知識的累積,對數據背后的規律進行體察,需要的不是機器,而是經過科學訓練的頭腦和進行判斷的能力。
朱自清先生在其《經典常談》中,提到公孫龍及其觀念,他(公孫龍)說概念有獨立分離的存在。譬如一塊堅而白的石頭,看的時候只見白,沒有堅;摸的時候只覺堅,不見白。所以白性與堅性兩者是分離的。白性使物白,堅性使物堅;這些雖然必須因具體的物而見,但實在有著獨立的存在,不過是潛存罷了,這叫作“離堅白”,(13)離堅白一說自有其在哲學上的妙思與價值,僅就觀察方式而言,這離堅白正是目前數據分析領域里諸多危險趨勢之形象概括,單一數據所表現出的單一特征成為預測、推斷的重要支點。而人非草木,每一個獨立個體、群體在其日常生活世界中所體現出的行為特征恰是依據整合而非分離才能有所體察與了解。所以在這個領域當中,后面的風險就出來了,什么是分析,如何在科學的角度下去理解數據,理解數據分析,本文僅以作者在本科生、研究生的方法課上進行的統計思維訓練為例,揭示其中的實際風險,提出一點建議。
“但是,去接近真實的理論和去把握其確切的應用,正像科學史教導我們的那樣,是兩件非常不同的事情。每一項重要的事情都已經在發現它之前被人談到了。”(14)而在定量研究中可能恰恰需要將理論和其確切應用緊密結合在一起,否則數只是數,是比例,而不是人,更不是日常生活,不是社會運行的結構和趨勢。如果不能夠意識到數據和數據分析的真正要義,不要談預測,連真實的情況都很難掌握。
(一)定量的美麗與陷阱
定量研究不是量化,也遠非是幾行列聯表、頻率表,更多的是一種思維方式。數據想騙人是非常容易的,需要研究者有豐富的經驗、直覺、受過基本統計學訓練的分析和思維能力。下面僅以通常比較流行的簡單表為例,談一下定量的美麗和陷阱。(15)
案例一:簡單表的危險(外加變量)

表1 不同年齡群體喜歡閱讀某雜志的比例(%)
從簡單的描述分析來看,老年人比年輕人更喜歡閱讀某份雜志,而實際的結果是,加入文化程度這一控制變量后,老年人和年輕人沒有任何差異。
不同文化程度之間有差別嗎?表3所有的結果都顯示高文化程度的比低文化程度的人更喜歡,但表2的結果是無差別,如果以表2結論作為判斷,則是使用了虛假相關作為判斷依據行事。
案例二:簡單表的危險(抑制變量)

表2 不同文化程度的群體喜歡閱讀某雜志的比例(%)

表3 不同年齡段、不同文化程度的群體喜歡閱讀某雜志的比例(%)
案例三:簡單表的危險(歪曲變量)

表4 不同勞動階層民權意識高低比例(%)

表5 分種族不同勞動階層民權意識高低比例(%)
我們從表4看到的是藍領比白領的民權意識更強,而表5則呈現出另一番結論,跟抽樣無關,跟推斷方式無關,數據本身的結構就是這樣的。數據是美麗的,這是定量研究本身的魅力,但背后充滿了數據陷阱。簡單確有其效率,但用于結論推斷,存在很多陷阱與風險,研究人員必須對此有清醒認識和辨別能力。
(二)結構洞察與趨勢判斷
結構是不以人的意志為轉移的,決定著很多的結果。結構在社會科學研究中的運用確實受到很多學派的批判與質疑,但完全不承認結構及其產生影響的過程屬于矯枉過正。2015年7月初,我國股市大幅震蕩,幾乎將每一個普通民眾都卷入與此相關的討論,甚至經濟利益的巨大變動中,一時間輿論嘩然:股市為什么會這樣?我們于7月15日—27日投放問卷,在全國范圍內,以等比例分層抽樣,獲取1000份有效樣本,采用劉德寰提出的“深描式分析法”對中國股民進行建模分析,以期從中對中國股市的諸多現象做一個結構性了解與分析,具體結果如圖1所示。
從結構看,中國股民的結構特點是:
1.30歲以下的年輕人中低學歷的比例更多,高學歷相對比例偏低。
2.40歲以上的中老年群體中,低學歷群體比例高,高學歷比例偏低。
3.30—40歲群體中,學歷越高炒股比例越高。
一個典型的反橄欖型結構,這個結構帶來的后果是什么?在知識體系相對更完善,以經濟學假設中相對更容易具有完備理性的群體占比偏低,而他們的知識和判斷又很難被股民群體中為數者眾多的低學歷、年輕與年長群體所認可(這兩類群體接收、判斷股市消息的主要渠道是自己的朋友、家人、傳統媒體),一旦消息出來,為數眾多的兩端群體就會聞風而動,知識、趨勢、判斷毫無立足之地。
反橄欖型這一結構本身會極化很多行為,股市會出現非理性漲、無原則跌,遑論全球資本市場、國家政策的影響。這個結構在消解知識資本,讓消息左右股市;這個結構會讓擁有知識和資本的中產階層巨虧,讓每天買賣的兩端群體跌宕起伏,而獲益的只有莊家。這個反橄欖型結構會讓價值投資淪為概念,只會強化炒作,而脫離投資的應有之義。

圖1 分年齡、不同文化程度股民的Logistic回歸模型
中國調查業從來不缺數據,從來不缺所謂的描述,只缺分析。對于結構和社會趨勢的分析需要我們在理論和實證研究的實踐中做更緊密的結合。正如默頓曾經強調的:只有當經驗研究是理論導向的并且當理論是由經驗證實的,才能獲得連貫性而不是分散。(16)其中非常重要的工作就是數據科學的整合與細分。
(三)數據科學的整合與細分
我們有責任把解釋建立在真憑實據的基礎上。我們在這里使用各種方法,是想盡可能地使我們的論證更加精確。要想使事實秩序成為一種審慎的科學,光靠縝密的觀察、描述和分類是不夠的,更加困難的是找到它們如何變成科學的角度。用笛卡爾的話說:在事實中找到某些能夠帶來精確性的客觀要素,可能的話,還要找到測量這些事實的方法。(17)問題的提出有時并不比解答更為容易,因為在巨大的利益或短視面前,人們很難從科學發展的角度來看技術帶來的可能與限制。
在文章的最后,我們做一個總結,數據分析在今天的情勢下成為一門科學的可能性,存在六個不難,六個不易:1.抓數據不難,分析數據不易。2.整理數據不難,理清關聯不易。3.找相關不難,探因果不易。4.建數學模型不難,分析一個結果不易。5.軟件做個模型不難,將洞察融入軟件不易。6.數據中看結果再分析不難,結果中想數據再分析不易。
如果數據失去了分析,于人于國于產業都是無益的。所以我們要清醒地看到數據科學的基本細分,尋找規律無方法高低之分,采用的調查方法也需要不斷提升,抽樣調查不可能被替代,它永遠是其中一個步驟,它也不是全部。
在找到規律之后,如果能夠形成程序化的東西進行驗證、證偽推斷和優化,這是沒有問題的,但前提是先把真實的規律找到。
在大小數據集之間如果要進行整合的話,有以下三種分析鏈條:
一是通過抽樣調查探索規律,這個過程中需要分析人員充分投入自己的思想和判斷,然后使用現在的大數據,將這種規律程序化。
二是大數據發現新的規律,通過抽樣數據驗證其規律的可靠性。
三是大數據發現可能性,不斷調整規則影響規則,進而確認規則,最終實現大數據程序化。這三種鏈條當中都有可能性的存在,第三條能成的可能性微乎其微,而目前相對成功的是第二條,產業界像樂購、ZARA、亞馬遜真正在做的智能推送的前提是實驗、抽樣調查,大數據分析需要會編程的人和會分析、會思考的人結合在一起。
在大數據概念大行其道之時,即便真正從事這項事業的人都已表明其局限性的時候,我們仍然擔心一點質疑和審慎會被視為過分保守而不能起到其應有的作用,而實質上,正因為我們本身從事著數據分析這項事業,反而比任何人更希望看到軟件、數據采集方式、分析方法的進步,看到這一領域真正的、長足的進步。如韋伯所言,在科學中,我們每個人都知道,一個人所完成的東西,在十年、二十年、五十年內就會過時。這就是科學的宿命,這也正是科學工作的真正意義所在。比起其他有著基本不變主題的文化領域來,科學具有不同的特點。每一個科學成就都提出新的“問題”,它要求被超越和變得“過時”,無論誰希望效力于科學,他都必須承認這一事實。科學著作當然能夠作為“令人高興之事”而留存下來,因為它們有藝術的特性;或者他們還保留著作為訓練手段的重要性。但是,在科學上他們終將被超越。讓我們重復這一點,因為這是我們共同的命運,也更是我們共同的目標。(18)
數據的整合與細分是非常重要的,我們從數據里面需要獲得的是知識和洞見,是運用我們最嚴謹的學科訓練和與生俱來的思維直覺去觀察社會事實,去理解人類行為,推動社會進步。信息從人類的祖先開始一點一點刻畫在石壁上,發展到今天全世界都被鏈接在一行一行的代碼中,我們走了這么遠,是為了一個更為秩然有序、粲然可觀,人類對于自己所身處的世界其可言說之處多于其晦暗不明的未來。
注釋:
(1) [德]齊美爾:《社會是如何可能的》,林榮遠譯,廣西師范大學出版社2002年版,第1頁。
(2) 劉德寰:《管窺美國調查業——在游戲、質疑與驗證中走向決策支柱的民意測驗》,《市場研究》,2005年第7期。
(3)(6)(9) 劉德寰、李雪蓮:《大數據的風險和現存問題》,《廣告大觀·理論版》,2013年第3期。
(4) Armen A.Alchian,William R.Allen.University Economics:Elements of Inquiry.Wadsworth Publishing Company,1972,pp.3-10.
(5)(8) 材料來源:http://www.huawei.com/cnapp/2091/hw-148776.htm,訪問日期:2015年11月19日。
(7) 材料來自優酷土豆副總裁杜長嶸于2015年11月20日在北京大學新媒體研究院的講座內容。
(10) [美]約翰·道格拉斯、馬克·奧爾謝克:《心理神探》,閻衛平、王春生譯,譯林出版社1999年版,第2頁。
(11) 材料來自:http://gigaom.com/2013/05/28/if-youre-disappointed-with-big-data-youre-not-paying-attention/訪問日期:2015年11月19日。
(12) [美]羅伯特·K·默頓:《社會理論和社會結構》,唐少杰、齊心等譯,譯林出版社2006年版,第42-43頁。
(13) 朱自清:《經典常談》,中華書局2009年版,第80頁。
(14) [英]艾爾弗萊德·懷特海:《思想的組織》,載羅伯特K·默頓:《社會理論和社會結構》,唐少杰、齊心等譯,譯林出版社2006年版,第3頁。
(15) 關于簡單表格分析會帶來的風險,主要參考M.羅森伯格:《調查分析的邏輯》,徐正光、黃順二譯,臺灣黎明文化事業公司1979年版。所引用案例表1、表4、表5均來自該書。表2、表3及本節第二部分分析所涉及的模型均已經過顯著性檢驗,因主要用于例證及篇幅關系,不逐一列出。
(16) [美]羅伯特·K.默頓:《社會理論和社會結構》,唐少杰、齊心等譯,譯林出版社2006年版,第220頁。
(17) 涂爾干:《社會分工論》,渠東譯,生活·讀書·新知三聯書店2000年版,第11頁。
(18) [德]馬克斯·韋伯:《馬克斯·韋伯:社會學文集》,載羅伯特·K.默頓:《社會理論和社會結構》,唐少杰、齊心等譯,譯林出版社2006年版,第44頁。
(作者劉德寰系北京大學新媒體研究院副院長、教授、博士生導師;李雪蓮系北京大學新聞與傳播學院博士研究生)
【責任編輯:張國濤】