關于大數據分析,現實的情況是,說的人很多,鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因無外乎有二:一是對于大數據分析的價值邏輯尚缺乏足夠深刻的洞察;二是大數據分析中的某些重大要件或技術還不成熟。
比如,提到大數據的大,一般人認為指的是它數據規模的海量——隨著人類在數據記錄、獲取及傳輸方面的技術革命,造成了數據獲得的便捷與低成本,這便使原有的以高成本方式獲得的、描述人類態度或行為的、數據有限的小數據變成了一個巨大的、海量規模的數據包。這其實是一種不得要領、似是而非的認識。其實,前大數據時代也有海量的數據集,但由于其維度的單一,以及和人或社會有機活動狀態的剝離,而使其分析和認識真相的價值極為有限。大數據的真正價值不在于它的大,而在于它的全——空間維度上的多角度、多層次信息的交叉復現;時間維度上的與人或社會有機體的活動相關聯的信息的持續呈現。
以數據的交叉復現對于還原真相的價值為例:一個家住北京的男人借去杭州出差的機會到上海與情人幽會,回到北京后怕被老婆發現把相關的短信、微信、通話記錄統統都刪除掉,但他老婆如果掌握了大數據分析方法的話便很容易獲得真相:查詢酒店的開房記錄、刷卡消費的記錄、甚至他在上海期間一不留神轉發的一條微博都可能透露出的位置信息。正如《大數據時代》中所引述的,一個孕婦的口味及消費模式等是有一定規律的,單一一條信息并不足以判定你的狀態,但關于你的不同來源的數據集合一旦與孕婦特型(如果我們掌握了這個分析模型的話)高度相關,人們便很容易對你的真實狀態進行一種準確的判斷而不管你自己承認或者不承認。
再舉個例子,面對今天社會輿情態勢,常常有人感慨:“造謠的成本很低,辟謠的成本卻很高”,抱怨現在的網絡給造謠者造謠、傳謠帶來的極大便利以及人民群眾過于輕信和弱智。如果我們用某個事件的數據、單一的和靜態截面上的數據去觀察和分析這個問題的時候,真的可能得出上述這樣一種結論。但是,如果我們從社會傳播的總體信息構造上分析,會發現流言或謠言的猖獗不正在于掌握了社會信息傳播主渠道的那些部門的不作為、甚至蒙蔽真相所造成的嗎?再有,或許你在這個地方、這件事上沒有蒙蔽真相,道出的是實情;但如果你或你的同類機構、同類官員在其他事情、其他場合上有過種種蒙蔽真相、文過飾非、官官相護甚至動用官方的強力以“辟謠”的方式制造假象的劣跡,人民群眾在一次次被蒙蔽甚至被欺騙后,還會一如既往地相信你、依賴你嗎?因此,大數據分析的價值和意義就在于,透過多維度多層次的數據,以及歷時態的關聯數據,找到問題的癥結,直抵事實的真相。
因此,大數據分析在方法論上需要解決的課題首先就在于:如何透過多層次、多維度的數據集實現對于某一個人、某一件事或某一種社會狀態的現實態勢的聚焦,即真相再現;其中的難點就在于,我們需要洞察哪些維度是描述一個人、一件事以及一種社會存在狀態的最為關鍵的維度,并且這些維度之間的關聯方式是怎樣的,等等。其次,如何在時間序列上離散的、貌似各不相關的數據集合,找到一種或多種與人的活動、事件的發展以及社會的運作有機聯系的連續性數據的分析邏輯。其中的難點就在于,我們對于離散的、貌似各不相關的數據如何進行屬性標簽化的分類。概言之,不同類屬的數據集的功能聚合模型(用于特定的分析對象)以及數據的標簽化技術,是大數據分析的技術關鍵。
除此之外,就現實而言,有質量的大數據源常常是掌握在政府及大公司手中,如何開放這種大數據源的使用,事關社會的發展和人民生活的福祉,必須從制度和機制上給予保障。在這方面,美國政府的數據開放政策不僅為政府開放數據源起到了一種很好的參照作用,而且對大公司所掌握的數據源的開放也有著重要的借鑒意義。endprint