郭鎮之+++萬婧
【摘要】當前的大數據熱,人們通過大數據的方式了解環境,并對大數據的使用進行監督。經濟新聞依賴于數據。搜集各方面的大數據,可以發現新的經濟問題,產生新的經濟視角,預測未來經濟前景,揭示深層的經濟問題。但人們對大數據也存在認知誤區,大數據同樣帶來隱私權等新技術的風險。
【關鍵詞】大數據 經濟新聞 誤解 風險
【中圖分類號】G220【文獻標識碼】A
2014年的春節前后,“大數據”再次引發關注。一個是“嘀嘀”和“快的”兩家手機打車公司的價格補貼競爭激烈,被行家指出——現在是搶市場,未來則爭數據。②另一個是春節期間“百度遷徙”推出的顯示春運人群流向的大數據動態圖,經中央電視臺推介,在全國聲名大噪。這些實例有力證明,大數據應用已經叩響中國的大門。
一、大數據時代來臨
我們已經進入一個數字化的信息時代。所謂數字化,就是采用一種獨特的數字方式(digit)呈現信息,將各種來源和形式的信息轉化為0與1的排列組合方式,貯存并傳遞。在這個信息化的數字時代,信息量極大增長,且信息使用更加方便。
數字化產生了新的概念,同時將一些原有概念賦予新含義,如數據與大數據。英文的data原指一切可以用于分析的資料(如圖形、聲音、文字、數字、字符和符號等),現在則特指數字化資料,亦即經過初步抽象,以單一數字形式系統性地呈現,以構成信息和產生知識的原始材料。數據是一種可以作為計算機加工“原料”的結構化數值堆。而近年流行起來的大數據(big data)指的是無所不包的數據內容,或者數據整體。
人類對“數字”(包括數量、數值)的認識經歷了一個從簡單到復雜、從粗糙到精細的過程。在傳統社會(可稱為“前數據時代”),人們使用的是簡單數量概念,而且只能依賴總結經驗、猜想因果和推測理論,或者純粹按照價值觀去認識未知領域及其規律。在現代社會(數據時代),科學實證研究方法引導人們依賴抽樣數據和局部數據,去發現、認識和改造現實世界。在當前的信息社會(大數據時代),“人類第一次有機會和條件,在非常多的領域和非常深入的層次獲得和使用全面數據、完整數據和系統數據”,“獲取過去不可能獲取的知識,得到過去無法企及的商機”。③而當前的大數據熱潮,不僅為專家學者提供了研究客觀世界的對象,也成為社會各界廣泛參與的“群眾運動”:公眾以自身的行為貢獻數據,通過大數據的方式了解環境,并對大數據的使用進行監督,提出批評。
二、大數據與經濟新聞
經濟世界是大數據的樂土。英文的“經濟”(Economy)一詞源自古希臘語“家政術”,本來的含義是指管理家庭財務的方法。到了近代,才擴大為治理國家的含義(即政治經濟)?!敖洕币辉~也是中國古代“經國濟世”“經國濟民”等詞語的省略語,④具有“配置與管理”“效率與節省”等廣泛的含義。
狹義的“經濟”是一種體系,指在一定范圍(國家、區域)內組織生產、分配、流通和消費等一切活動及其相互關系的系統之總稱。⑤采寫與經濟領域相關的新聞報道和評論,就是大眾傳媒的經濟新聞。經濟新聞可以粗略地分為兩大目標取向:經營者(如企業家、商務人群)角度、專業角度(例如《財經》雜志),面向的是高端市場,報道和分析較為復雜或者相對專門的經濟現象;而市場角度、消費者角度(包括大量廣播電視經濟類節目,如中央人民廣播電臺經濟之聲的《天天3·15》等欄目)則面對的是普通公眾,告知、引導并解釋廣泛的經濟信息或者生活常識,并維護消費者權益。
在很大程度上,經濟新聞依賴于數據:例如人口及其特征、國內生產總值(GDP)、國民生產總值(GNP)、消費者物價指數(CPI)、基尼系數,等等,都是一個經濟社會必須監控的數據。大數據可以成為經濟新聞的背景和線索,通過分析其實質,深化人們對社會的認識。
經濟數據與一些特定的新聞領域聯系又特別緊密:財經新聞(如房地產泡沫,環比漲幅、同比漲幅及其漲落趨勢,都是社會和公眾所關心的)、環境新聞(如空氣質量特別是細顆粒物PM2.5數值的監測,以及專家對衣食住行的參考建議)、健康新聞(如各種癌癥患病率的上升或者下降,包括提供健康知識和生活常識)。這些消息和事件本身就構成經濟報道的內容,成為廣義的數據新聞。
狹義的數據新聞則是基于數據的抓取、挖掘、統計、分析和可視化呈現,進行新聞報道。例如,20世紀60年代出現的“精確新聞學”,就是新聞機構倡導的使用數據向公眾提供結構化信息的操作方法?!熬_新聞”提高了新聞報道的客觀性和可信度。20世紀70至80年代,新聞機構又開始以電腦收集和分析數據進行新聞報道,被稱為“計算機輔助報道”(computer-assisted reporting,CAR),從而有組織、系統化地提升了數據的意義。這些實踐,是大數據新聞的先驅。
“大數據新聞學”使得傳統的數據新聞范圍更大,無所不包,如物聯網數據與“傳感新聞”(任何電子感應終端,如電腦、手機應用中產生的流量及其內容意義,都可能提供數據來源)。還有用戶自行生產的傳播內容和自發產生的應用數據(就想想人們每天發出的微博和微信吧),也都可能成為新聞來源。同時,現代生活產生的數據量極為巨大,目前的計量單位已經從M、G和T發展到P、E、Z。
搜集各方面較完整的數據,可以獲得意料之外的發現——通過挖掘事實,可以發現新的經濟問題,產生新的經濟視角,預測未來經濟前景。一個廣泛傳說的有趣案例是:一位美國父親抗議企業向其未成年的女兒針對性地發放嬰幼兒產品廣告,卻發現女兒其實已經懷孕,而自己尚不知情。原來,企業通過系統分析該女孩的消費行為和消費習慣,發現了疑似“懷孕”的征兆,從而早于其親屬做出預測,并開展了營銷。
異常的數據流動還可能揭示深層的問題。例如,根據股票市場的異常資金流動,可能發現“內幕交易”“老鼠倉”等腐敗問題——這往往構成調查性新聞的內容。由于大數據的出現,現在許多國家的媒體“發動群眾”,進行輿論監督、社會監督和公眾監督。如英國《衛報》將議員財產及議會資金流向等大數據發布到網站上,并提供在線計算功能,以草根“眾包”的方式發掘出若干貪腐丑聞。
當然,經濟不是生活中的孤立現象,而是與人們的各種活動息息相關的。因此,社會生活的方方面面,包括政治文化活動所產生的大數據,都可能對經濟發生影響。而大數據帶來的誤解與風險,也可能表現在許多領域。
三、大數據應用:誤解與風險
大數據是建立在計算機技術(特別是云計算等超大規模信息處理)基礎之上的,它帶來的是一種新技術的風險。
在當代,對新技術總有一種占主流地位的樂觀主義。特別是當新技術成為企業界新的經濟增長點和盈利富礦的時候,更可能產生一種利潤推導的新技術沖動。當代技術樂觀主義的重量級代表人物可能非美國的萊文森莫屬了。曾為媒介批評家(也是新技術悲觀主義者)尼爾·波茲曼弟子的保羅·萊文森,如今卻是新技術預言家麥克盧漢的“傳人”。萊文森在名噪一時的《軟利器》一書中承認:“任何信息技術都會產生意想不到、意義深遠的結果”;但他又堅信:“我們有能力評估并有可能適當調節這樣的結果??紤]到信息技術和我們的評估能力這兩種相互平衡的因素,我們就可以踏上信息革命的歷史之旅和未來之旅……”⑥真的會是這樣嗎?
萊文森的樂觀預言并不那么令人放心。英國學者維克托·邁爾-舍恩伯格和肯尼思·庫克耶在其廣受歡迎的2012年新著《大數據時代》中就專辟第7章說明,“風險:讓數據主宰一切的隱憂”,并主張實行“自由與責任并舉的數據管理”(第8章)。的確,“無所不用其極”的大數據是有風險的;更可怕的是人們對這種風險的無知無畏。
1. 對大數據的誤解
大數據帶來的風險包括對大數據時代認知特征轉變的誤解。全數據樣本、不苛求精確和重視相關性而非因果關系,被認為是大數據應用的三大特征。如何理解這些特征呢?的確,《大數據時代》的作者指出,大數據與三個重大的思維轉變有關:“首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。”“其次,我們樂于接受數據的紛繁復雜,而不再追求精確性?!薄白詈?,我們的思想發生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系?!雹叩绻J為,這三項轉變意味著全樣本將取代抽樣方法、人們將不再追求認識的準確性和對外間世界的探索將止于關聯而不求因果,那么,這顯然是簡單化的理解。本文認為,對大數據時代的三大特征都需要認真分析及正確解讀:《大數據時代》提出的,是一種大數據的研究思路,而不是指全部的研究方法;向大數據研究轉變的必要條件,也不是人類認知活動的充分條件。歸根結底,大數據只不過是人們認識世界的一種途徑而已。
某些人對世界的認知,現在因大數據的引進而導致誤解。首先,有一種誤解——在大數據時代,工作目標,即使是非大數據研究的其他工作目標,也可以順便犧牲準確性。例如,《大數據時代》的譯者之一便說:“接下翻譯這本《大數據時代》的任務時,我的目標是做到110%的好……很遺憾,我們最終只做到了90%……如果再給我一個月的時間,就可以達到我預想的110%甚至120%……”“之所以把這個(不完美的)版本呈現給讀者:一是因為我們的努力使得本書中譯本的出版和英文原版完全同步……二是我相信作者在書中的一個重要觀點,就是大數據時代,要允許一點點的錯誤和不完美,因為效率可能更加重要!”(引文括弧中的文字是本文加的)⑧
對于大數據研究不苛求精確性(并不是放棄準確性)的特征,本文的理解是:在非精確數據(包括大數據)可能得出可靠結論的情況下,確實不必要追求精確性。例如,人們一定要知道某次大型集會準確的參與人數嗎?顯然不必要。但這并不意味著完全放棄準確性原則。醫生開藥,藥劑量需要盡可能精確。翻譯,同樣需要準確性(雖然不一定能夠完全做到;但至少應該是一個必要目標)。當然,我相信,譯者的說法只是一種自謙和解嘲,并非真的打算放棄翻譯的準確性。
是否要求精確(或者準確),得看具體的對象和問題。經濟新聞的準確性需要毋庸置疑。數據時代如此,大數據時代依然如此?,F在數據滿天飛,統計口徑和統計方法又各不相同,數字互相打架,甚至結果截然相反。如果長期使用一些注水的、任意“結構”和“加權”的統計數據指導中國宏觀經濟的運行,其后果不堪設想。
關于舍因果而就相關的特征,本文的猜想是:人們可能不必、也可能繼續尋找原因,而不是止步于結果,相關現象會導向因果追尋。很可能是——先知其然,再知其所以然,而并非一律知其然不求其所以然。例如,《大數據時代》所舉的沃爾瑪公司的著名案例:發現在季節性颶風來臨時,手電筒與某種蛋撻的銷售量同時增加。沃爾瑪超市可能會僅僅按照經驗,把庫存的蛋撻放在靠近手電筒等颶風用品的位置,就此了事;但研究人員不難理解,也不難解釋其中的因果關系——災害天氣人們有各種配套的生活需求——并深入挖掘這些相關的需求。那時候,配套搭售的商品就可能不是兩種,而是三種五種了?,F象的出現必有原因,相關性僅僅是人們尚未確認的諸多聯系之一而已。因果性追求事關意義、價值、目標和態度,各種人認識外界的需要并不相同,難求一律。
據說,大數據顯示,日本年輕人的平均身高已經超過中國年輕人。科學家提出,喝牛奶與身高增長之間存在因果關系,似乎圓滿地解釋了二戰后日本年輕人身高增長的原因,也促進了牛奶的需求與供給。但對更多的科學問題,目前的統計數據(尤其是大數據)可能只顯示相關性,無法解釋其因果性。人們可能需要更多的證據去證實(或者證偽),并解釋其因果關系??茖W研究需要精確的數據與可靠的相關性(因果聯系),因此,更可能采用抽樣統計和實驗方法。一句話,大數據及其應用,也要看具體的對象和問題。
對于全樣本的特征更是如此。有時,全樣本確實可能代替抽樣樣本,甚至更迅速、更經濟地得出結論。如《大數據時代》所舉的例子:谷歌“流感趨勢”(通過用戶求治相關癥狀的網絡搜索),比之于醫療衛生部門的層層上報,便更簡單、更迅速地發現了流行性感冒的爆發趨勢。從這個例子當然可以看出:樣本量大不一定意味著統計方法更復雜;樣本量小也不一定意味著統計成本更節?。╡conomical也有“經濟的”、“節省”的意思)。同樣的例子還有,收視率調查就不一定比電視數字監控的統計更準確、更經濟。在發現收視儀得出的統計數據與傳統的日記回憶法數據迥然不同之后,人們更有理由懷疑“抽樣調查”的準確性。很可能,在將來的某一天,大數據的收視測量將完全取代費時費力費錢的抽樣樣本收視率調查。而大數據的采用,正是因為這種方法有時更節省成本,有時則更準確。
不過,雖然有時候大數據的簡單算法比抽樣數據的復雜算法更有效、更節省,但大數據的統計并不總是可行的。在中國當下,數據的公開性(可獲得性)和可信性(真實性)更是一個致命的問題。所以,全樣本不可能完全取代更有代表性的抽樣數據。同時,大數據的“客觀性”(不易操縱性)也往往能夠凸顯數據之間的矛盾,暴露人為編造的痕跡。總之,十八般武器,各有各的長處。人類認識世界的途徑是多元的。全樣本與抽樣樣本之選擇,還要看適用性。
2. 大數據帶來的風險
以為大數據時代一切(或者大多數)懸疑問題都可迎刃而解,同樣是天真的。在此,重要的問題是前提:全樣本大數據是否可得?公布的大數據是否客觀真實?也就是說,信息是否足夠公開透明?因此,大數據需要結構化的整體社會保障。
我們常常看到各種數據失真、數據造假的案例,而不可靠的數據導致認知偏差,后果可能不亞于完全的無知。由于框架的偏倚,數據“打架”的現象也頻頻出現。例如,國家統計局2013年12月18日公布消息說:廣州市房價同比漲幅達20.9%,環比上漲0.8%;而在同一天,廣州市國土房管局公布的房價數據卻是:環比大降10.6%,當月成交均價同比下降7.1%。這怎么可能呢?原來,兩組均屬“真實”數據的差異,來源于統計方式的不同。廣州將位于遠郊的從化和增城兩個縣級市納入了廣州市的房價統計(這兩處的平均房價每平方米不足萬元;而廣州市核心區的平均房價四五萬元),當地部門將原來未計入廣州市的兩市低房價納入算術平均的方法,導致了結論的根本不同。⑨
對數字各取所需,難免發生偏頗;但導致失誤的,往往不在于應用手段,而在于指導思想。商業和政治權力常常利用數據誤導輿論,歪曲和遮蔽社會真相。例如,英國統計局曾公布一批教育機構的數據,通過“學生是否在校吃免費午餐”(低收入家庭的孩子才可以享受免費午餐)作為測量標準;并因為享受免費午餐的兒童數量不大,而得出結論說:英國貧窮家庭不多,英國基礎教育機會平等。但《金融時報》通過重新解讀數據,發現統計局將不能享用免費午餐家庭的孩子都歸類于“不貧窮”范疇;而在英國,并非所有地區的貧窮孩子都能享受免費午餐,所以這種統計方法是不可靠的,得出的結論也是不可信的。這只是玩弄數據的例子之一。在中國,濫用、誤用甚至造假數據的情形就更多了。
研究新媒介的學者彭蘭指出:數據的豐富性與其準確性、有效性并不能畫等號,相反,數據的豐富性會增加對數據驗證的難度和有效數據篩選的復雜度。⑩因此,關鍵不在于能否使用大數據,而在于如何使用大數據。除了要求社會制度對信息的公開透明之外,采集和獲取數據的途徑也必須科學有效——這意味著社會方方面面專業統計水平的提高。同時,收集數據、開發數據的人必須具備專業的素養,才能使用可靠的方法,得出正確的結論。最后,法律、道德與個人倫理的約束在數據使用中扮演著關鍵的角色。
大數據不僅存在可靠性方面的風險,還導致對隱私的沖擊。這也是新媒介技術帶來的新問題。隨著信息的數字化,現在,每一個服務商都可能掌握甚至出售我們的部分信息,包括隱秘信息,即隱私。例如,英國發生了商業化小報以新技術(網絡、手機)為途徑的竊聽丑聞。美國前特工人員斯諾登揭露的美國中央情報局的“棱鏡計劃”,將全世界都納入了美國的監控范圍。某國機場以“防止恐怖襲擊”為理由,發明一種紅外線透視裝置,接受檢查的人形同裸體,被展示于眾目睽睽之下……據說,這樣的全方位檢測可以獲得最準確的個人定位。大數據時代每個人都成為透明的人。然而,誰可以合法地接觸我們的隱私?對侵犯隱私的行為該如何判定,如何懲處?處置這樣的問題,法律卻是滯后的。公民的隱私權受到威脅,不安全感導致人們的擔憂和焦慮。
大數據還帶來其他一些風險:首先,從虛擬的大數據中我們能否獲得準確的現實感?不一定。很可能也不是。因為,某一特定范圍的“大數據”并不意味著對社會現實整體的準確反映——總有探照燈照不到的地方。此外,我們被無邊無際的數據淹沒了……需要處理的信息越來越多,而有價值的信息比例越來越小。
物聯網技術正在躍躍欲試,力求全面占領國家經濟生活?;ヂ摼W研究者彭蘭警告說:“物聯網技術所采集的信息很多都涉及個人隱私,社會化媒體以及用戶數據的利用,也往往容易越過隱私邊界。這將是對媒體倫理的新挑戰?!彼?,我們對大數據的認識和使用才剛剛開始,維護個人安全,保護公民隱私,促進公共利益發展和社會穩定繁榮的目標任重而道遠。