
早在20世紀80年代,美國就有人提出“大數(shù)據(jù)”的概念。20多年來,這個名詞變得越來越流行,越來越重要,最后成為國家和政府層面的發(fā)展戰(zhàn)略。
尿布和啤酒搭賣背后的奧秘
“大數(shù)據(jù)”之大,不僅在于容量,更多意義在于:人類可以分析和使用的數(shù)據(jù)大增,通過這些數(shù)據(jù)的交換、整合和分析,個人在真實世界的活動得到前所未有的記錄,新的知識與價值被不斷發(fā)現(xiàn)與創(chuàng)造。
沃爾瑪是全世界最大的零售商,擁有8400多家分店、200多萬名雇員,以及全球數(shù)一數(shù)二的數(shù)據(jù)倉庫,是最早應(yīng)用數(shù)據(jù)挖掘技術(shù)的企業(yè)之一,也是數(shù)據(jù)挖掘技術(shù)的集大成者。在一次例行的數(shù)據(jù)分析之后,研究人員發(fā)現(xiàn):跟尿布一起搭配購買最多的竟是啤酒!因為許多年輕爸爸經(jīng)常到超市買尿布,他們中的30%~40%會順便買點啤酒犒勞自己。沃爾瑪隨后對啤酒和尿布進行了捆綁銷售,不出意料,銷售量雙雙增加。
美國某地區(qū)新安裝的一部ATM提款機數(shù)據(jù)記錄出現(xiàn)異常:每天午夜12點到凌晨2點之間,大量款項被提取。銀行擔心這涉及詐騙等違規(guī)操作,于是展開監(jiān)控和調(diào)查。結(jié)果是:提款機旁邊是一家色情俱樂部。顧客深夜取現(xiàn),本來不想在信用卡上留下“不體面”的消費記錄,卻仍然被“數(shù)據(jù)”暴露無遺。
顯然,“大數(shù)據(jù)”既能量化一個群體的行為,也能透露個人隱私。
密歇根州一些警察就曾利用警務(wù)數(shù)據(jù)庫“獵艷”。他們在街上邂逅漂亮女士,記下她們的車牌號碼,通過查詢數(shù)據(jù)庫,獲得其住址等個人信息。2001年前后5年間,涉嫌濫用警務(wù)數(shù)據(jù)庫的警察共有90名之多。特拉華州還有政府官員將公民個人信息泄露、出賣給賭博公司,幫助他們追債,開發(fā)新顧客。
事實上,關(guān)于“大數(shù)據(jù)”利與弊的辯論,美國各界的討論從來沒有間斷,形成涇渭分明的兩派。
上世紀60年代,人類計算模式還處在主機時代時,白宮預(yù)算局(現(xiàn)更名為行政管理預(yù)算局)就提議聯(lián)邦政府成立“數(shù)據(jù)中心”,把政府部門所有數(shù)據(jù)庫連接、集中、整合起來,建立一個大型數(shù)據(jù)庫——“中央數(shù)據(jù)銀行”。
支持者認為,現(xiàn)代經(jīng)濟依賴大規(guī)模的數(shù)據(jù)整合和交換。統(tǒng)一集成的中央數(shù)據(jù)庫將提高經(jīng)濟效率,方便大眾生活,是現(xiàn)代社會發(fā)展的必然,也是社會進步的不二選擇。
反對者則是隱私至上的信奉者。他們認為,在信息時代,無論個人日常瑣事,還是事關(guān)健康、教育的重大決策,都會在各種信息系統(tǒng)中留下“數(shù)據(jù)腳印”。其保存在不同系統(tǒng)中可能無傷大雅,但如果建立起中央數(shù)據(jù)銀行,通過數(shù)據(jù)整合和信息加總,就可以再現(xiàn)一個人生活的軌跡和全景,各個系統(tǒng)之間的數(shù)據(jù)彼此印證,互相解釋,個人隱私就無所遁形。這將形成一種“數(shù)據(jù)監(jiān)控”,無異于《一九八四》中的電幕。甚至有人控訴:大數(shù)據(jù)就是“老大哥”!
大數(shù)據(jù)監(jiān)督白宮
盡管如此,作為開放政府的主要舉措,美國Data.Gov這艘“旗艦”起航之后,公共數(shù)據(jù)的無償共享將數(shù)據(jù)開放的概念詮釋得淋漓盡致,新聞輿論也給予了空前一致的好評。
如何避免買到具有安全隱患和質(zhì)量問題的商品,無疑是所有消費者最關(guān)心的話題,在美國也不例外。特別是嬰幼兒的食品和用品,如果有質(zhì)量問題,往往成為父母親的夢魘。
Data.Gov上線后,各種因為質(zhì)量問題而被召回的商品記錄立即成為最受歡迎的數(shù)據(jù)之一。
聯(lián)邦政府共有農(nóng)業(yè)部、食品藥品監(jiān)督局、消費者委員會等6個部門涉及商品質(zhì)量和產(chǎn)品召回的管理工作。早期,這6個部門在各自網(wǎng)頁上公開其管轄范圍之內(nèi)的問題商品的召回記錄。
2009年,為了方便用戶查詢,聯(lián)邦政府內(nèi)務(wù)部決定:在整合這些數(shù)據(jù)的基礎(chǔ)上,開設(shè)一個專門的商品召回查詢網(wǎng)站。在這個網(wǎng)站上,消費者可以對任何商品進行查詢,獲得其是否具有被召回的記錄,也可以對某一種商品進行跟蹤,獲得電子郵件的提示信息。
這個系統(tǒng)還可以在智能手機上使用。消費者在購物時,通過在隨身攜帶的智能手機上鍵入產(chǎn)品的名稱及型號,就可以在購買時直接查看該商品是否具有質(zhì)量問題和被召回的歷史記錄。如果消費者懷疑該商品存在問題或者是被召回產(chǎn)品的漏網(wǎng)之魚,還可以立即在線舉報。眼下,這個系統(tǒng)同時在Android和iOS上都有應(yīng)用,受到消費者莫大歡迎。
Data.Gov的每一步推進,都獲得了陣陣掌聲。開放數(shù)據(jù)的政府機構(gòu)越來越多,數(shù)據(jù)越來越透明,甚至包括白宮。華盛頓責任道德公民中心(CREW)是一個位于華盛頓的公益組織。它致力于通過法律行動監(jiān)督政府官員,防止公職人員為了特殊集團的利益而犧牲公共利益。
在2009年奧巴馬的醫(yī)改方案引起激烈爭論與質(zhì)疑時,CREW創(chuàng)始人梅拉尼?斯隆提出,奧巴馬應(yīng)自證清白,公布自己在上任之后,與醫(yī)療保險行業(yè)的董事長、經(jīng)理人以及相關(guān)說客在白宮的會面次數(shù)、時間長短和會議議題等記錄。
呼吁繼續(xù)“得寸進尺”:人民有權(quán)知道,總統(tǒng)每天在和誰見面,誰在訪問總統(tǒng),誰在訪問白宮,誰在影響政策的制定。
當白宮開放部分數(shù)據(jù)后,陽光基金會主任米勒仍不滿意,他說,白宮公開數(shù)據(jù)的周期應(yīng)該縮短到一天,每天都應(yīng)該發(fā)布前一天的訪客記錄。
此外,陽光基金會還組織技術(shù)人員,把白宮發(fā)布的數(shù)據(jù)記錄和其他數(shù)據(jù)庫進行增值整合。將到訪人員的姓名、白宮訪問記錄和游說人員的捐款數(shù)據(jù)庫、知名人物社會關(guān)系數(shù)據(jù)庫,與維基、谷歌搜索連接整合起來,讓所有游說人員到訪白宮的次數(shù)、捐款的多少以及各類社會關(guān)系等相關(guān)信息都在一個頁面中一覽無余。
2010年4月,有人利用這些數(shù)據(jù)在Data.Gov上開發(fā)了一個新的查詢工具:白宮訪客搜索。借助這個工具,不僅可以按訪問人、被訪問人對原始數(shù)據(jù)進行查詢,還能利用語義網(wǎng)的技術(shù),把相關(guān)人員的數(shù)據(jù)與其他網(wǎng)站連接起來。
另一家公益組織“司法監(jiān)督”的主任進一步主張,除了因公訪問,因私訪問總統(tǒng)和副總統(tǒng)的記錄,也應(yīng)該公開發(fā)布。
2011年4月,“白宮訪客記錄”又引發(fā)了新一輪批評。公共廉政中心是一家致力于推進政府透明的新聞?wù){(diào)查機構(gòu),該機構(gòu)在研究了白宮從2009年9月到2011年4月公布的100多萬條數(shù)據(jù)記錄之后,得出了以下結(jié)論:
一、有人去了白宮,但白宮公布的數(shù)據(jù)當中卻沒有相應(yīng)的記錄;
二、白宮辦公廳主任的受訪記錄僅有500余次,但他的3個助手卻共有4000次;
三、有20.5萬個記錄的時間描述是空白的,其中,很多都是和總統(tǒng)及其高級助手召開的小型會議,會議目的是什么,無從得知。
白宮發(fā)言人對此做了回應(yīng):當初開發(fā)設(shè)計“白宮訪客記錄”系統(tǒng),是為了維持白宮秩序,保護總統(tǒng)和副總統(tǒng)的安全,而不是政治監(jiān)督。
這個回答,確實也道出了問題的關(guān)鍵和白宮的苦衷。
但有理由相信,美國白宮不久后將會安裝上一套適合政治監(jiān)督的訪客信息管理系統(tǒng)。因為,歷史的發(fā)展從來都是這樣——執(zhí)著的公民改變世界。而“大數(shù)據(jù)”,也遠不僅僅是一個技術(shù)命題。
摘自《大數(shù)據(jù)》,徐子沛著,廣西師范大學(xué)出版社2012年7月版