本報(bào)駐加拿大特約記者 陶短房 本報(bào)記者 段聰聰 芮曉煜不少人可能會(huì)奇怪地發(fā)現(xiàn),自己在購物網(wǎng)站大量瀏覽過鞋子后,轉(zhuǎn)而跳去另一個(gè)門戶網(wǎng)站看新聞,新聞旁邊的廣告播放的正是他感興趣的鞋子!這不是偶然的,“這正是大數(shù)據(jù)的一個(gè)商業(yè)應(yīng)用”——對消費(fèi)者實(shí)施精準(zhǔn)化營銷。大數(shù)據(jù)(Big Data)被視為云計(jì)算之后的又一科技熱點(diǎn),它可以讓中國的地方政府通過電力數(shù)據(jù)分析把脈當(dāng)?shù)亟?jīng)濟(jì),也可以讓美國國家安全局通過電話監(jiān)控記錄發(fā)現(xiàn)本·拉登的蛛絲馬跡,它還幫助美國一些青年男女在交友網(wǎng)站找到合適的對象,以及讓谷歌實(shí)現(xiàn)其無人駕駛汽車的夢想。“大數(shù)據(jù)時(shí)代”來臨 美國福布斯雜志4日稱,如今,在瀏覽新聞網(wǎng)站或者參加行業(yè)會(huì)議時(shí),想看不見或聽不到“大數(shù)據(jù)”這個(gè)詞幾乎不可能。路透社4日稱,透過數(shù)據(jù)研究消費(fèi)者行為絕不再是大型企業(yè)的專利了,一些創(chuàng)新企業(yè)正在幫助小公司使用數(shù)據(jù)來服務(wù)消費(fèi)者。英國《衛(wèi)報(bào)》4日則報(bào)道了一場圍繞大數(shù)據(jù)主題的圓桌會(huì)議。而有中國專家稱,2013年將是中國大數(shù)據(jù)元年,5日有消息稱,中國首個(gè)“大數(shù)據(jù)技術(shù)與應(yīng)用”碩士項(xiàng)目成立,“去年一些網(wǎng)站在春運(yùn)購票高峰期間幾乎癱瘓就說明大數(shù)據(jù)處理能力有待提高”。 實(shí)際上,早在2012年,《紐約時(shí)報(bào)》就刊文稱,“大數(shù)據(jù)時(shí)代”已經(jīng)來臨。哈佛大學(xué)量化社科院院長加里·金等則稱,“大數(shù)據(jù)”將在學(xué)術(shù)界、企業(yè)界和政界迅速蔓延,“沒有哪個(gè)領(lǐng)域不會(huì)受到影響”。《規(guī)劃數(shù)字化的未來:美國總統(tǒng)科學(xué)技術(shù)顧問委員會(huì)給總統(tǒng)和國會(huì)的報(bào)告》中曾提出,“聯(lián)邦政府的每一個(gè)機(jī)構(gòu)和部門,都需要制定一個(gè)應(yīng)對‘大數(shù)據(jù)的戰(zhàn)略。”終于在2012年,美國6個(gè)聯(lián)邦政府部門宣布將投入2億多美元立即啟動(dòng)“大數(shù)據(jù)發(fā)展研究計(jì)劃”。 在開頭買鞋子的故事中,美國為企業(yè)級市場提供大數(shù)據(jù)系統(tǒng)處理的公司Cloudera的軟件工程師王之明向《環(huán)球時(shí)報(bào)》記者介紹,神奇之處在于,購物網(wǎng)站、新聞網(wǎng)站和廣告商是3個(gè)不同的主體,卻通過大數(shù)據(jù)技術(shù)實(shí)現(xiàn)精準(zhǔn)營銷。廣告商通過數(shù)據(jù)分析服務(wù),知道正在看新聞的小王想買鞋子,于是就登了鞋子的廣告,而看同一個(gè)新聞網(wǎng)頁的小張看到的也許是手機(jī)廣告,因?yàn)樗谫徫锞W(wǎng)站曾搜索或?yàn)g覽過大量新款手機(jī)。 目前,已有越來越多的傳統(tǒng)行業(yè)走向大數(shù)據(jù)系統(tǒng),如銀行可以對用戶信用卡使用情況進(jìn)行分析,從而判斷賬戶是否被盜,以及對何種顧客提供定制增值服務(wù)等;大型連鎖超市可以通過分析,減少冷門商品的庫存;石油地質(zhì)勘測也因?yàn)閿?shù)據(jù)量龐大需要用到大數(shù)據(jù)技術(shù)。 電力系統(tǒng)也是產(chǎn)生大量數(shù)據(jù)的地方。中國一名電力領(lǐng)域?qū)<覍Α董h(huán)球時(shí)報(bào)》表示,中國的智能電網(wǎng)建成后,采集電力數(shù)據(jù)的成本進(jìn)一步降低。現(xiàn)在每秒鐘在電力系統(tǒng)可以產(chǎn)生大量數(shù)據(jù)。通過大數(shù)據(jù)能夠把如此大規(guī)模的數(shù)據(jù)進(jìn)行整合、分析,加以利用,絕對可以產(chǎn)生新的價(jià)值。政府也可以通過用電量來確認(rèn)行業(yè)發(fā)展情況。如去年東部沿海地區(qū)經(jīng)濟(jì)不好的時(shí)候,浙江省海鹽縣的縣長就曾經(jīng)請電力部門采集和分析當(dāng)?shù)赜秒娗闆r數(shù)據(jù)。如果說企業(yè)可以用財(cái)務(wù)報(bào)表來掩蓋經(jīng)營狀況不良,用電量數(shù)據(jù)卻可以直接反映企業(yè)開工狀況。電力大數(shù)據(jù)的分析和挖掘還可以為建立建筑節(jié)能標(biāo)準(zhǔn),以及為交通、銀行系統(tǒng)提供有用信息。這對中國建設(shè)智能城市有重要意義。 公共衛(wèi)生部門則可以通過互聯(lián)網(wǎng)上的大數(shù)據(jù)嘗試預(yù)估傳染性疾病的分布、傳染擴(kuò)散速度等趨勢,這會(huì)極大提高醫(yī)院對床位、藥品準(zhǔn)備工作的有效性。 大數(shù)據(jù)理念也被美國反恐機(jī)構(gòu)所運(yùn)用。中國信息技術(shù)管理專家、《大數(shù)據(jù)》一書作者涂子沛向《環(huán)球時(shí)報(bào)》介紹,美國蘭德公司情報(bào)政策研究中心的主任帕拉契尼在接受美國媒體采訪時(shí)曾表示,國家安全局從電話監(jiān)控的記錄當(dāng)中發(fā)現(xiàn)了本·拉登的蛛絲馬跡。該局對全美的電話進(jìn)行監(jiān)控,每6小時(shí)收集的數(shù)據(jù)量就相當(dāng)于美國國會(huì)圖書館所有印刷體藏書的信息總量。 大數(shù)據(jù)顧名思義,有數(shù)據(jù)量巨大的含義,不過,在王之明看來,還有一種情況是,數(shù)據(jù)量不大,但運(yùn)算很復(fù)雜。如美國婚戀交友網(wǎng)站eHarmony,數(shù)據(jù)量不多,但系統(tǒng)需要進(jìn)行復(fù)雜計(jì)算和用戶配對,才能得出如何幫助一名用戶找到心儀的對象。“自產(chǎn)生”,可“廢物利用” 大數(shù)據(jù)時(shí)代和傳統(tǒng)數(shù)據(jù)庫時(shí)代有什么不一樣呢? 很多人對數(shù)據(jù)的理解依然停留在“數(shù)字”的概念上,其實(shí),數(shù)據(jù)的范圍已經(jīng)擴(kuò)大。人們發(fā)的每一條微博、電腦上聽到的聲音文件、監(jiān)控器收集到的視頻信息都成為數(shù)據(jù)。不僅有數(shù)字,還包括文本、圖片、聲音、影像、地理位置。未來還可能包括,利用生物技術(shù)收集的生物數(shù)據(jù),比如指紋、脈搏、眼球移動(dòng)記錄等等。正因如此,一些社交網(wǎng)站、微博網(wǎng)站由于用戶不斷自我更新信息,數(shù)據(jù)量倍增。中國人民大學(xué)信息學(xué)院院長杜小勇對《環(huán)球時(shí)報(bào)》表示,原來的計(jì)算機(jī)系統(tǒng)都靠操作員把數(shù)據(jù)輸進(jìn)去,而現(xiàn)在每個(gè)人都成為數(shù)據(jù)的輸入者,加上存儲技術(shù)不斷發(fā)展,使得信息量劇增。益普索咨詢公司數(shù)字研究資深總監(jiān)李峰也因此認(rèn)為,“隨著技術(shù)能夠獲取的最基本原始數(shù)據(jù)不斷增加,大數(shù)據(jù)時(shí)代已經(jīng)到來。” 大數(shù)據(jù)還可以實(shí)現(xiàn)“廢物利用”。王之明介紹,過去九成的原始數(shù)據(jù)在錄入時(shí)就丟棄了,大數(shù)據(jù)卻可以把丟掉的九成數(shù)據(jù)拿來做運(yùn)算。比如顧客在超市購物,結(jié)賬時(shí),超市掌握所有原始購買信息,如該顧客買了A品牌的牛奶和B品牌的雞蛋,超市甚至能通過積分卡一類知道顧客是誰。傳統(tǒng)上,超市只會(huì)保留很少的數(shù)據(jù),如賣了多少產(chǎn)品。但有了大數(shù)據(jù)技術(shù),超市可以保留所有原始數(shù)據(jù),以供將來需要從中挖掘出更多信息時(shí)使用。 與傳統(tǒng)數(shù)據(jù)庫相比,大數(shù)據(jù)還有一大優(yōu)勢,可以用更便宜的技術(shù)實(shí)現(xiàn)計(jì)算目的,便于一些無力承擔(dān)大型數(shù)據(jù)庫開支的小公司選用。此外,一些傳統(tǒng)數(shù)據(jù)庫在數(shù)據(jù)錄入時(shí)需要對原始數(shù)據(jù)進(jìn)行整理,按統(tǒng)一的格式輸入,但比如國家安全部門想通過數(shù)據(jù)分析來追蹤恐怖分子的蹤跡,無法事先判斷會(huì)出什么樣的報(bào)告,進(jìn)而需要怎樣的數(shù)據(jù)統(tǒng)一格式,因此也會(huì)用到大數(shù)據(jù)技術(shù)。 因此,有人說,數(shù)據(jù)是資產(chǎn),是財(cái)富。更有人將數(shù)據(jù)看成是生產(chǎn)要素,越來越活躍,可重復(fù)利用,而且環(huán)保無污染。有中國專家對《環(huán)球時(shí)報(bào)》記者表示,發(fā)展大數(shù)據(jù)對于中國向知識經(jīng)濟(jì)轉(zhuǎn)型具有重要意義。中國在大數(shù)據(jù)時(shí)代不能落后 在涂子沛看來,和中國、印度的競爭對手相比,西方國家的公司無法在產(chǎn)品的成本方面獲得優(yōu)勢,他們只能在商業(yè)過程優(yōu)化方面戰(zhàn)勝對方。目前各行各業(yè)都出現(xiàn)了以數(shù)據(jù)分析為競爭能力的企業(yè),谷歌甚至認(rèn)為其無人駕駛汽車也是一個(gè)大數(shù)據(jù)問題。資料顯示,2011年,麥肯錫公司以2010年度各國新增的存儲器為基準(zhǔn),對全世界大數(shù)據(jù)分布做了一個(gè)統(tǒng)計(jì),中國2010年新增數(shù)據(jù)量約為250拍(一拍是2的50次方),不及日本的400拍,歐洲的2000拍,和美國的3500拍相比,更是連1/10都不到。 益普索的李峰對《環(huán)球時(shí)報(bào)》表示,大數(shù)據(jù)是全球性的,各國的差異在于數(shù)據(jù)獲取的能力。此外,如何把數(shù)據(jù)提煉成信息,并進(jìn)一步轉(zhuǎn)化為知識和應(yīng)用,這一體系的建立靠的是人,數(shù)據(jù)發(fā)掘能力涉及人的創(chuàng)造力。 杜小勇認(rèn)為,美國的技術(shù)更前沿一些,更早地關(guān)注了大數(shù)據(jù)的存在。但由于中國社會(huì)人口巨大,應(yīng)用都是世界最大應(yīng)用,帶來的挑戰(zhàn)也是世界級的。在一輪一輪的IT技術(shù)潮流中,中國與最先進(jìn)技術(shù)之間的差距是在縮小,而不是在擴(kuò)大。中國的863計(jì)劃已發(fā)布了與大數(shù)據(jù)相關(guān)的計(jì)劃。從國家層面上說,中國對大數(shù)據(jù)的關(guān)注基本上與美國是同步的。 不過,“大數(shù)據(jù)”時(shí)代也不可避免地帶來創(chuàng)新挑戰(zhàn),它造就了一個(gè)傳感器和數(shù)據(jù)庫無所不在的世界,而政府、情報(bào)部門和大商業(yè)機(jī)構(gòu)在這方面有著先天優(yōu)勢,這很容易造成數(shù)據(jù)的“單向透明”。數(shù)據(jù)流失、泄露和私下買賣也成為噩夢。 李峰表示,大數(shù)據(jù)是公開化的,要在保護(hù)個(gè)人隱私、商業(yè)機(jī)密、國家安全和共同分享大數(shù)據(jù)之間找到平衡。杜小勇舉例說,如果一個(gè)外國公司通過網(wǎng)絡(luò)商務(wù),知道一個(gè)國家更真實(shí)的經(jīng)濟(jì)運(yùn)行情況,也會(huì)影響國家安全。此外,大數(shù)據(jù)時(shí)代,一個(gè)人總要去參加各種活動(dòng),如電子商務(wù)、網(wǎng)上交流,只要有活動(dòng)就會(huì)留下痕跡,就會(huì)被記錄。個(gè)人信息泄密會(huì)帶來很大問題,但這不應(yīng)成為反對大數(shù)據(jù)的理由,“技術(shù)上要解決,更重要的是立法。”另一方面,也有人在呼吁數(shù)據(jù)的公開,一名中國專家對《環(huán)球時(shí)報(bào)》表示,推動(dòng)中國大數(shù)據(jù)發(fā)展,關(guān)鍵在于政府理念的轉(zhuǎn)變。應(yīng)推動(dòng)數(shù)據(jù)公開,帶動(dòng)從政府到各行業(yè)公開數(shù)據(jù),讓數(shù)據(jù)這種生產(chǎn)要素自由流動(dòng),這樣才能不斷提高其附加值。美國和英國都已經(jīng)有了政府大數(shù)據(jù)網(wǎng)站,在數(shù)據(jù)公開方面先行一步。不管怎么說,大數(shù)據(jù)這一新趨勢必將從理念到實(shí)踐帶來更多創(chuàng)新價(jià)值和挑戰(zhàn)。▲
環(huán)球時(shí)報(bào)2013-02-06