□ 本刊記者 邢 華
大數(shù)據(jù)帶來時代大變革
——訪國防科技大學教授賈焰
□ 本刊記者 邢 華
記者:賈教授,您好!人類社會已經(jīng)進入大數(shù)據(jù)時代,可以說,大數(shù)據(jù)無處不在。那么,什么樣的數(shù)據(jù)才能稱之為大數(shù)據(jù)?
賈焰:大數(shù)據(jù)是指在一定時間內(nèi)很難依靠已有的數(shù)據(jù)處理技術(shù)進行采集、管理和分析的總的數(shù)據(jù)集合。簡單講,就是在一定時間內(nèi),我們通過已有的技術(shù)不能處理的數(shù)據(jù),就叫大數(shù)據(jù)。這個定義其實是很難去把握或者界定。
但是,大數(shù)據(jù)具有以下五個特點:一是規(guī)模巨大;二是形式多樣,包括文本、視頻、音頻、圖片、文字等數(shù)字以及它們的變化組合;三是動態(tài)產(chǎn)生的,比如高速公路攝像頭捕捉的動態(tài)信息;四是不確定的,也可能是不可信的;五是有價值的。所以,判定數(shù)據(jù)是不是大數(shù)據(jù),拿這五個特點來套一下,如果全部能夠套上,那么它就是大數(shù)據(jù)。比如微信、微博、論壇等等,都是大數(shù)據(jù)。
界定什么是大數(shù)據(jù)以后,最重要的是對大數(shù)據(jù)進行分析、挖掘,從而揭示出隱藏在數(shù)據(jù)集合中的規(guī)律,發(fā)現(xiàn)出有價值的知識和信息。所以,我們談?wù)摯髷?shù)據(jù),一定離不開大數(shù)據(jù)分析。
記者:通過大數(shù)據(jù)定義的界定,可以判定大數(shù)據(jù)與我們的生活息息相關(guān)。您能結(jié)合實際說明一下大數(shù)據(jù)分析對人類生產(chǎn)生活帶來哪些影響嗎?
賈焰:我們都從淘寶買過東西,也知道那里假貨泛濫。為了挽回電商的聲譽,必須讓假冒偽劣產(chǎn)品下架,但是面對10億量級以上的在線商品,一個個去判斷它是不是假冒偽劣,對人工來講是做不到的。于是,阿里巴巴用了大數(shù)據(jù)分析的一個技術(shù),通過網(wǎng)站上傳的圖片、內(nèi)容、用戶數(shù)據(jù)等方方面面的大數(shù)據(jù)關(guān)聯(lián)分析,自動來發(fā)現(xiàn)假冒偽劣商品并把它下架。再比如360手機殺毒軟件。這個殺毒軟件通過大數(shù)據(jù)分析,幫助手機用戶攔截非常多的詐騙信息。這兩個都是大數(shù)據(jù)分析的有效案例。
還有,美國中央情報局擊斃本·拉登,也是大數(shù)據(jù)分析非常重要的成績。本·拉登是一個非常聰明的人,他不用手機等任何現(xiàn)代化的東西,也就是說,通過服務(wù)商、互聯(lián)網(wǎng),是找不到他的。但是,美國的大數(shù)據(jù)分析公司帕蘭提爾通過對電話、衛(wèi)星影像、密切聯(lián)系人的郵件、密切聯(lián)系人的行蹤等大數(shù)據(jù)綜合分析,協(xié)助中央情報局獲取了本·拉登的位置信息。
通過這些例子,我們可以看到,大數(shù)據(jù)分析并不神秘,它已經(jīng)在我們的生活、工作乃至國家政治、經(jīng)濟、社會等各行業(yè),發(fā)揮著越來越重要的作用。
記者:當前大數(shù)據(jù)分析,有哪些重要的技術(shù)?
賈焰:現(xiàn)在大數(shù)據(jù)挖掘分析的一個非常重要的技術(shù),就是知識圖譜。知識圖譜能把人和人、人和機構(gòu)、人和事物關(guān)聯(lián)起來,表現(xiàn)形式為一個知識庫,呈現(xiàn)為一個語義網(wǎng),每一個節(jié)點都代表著人、機構(gòu)等實體,每個節(jié)點之間的線就是它們之間的關(guān)系。
知識圖譜是可以不斷完善的。比如美國總統(tǒng)特朗普的知識圖譜,包含他的出生日、出生地、國籍、職務(wù)等屬性,它可以慢慢加入他的女兒、夫人、兒子等所有信息,還可以加入與他們有關(guān)聯(lián)的人的家庭背景、人物關(guān)系等信息。知識圖譜不僅可以從互聯(lián)網(wǎng)上拿信息進行構(gòu)建,還可以自己進行推演。比如說它推出A是美國副總統(tǒng),B是美國總統(tǒng),就會自動說他們兩個是同事。再比如,它可以通過特朗普找到他的妻子,然后找到她的屬性是模特,就可以回答“特朗普妻子的職業(yè)是什么”這個問題。知識圖譜還可以進行屬性推理和驗證。因為美國法律規(guī)定,總統(tǒng)必須是美國出生的,所以說,知識圖譜會推斷總統(tǒng)國籍是美國。
其實,IBM推的精準醫(yī)療,以及我們國家未來要推出的健康咨詢、精準醫(yī)療,都是基于這樣的技術(shù)來構(gòu)建的。有了這個技術(shù),將來可以根據(jù)不同人的基因、年齡、生活方式等,精準推薦用藥方案。
所以,知識圖譜是大數(shù)據(jù)分析的非常有用的利器,它可以把各種關(guān)系不斷地關(guān)聯(lián)起來,最后形成一個很有用的數(shù)據(jù)利用的方法。
記者:大數(shù)據(jù)為各行各業(yè)服務(wù)的同時,也泄露了人們的隱私。這種矛盾如何解決?
賈焰:大數(shù)據(jù)蘊含著巨大的商業(yè)價值,目前各行各業(yè)都在做大數(shù)據(jù)分析和挖掘,企業(yè)、運營商等在各自擁有的數(shù)據(jù)或互聯(lián)網(wǎng)上發(fā)布的數(shù)據(jù)中發(fā)掘潛在價值,為提高自己的利潤或達到其他目的服務(wù)。如何在不泄露用戶隱私的前提下,挖掘大數(shù)據(jù)的價值,是目前大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵問題。
為了從大數(shù)據(jù)中獲益,數(shù)據(jù)持有方有時需要公開發(fā)布己方數(shù)據(jù),這些數(shù)據(jù)通常會包含一定的用戶信息。服務(wù)方在數(shù)據(jù)發(fā)布之前需要對數(shù)據(jù)進行處理,使用戶隱私免遭泄露。此時,確保用戶隱私信息不被惡意的第三方獲取是極為重要的。有時,數(shù)據(jù)使用者會惡意挖掘大數(shù)據(jù)中的隱私信息,此種情況下,更需要加強對數(shù)據(jù)發(fā)布時的隱私保護,以達到數(shù)據(jù)利用和隱私保護二者之間的折中。
記者:數(shù)據(jù)帶來的信息風暴正深刻改變我們的生活、工作和思維方式,對政府和群眾關(guān)注的網(wǎng)絡(luò)輿情,大數(shù)據(jù)分析是否也應(yīng)用其中?
賈焰:隨著我國近年來網(wǎng)絡(luò)輿情事件的數(shù)量逐年增長,社會各界開始重視網(wǎng)絡(luò)輿情監(jiān)測、分析與管理。通過大數(shù)據(jù)技術(shù)手段對網(wǎng)絡(luò)輿情進行監(jiān)測、分析與管理也日趨重要。
我們有一個互聯(lián)網(wǎng)輿情的大數(shù)據(jù)分析系統(tǒng),可以監(jiān)督網(wǎng)絡(luò)的很多問題。比如自媒體微博,假如我在某個帖子加上監(jiān)控,只要有人在微博上談?wù)撽P(guān)于這方面的帖子,十幾秒就能被監(jiān)測到。這個系統(tǒng)還可以分析發(fā)帖的趨勢,誰在發(fā)、發(fā)了多少、影響了多少人、誰在傳,等等。大數(shù)據(jù)技術(shù)的發(fā)展,不僅能夠針對重大輿情事件個案進行更精準地分析研判,而且便于擴大分析研判的范圍和視野,有助于更全面地把握網(wǎng)絡(luò)輿情發(fā)展的整體趨勢。通過大數(shù)據(jù)技術(shù)和智能計算技術(shù)的結(jié)合使用,重大網(wǎng)絡(luò)輿情事件的預(yù)測能力和水平有望得到提升。
在應(yīng)用方面,很多政府部門和企事業(yè)單位,都會通過與輿情機構(gòu)合作、購買輿情企業(yè)系統(tǒng)或服務(wù)的方式,構(gòu)建服務(wù)于自身的網(wǎng)絡(luò)輿情監(jiān)測、分析與管理機制,提高自身的網(wǎng)絡(luò)輿情感知能力和危機公關(guān)能力。各級政府機關(guān)、高校、大中型企業(yè)等,通常是網(wǎng)絡(luò)輿情系統(tǒng)和服務(wù)的主要客戶。甚至一些中小企業(yè)或公眾人物,為了產(chǎn)品或個人的口碑,也開始成為網(wǎng)絡(luò)輿情系統(tǒng)或服務(wù)的消費者。
記者:大數(shù)據(jù)的未來發(fā)展趨勢是什么?
賈焰:隨著大數(shù)據(jù)分析技術(shù)在各行業(yè)領(lǐng)域的進一步應(yīng)用推廣,大數(shù)據(jù)會給我們帶來大變革,也會帶來更多新的機遇與挑戰(zhàn)。
大數(shù)據(jù)會改變我們的認識。假如把世界看成兩個平行的世界,那么人類真實的世界是物理世界,與其平行的是數(shù)據(jù)世界。物理世界所有的一切,幾乎都可以在數(shù)據(jù)世界有一個反映,即一切都可以數(shù)字化。通過“量化一切”實現(xiàn)世界的數(shù)據(jù)化,可能改變?nèi)祟愄剿骱驼J知世界的方式,帶來全新的“大數(shù)據(jù)世界觀”。
大數(shù)據(jù)會改變我們的科學觀。當前對抗癌癥,用同樣治療的方法,有些人死了,有些人治好了,什么原因?是因為我們的科學還不夠精準。其實人的病是跟基因、心情、生活環(huán)境等因素相關(guān)的。如果能把這些問題的數(shù)據(jù)全部聚集在一起進行分析,精準用藥,就可以實現(xiàn)精準醫(yī)療。“科學始于數(shù)據(jù)”的呼聲正在改變?nèi)藗兊目茖W觀和認知觀,引發(fā)新的科學研究模式。
大數(shù)據(jù)會改變我們的經(jīng)濟。大數(shù)據(jù)已經(jīng)帶來巨大的商業(yè)利益,金融、能源、交通、健康醫(yī)療等重要行業(yè)大數(shù)據(jù)已成為國家重要的戰(zhàn)略資源。如何從國家安全層面對大數(shù)據(jù)進行保護,也是亟待研究和解決的問題。
大數(shù)據(jù)還可以改變我們的管理。在大數(shù)據(jù)時代,人是可以被分析的,就像借助顯微鏡可以看清細胞結(jié)構(gòu)一樣,借助大數(shù)據(jù)分析技術(shù),可以分析人的行為、情感甚至思維,以及復雜系統(tǒng)運行規(guī)律,甚至整個社會的運行方式。未來的社會管理,可以借助大數(shù)據(jù)分析來進行更加科學的引領(lǐng),創(chuàng)新管理模式、提升管理效率。

賈焰,國防科技大學教授、博士生導師、網(wǎng)絡(luò)與信息安全研究所副所長,中國計算機學會計算機安全專業(yè)委員會常務(wù)委員,數(shù)據(jù)庫專業(yè)委員會委員,普適計算機專業(yè)委員會委員,湖南互聯(lián)網(wǎng)協(xié)會常務(wù)理事,湖南省第十屆人大代表。
本刊記者 孫大勇//攝影