劉卓軍
數據是原料,信息是產品,而真正能體現出價值的還得是信息。“數據”堪稱為元詞,甚至《辭海》中都沒有關于它的明確詞條。對于“信息”,《辭海》則將其解釋成“泛指消息和信號的具體內容和意義”。盡管如此,并不阻礙人們愉快地認為,數據是用于表示客觀事物的未經加工的原始素材,它是對事實、事物、系統的觀察或觀測到的結果,形式上具有多樣性。從人們的生活實踐和社會實踐來看,數據和信息不可分離,數據是信息的載體和表達,信息是數據的內涵,是經過加工了的數據,是數據處理的結果。這種認識和理解與信息論奠基人香農指出的“信息是用來消除隨機不確定性”的本質并不抵觸。
事實上,對于感興趣的事實、事物乃至系統,如果獲取的信息多,對其在認識上的不確定性或模糊性就會少。不難理解,人們對系統的關注和興趣,根本的目的是要認識它、適應它、溶入它、“控制”它,乃至最終利用它并與其和諧相處。這其中當然需要智慧。差不多可以這樣認為,歷史發展到今天,人類獲取智能所遵循的就是一條從數據(data)到信息(information)到常識(knowledge)到認識(insight)到智慧(wisdom)的演變路徑。而人工智能的終極發展,這個路徑也極具價值。
處在信息時代、信息技術高度發展而且還在快速發展的歷史節點上,已經容不得不從大數據、云計算和物聯網這三個維度和角度來審視信息社會的發展進程和狀態了。根據全球最具權威的IT研究與咨詢公司高德納(Gartner)建立的IT概念及潛在項目演變的成熟度變化曲線模型,即便到今天,大數據、云計算和物聯網也還沒有進入到成熟、穩固、全面發展的狀態。這從另一個方面也預示著,信息社會的發展不久將會進入更加激動人心的階段。
正是因為數據與信息的緊密關聯,大數據才在社會的各個層面受到特別的關注和更大的重視。數往知來,獲取數據不是目的,提取信息才是所求,甚至這也僅僅是個過渡性的追求,更大的期盼是獲得更多的知識以提升具有更高智能的智慧。
數據的大量產出是信息技術和信息社會快速發展的必然結果。筆者在1990年代早期赴美國的大學從事研究期間就領略到美國教授和IT工程師的一種察覺:“計算機磁盤空間永遠也不夠大。”根據全球著名的管理咨詢公司麥肯錫(McKinsey)2011發布的關于大數據的報告,到2007年的時候,全球一年所生成的全部數據第一次超過了全世界全部存儲器所能容納的程度。這意味著一些數據如過眼煙云般隨生隨滅了。如今,存儲器集成度在提升價格在下降,以GB和TB為單位的數據盤和存儲器已經非常普遍,盡管全球的數據存儲能力得到明顯加強,但卻要“水漲船高”地面對全球每天生成的高達2.5EB字節之巨量的數據,這大體上相當于1萬個美國國會圖書館全部藏書的數字化之規模。顯然,數據價值評估與數據冗余去除及數據噪音去除已經成為一個首當其沖的問題,因為數據越多,從中提取出有用的信息就越困難。撇開抽樣而利用全數據空間是一個誘人而沒有技術和方法支撐的想法。“啤酒和尿布”的關聯故事很難在更大范圍更寬領域重現,而且即使這個關聯關系本身的發現也需要數據之外的工具和技術。
數據價值挖掘的好,首先數據要存放的好,數據的干凈程度要高。不論是大數據還是小數據,從數據走向信息才是王道。在紀念信息論奠基人香農誕辰100年的今天,我們更應從信息的角度來審視數據及相關的概念延展:0級信息是數據,1級信息是信息本身,2級信息是常識,3級信息是認識,4級信息是智慧。本質上,數據總是產生自一個系統,系統的日益復雜性自然導致了數據呈現出的復雜性,而攻克復雜性問題將是科學、技術、工程領域必須長期面對的挑戰。為了實現大數據的健康發展,需要從數據采集和存儲的一開始就要尤其關注數據和信息的融合。只有這樣,大數據才能發揮出更大的價值!
注:2016年4月30日是信息論奠基人香農誕辰100周年的紀念日。