孟小峰

博士,中國人民大學信息學院教授,副院長。現為中國計算機學會常務理事、中國計算機學會數據庫專委會秘書長,《Journal of Computer Science and Technology》、《Frontiers of Computer Science》、《軟件學報》、《計算機研究與發展》等編委。近期主要研究領域為互聯網與移動數據管理,包括Web數據集成,云數據管理,大數據與隱私保護,基于新型存儲的數據庫系統等。
大數據時代一個根本性的變化,是原來的信息化時代是一個封閉世界所構建的,而我們新的信息化是一個開放世界。
現在的數據產生已經完全不只限于傳統的物理社會,這使得數據產生的方式也發生了根本性的改變。簡單地總結為如下幾個階段。第一,以往數據庫技術所面對的數據,其實是傳統的企業生產、經營過程中所產生的數據,稱為運營式系統。這些數據是被動產生的,是在企業運營決策管理需要情況下產生的,數據是規范、有序的,它提出的根本要求是滿足簡單分析。
到了互聯網時代,數據的產生方式發生了根本的改變,每一個人都可以按自己的方式把自己的數據放到一個開放空間中去,因此數據的結構變得復雜而且無序,人們對于數據的要求也變得弱化,提出的根本性討論問題是什么?分布式處理和數據集成。
當今大數據的產生,數據源是自動產生的過程,是無所不在的感知系統源源不斷地產生,呈現所謂的多元異構、分布廣泛和動態演化的過程。它的挑戰性在于實時分析,這是我們現有系統不能滿足的。
第二個階段,面對源源不斷的數據,將其整合在一起加以利用的應用需求產生了,為此,我們提出了數據空間和數據集成的技術。其實這一技術的根本特點是完成一次抽象,即從每一個數據源的局部視圖,試圖改造出一個全局視圖,這樣,用戶在一個數據源集合的時候,不再關心每一個局部數據源的情況,只需在一個全局視圖上給出查詢,即可求得結果,這種抽象極大地方便了人們在多數據源上的利用。
那么,大數據時代需要完成的任務十分豐富,為什么目前無法滿足科學家們提出的這些需求的操作呢?原因是,我們的抽象層次沒有針對性。應該基于前一個階段的抽象,在這上面針對各類應用的需求給出一種新的抽象機制,如果這個抽象機制能夠實現,那么各領域的用戶就可以在這樣的基礎上完成其應用任務。然而,現實是,面對我們所產生的,無論是物理還是生物,還是各個科學領域所產生的數據源,專業人員并不知道如何組織它們,而我們又沒有提供一個有效的工具,將它抽象成專業人員認識這些數據的需求。
科學家為什么沒有得到這樣可用的處理機制呢?我認為在問題的抽象上仍然存在問題。也就是說,科研過程的數據處理任務,尚未很好地凝練成一個可抽象的共識。
4年前美國歸國家線性加速器研究中心的一些學者組織了一個研討會,將研發數據庫的IT技術人員和從事科學研究的學者聚集在一起。學者們將在其高能物理科學研究中所遇到的數據處理問題拋出來,希望尋求答案。會上互動的環節中,IT技術人員給科學家們提出了一個挑戰,他說:“如果能把你的需求明確地告訴我,我就可以還給你一個系統。”如此的一個互動,很多人認為是笑話,但是幾年之后這樣的系統真的產生了。他們抽象出來的是什么?他發現科研人員組織數據的方式根本不是表格,而是數組。科研數據大部分產生出來,它需要在多維的數組上去運算,這就是他們日常看待數據的一個基本思維方式。這個系統出來之后,立刻得到眾多科學研究人員的喜歡,因為它提供了大量有關數組的簡易操作,科研工作者們就可以像寫編譯語言那樣簡單地描述,就可以完成他原本需要很長的程序才能完成的任務。