郭毅可 教授上海大學計算機工程與科學學院院長倫敦帝國理工學院數據科學研究所所長上海產業研究院大數據首席科學家
走好我們的大數據之路
郭毅可教授
上海大學計算機工程與科學學院院長
倫敦帝國理工學院數據科學研究所所長
上海產業研究院大數據首席科學家
2015年10月21日上午10點15分,習近平主席偕夫人訪問了倫敦帝國理工學院數據科學研究所.作為研究所所長,我向習主席演示了我和我們團隊的一些研究成果.
(1)與浙江大學合作的對中國人口遷移狀況的分析.對五年中近一百萬個流動人口家庭的數據和中國各省人口的流動狀況進行了細致的分析.分析包括各省流動人口的特征、相關政策對流動人口的影響,以及流動人口對中國城鎮化的影響等.
(2)與維也納國際應用系統分析研究所、美國大氣研究中心和上海大學合作的有關“一帶一路”戰略的國際影響力分析.用人口學理論和社會發展模型,以及對過去50年間各國社會與經濟發展數據和基礎建設數據的綜合分析,來預測未來30~80年間“一帶一路”沿線國家的人口發展.
(3)與英國國家基因組計劃、歐盟創新制藥計劃的合作研究.展示了一個基于個性化醫療的實用臨床系統,可以根據每個人的基因以及其他分子醫學數據對疾病進行個性化分析,從而提出精確治療方案.
(4)與上海地鐵的合作項目.利用上海地鐵每天每個乘客的進出站數據,來分析各條地鐵線路的負載情況.同時,對各種故障情況下地鐵線路負載的重新分配進行預測.從而對整個地鐵線路的可靠性和安全性進行評估.
習主席對這些工作表示贊賞.他認為,用大數據作交叉學科研究很有意義,與實際應用相結合是個好方向.習主席的這些話肯定了我們對大數據的研究方向的思考和策略,使我們倍受鼓舞.
我們秉承著“研究先進大數據管理和分析技術,并以此來促進數據驅動的科學研究及技術發展,造福人類社會”的宗旨,在以下六個方面做出了許多努力,取得了很多令人矚目的成果:一是作為交叉學科發展樞紐,組織并推進以大數據為基礎的多學科合作;二是培養新一代有創新能力的數據科學家;三是為數據驅動的科學研究提供技術與設施的支持;四是與全世界工業界和學術界廣泛展開大數據科研合作;五是促進數據經濟、數據產品與產業的創新;六是向政府、公共管理機構及全社會提供有關大數據的政策與技術咨詢.這次習主席的來訪是中英雙方對我們工作的一種肯定,我們深感榮幸與自豪.
大數據為人類社會提供了又一次新的資源機遇.這種新資源具有人類已有自然資源所不具備的許多特征.如超可再生性,即數據的使用本身并不消耗數據,相反還會產生新的數據;非競爭性使用,即一方對數據的占有并不限制其他人對這份數據的擁有.這些特征使得數據資源的使用不僅可以像其他自然資源一樣產生能量與財富,而且可以完全改變人類的社會組織結構和行為方式.因此,對數據科學必須站在社會發展、新的經濟模式、新的工業體系、新的創新產品、新的生活方式以及新的科學研究方法等宏觀角度來進行系統化研究.那種僅僅把數據科學作為統計學和計算機科學的分支應用,把機器學習和大數據管理技術等數據科學的具體技術作為數據科學的主要內涵的思路與做法,未免是太狹隘了.
一個數據科學的典型而現實的例子就是當今的醫學.近20年來,高通量的醫學儀器使得人類對生命的觀察達到了分子級的精度.今天,我們不僅可以準確地讀出每個人的基因序列,而且還可以對細胞中分子的活動進行實時檢測.這些分子級的通過對生命的觀察而產生的大數據,是對每個人每一刻生命活動的度量,從而使得醫學成為一種基于這種度量,對生命進行有效調控的精準科學.正因為如此,數據科學是當今醫學發展的一個重要基礎.同時,醫學應用也對數據科學提出了許多有意義的挑戰和研究方向.醫學數據科學本身就成為了一門具有巨大社會價值及科學意義的大學科.我們在上海產業研究院的生物信息學中心的研究也正在朝這個方向努力.
數據,顧名思義就是以數為據,是對物理世界的觀察與度量.對這樣的數據作分析,得到具有普遍意義的總結,并且對這個總結中的誤差和非確定性進行估計和界定,是數據科學的基本方法.然而,這種統計方法的有效應用離不開對物理世界本身規律的理解,這也就是我們常說的觀察前的先驗知識.這種被稱為貝葉斯方法的數據科學原則,實際上充分反映了數據科學和領域科學融合研究的重要性與必要性.
數據作為資源,其巨大的經濟價值已經充分體現.但是由于數據資源的特殊性,當數據作為資產時,這樣的資產有很特殊的性質.因此,對數據資產的定價和交易是很有意義的經濟學命題,而對這些命題的研究本身就是數據科學的一個重要內容.我們在這方面進行了許多開創性的工作,如數據交易的理論和技術、比特幣等未來數據貨幣和數據遺產等.最近,我們與中國建銀國際和深圳鍵橋通訊合作成立了數據經濟研究實驗室,以進一步推動對數據經濟的研究和創新.
數據資源和數據資產都具有很強的社會性,它們與人類生活本身息息相關,因此在數據科學研究中,社會科學和數據科學的融合具有極重要的地位.特別是對法律、倫理以及數據化社會中的社會結構發展與變化都有很重要的現實意義.在英國,我們數據科學研究所和倫敦政治經濟學院在這方面有廣泛的合作.在上海大學,計算機工程與科學學院和社會科學研究院系也開展了這方面的合作研究.
綜上所述,我們對大數據的研究正方興未艾,國家也把大數據研究與發展作為國家戰略.走好我們的大數據之路既是我們今天的事業,也是我們的責任.走好大數據之路的關鍵是要有寬廣的戰略胸懷,把大數據真正作為當今社會與經濟發展的驅動力,使我們能夠把先進的技術研究和廣泛的社會實際應用緊密結合,直接造福人類.
在大數據之路上只有創新,沒有跟隨!
10.3969/j.issn.1007-2861.2015.05.016