郭毅可 潘為 于思淼 吳超 王世才
微軟研究院Jim Gray曾經(jīng)對 科學(xué)研究方法的歷史作了一個(gè)精辟的總結(jié):幾百年前,科學(xué)研究是完全通過實(shí)驗(yàn)來觀察自然、理解自然;到了近代數(shù)百年,科學(xué)才開始注重理論研究,通過建模和抽象來總結(jié)揭示自然的規(guī)律;近幾十年來,計(jì)算機(jī)的廣泛使用,使得計(jì)算模擬成了科學(xué)研究的一個(gè)重要手段。到了今天,計(jì)算技術(shù)已經(jīng)完全普適化。科學(xué)儀器已經(jīng)成為高通量數(shù)據(jù)采集的工具,由模擬和儀器采集的數(shù)據(jù)經(jīng)過計(jì)算機(jī)的處理分析形成信息和知識。數(shù)據(jù)驅(qū)動已成為今天科學(xué)研究的新的方法。
如今,海量數(shù)據(jù)源源不斷地被產(chǎn)生出來。科學(xué)家和工程師通過對數(shù)據(jù)的觀察、整合、分析和解釋,不斷創(chuàng)造知識,推動著科學(xué)技術(shù)的進(jìn)步和社會的發(fā)展。在這種背景下,在中國乃至世界各地,各類以數(shù)據(jù)為驅(qū)動或以數(shù)據(jù)科學(xué)為目標(biāo)的研究單位如雨后春筍般涌現(xiàn),在可預(yù)見的未來,數(shù)據(jù)驅(qū)動的科學(xué)研究必將得到蓬勃發(fā)展,蔚為大觀。然而,在目前的探索階段,厘清關(guān)于數(shù)據(jù)科學(xué)的基本問題仍然是首要任務(wù),例如數(shù)據(jù)科學(xué)應(yīng)該研究什么?它與傳統(tǒng)計(jì)算機(jī)研究和統(tǒng)計(jì)分析到底有什么區(qū)別?它在學(xué)科交叉中應(yīng)該扮演什么角色?本文根據(jù)倫敦帝國理工學(xué)院建設(shè)數(shù)據(jù)研究院(Data Science Institute)的實(shí)際經(jīng)驗(yàn),提出對如何建設(shè)一個(gè)支持以數(shù)據(jù)作為驅(qū)動為己任的數(shù)據(jù)研究院的見解,試圖從我們的研究脈絡(luò)中尋找共性問題,拋磚引玉,希望能在更廣大范圍內(nèi)引起對這些基本問題的思考和討論。
倫敦帝國理工學(xué)院是一所專注于科學(xué)技術(shù)、醫(yī)學(xué)和商學(xué)的世界頂級名校。從事的科學(xué)研究和數(shù)據(jù)緊密相關(guān):從個(gè)人醫(yī)療數(shù)據(jù)到科學(xué)實(shí)驗(yàn)數(shù)據(jù),從公共數(shù)據(jù)到商業(yè)數(shù)據(jù)。這樣一個(gè)大學(xué)必須有一個(gè)數(shù)據(jù)研究所作為支撐學(xué)校數(shù)據(jù)驅(qū)動研究的科研機(jī)構(gòu)。于2014年4月成立,其建所宗旨是:“研究先進(jìn)的大數(shù)據(jù)管理和分析技術(shù),并以此來促進(jìn)數(shù)據(jù)驅(qū)動的科學(xué)研究及技術(shù)發(fā)展,造福人類社會。”它把自己的任務(wù)定義為:(1)作為學(xué)校交叉學(xué)科發(fā)展的樞紐,組織并推進(jìn)以大數(shù)據(jù)為基礎(chǔ)的多學(xué)科合作;(2)培養(yǎng)新一代有創(chuàng)新能力的數(shù)據(jù)科學(xué)家;(3)為學(xué)校的數(shù)據(jù)驅(qū)動的科學(xué)研究提供技術(shù)與設(shè)施的支持;(4)作為學(xué)校對外合作的窗口,與全世界工業(yè)界及學(xué)術(shù)界廣泛開展大數(shù)據(jù)科研合作;(5)向政府、公共管理機(jī)構(gòu)及全社會提供有關(guān)大數(shù)據(jù)的政策與技術(shù)咨詢。
研究所自成立以來,秉承其宗旨,在上述5個(gè)方向上做出了許多努力,取得了令人矚目的成果,得到了學(xué)界和社會的廣泛關(guān)注和肯定,很多研究成果產(chǎn)生了國際影響力。因此,習(xí)近平主席2015年對英國進(jìn)行國事訪問期間專門參觀了數(shù)據(jù)科學(xué)研究所,聽取了一些研究成果匯報(bào),包括:和浙江大學(xué)合作的對中國人口遷移的分析;和維也納國際應(yīng)用系統(tǒng)分析研究所、美國大氣研究中心和上海大學(xué)合作有關(guān)“一帶一路”戰(zhàn)略國際影響力分析;和英國國家基因組計(jì)劃、歐盟創(chuàng)新制藥計(jì)劃合作的有關(guān)精準(zhǔn)醫(yī)學(xué)的合作研究;以及和上海地鐵在交通監(jiān)測和預(yù)測方面的合作。習(xí)近平主席認(rèn)為用大數(shù)據(jù)做交叉學(xué)科研究很有意義,和實(shí)際應(yīng)用相結(jié)合是個(gè)好方向。習(xí)近平主席對我們的這些工作表示贊賞,肯定了研究所對大數(shù)據(jù)研究方向的思考和策略,使研究所倍受鼓舞。
科學(xué)技術(shù)的偉大進(jìn)步往往需要多學(xué)科的交叉融合,數(shù)據(jù)科學(xué)的交叉同樣會驅(qū)動產(chǎn)生重大的科學(xué)發(fā)現(xiàn)。而且我們認(rèn)為數(shù)據(jù)科學(xué)無法作為獨(dú)立學(xué)科存在,必須和特定領(lǐng)域結(jié)合在一起;如不對交叉學(xué)科的領(lǐng)域知識有深入的理解,而設(shè)計(jì)脫離實(shí)際的數(shù)據(jù)分析方法是很難有發(fā)展前途的。
以目前熱門的“精準(zhǔn)醫(yī)療”為例,其涉及到生理學(xué)、分子生物學(xué)、藥理學(xué)、化學(xué)、營養(yǎng)學(xué)、環(huán)境學(xué)、生物物理學(xué)等眾多學(xué)科,很多學(xué)科在各自的領(lǐng)域?qū)ο嚓P(guān)問題已經(jīng)有了很長的研究歷史,然而只有當(dāng)交叉出現(xiàn),特別是針對生物醫(yī)學(xué)的大數(shù)據(jù)分析方法和工具出現(xiàn)之后,結(jié)合患者生活環(huán)境、生物信息、臨床和藥物等各種數(shù)據(jù),實(shí)現(xiàn)精準(zhǔn)醫(yī)療才有可能。
由此可見,數(shù)據(jù)科學(xué)是一個(gè)組合體,它在明確的應(yīng)用目標(biāo)下,驅(qū)動和連接各種學(xué)科,形成有機(jī)統(tǒng)一。把數(shù)據(jù)科學(xué)作為統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的分支應(yīng)用,把機(jī)器學(xué)習(xí)和大數(shù)據(jù)管理技術(shù)等數(shù)據(jù)科學(xué)的具體技術(shù)作為數(shù)據(jù)科學(xué)的主要內(nèi)涵的思路與做法,未免是太狹隘了。
進(jìn)而言之,數(shù)據(jù)科學(xué)的許多方法也來自于不同領(lǐng)域的科學(xué)研究,以今天非常流行的深度學(xué)習(xí)技術(shù)為例,它的許多進(jìn)步是基于神經(jīng)生物學(xué)和信號處理技術(shù)的研究。從數(shù)據(jù)驅(qū)動的領(lǐng)域科學(xué)研究中獲取養(yǎng)料和動力,是數(shù)據(jù)科學(xué)研究的一個(gè)重要途徑。
數(shù)據(jù)科學(xué)有自己的學(xué)科內(nèi)涵,即基于數(shù)據(jù)的獲取,清理、建模、分析等方法,從這個(gè)角度說,數(shù)據(jù)科學(xué)與數(shù)學(xué)及計(jì)算機(jī)科學(xué)一脈相承;它也有自己的外延,即面向各種應(yīng)用問題,從這個(gè)角度說,數(shù)據(jù)科學(xué)又是各個(gè)交叉科學(xué)的載體。在后文中,我們將結(jié)合數(shù)據(jù)科學(xué)的內(nèi)涵,即其研究問題,以及外延,即其應(yīng)用領(lǐng)域,談?wù)勎覀兊睦斫狻?/p>
數(shù)據(jù)科學(xué)研究是一條完整的鏈條,由4個(gè)關(guān)鍵的環(huán)節(jié)串聯(lián)在一起。我們將這4個(gè)環(huán)節(jié)定義為數(shù)據(jù)整合與理解(Data Integration and Understanding)、數(shù)據(jù)感知與交互(Data Sensing and Interaction)、數(shù)據(jù)學(xué)習(xí)與認(rèn)知(Data Learning and Cognition)、數(shù)據(jù)交換與經(jīng)濟(jì)(Data Exchange and Economy)。倫敦帝國理工學(xué)院數(shù)據(jù)科學(xué)研究所在這4個(gè)方面同時(shí)開展研究,并且將幾方面的研究緊密地整合到一起。下面具體地闡釋每部分的研究內(nèi)容。
一份數(shù)據(jù),從采集到分析,需要經(jīng)歷一系列的處理、理解和整合,這部分的工作,毫不夸張地說,可以占到整個(gè)數(shù)據(jù)研究工作量的80%。
(1)在數(shù)據(jù)整合與理解方面,數(shù)據(jù)集成是大數(shù)據(jù)研究的關(guān)鍵。眾所周知,數(shù)據(jù)的多樣性和復(fù)雜性往往使得無法將所有數(shù)據(jù)進(jìn)行整合,并為領(lǐng)域內(nèi)的所有研究人員所共同使用。很多擁有相同實(shí)驗(yàn)?zāi)康牡慕Y(jié)果數(shù)據(jù)無法相互兼容。例如,在生命科學(xué)領(lǐng)域,在利用mRNA分析基因表達(dá)的過程中,基因芯片產(chǎn)生的表達(dá)程度數(shù)據(jù)通常用CEL格式存取,而如果使用mRNA測序技術(shù)則會產(chǎn)生大量基因序列的原始片段。兩種數(shù)據(jù)都可以通過各自的計(jì)算方法得到基因表達(dá)的程度,但數(shù)據(jù)的格式天差地別,專業(yè)的分析人員也需要借助多種不同的技術(shù)分析匯總其中的結(jié)果,讓計(jì)算機(jī)對此做出統(tǒng)一正確的理解可以說是困難重重。隨著信息需求不斷發(fā)展和增長,數(shù)據(jù)一體化的需求也不斷增長。適當(dāng)?shù)臉?biāo)準(zhǔn)化方法可以有效幫助數(shù)據(jù)的集成,標(biāo)準(zhǔn)化方法往往取決于數(shù)據(jù)集和特定領(lǐng)域的慣例,標(biāo)準(zhǔn)分?jǐn)?shù)和T-統(tǒng)計(jì)量是轉(zhuǎn)換醫(yī)學(xué)研究中常用的標(biāo)準(zhǔn)化方法。
(2)現(xiàn)有的數(shù)據(jù)集成技術(shù),如本體論,語義Web可以起到關(guān)鍵的作用。這些現(xiàn)有語義框架和技術(shù)可以被用來建立各種數(shù)據(jù)之間的聯(lián)系,并通過已有的映射關(guān)系拓展并建立新的聯(lián)系。例如,對于醫(yī)療數(shù)據(jù),可以通過預(yù)定義的、映射一致的本體森林模型來為臨床數(shù)據(jù)和分子分析數(shù)據(jù)提供一個(gè)更加統(tǒng)一的數(shù)據(jù)表示,每一棵子樹都表示一個(gè)研究項(xiàng)目,通過拓展子樹節(jié)點(diǎn)之間的語義關(guān)系建立聯(lián)系,獲得新的語義知識。新的知識可以是擁有相同或相似病理特征的人的集合,或是治愈某種疾病的治療方法的集合。
(3)對數(shù)據(jù)標(biāo)注,整理和ETL(Extract、Transform、Load)自動化的研究是大數(shù)據(jù)研究的重要課題。ETL,用來描述將數(shù)據(jù)從來源端經(jīng)過提取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,也是對數(shù)據(jù)集成各個(gè)過程的集成和自動化過程。ETL通過提取和轉(zhuǎn)換完成數(shù)據(jù)清洗、標(biāo)準(zhǔn)化和語義建模的過程,使原始數(shù)據(jù)轉(zhuǎn)換成人、機(jī)都能理解的有效信息。ETL的核心在于減少繁復(fù)的數(shù)據(jù)預(yù)處理中的人工干預(yù),自動化完成數(shù)據(jù)整合的各個(gè)步驟。其難點(diǎn)在于通過人工智能的方法對原始數(shù)據(jù)進(jìn)行自動化標(biāo)注,并利用語義分析的方法將被標(biāo)注的對象加入語義網(wǎng)絡(luò)。
(4)對于數(shù)據(jù)的標(biāo)準(zhǔn)化和統(tǒng)一化,質(zhì)量控制是關(guān)鍵技術(shù)。在標(biāo)準(zhǔn)化的過程中,需要特別重視數(shù)據(jù)質(zhì)量控制。仍以mRNA分析基因表達(dá)為例,相對于基因芯片產(chǎn)生的少量高質(zhì)量數(shù)據(jù),mRNA測序技術(shù)產(chǎn)生基因序列數(shù)據(jù)量較大,但可靠性較差。通常的基因表達(dá)分析結(jié)果中都需要加注每個(gè)基因序列片段分析結(jié)果的質(zhì)量,對于質(zhì)量較差的片段,通常的分析中一般不予采用。
我們主持的“歐洲轉(zhuǎn)化醫(yī)學(xué)信息與知識管理服務(wù)”(European Translational Information & Knowledge Management Services,eTRIKS)項(xiàng)目就是以數(shù)據(jù)標(biāo)準(zhǔn)化和質(zhì)量控制為目標(biāo)的一個(gè)典型的數(shù)據(jù)質(zhì)量工程。eTRIKS是由歐洲創(chuàng)新藥物計(jì)劃(Innovative Medicines Initiative)發(fā)起的5年科研總經(jīng)費(fèi)達(dá)2300萬歐元的研發(fā)項(xiàng)目,由世界12大制藥廠參與,旨在建設(shè)基于云計(jì)算的全歐洲范圍內(nèi)的醫(yī)學(xué)研究標(biāo)準(zhǔn)大數(shù)據(jù)平臺,成為歐盟醫(yī)學(xué)臨床研究的大數(shù)據(jù)標(biāo)準(zhǔn)。由全球性非營利性組織tranSMART基金會主導(dǎo)開發(fā)的知識管理平臺是eTRIKS平臺的核心系統(tǒng)。它以系統(tǒng)級的方法來解決數(shù)據(jù)集成和理解的問題。
此平臺上的研究主要包括生物信息數(shù)據(jù)聯(lián)邦、高效數(shù)據(jù)存儲架構(gòu)設(shè)計(jì)以及相關(guān)數(shù)據(jù)索引技術(shù)。生物信息數(shù)據(jù)聯(lián)邦主要用于解決生物信息的多元化帶來的異構(gòu)信息抽象和整合等問題,使得各種數(shù)據(jù)源可以依據(jù)其自身特點(diǎn),以各自特有的模式進(jìn)行低成本、高效率存儲和處理。例如,基因芯片所產(chǎn)生的數(shù)據(jù)主要存儲在CEL格式的元信息矩陣和數(shù)據(jù)信息矩陣中,高通量測序數(shù)據(jù)結(jié)果多存儲在FASTA或FASTQ文件中,而單核苷酸多態(tài)性統(tǒng)計(jì)數(shù)據(jù)多以關(guān)系型數(shù)據(jù)庫模型存儲。一個(gè)復(fù)雜的病理研究通常需要綜合多種來源的各種信息共同計(jì)算,而數(shù)據(jù)聯(lián)邦通過抽象和整合這些多元數(shù)據(jù),使得這種基于混合數(shù)據(jù)結(jié)構(gòu)的高效海量數(shù)據(jù)計(jì)算成為可能。
在考慮多種信息集中處理的同時(shí),我們也關(guān)注于對各類數(shù)據(jù)存儲結(jié)構(gòu)的優(yōu)化,通過引入先進(jìn)的存儲技術(shù)提高數(shù)據(jù)的存取效率。例如,數(shù)據(jù)科學(xué)中心設(shè)計(jì)實(shí)現(xiàn)的CGC索引(Collaborating Global Clustering Index)是針對遺傳信息的高效數(shù)據(jù)存儲和檢索方法。
隨著傳感器技術(shù)及其產(chǎn)業(yè)的發(fā)展,傳感網(wǎng)絡(luò)大規(guī)模地被應(yīng)用于收集不同領(lǐng)域的數(shù)據(jù),其進(jìn)一步所帶來的普適感測促進(jìn)了物聯(lián)網(wǎng)這個(gè)新興領(lǐng)域的發(fā)展,帶來了廣闊的未來潛在應(yīng)用,包括產(chǎn)品追蹤、智慧環(huán)境、社會感知、智能設(shè)備、災(zāi)害預(yù)測等等。面對感知大數(shù)據(jù),如何構(gòu)建針對物聯(lián)網(wǎng)的通用高性能數(shù)據(jù)處理平臺,及研究針對物聯(lián)網(wǎng)和大數(shù)據(jù)感測的高性能數(shù)據(jù)管理方法成為關(guān)鍵。
在這方面,數(shù)據(jù)科學(xué)研究所提出了“認(rèn)知感知”的方法論,認(rèn)為感知數(shù)據(jù)的作用在于建立、驗(yàn)證和糾正模型。一旦一個(gè)目標(biāo)感知對象被建模之后,其模型預(yù)測將與感知數(shù)據(jù)進(jìn)行比對,如果模型正確,則無需進(jìn)一步數(shù)據(jù)采集和模型修正;如果模型失效,說明目標(biāo)對象出現(xiàn)新的行為或原模型粗糙,這時(shí)才需要進(jìn)一步采集數(shù)據(jù)并修正模型。這種方法被叫做“認(rèn)知感知”是因?yàn)樗鹾现悄苌锔兄澜绲姆椒ǎ悄苌锇ㄈ祟惸茉谟邢拚J(rèn)知計(jì)算資源的限制下實(shí)現(xiàn)與動態(tài)環(huán)境的均衡,其目標(biāo)可以說是優(yōu)化自由能量(Free Energy)或最小化驚奇(Minimize Surprise)。基于這種認(rèn)識,我們在感知系統(tǒng)中,將認(rèn)知定義為優(yōu)化主觀認(rèn)知分布和客觀分布之間KL距離的建模行為,而感知行為被看做是減小此KL距離與實(shí)際KL距離的措施。為了實(shí)現(xiàn)這種感知和認(rèn)知,我們解決了兩方面的問題:如何調(diào)整模型和模型空間來適應(yīng)感知對象的變化;如何減少感知維度。
感知之后的數(shù)據(jù)除了分析建模之外,一個(gè)重要的研究方法是數(shù)據(jù)可視化。數(shù)據(jù)可視化是研究如何將數(shù)據(jù)以形象化的方式展現(xiàn)出來的一門科學(xué)。它主要專注于分析,以連貫和簡短的形式把大量的信息展現(xiàn)出來,而抽取何種數(shù)據(jù)進(jìn)行形象化的抽象,本身就蘊(yùn)含了對數(shù)據(jù)如何應(yīng)用的科學(xué)思維。在大數(shù)據(jù)背景下,大規(guī)模的多維的數(shù)據(jù)正在被快速地產(chǎn)生和積累。如何更有效地探索數(shù)據(jù)、理解數(shù)據(jù)以及表達(dá)數(shù)據(jù)成為一項(xiàng)重要的研究課題。
通過圖形化地表達(dá)數(shù)據(jù),人可以利用自身復(fù)雜的視覺系統(tǒng)直接參與到數(shù)據(jù)探索和交流的過程中。這使得很多復(fù)雜的數(shù)據(jù)可以更有效地被分析和理解。數(shù)據(jù)可視化成為數(shù)據(jù)科學(xué)的重要組成部分的主要原因有兩個(gè)。第一,由于人類視覺系統(tǒng)十分擅長模式識別,通過圖形可視化數(shù)據(jù)以及相關(guān)的分析結(jié)果,可以更容易更準(zhǔn)確地理解數(shù)據(jù)中的有效信息。第二,數(shù)據(jù)可視化技術(shù)可以很大程度地幫助人們交流和傳播大數(shù)據(jù)所蘊(yùn)含的有效信息和重要發(fā)現(xiàn)。
由此可見,可視化不是數(shù)據(jù)分析的結(jié)果,而是數(shù)據(jù)分析的過程。如何建立一個(gè)能支持發(fā)現(xiàn)科學(xué)直觀的可視化環(huán)境是非常重要的,在這方面我們做了大量的工作,建立了全球最大的數(shù)據(jù)可視化設(shè)施“全球數(shù)據(jù)觀察站”,幾十個(gè)電腦屏幕組成的動態(tài)數(shù)據(jù)圖像準(zhǔn)確銜接,其背后蘊(yùn)含的是并行運(yùn)算、多項(xiàng)目管理、編程,以及對數(shù)據(jù)的深刻理解。在數(shù)據(jù)觀察站中實(shí)現(xiàn)了各種實(shí)時(shí)交互的可視化應(yīng)用,比如全球比特幣交易的實(shí)時(shí)數(shù)據(jù)可視化,個(gè)性化醫(yī)療系統(tǒng)可視化,上海地鐵運(yùn)行分析的數(shù)據(jù)可視化等,實(shí)時(shí)處理和展示隨時(shí)間變化的各種類型的數(shù)據(jù)。
我們所處理的數(shù)據(jù)源不再是靜態(tài)的,它會隨著數(shù)據(jù)的實(shí)時(shí)變化進(jìn)行即時(shí)接受、處理并更新可視化數(shù)據(jù)。這種方式的數(shù)據(jù)可視化可以幫助人們觀察到最新的即時(shí)數(shù)據(jù)并理解其對舊數(shù)據(jù)產(chǎn)生的影響。可交互的數(shù)據(jù)可視化分析可以讓人利用可視化信息與系統(tǒng)進(jìn)行交互,并在此過程中進(jìn)一步得到相關(guān)信息提取和挖掘的結(jié)果。在這個(gè)交互過程中,人可以在充分理解數(shù)據(jù)可視化信息的基礎(chǔ)上,根據(jù)不同的目的主動探索和發(fā)現(xiàn)所需要的數(shù)據(jù)結(jié)果。這可以極大地提升數(shù)據(jù)探索和挖掘的效率。
與此同時(shí),人在與數(shù)據(jù)可視化進(jìn)行交互的過程中也可以產(chǎn)生新的數(shù)據(jù)。這些數(shù)據(jù)可以被收集和分析,以學(xué)習(xí)人與系統(tǒng)交互的具體情況。例如,在數(shù)據(jù)觀察站我們可以利用眼動追蹤設(shè)備來實(shí)時(shí)記錄人眼在屏幕上注視點(diǎn)的位置。這些位置點(diǎn)形成的熱點(diǎn)圖可以清晰地展示出人對于數(shù)據(jù)可視化最關(guān)注的部分。這些數(shù)據(jù)可以幫助我們設(shè)計(jì)和創(chuàng)造出更有效的或者更吸引人的數(shù)據(jù)可視化系統(tǒng)。同時(shí),人的眼動情況也提供了一種新的與系統(tǒng)交互的途徑。系統(tǒng)可以通過探測人關(guān)注點(diǎn)的具體位置進(jìn)行實(shí)時(shí)更新,例如展示額外信息等。新的交互方式毫無疑問會對人與數(shù)據(jù)可視化系統(tǒng)的交互產(chǎn)生積極的影響。
研究所進(jìn)行數(shù)據(jù)學(xué)習(xí)與認(rèn)知研究是從實(shí)際出發(fā),為了應(yīng)用服務(wù)的機(jī)器學(xué)習(xí)。沒有應(yīng)用背景的數(shù)據(jù)科學(xué)研究會缺乏影響力,沒有對數(shù)據(jù)科學(xué)理論的扎實(shí)研究也做不出好的應(yīng)用。我們關(guān)注的實(shí)際問題包括功能核磁共振或者腦電圖推斷有效連接(Effective Connectivity)腦網(wǎng)絡(luò);基于微流控技術(shù)得到的蛋白質(zhì)熒光表達(dá)推斷基因網(wǎng)絡(luò)結(jié)構(gòu);印度西北部平原地下水水位趨勢變化預(yù)測;中國省會城市交通網(wǎng)絡(luò)車輛速度和流量的預(yù)測;計(jì)量經(jīng)濟(jì)學(xué)中經(jīng)濟(jì)變量的因果性推斷。這些科學(xué)問題都是由數(shù)據(jù)驅(qū)動的研究,而這些問題中的數(shù)據(jù)都可以用時(shí)間序列來描述。時(shí)間序列模型的主要目的是對系統(tǒng)的物理本質(zhì)有洞察力的解釋和根據(jù)已有的歷史數(shù)據(jù)對未來進(jìn)行預(yù)測。
基于貝葉斯理論和數(shù)據(jù)同化理論,我們團(tuán)隊(duì)致力于開發(fā)貝葉斯學(xué)習(xí)引擎(Bayesian Learning Engine)進(jìn)行時(shí)間序列數(shù)據(jù)建模。貝葉斯學(xué)習(xí)引擎由兩部分構(gòu)成:大數(shù)據(jù)建模(Data Modelling)引擎和大數(shù)據(jù)同化(Data Assimilation)引擎。數(shù)據(jù)建模和數(shù)據(jù)同化用來做模型篩選的思想可以總結(jié)為同化學(xué)習(xí)理論(Assimilated Learning)。
大數(shù)據(jù)建模引擎基于貝葉斯理論構(gòu)建,其實(shí)現(xiàn)分為如下步驟。(1)確定數(shù)據(jù)的似然函數(shù)。(2)選取適當(dāng)?shù)哪P徒Y(jié)構(gòu)。一方面由于所研究的科學(xué)問題所在領(lǐng)域的特點(diǎn)不同,選取的模型結(jié)構(gòu)往往具有很大的差別,而且往往是非線性的。比如在生化網(wǎng)絡(luò)和基因網(wǎng)絡(luò)中,模型中方程必須要遵循化學(xué)反應(yīng)動力學(xué)原理,也就是模型的形式只能用多項(xiàng)式和有理函數(shù)來描述;比如在描述天氣系統(tǒng)、生態(tài)系統(tǒng)的混沌震蕩系統(tǒng)中,模型也往往是具有多項(xiàng)式形式;而在描述電力系統(tǒng)、通訊網(wǎng)絡(luò)系統(tǒng)時(shí),模型一般具有三角函數(shù)形式;在腦網(wǎng)絡(luò)的動力因果模型(Dynamic Causal Model)描述中,函數(shù)的形式限制于一階和二階多項(xiàng)式形式。即便是具備了一定的領(lǐng)域知識,由于非線性函數(shù)形式的無窮性,模型空間維數(shù)仍然極高。另一方面,如果系統(tǒng)具有高維的狀態(tài)變量,比如基因網(wǎng)絡(luò)中的基因數(shù)目,那么情形會更加嚴(yán)重,模型選擇將面臨很大的挑戰(zhàn)。(3)根據(jù)先驗(yàn)知識和系統(tǒng)的特點(diǎn)構(gòu)造先驗(yàn)概率,用于刻畫模型中隱藏變量的不確定程度。而這個(gè)不確定程度往往由超參數(shù)刻畫。值得注意的是,超參數(shù)的個(gè)數(shù)往往小于或者等于候選模型中的隱含變量個(gè)數(shù)。
接下來我們對后驗(yàn)概率積分獲得邊緣似然函數(shù),通過對其分析,一個(gè)令人喜悅的發(fā)現(xiàn)是對于不同的先驗(yàn)概率構(gòu)造,我們只需求解一系列的平滑函數(shù)加變權(quán)重L1范數(shù)規(guī)則化優(yōu)化問題。而這類優(yōu)化問題的集中化解法或者分布式解法已經(jīng)被廣泛地研究,基于不同的分布式計(jì)算平臺與計(jì)算架構(gòu),比如MapReduce、Hadoop、Spark/Shark可以比較直觀地實(shí)現(xiàn)并行化。
除此之外,模型選擇依然面臨著其他問題。首先,這類優(yōu)化問題的一個(gè)問題是對規(guī)則參數(shù)的調(diào)試,不同的規(guī)則參數(shù)下會得到不同的模型。另外,如果起始選擇了不同的候選模型,最后優(yōu)化得到的模型往往更加不唯一。而且模型選擇原則,比如赤池信息量準(zhǔn)則(AIC)和貝葉斯信息量準(zhǔn)側(cè)(BIC)往往相差不大,導(dǎo)致模型很難區(qū)分。
數(shù)據(jù)同化技術(shù)可以對數(shù)據(jù)引擎得到的模型集合進(jìn)行在線篩選。它能幫助一個(gè)動態(tài)模型不斷地將觀測數(shù)據(jù)的有用信息反饋進(jìn)入原有的模型中,一方面能改良無法觀測的物理量,從而不斷地把模型的(預(yù)測)輸出逼近現(xiàn)實(shí),另一方面可以不斷地修正模型,在線做出模型選擇。
大數(shù)據(jù)時(shí)代的到來,不僅僅意味著更多數(shù)據(jù)被收集和被處理,更為重要的是,數(shù)據(jù)實(shí)實(shí)在在成為改變個(gè)人和社會的力量。眾多案例已向我們展示了大數(shù)據(jù)的應(yīng)用價(jià)值,然而一個(gè)技術(shù)要深刻地推進(jìn)社會發(fā)展,它需要從具有應(yīng)用價(jià)值發(fā)展為具有“應(yīng)用+經(jīng)濟(jì)”的雙重價(jià)值。
從經(jīng)濟(jì)價(jià)值的眼光來看大數(shù)據(jù),我們可以看到所謂的“數(shù)據(jù)”在整條價(jià)值鏈上處在起點(diǎn)的位置。數(shù)據(jù)從一開始作為原材料,到最后成為產(chǎn)品提供給用戶,其中經(jīng)歷了一系列的加工和增值過程,包括清理、語義化、融合、分析、建模、知識提取、應(yīng)用、分發(fā)等關(guān)鍵步驟,如同一個(gè)工業(yè)產(chǎn)品,從原材料到最終產(chǎn)品形態(tài)再到市場,是一個(gè)復(fù)雜的價(jià)值鏈,需要精巧的協(xié)同工作。而在目前大部分的大數(shù)據(jù)研究中,關(guān)注點(diǎn)還在于這些具體過程的技術(shù)基礎(chǔ),我們相信隨著整個(gè)大數(shù)據(jù)生態(tài)環(huán)境的建立,每個(gè)步驟背后的經(jīng)濟(jì)因素將成為最大的推動力量。
要推動從數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的價(jià)值鏈,有很多關(guān)鍵的經(jīng)濟(jì)問題需要考慮,其中一個(gè)核心的問題是數(shù)據(jù)作為資產(chǎn)的定價(jià)問題。數(shù)據(jù)與其他原材料在4個(gè)方面有很大不同:(1)數(shù)據(jù)的使用不會帶來數(shù)據(jù)的消耗,它的開發(fā)不是排他的,甚至反而是利他的;(2)聚合后的數(shù)據(jù)比單獨(dú)的數(shù)據(jù)更有價(jià)值,也應(yīng)該具有更高的價(jià)格;(3)同樣種類的數(shù)據(jù),不同來源的數(shù)據(jù)具有不同的價(jià)值,這點(diǎn)在醫(yī)療數(shù)據(jù)中尤為突出;(4)同樣的數(shù)據(jù)在不同的使用者看來,也是價(jià)值各異。在這些特殊的條件中,如何對數(shù)據(jù)資產(chǎn)定價(jià)是一個(gè)很難的問題,我們認(rèn)為采用一種基于市場協(xié)商的價(jià)格或許更為現(xiàn)實(shí)可行。
有了定價(jià),還需要交易。目前很多概念仍需考察,例如交易是代表了數(shù)據(jù)所有權(quán)的轉(zhuǎn)移?還是僅僅出讓了使用權(quán)?數(shù)據(jù)作為一種容易復(fù)制和分發(fā)的資產(chǎn),如何控制其再交易?另外一方面,定價(jià)和交易的問題同樣存在于整個(gè)數(shù)據(jù)價(jià)值鏈上,例如對數(shù)據(jù)產(chǎn)品如何定價(jià)?目前基于APP的交易模式是否是最合理的?
解決這些核心問題,有利于找到適合大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)經(jīng)濟(jì)的商業(yè)模式。目前很多商業(yè)模式初現(xiàn)雛形,例如基于眾包的數(shù)據(jù)收集和基于用戶數(shù)據(jù)收集的精確廣告等。然而很多商業(yè)模式其經(jīng)濟(jì)模型曖昧不明,在數(shù)據(jù)定價(jià)、用戶隱私等方面缺乏明晰思考和監(jiān)管。總體來說,整個(gè)價(jià)值鏈上的商業(yè)模式尚處起步,大有研究和發(fā)展空間。
由大數(shù)據(jù)經(jīng)濟(jì)推動的各個(gè)參與者(數(shù)據(jù)提供者、加工者、產(chǎn)品開發(fā)者、發(fā)布商、用戶等)最終會形成一個(gè)生態(tài)環(huán)境。一個(gè)好的生態(tài)環(huán)境會促進(jìn)各個(gè)參與者的效益和效率,并提高從技術(shù)到效能再到效益的轉(zhuǎn)化。目前此生態(tài)環(huán)境初見雛形,但在很多方面缺乏體系支持。以隱私為例,目前在用戶和數(shù)據(jù)收集者之間缺乏一個(gè)有效的隱私保護(hù)機(jī)制。針對這個(gè)問題,我們提出了一種新的移動隱私保護(hù)模型(Payby-Data,PbD模型),用于控制以下這類常見問題:在目前的機(jī)制下,手機(jī)應(yīng)用可以在用戶不知情或無力控制的情況下,獲取用戶大量移動端數(shù)據(jù)。在PbD模型中,定義了一種新的應(yīng)用價(jià)格,即數(shù)據(jù);并建立了一種新的開發(fā)者與用戶之間的關(guān)系,使得用戶可以對他們的數(shù)據(jù)有更強(qiáng)的控制。模型讓用戶知道他們哪些數(shù)據(jù)被收集,而這些用戶數(shù)據(jù)的使用也被顯式地告知用戶,并通過新的粒度更低的認(rèn)證機(jī)制來控制。此模型同時(shí)使得用戶可以從數(shù)據(jù)交易中獲得獎勵。這種顯式的數(shù)據(jù)—服務(wù)交換使得我們可以建立一種以市場機(jī)制為調(diào)節(jié)手段的數(shù)據(jù)定價(jià)和交易方法。在過去的2年中,我們團(tuán)隊(duì)完成了PbD的計(jì)算模型并完成了其原型系統(tǒng),包括PbD市場、數(shù)據(jù)交易價(jià)格、PbD開發(fā)SDK和一個(gè)定制的PbD Android操作系統(tǒng)。
其他的支持體系包括法律、知識產(chǎn)權(quán)等方面,其中一個(gè)有意思的方向是科學(xué)領(lǐng)域的數(shù)據(jù)知識產(chǎn)權(quán),或者說數(shù)據(jù)出版。這個(gè)問題涉及到科學(xué)數(shù)據(jù)如何被開發(fā)利用,尤其是在學(xué)界之外的開發(fā)利用。這其中同樣有經(jīng)濟(jì)模型的問題,例如科研經(jīng)費(fèi)如何對數(shù)據(jù)獲取、處理和發(fā)布進(jìn)行支持,以及如何建立對數(shù)據(jù)科學(xué)家的聲譽(yù)和激勵,從而在科學(xué)數(shù)據(jù)領(lǐng)域形成良好生態(tài)。我們在此領(lǐng)域做了一些初步工作,進(jìn)行了一個(gè)大規(guī)模的數(shù)據(jù)出版調(diào)查,并出版了第1期的數(shù)據(jù)出版調(diào)查報(bào)告,調(diào)查圍繞數(shù)據(jù)出版話題,側(cè)重從數(shù)據(jù)出版動機(jī)、數(shù)據(jù)出版方式、數(shù)據(jù)出版運(yùn)營模式以及數(shù)據(jù)出版質(zhì)量評價(jià)4大維度出發(fā),來了解世界范圍內(nèi)科學(xué)研究領(lǐng)域科學(xué)家對于科學(xué)數(shù)據(jù)出版相關(guān)內(nèi)容的看法和態(tài)度,并針對數(shù)據(jù)出版的意義價(jià)值及其操作層面的諸多問題予以探討,以期全面了解數(shù)據(jù)出版發(fā)展現(xiàn)狀,并試圖探索推進(jìn)數(shù)據(jù)出版事業(yè)未來發(fā)展、為促進(jìn)科學(xué)數(shù)據(jù)交流共享提供積極建議。
大數(shù)據(jù)為人類社會提供了又一次新的資源機(jī)遇,其具有已有自然資源所不具備的許多特征。如它的超可再生性——數(shù)據(jù)的使用本身并不消耗數(shù)據(jù),相反,還會產(chǎn)生新的數(shù)據(jù);它的非競爭性使用——一方對數(shù)據(jù)的占有并不限制其他人對這份數(shù)據(jù)的擁有。這些特征使得數(shù)據(jù)資源的使用不僅可以像其他的自然資源一樣產(chǎn)生能量與財(cái)富,而且可以完全改變?nèi)祟惖纳鐣M織結(jié)構(gòu)和行為方式。所以,對數(shù)據(jù)科學(xué)研究必須站在社會發(fā)展、新的經(jīng)濟(jì)模式、新的工業(yè)體系、新的創(chuàng)新產(chǎn)品、新的生活方式以及新的科學(xué)研究的方法等宏觀角度來進(jìn)行系統(tǒng)化的科學(xué)研究。?