數(shù)據(jù)學(xué)和數(shù)據(jù)科學(xué)
數(shù)據(jù)學(xué)(Dataology)和數(shù)據(jù)科學(xué)(Data Science)是關(guān)于數(shù)據(jù)的科學(xué)或者研究數(shù)據(jù)的科學(xué),定義為:研究探索Cyberspace中數(shù)據(jù)界(data nature)奧秘的理論、方法和技術(shù),研究的對象是數(shù)據(jù)界中的數(shù)據(jù),研究認(rèn)識數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律,其目的在于揭示自然界和人類行為的現(xiàn)象和規(guī)律。數(shù)據(jù)記錄了宇宙和生命現(xiàn)象,記錄了人文和社會。尋找數(shù)據(jù)所含的規(guī)律,就是探索宇宙的規(guī)律,就是探索生物的規(guī)律,就是尋找人類行為的規(guī)律,就是尋找社會發(fā)展的規(guī)律,這是數(shù)據(jù)學(xué)的目的所在。與自然科學(xué)和社會科學(xué)不同,數(shù)據(jù)學(xué)和數(shù)據(jù)科學(xué)的研究對象是Cyberspace的數(shù)據(jù),是新的科學(xué)。數(shù)據(jù)學(xué)和數(shù)據(jù)科學(xué)主要有兩個內(nèi)涵:一個是研究數(shù)據(jù)本身,研究數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律;另一個是為自然科學(xué)和社會科學(xué)研究提供一種新的方法,稱為科學(xué)研究的數(shù)據(jù)方法,其目的在于揭示自然界和人類行為現(xiàn)象和規(guī)律。
信息化是將現(xiàn)實世界中的事物和現(xiàn)象以數(shù)據(jù)的形式存儲到CYBER空間中,是一個生產(chǎn)數(shù)據(jù)的過程。這些數(shù)據(jù)是自然和生命的一種表示形式,這些數(shù)據(jù)還記錄了人類的行為,包括工作、生活和社會發(fā)展。今天,數(shù)據(jù)被快速大量地生產(chǎn)并存儲在CYBER空間中,這種現(xiàn)象稱為數(shù)據(jù)爆炸(data explosion),數(shù)據(jù)爆炸在CYBER空間中形成數(shù)據(jù)自然界(data nature)。數(shù)據(jù)是CYBER空間中的唯一存在,需要研究和探索CYBER空間中數(shù)據(jù)的規(guī)律和現(xiàn)象。另外,探索CYBER空間中數(shù)據(jù)的規(guī)律和現(xiàn)象,就是探索宇宙的規(guī)律、探索生命的規(guī)律、尋找人類行為的規(guī)律、尋找社會發(fā)展的規(guī)律的一種重要手段,例如:可以通過研究數(shù)據(jù)來研究生命(生物信息學(xué))、研究人類行為(行為信息學(xué))。
數(shù)據(jù)學(xué)已經(jīng)有一些方法和技術(shù),例如:數(shù)據(jù)獲取、數(shù)據(jù)存儲與管理、數(shù)據(jù)安全、數(shù)據(jù)分析、可視化等;還需要有基礎(chǔ)理論和新技術(shù),例如:數(shù)據(jù)存在性、數(shù)據(jù)測度、時間、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性與簇論、數(shù)據(jù)分類與數(shù)據(jù)百科全書、數(shù)據(jù)偽裝與識別、數(shù)據(jù)實驗、數(shù)據(jù)感知等等。數(shù)據(jù)學(xué)的理論和方法將改進現(xiàn)有的科學(xué)研究方法,形成新型的科學(xué)研究方法,并且針對各個研究領(lǐng)域開發(fā)出專門的理論、技術(shù)和方法,從而形成專門領(lǐng)域的數(shù)據(jù)學(xué),例如:行為數(shù)據(jù)學(xué)、生命數(shù)據(jù)學(xué)、腦數(shù)據(jù)學(xué)、氣象數(shù)據(jù)學(xué)、金融數(shù)據(jù)學(xué)、地理數(shù)據(jù)學(xué),等等。
數(shù)據(jù)科學(xué)在20世紀(jì)60年代已被提出,只是當(dāng)時并未獲得學(xué)術(shù)界的注意和認(rèn)可,1974年彼得.諾爾出版了《計算機方法的簡明調(diào)查》中將數(shù)據(jù)科學(xué)定義為:“處理數(shù)據(jù)的科學(xué),一旦數(shù)據(jù)與其代表事物的關(guān)系被建立起來,將為其他領(lǐng)域與科學(xué)提供借鑒”。1996年在日本召開的“數(shù)據(jù)科學(xué)、分類和相關(guān)方法”,已經(jīng)將數(shù)據(jù)科學(xué)作為會議的主題詞。2001年美國統(tǒng)計學(xué)教授威廉.s.克利夫蘭發(fā)表了《數(shù)據(jù)科學(xué):拓展統(tǒng)計學(xué)的技術(shù)領(lǐng)域的行動計劃》,因此有人認(rèn)為是克利夫蘭首次將數(shù)據(jù)科學(xué)作為一個單獨的學(xué)科,并把數(shù)據(jù)科學(xué)定義為統(tǒng)計學(xué)領(lǐng)域擴展到以數(shù)據(jù)作為現(xiàn)金計算對象相結(jié)合的部分,奠定了數(shù)據(jù)科學(xué)的理論基礎(chǔ)。
(一)基礎(chǔ)理論研究。科學(xué)的基礎(chǔ)是觀察和邏輯推理,同樣要研究數(shù)據(jù)自然界中觀察方法,要研究數(shù)據(jù)推理的理論和方法,包括:數(shù)據(jù)的存在性、數(shù)據(jù)測度、時間、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性與簇論、數(shù)據(jù)分類與數(shù)據(jù)百科全書等。
(二)實驗和邏輯推理方法研究。需要建立數(shù)據(jù)科學(xué)的實驗方法,需要建立許多科學(xué)假說和理論體系,并通過這些實驗方法和理論體系開展數(shù)據(jù)自然界的探索研究,從而認(rèn)識數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律,揭示自然界和人類行為現(xiàn)象和規(guī)律。
(三)領(lǐng)域數(shù)據(jù)學(xué)研究。將數(shù)據(jù)學(xué)的理論和方法應(yīng)用于許多領(lǐng)域,從而形成專門領(lǐng)域的數(shù)據(jù)學(xué),例如:腦數(shù)據(jù)學(xué)、行為數(shù)據(jù)學(xué)、生物數(shù)據(jù)學(xué)、氣象數(shù)據(jù)學(xué)、金融數(shù)據(jù)學(xué)、地理數(shù)據(jù)學(xué)等等。
(四)數(shù)據(jù)資源的開發(fā)利用方法和技術(shù)研究。數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,其重要程度將越來越凸顯,在本世紀(jì)有可能超過石油、煤炭、礦產(chǎn),成為最重要的人類資源之一。這是因為人類的社會、政治和經(jīng)濟都將依賴于數(shù)據(jù)資源,而石油、煤炭、礦產(chǎn)等資源的勘探、開采、運輸、加工、產(chǎn)品銷售等等無一不是依賴數(shù)據(jù)資源的,離開了數(shù)據(jù)資源,這些工作都將無法開展。
數(shù)據(jù)是存在于CYBER空間中的東西;信息是自然界、人類社會及人類思維活動中存在和發(fā)生的現(xiàn)象;知識是人們在實踐中所獲得的認(rèn)識和經(jīng)驗。數(shù)據(jù)可以作為信息和知識的符號表示或載體,但數(shù)據(jù)本身并不是信息或知識。數(shù)據(jù)學(xué)的研究的對象是數(shù)據(jù),而不是信息,也不是知識。通過研究數(shù)據(jù)來獲取對自然、生命和行為的認(rèn)識,進而獲得信息和知識。數(shù)據(jù)學(xué)的研究對象、研究目的和研究方法等等都與已有的計算機科學(xué)、信息科學(xué)和知識科學(xué)有著本質(zhì)的不同。
自然科學(xué)研究自然現(xiàn)象和規(guī)律,認(rèn)識的對象是整個自然界,即自然界物質(zhì)的各種類型、狀態(tài)、屬性及運動形式。行為科學(xué)是研究自然和社會環(huán)境中人的行為以及低級動物行為的科學(xué),已經(jīng)確認(rèn)的學(xué)科包括心理學(xué)、社會學(xué)、社會人類學(xué)和其他類似的學(xué)科。數(shù)據(jù)學(xué)支持了自然科學(xué)和行為科學(xué)的研究工作。隨著數(shù)據(jù)學(xué)的進展,越來越多的科學(xué)研究工作將會直接針對數(shù)據(jù)進行,這將使人類認(rèn)識數(shù)據(jù),從而認(rèn)識自然和行為。
人類探索現(xiàn)實自然界,用計算機處理人類的發(fā)現(xiàn)、人類的社會、自然與人,在這個過程中,數(shù)據(jù)已經(jīng)巨量產(chǎn)生,并正在經(jīng)歷大爆炸,人類在不知不覺中創(chuàng)造了一個更復(fù)雜的數(shù)據(jù)自然界。自第二次數(shù)據(jù)爆炸以來,人們生活在現(xiàn)實自然界和數(shù)據(jù)自然界兩個世界里,人、社會和宇宙的歷史將變?yōu)閿?shù)據(jù)的歷史。人類可以通過探索數(shù)據(jù)自然界來探索自然界,人類還需要探索數(shù)據(jù)自然界特有的現(xiàn)象和規(guī)律,這是賦予數(shù)據(jù)學(xué)的任務(wù)。可以期望,目前的所有的科學(xué)研究領(lǐng)域都可能形成相應(yīng)的數(shù)據(jù)學(xué)。