999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據密集型科研第四范式

2013-04-29 19:06:06陳明
計算機教育 2013年9期

編者按:本刊2013年第7期推出《大數據問題》一文,受到讀者廣泛好評。為推進計算機前沿技術的傳播,我刊特開辟“前瞻技術”專欄,邀請陳明教授主持并撰文,后續將推出《NoSQL數據庫》《大數據處理的利器Hadoop》《分布計算中的CAP理論》等文章。期望本欄目能以精練的文字為廣大讀者展現相關領域的最新技術和研究成果。

專欄作家:陳明,男,中國石油大學教授,博士生導師,特聘教授,研究方向為分布式并行計算、計算智能、軟件工程、大數據計算等,chenming@cup.edu.cn。

摘要:由于數據爆炸式增長,為了解決數據密集型知識發現,出現了科學研究的第四范式。文章介紹第四范式的產生背景、核心內容、格雷法則、范式轉變和第四范式時代等內容。

關鍵詞:數據密集;知識發現;第四范式

1.背景

萬物之靈的人類對外部世界的認識已達到令人驚嘆的高度,在宏觀上放眼億萬光年的宇宙,在微觀上已深入層子、夸克世界。隨著科學的發展,人們發現蘊藏著科學理論的科學數據經常被掩埋在零散的實驗記錄中,很容易丟失,只有少數大項目的數據被存儲在磁介質中。如何獲取、管理與分布保存科研群體數據成為科學發展面臨的巨大挑戰。

1962年美國著名科學哲學家托馬斯·庫恩(Thomas Samuel Kuhn)在《科學革命的結構》一書中闡述了范式的概念與理論,認為范式就是一種公認的模型和模式,是常規科學的理論基礎和實踐規范,是研究者在從事科學研究時共同遵守的世界觀和行為方式,是共同接受的一組假說、理論、準則和方法的總和。

圖靈獎獲得者、美國計算機科學家詹姆斯·格雷(James Gray)于2007年1月11日在加州山景城召開的計算機科學與電信委員會會議上的最后一次演講中描繪了關于科學研究第四范式的愿景。這個新的范式成為由實驗、理論與仿真所主宰的歷史階段的符合邏輯的自然延伸。

科學研究的前兩個范式是實驗和理論。實驗法可以追溯到古希臘和古中國。那時,人們嘗試通過自然法則來解釋觀察到的現象。現代理論科學則起源于17世紀的艾薩克·牛頓(1saacNewton)。20世紀下半葉高性能計算機問世之后,諾貝爾獎得主肯尼思·威爾遜(Kenneth Wilson)又把計算和模擬確立為科學研究的第三范式。第四范式同樣要用到性能強大的計算機,與第三范式的差別在于科學家們不是根據已知的規則編制程序,而是以數據為中心編程。

2.科學研究第四范式的核心內容

科學研究的范式不等同于科學知識的各種范式,是一種新的科研模式,主要用于數據密集型科學研究。相比庫恩科學動力學理論,網絡可以幫助我們更好地理解海量數據策略。

2.1科學研究范式的演化過程

在漫長的科學研究范式進化過程中,最初只有實驗科學范式,主要描述自然現象,是以觀察和實驗為依據的研究,也稱為經驗范式。后來出現的理論范式是以建模和歸納為基礎的,是對某種經驗現象或事實的科學解說和系統解釋,是由一系列特定的概念、原理(命題)以及對這些概念、原理(命題)的嚴密論證組成的知識體系。開普勒定律、牛頓運動定律、麥克斯韋方程式等正是利用了模型和歸納而誕生的。但是對于許多問題,用這些理論模型分析解決過于復雜,科學家們只好走上了計算模擬的道路,提出了第三范式。第三范式是以模擬復雜現象為基礎的計算科學范式,又可稱為模擬范式。模擬方法已經引領我們走過了上個世紀后半期的全部時間。現在,數據爆炸又將理論、實驗和計算仿真統一起來,出現了新的密集型數據的生態環境。計算模擬正在生成大量數據,同時實驗科學也出現了巨大數據增長。研究者已經不用望遠鏡來觀看,取而代之的是通過把數據傳遞到數據中心的大規模復雜儀器上來觀看,開始研究計算機上存儲的信息。

無需質疑,科學世界發生了變化,新的研究模式是通過儀器收集數據或通過模擬方法產生數據,然后利用計算機軟件進行處理,再將形成的信息和知識存于計算機中。科學家通過數據管理和統計方法分析數據和文檔,只是在這個工作流中靠后的步驟才開始審視數據。可以看出,這種密集型科學研究范式與前三種范式截然不同,將數據密集型科學研究范式從其他研究范式中區分出來,作為一個新的、科學探索的第四種范式,其意義與價值是重大的。

2.2數據密集型科學研究的基本活動

數據密集型科學研究由數據的采集、管理和分析三個基本活動組成。數據的來源構成了密集型科學數據的生態環境,主要有大型國際實驗,跨實驗室、單一實驗室或個人觀察實驗,個人生活,等等。各種實驗涉及多學科的大規模數據,如澳大利亞的平方公里陣列射電望遠鏡、歐洲粒子中心的大型強子對撞機、天文學領域的泛STARRS天體望遠鏡陣列等每天能產生幾個千萬億字節(PB)的數據。特別是它們的高數據通量,對常規的數據采集、管理與分析工具形成巨大的挑戰。為此,需要創建一系列通用工具來支持從數據采集、驗證到管理、分期和長期保存等整個流程。

2.3學科的發展

格雷認為所有學科x都分有兩個進化分支,一個分支是模擬的x學,另一個分支是x信息學。如生態學可以分為計算生態學和生態信息學,前者與模擬生態的研究有關,后者與收集和分析生態信息有關。在x信息學中,把由實驗和設備、檔案、文獻、模擬產生的事實以編碼和表達知識的方式存貯在一個空間中,用戶通過計算機向這個空間提出問題,并由系統給出答案。為了完成這一過程,需要解決的一般問題有:數據獲取、管理PB級大容量的數據、公共模式、數據組織、數據重組、數據分享、查找和可視化工具、建立與實施模型、數據與文獻集成、記錄實驗、數據管理與長期保存等。可以看出,科學家需要更好的工具來實現大數據的捕獲、分類管理、分析和可視化。

3.以數據為中心發展的格雷法則

數據爆炸式的增長對前沿科學帶來了巨大挑戰,但科學家還沒有掌握管理和分析大數據的方法,而小數據的管理和分析方法已不能勝任,數據密集型計算面臨著難以克服的挑戰。正是在這種情況下,對于大型科學數據集的大數據工程,格雷制定了如下的非正式法則,代表了一系列設計數據密集系統的優秀指導原則。

1)科學計算趨于數據密集型。

計算平臺的I/O性能限制了觀測數據集的分析與高性能的數值模擬,當數據集超出系統隨機存儲器的能力,多層高速緩存的本地化將不再發揮作用,僅有很少的高端平臺能提供足夠快的I/O子系統。

高性能、可擴展的數值計算也對算法提出了挑戰,傳統的數值分析包只能在適合RAM的數據集上運行。為了進行大數據的分析,需要對問題進行分解,通過解決小問題獲得大問題解決的還原論方法是一種重要方法。

2)解決方案為“橫向擴展”的體系結構。

對網絡存儲系統進行擴容并將它們連接到計算節點群中并不能解決問題,因為網絡的增長速度不足以應對必要存儲逐年倍增的速度。橫向擴展的解決方案提倡采用簡單的結構單元。在這些結構單元中,數據被本地連接的存儲節點所分割,這些較小的結構單元使得CPU、磁盤和網絡之間的平衡性增強。格雷提出了網絡磚塊的概念,使得每一個磁盤都有自己的CPU和網絡。盡管這類系統的節點數將遠大于傳統的縱向擴展體系結構中的節點數,但每一個節點的簡易性、低成本和總體性能足以補償額外的復雜性。

3)將計算用于數據,而不是數據用于計算。

大多數數據分析以分級步驟進行。首先對數據子集進行抽取,通過過濾某些屬性或抽取數據列的垂直子集完成,然后以某種方式轉換成聚合數據。

近年來,MapReduce已經成為分布式數據分析和計算的普遍范式,具有分布式分組和聚合的功能。根據這一原理構造的Hadoop開源軟件已成為目前大數據處理的最好的工具,Hadoop技術成為推動大數據安全計劃的引擎。企業使用Hadoop技術收集、共享和分析來自網絡的大量結構化、半結構化和非結構化數據。

Hadoop是一個開源框架,它實現了MapReduce算法,用以查詢在互聯網上的分布數據。在MapReduce算法中,Map(映射)功能是將查詢操作和數據集分解成組件,Reduce功能是指在查詢中映射的組件可以被同時處理(即約簡),以快速地返回結果。

Hadoop具有方便、健壯、可擴展、簡單等一系列特性。Hadoop處理數據是以數據為中心,而不是傳統的以程序為中心。在處理數據密集型任務時,由于數據規模太大,數據遷移變得十分困難,Hadoop強調把代碼向數據遷移。

4)以“20個詢問”開始設計。

格雷提出了“20個詢問”的啟發式規則,在他參與的每一個項目中,他都尋求研究人員讓數據系統回答最重要的20個問題。他認為5個問題不足以識別廣泛的模式,100個問題將導致重點不突出。由于與人類選擇有關的大多數決定都遵循長尾理論,詢問中的相關信息根據重要性排序顯然是呈對數分布。長尾理論是網絡時代興起的一種新理論。長尾實際上是統計學中冪律和帕累托分布特征的一個口語化表達。過去人們只能關注重要的人或重要的事,如果用正態分布曲線來描繪這些人或事,人們只能關注曲線的“頭部”,忽略處于曲線“尾部”、需要更多精力和成本才能關注到的大多數人或事。例如,在銷售產品時,廠商關注的是少數幾個所謂“VIP”客戶,“無暇”顧及大多數普通消費者。長尾理論是對傳統的二八定律的徹底叛逆。

20個詢問規則是一個設計步驟,使領域科學家與數據庫設計者可以對話。這些詢問定義了專門領域科學家期望對數據庫提出的有關實體與關系方面的精確問題集,填補科學領域使用的動詞與名詞之間、數據庫中存儲的實體與關系之間的語義鴻溝。這種重復實踐的結果是專門領域科學家和數據庫之間可以使用共同語言。

這種方法非常成功地使設計過程集中于系統必須支持的最重要特征,同時幫助領域科學家理解數據庫系統的折中,從而限制特征的蠕動。

5)工作至工作。

工作至工作是指工作版本的升級,這是另一個設計法則。無論數據驅動的計算體系結構變化多么迅速,尤其是當涉及分布數據的時候,新的分布計算模式每年都出現新的變化,使其很難停留在多年的自上而下的設計和實施周期中。當項目完成之時,最初的假設已經變得過時。如果要建立只有每個組件都發揮作用才開始運行的系統,那么我們將永遠無法完成這個系統。在這樣的背景下,唯一方法就是構建模塊化系統。隨著潛在技術的發展,這些模塊化系統的組件可以被代替,現在以服務為導向的體系結構是模塊化系統的優秀范例。

4.范式的轉變

庫恩認為范式的演變是科學研究的方法及觀念的取代過程,科學的發展不是靠知識的積累而是靠范式的轉換完成的,新范式形成表明建立起了常規科學。庫恩的模型描述了這樣一種關于科學的圖景:一組觀念成為特定科學領域的主流和共識,創造了一種關于這個領域的觀念(所謂范式),進而擁有了自我發展的動力和對這個領域發展的控制力。這種觀念之所以強有力是因為它代表了對觀察到的現象的合理解釋。這種觀念或范式從漸進發展的機制中獲得啟發和力量,同時被科學家逐漸完善。當現有范式無法解釋觀察到的現象,或者實驗最終證明范式出錯時,那么范式失敗、被解體,轉變范式的機會也就到了。數據泛濫是第四范式出現的導火索。處理、存儲、分析可視化數據的能力是科學必須具備和適應的新事實,數據是這個新范式的核心,它與實驗、理論、模擬共同成為現代科學方法的統一體。在科學發展的長河中,前三種范式作出了巨大的不可磨滅的貢獻,在歷史上已成功地將科學的發展引領至今天的輝煌,而且模擬仍處于現代科學的核心。毫無疑問,依據現有的范式與技術,科學研究還將獲得增量型進展,但是如果需要更重大的突破,就需要新的方法,需要接納和開創新的范式。數據密集型科學研究將會給科學家帶來技術挑戰,IT技術和計算機科學將在推動未來科學發現中發揮作用。

5.第四范式時代

第四范式時代的序幕已經揭開,其核心是各領域科學家與計算機科學家協同研究工作需求,他們之間的關系不是主從關系,而是平等的關系,兩個領域的專家共同努力,推動和豐富科學發現。幾十年前,科學是以學科為中心,今天,重大進展是多學科協作的結果,未來也將如此。在需要利用科學認識去實現事關人類生存的重要目標階段中,還需要科學知識淵博的科學家和技術經驗豐富的工程師密切合作,實現科學與技術的結合,實現理論和技術創新。

將數據丟進巨大的計算機群中,只要有相互關系的數據,統計分析算法就可以發現過去的科學方法發現不了的新模式、新知識以及新規律。對于PB級的數據,沒有模型和假設就可以分析數據。如谷歌的廣告優化配置、戰勝人類的沃森回答系統都是這樣實現的。又如沃爾瑪百貨公司分析顧客資料與天氣相互關系時,發現暴風雨之前,人們會買更多的手電、也會買更多夾心派,盡管市場營銷人員無法確定天氣與糕點之間的關系。也就是說,第四范式既不能像理論和模擬那樣在一定程度上告訴“為什么”,更不能像實驗那樣明確地告訴“是什么”,只能告訴“大概是什么”,其精髓就是“客觀”,從海量的數據中發現數據的共性和客觀性,這展現了第四范式的應用潛力和吸引力。

6.結語

科學研究第四范式是科學家從事科學研究的一種新型范式,也是一種新的觀念和新的思維方式。其主要特點是以數據考察為基礎,是理論、實驗和模擬一體化的數據密集計算的范式,它在多學科研究及數據密集型科學研究中發揮越來越重要的作用。

參考文獻:

[1]李國杰,天數據研完的科學價值叨,中國計算機學會通訊,2012,8(9):8-15.

[2]Hey L Tansley S,Tolle S.The fourth paradigm:data-intensive scientific discovery[EB/OL].[2012-04-02].http://www.amazon.de/The-Fourth-Paradigm-Data-Intensive-ebook/dp/B00318D9Y2#reader_B00318D9Y2.

(編輯:彭遠紅)

主站蜘蛛池模板: 免费A∨中文乱码专区| 欧美中文一区| 国产无码网站在线观看| 国产91线观看| 91色爱欧美精品www| 亚洲91在线精品| 亚洲乱伦视频| 国产H片无码不卡在线视频| 99精品高清在线播放| 专干老肥熟女视频网站| 中文字幕免费视频| 成人在线观看不卡| 免费毛片视频| 国产精品熟女亚洲AV麻豆| AV不卡无码免费一区二区三区| 国产大片黄在线观看| 强乱中文字幕在线播放不卡| 欧美一级99在线观看国产| 99久久精品国产精品亚洲| 亚洲人成电影在线播放| 91麻豆久久久| 国产精品视频观看裸模| 欧美国产日产一区二区| 国产第一页免费浮力影院| 另类欧美日韩| 青青草原偷拍视频| 亚洲国产欧美国产综合久久 | 1024你懂的国产精品| 99re这里只有国产中文精品国产精品| 日韩AV手机在线观看蜜芽| 美女国产在线| 亚洲婷婷丁香| 这里只有精品国产| 亚洲国产欧美目韩成人综合| 欧美精品亚洲日韩a| 九色在线视频导航91| 看国产毛片| 天堂av高清一区二区三区| 无码国产伊人| 欧美成人二区| 2021国产精品自产拍在线| 日韩久草视频| 97成人在线观看| 欧美一区二区人人喊爽| 三上悠亚精品二区在线观看| 国产午夜人做人免费视频中文| 精品欧美一区二区三区在线| 午夜不卡视频| 天天激情综合| 国产区免费| 97超碰精品成人国产| 国产福利在线观看精品| 老司机久久99久久精品播放| vvvv98国产成人综合青青| 国产成人无码综合亚洲日韩不卡| 国模私拍一区二区| 在线一级毛片| 99热这里只有精品国产99| 91色在线观看| 一级成人a毛片免费播放| 国产剧情无码视频在线观看| 伊人AV天堂| 免费在线看黄网址| 午夜视频免费试看| 99这里只有精品在线| 2020国产精品视频| 无码不卡的中文字幕视频| 亚洲成年人片| 亚洲Av激情网五月天| 日韩精品无码免费专网站| 一级毛片中文字幕| 粗大猛烈进出高潮视频无码| 色婷婷成人网| 亚洲成人在线网| 国产手机在线观看| 99热国产在线精品99| 国产精品久久国产精麻豆99网站| 亚洲swag精品自拍一区| 亚洲精品色AV无码看| 国产一级特黄aa级特黄裸毛片| 日本成人一区| 欧美一级黄片一区2区|