米純 朱利泉
摘 要 隨著科技的發展,大數據越來越受到各行各業的重視。包括政府、科學、教育和企業等,此外,全球一些頂級的學術機構和刊物比如Nature和Science等多對大數據進行了研究,并先后設立???,出版了一些增長,對其進行了深度的探討。同時還提出了大數據帶來的優勢和面臨的問題和挑戰。目前,醫療、物流、金融、制造、零售、科研和電信等多個領域得到大量的使用,并隨之產生了巨大的科技價值、社會價值和產業空間。美國前總統奧巴馬在2012年3月22日宣布,美國將投入2億元美金來為“大數據研究和發展計劃(Big Data Research and Development Initiative)”建立資金基礎。自從上世紀九十年代宣布“信息高速路”的建設計劃以后,這對美國來說是又一次國家戰略,為美國的發展起到了重要的作用。緊隨著美國的腳步,2013年,我國國家科學院將大數據作為國家戰略加以發展。總體而言,大數據技術及相應的基礎研究已經成為高校、科研院所和產業界的研究的熱點和焦點,大數據的研究涉及了信息,心理、經濟、社會等多個學科,不僅成為了傳統行業的發展方向和契機,更鑄就了很多新興學科的崛起,成為了一個名副其實的交叉學科。大數據科學的總體方向已經逐步形成。在大數據時代背景下,農學生物類博士生科研內容與現代生物科技前沿信息之間必將產生新的復雜關系,對于博士生來說,是一個很好的學習和發展方向。
關鍵詞 大數據 博士生 科研 信息 關系
中圖分類號:F32 文獻標識碼:A
1博士生面臨大數據與大數據技術
1.1大數據定義
大數據就是一種不能依靠傳統IT技術和工具在短時間內進行數據的收集整理,管理和服務等集合。通過對其的研究,發現其具有4大特點,第一是具有大量的Volume ,并且由原來的TB級迅速飛升為PB以及EB級。通過IDC 的“數字宇宙”可知,它預測全球的數據使用量將會在2020年前迅速飛升,達35.2ZB。第二是特點是Variety,是指數據的種類多種多樣。這是因為數據的來源眾多,渠道不具有單一性,此外,隨著軟件的發展升級,數據處理方式變得越來越多,格式也隨之豐富起來,改變了以前的數據模式。第三,Velocity,是指數據的產生和更新。在大數據中這是其一個很重要的特征。就全球而言,數據的翻一番的時間大致為一年半,遵循著摩爾定律。第四是Value,即指數據的價值含量,在大量的數據中,具有價值的數據只是少數部分,因此,高效運用數據的前提是獲取有價值的信息。
1.2大數據技術
從定義上講,大數據技術是就是從海量的數據中,迅速地找到有價值的信息。簡單地說,大數據技術幫助解決了數據豐富但知識不足這一尷尬,究其實質是通過眼睛看到的數據,對其進行研究分析,從而獲得其隱藏的信息,提取潛在的價值。因而大數據是公認的最具“市場”前景的技術之一,這一新興領域已經成為了大勢所趨,是未來競爭的關鍵因素。例如在政府的角度來說,有利于達到高效服務型政府的目標。對于學校而言,有益于績效管理更加高效正確,有益于績效評估,資源的合理分配應用等都是在數據的基礎之上來做出決定。對于博士來說,為其研究工作的開展提供了必要的前提和整體環境。
1.3博士生面臨大數據與大數據技術
對于大數據的研究,在此之前都將主要的精力放在數據的精確度上。在相當長一段時間內,數據采集、記錄和存儲等都受到技術的限制,無法實現大規模,海量數據的分析研究,使得研究成果不夠準確。因此,我們在對數據進行處理時,從采集到分析都只選擇一小部分數據,在大量的數據面前,這一小部分數據不具有完全的代表性,具有主觀色彩。隨著各行各業數據的使用增多,數據的量越來越大,但是人們的能力有限,因此,統計學發明了抽樣法,即用一部分數據作為代表,對其進行分析研究,并從中總結出整體的特點,同時統計學的目標也成為用最少的數據得出最重要的信息。長此一來,我們形成了一種習慣:也就是最大限度的減少數據的采集量。然而往往具有較大價值的信息都藏于大量的數據中,而這種精簡則會使得那些細節被排除在外。
2海量大數據信息對農學生物類博士生研究方法和內容的影響
2.1大數據時代的科研方法變革及其必然性
所謂的科學研究方法就是在實踐的基礎上得出的理論方法,并將其作為指導實際的基礎。在這個信息爆炸的時代,數據的處理也需要一種新型高效的技術作為支撐條件,不斷的完善傳統的方式,推陳出新。為從事科研活動的人提供一個新型的,科學的研究方法。
“大數據”是相對以往小型、局部性數據而言的,利用大數據進行分析和工作時,研究方法體現為三大方面的轉變。(1)改變了以往抽樣研究的方法,不論是四研究整體還是某一個特殊的點,都需使用其所有的數據。(2)由于有更多的數據,我們可以接受更多混雜、更多數據上的不精確。(3)在分析數據時不再一味追求是否具有因果關系,而是將事物之間的關系研究放在了重要位置。在這個時代,科學的研究方法是時代的要求,也是歷史發展的必然結果。對該研究方法進行系統的梳理和研究顯得尤為重要。
由于大數據具有規模大、分布式、異構、不準確、不一致等特性,因而管理難度加大。由于當前些技術和系統無法有效管理支持大數據運行,于是海量數據的出現催生了一種新的科研模式,在爆炸的數據中,博士生等科學研發人員的工作成為了與數據打交道,在其中挖掘信息,發現新智慧,甚至無需直接接觸需研究的對象。Jim Gray博士是著名的專家,曾獲得圖靈獎。他對古今科研進行了分析和總結,提出了人類科研的3種范式,即實驗、理論和計算。今天,數據量不斷攀升,這3種范式已經無法滿足需求,在一些領域已經被淘汰,因此,迫切需求第四種的出現,以便能夠適應新形勢的需要。對此,Jim Gray提出了一種新的數據研究方法,被稱為“第四范式”,科研活動將受到數據的影響,數據密集將成為科研的一種新特點,新方向,是在實驗、理論結合計算科學之后的第四種科研范式。從實際上來說,計算機科學是對前兩種范式的補充和優化,而數據密集型范式則是一種全新的處理大數據的方法,不僅僅是前三張范式的優化,表1是對四種范式進行的比較。
2.2第四范式的特征
涉及到科學研究第四范式,關于其知識服務主要包括兩個方面的特征:第一點,為用戶提供知識理論和數據信息方面的服務,換句話說,不但要涉及到知識理論方面的服務,而且要提供數據服務,使用戶能夠更容易更清晰地理解最終的知識結果,能夠重復該結果產生的實驗過程,并重復利用該數據,提高科學研究效率。二是對溯源信息進行管理,提供從數據到知識的整個過程服務。數據溯源信息指在整個工作流程執行中數據的輸入和處理歷史。科學研究信息的提供者為用戶提供的信息和知識是單個的靜態的,而科學研究第四范式需要新的服務模式,即能夠提供從數據到知識轉變的整個過程信息,這是一個動態的服務過程。許多的科研人才其中不乏博士學位研究生,他們在科研工作中的過程和結論都需要體現第四范式的特點。
3大數據時代對農學生物類博士生科研過程的信息新式供給
3.1大數據環境下農學生物類博士生的科研信息需求
在現在的大環境下,具有密集型特點的科學性數據在大數據中具有重要地位,這種密集型數據較一般大數據相比,除具有基本特征外,在管理和分析數據上有更極致的追求,一定會使科學研究人員增加對進程中的專業化、深層化、定制化、協同化以及集成化的信息的需求量。第一,科研對象在大數據時代下的虛構化,會使許多的科學研究人員其中包含農學生物類專業的博士生,具有對提高數字性交互性的管理信息能力的需要;第二,科研需求在大數據時代下有很強的知識性,會使許多科學研究人員具有大規模數據同步尋覓分析的需要;第三,科研溝通方法在大數據時代下,會使許多的科學研究人員其中同樣包含農學生物類專業的博士生,具有共同分享多種學科配合和科研數據集匯的資源信息的需要。
3.2信息供給模式演進與科研過程演進
英國科學與技術設施研究理事會(STFC)提出了數字科研環境下的科研模型 ,把科研工作分析成一種不斷連的工作流,整個過程以分析趨勢、產生思路、組織并設計項目、進行項目申請、實際性研究實驗、收集并組織數據、宏觀分析數據、發布并交流成果、保護研究成果為主線,細致地描繪了適用于未來的科學研究工作流的初步形態??蒲泄ぷ饕孕畔橹埸c,不斷研究分析信息的過程。在現在的大環境下,很多事物都在悄然發生著革命性的變化,知識形態、科學技術創新方式以及科學技術創新發展中的知識處理及交流機制都是如此,無一例外。這些變化同時又推動著知識創造模式的改變,以及科研工作流中關鍵性知識瓶頸出現深刻的變化,進而促進著新興知識服務機制的產生。
服務的主體、客體、方法及內容是信息服務模式的重要組成部分。服務主體是信息服務行動的執行者,也就是信息的服務人員,以客戶的需求為出發點,運用行之有效的辦法,供應信息服務產品來實現客戶要求。服務客體是對信息服務有需要的人,與常見的圖書館讀者不一樣,分為群體和個體兩種需求類型,會發出需要信息的信號并接受使用信息。服務方法指的是信息服務中使用的策略,它是為幫助信息服務人員做成進行信息服務的行動而提出行之有效的手段。像舊時的信息服務里的查詢文獻、擬定專題、確定主題和新時代信息服務里的信息的搜集、匯集、個性化定制、咨詢參考等皆是信息服務手段。服務內容是最終的信息服務產品,是信息服務人員最后交給信息服務需求者的確定下來的成果,或者是某種能夠感受到的信息服務,由此它既可能是真實的物品,也可能是虛擬的產品,像報告、刊物、數據庫一類的或是像學科導航與文獻檢索一類的信息服務。
4大數據的信息供給的未來趨勢
數據密集型環境下,圖書館的知識咨詢服務必須進行創新,利用新技術進行服務模式的演進,新的服務模式包括云服務模式、智慧感知模式和導航模式;在思維方式方面,大數據環境下的思維方式向著多樣性、開放性、生長性、整體性、平等性和相關性發展,根本上屬于多元性思維;在認知角度方面,大數據環境改變了人類的一些常規認知,主要體現在人類眼界的改變,從局限的世界向無限的大數據方向進擊,進而滿足認知的平等;在信息技術方面,傳統的數據尋求方式已經落后于大數據時代,在數據收集、儲存、分析和可視化等地方都存在弊端。這時任何領域都急切需要著大數據的幫助,更多的人選擇了以數據為依據的分析代替以專家為信條的分析方式。而從服務創新的角度來講,應注意數據創新、用戶行為分析及知識網絡的關聯等方面的問題。
基金項目:重慶市教育改革項目資助,編號yjg142023。
參考文獻
[1] 張斌,馬費成.大數據環境下數字信息資源服務創新[J].情報理論與實踐,2014,37(6):28-33.
[2] 王元卓,賈巖濤,劉大偉,靳小龍,程學旗.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發展,2015(2):456-474.
[3] 賀威,劉偉榕.大數據時代的科研革新[J].未來與發展,2014(2):2-5.
[4] 董月玲,王曉麗,王尋.嵌人科研過程的學科化知識服務研究[J].高校圖書館工作,2012(2):76-78.
[5] 戴瑾.我國高校圖書館嵌入式服務的實踐與發展趨勢[J].圖書與情報,2013(3):128-131.