◆朱 榮 高 瑞
(漢江師范學院 湖北 442000)
“大數據”時代科學數據整合研究
◆朱 榮 高 瑞
(漢江師范學院 湖北 442000)
隨著社會經濟不斷發展以及科學技術水平的不斷提高,人們的生產、生活水平也有了極大的改善。在當今的21世紀對信息、數據等進行管理和分析已經成為必然的趨勢,在日常的生活中以及工作中,大數據作為新時代的力量滲入到我們生活的各個方面,扮演著越來越重要的角色。政府數據分析、工程項目管理等多個方面都開始進行有效的管理,推動自身信息化的建設和工作效率和質量的不斷提升。信息與網絡技術的不斷發展當中,通過各類的科學研究產生了大量的原生態數據,又通過對數據資源的分析整合,可以使大數據運用更加便捷,實現數據的綜合利用和數據資源的共享,幫助數據資源被有效的利用以及推動政府各項職能的實現有著十分重要的意義,大數據已經影響了我們今天生活的各個方面。在本文筆者將會研究大數據在今天的發展態勢以及分析大數據時代下科學研究的特點和科學研究中大數據整合所面臨的諸多問題與挑戰。
大數據; 數據整合; 數據分析
21世紀的中國是一個科技不斷發展的時代,科學技術正在蓬勃發展,對于各類技術的研究開始走向人們的視眼,科學研究在計算機、信息網絡技術方面的發展下產生了大量的數據,貫穿了計算機模擬以及傳播的多個過程當中。數據資源可以通過一些圖書、論文的形式來進行發表,也可以通過實現結果的記錄、通過儀器觀察得到的數據來展現等等,而我們現今的重要任務就是通過科學技術來對這些數據資源進行整合,避免將大量的科學研究得到成果因為無法保存而失去價值,讓大量準確真實的數據失散在實驗室當中,我們需要將這些數據有效的保存起來,讓更多的人能夠獲取到有效的信息,讓科研人員可以通過這些數據進行進一步的研究,避免研究過程的雜亂和重復,推動科學研究的有效進行。未來的科學研究是通過數據來推動的,大數據是未來社會不斷發展的無限動力,大數據推動人類生活走向科技和先進,推動科學技術向前沿的方向發展。科學研究作為一項巨大的項目,并且涉及國家戰略發展的方方面面,研究中所涉及的數據資源正有待我們有效的解決。
在不斷發展的社會中科學技術的作用越來越重要,科學技術都在推動著人類社會的每一項進步。例如不斷發展的計算機技術、通訊技術、生物醫藥等都在一定程度上為整個國民經濟水平的發展和提高起到了重大的作用,大數據時代之下智慧城市的建設和規劃,大數據時代下科學教育的發展以及政府數據的分析治理等等都越來越受到重視。大數據是將計算機科學、統計學以及社會學等多個領域的資源結合起來,運用科學的管理手段將這些信息以數據的形式儲存起來,達到數據的保存和共享,為科學研究和其他技術研究提供服務。
人們越來越能夠意識到數據對于企業,對于科研以及政府各項職能的發展所產生的重要作用,但是卻忽視數據爆炸性增長中所存在的一些隱患和問題。每一項科學研究都在產生大量的數據,形成成功或者失敗的研究成果,在這一個過程中必然會有大量有價值的信息和數據,以后的科學研究需要對這些數據進行分析整合,充分實現數據所產生的價值以及帶來的作用。大數據不僅僅是一項技術工程,更重要的是他與我們的生活實際運用聯合起來而發揮了巨大的作用,大到地球科學、生命科學以及高能物理研究等多個方面,小到我們日常的生產生活當中。例如互聯網技術的發展,提供了人與人之間連接的平臺,提供了創業的平臺,也提供了商業交往的平臺,這些都是基于大數據的運用和發展。京東、唯品會或者淘寶等都因大數據走向我們的生活,我們可以在上面購物,與賣方直接跨地區不受空間限制的溝通,大數據時代已經向我們走來。但是在這之中有一個問題需要引起我們的重視,就是在科學研究當中應該如何去獲得相關的數據,如何去尋找與科學研究相關的數據庫。可以通過科技文獻、實驗室的報告、實驗室的結果分析以及相關的視頻和圖片等等來獲取相關的數據輔助科學研究的順利進行,大數據時代科學數據整合仍然需要不斷的努力和探索新的方法。
雖然大數據時代已經來臨,科學技術也在突飛猛進,但是在發展中仍然存在著諸多的問題,大數據時代的科學數據研究整合面臨著諸多的挑戰,比如說對于相關的科學技術進行描述的時候所運用的語法不統一,有的以文本形式來對數據進行保存,有的以視頻的方式來進行數據的保存,但是由于科學研究中的實驗室所用到的系統都存在差異,所以在對相同信息的文本或者視頻來進行解讀的時候必然會產生一些出入,影響相關研究中對數據進行分析。除了科學數據整合中語法上存在差異之外,科學數據的元數據之間也存在著不同,元數據之間格式異同,同樣的科學數據在應用中會應格式不同而有所差別。我們應該找到一種可以從元數據格式到集成元數據之間的正確的映射或者說正確的解決方法,能夠使得元數據自身所帶有的不完整性得到一定的改善和補充,幫助科學研究工作的順利進行。在大數據時代科學數據的整合研究之中還存在一個重要的問題就是不同的數據之間缺乏一個有效的數據關聯和連接體,不同的數據之間沒有有效的語言連接手段,一般來講科學數據研究必然由多種元數據組合而成,科學家需要對各種相關的數據進行分析組合,因此使得科學數據無法得到有效的查詢,探索數據之間各個實體的關系和連接方法有著巨大的意義。
科學數據的整合顧名思義就是要將在科學研究中各類相關的數據聯系起來,進行數據的查詢、篩選和整合,實現數據資源的共享和分析,不同的數據之間能夠有效的聯系和結合,共同服務于科學研究的項目。在科學數據的集成過程中也就存在著一個關鍵性的問題就是數據之間進行連接的中間件,如何構建這種可以方便數據整合的中間件,解決好這一問題也就會解決大數據時代科學數據整合的困境。
大數據時代探索數據資源科學整合的方式尤為重要,通過把不同數據的元數據信息進行轉換,使得各個異構數據庫之間的信息可以通過正確的中間件組合成為全局性的虛擬視圖。讓每一個異構數據庫按照相關的規定通過包裝器轉變為自己的XML視圖,并且可以對XML進行分析和選擇,使數據更加有效和精準,這種中間構建是將異構數據進行有效的處理。在上面描述中筆者已經提到在大數據時代不斷的發展之下,科學數據研究整合之中存在著一個重要的問題就是不同格式的數據之間沒有相關的語言格式,而對于此類問題,我們也應該尋找相對適應的中間件,單是依靠語法上面的數據已經無法滿足更多科學工作者的需要,也無法滿足現在社會科學技術不斷興盛的需求,所以語言模型的中間件構建也顯得十分的重要。也就是說可以在XML包裝器上再另外的進行疊加,加上CM-Wrapper包裝器,實現不同語言格式之間數據的聯合搜集和整合,將不同的數據組合成為一個整體,元數據的轉換以及中間件的建設對于科學數據資源整合至關重要。
無論是哪一種中間件的構建都會涉及到原始數據以及用戶查詢意圖所產生的數據,中間件的構建涉及到數據自身以及科學家對數據資源的應用,兩者之間需要通過映射模式組合生成,所以對模式之間映射關系的構建顯得十分重要,其中最為常見的是GAV和LAV兩種方法。GAV是指將數據源映射到全局的視圖當中從而獲得較高的查詢效率,LAV的方法是更加適用于數據變化較大的數據源,這種方法中的映射關系有著良好的擴展性。這兩種方法在科學數據研究整合當中有著各自的特點,但對于數據的整合運用都有著巨大的有利之處,所以在大數據時代對于科學數據進行有效的處理是我們必須要面對的挑戰。大數據時代高效的利用各種數據分析方法進行科學項目研究或者說相關數據產業的構建都有著重要的意義,小到在圖書館數據管理、電視營銷數據等中涉獵,大至科學產業數據整合與政府網站信息資源分析都在實現其社會價值。
“大數據”不僅僅是一個概念性的表達,更是一個時代發展的深刻體現,大數據中蘊含著時代發展的無限動力,科學技術騰飛的基礎條件,在不斷發展的今天,我們要意識到大數據時代所帶來的教育和挑戰,認識到科學數據研究整合的意義所在。
[1]白如江,冷伏海.情報理論與實踐,2014.
[2]方璐.大數據時代的科學研究方法.浙江工業大學,2014.
[3]馬曉亭.大數據時代圖書館數據整合系統構建研究,圖書館建設,2014.
[4]陳亞東,孟憲學,趙瑞雪,寇遠濤,鮮國建.我國蘋果產業科學數據整合系統的設計與實現.中國農業科技導報,2016.
[5]吳寧博.大數據時代圖書館科學數據生命周期管理策略研究.貴圖學苑,2015.
[6]張蘭廷.大數據的社會價值與戰略選擇.中共中央黨校,2014.
[7]金元寶.大數據時代政府網站信息資源整合研究.東北財經大學,2015.
[8]劉峰.劉峰大數據時代的電視媒體營銷研究.華東師范大學,2014.
漢江師范學院科研項目(項目編號:2014B19)。