付強 李劍鋒 劉楊
摘? 要:在吉林省各類科技計劃項目的實施過程中,會產生大量的科學數據,這些數據的產生和加工得到吉林省科技計劃資金支持,同時也是科技工作者長時間辛勤勞動的結晶。為了提高數據利用率,急需集中建庫,實現(xiàn)科學數據共享。吉林省科學數據共享服務平臺建設,通過整理省內數據擁有單位的科學數據,建立起若干數據中心和主體數據庫,搭建吉林省科學數據平臺門戶網站,為吉林省各行各業(yè)提供支持和服務。
關鍵詞:科學數據? 數據共享? 數字吉林? 科學數據中心
中圖分類號:F224? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2019)04(c)-0021-02
科學數據是指人類社會科技活動所產生的基本數據,以及按照不同需求而系統(tǒng)加工的數據產品和相關信息,具有客觀性、多樣性、基礎性、資源性、傳遞性、共享性、增值性等特點[1]??茖W數據是信息時代最基本、最活躍且影響面最寬的科技資源[2]。我國已經在科學數據領域進行了大量深入的研究,比較有代表性的比如我國地球系統(tǒng)科學數據共享平臺。該平臺以中科院地球系統(tǒng)的科研院所、長期野外監(jiān)測臺站的觀測數據為主要來源,同時聯(lián)合了相關機構科學家形成了一個科學數據共享聯(lián)盟,并積極吸納科研項目參與數據共享[3],整合后的數據通過科學數據共享服務平臺對外開放。
為了加快吉林省科技創(chuàng)新體系建設,增強科技創(chuàng)新能力,有效地支撐全省經濟社會快速發(fā)展,迫切需要我們建設科學數據共享平臺,對省內科學數據進行整合,為全社會創(chuàng)建開放高效、共建共享和合作交流的研發(fā)支撐體系。
1? 建設目標
吉林省科學數據共享服務平臺的建設,通過整理省內數據擁有單位的科學研究數據、檢測數據、勘查數據等,建立起若干數據中心和主體數據庫,搭建吉林省科學數據平臺門戶網站,為吉林省各行各業(yè),特別是政府部門開展科技管理、決策,企業(yè)、高校、研究院所開展研發(fā)及橫向聯(lián)合、信息溝通,為發(fā)揮吉林省科教優(yōu)勢,促進經濟發(fā)展提供及時有效的服務和支持。它是吉林省創(chuàng)新體系的重要組成部分,具有投入穩(wěn)定、社會共享、公益性和持續(xù)性等特點,對全省經濟、社會和科技快速發(fā)展具有重要意義,是一項“功在當代、利在千秋”的偉業(yè)。
2? 主要建設內容
(1)根據國家、吉林省的科學數據相關文件要求,結合“數字吉林”戰(zhàn)略部署,研究制定吉林省科學數據共享服務平臺的總體規(guī)劃和建設方案。
(2)搭建“吉林省科學數據共享服務平臺”。通過元數據技術有機鏈接各數據中心的主體數據庫,構建基于元數據的目錄交換服務體系與科學數據信息發(fā)布系統(tǒng),提供基于科學數據的專業(yè)化信息服務,包括目錄查詢、數據檢索、統(tǒng)計分析等服務,實現(xiàn)數據的統(tǒng)一收集、統(tǒng)一管理、統(tǒng)一發(fā)布,確保數據的真實性和安全性。
(3)結合當前實際,建設若干省級科學數據中心和一批特色主體數據庫。第一批組建兩個數據中心——“吉林省科技管理數據中心”、“吉林省農業(yè)科學數據中心”,建立三個特色數據庫——吉林省科技統(tǒng)計數據庫、吉林省基礎科學數據庫、吉林省農業(yè)科學數據庫。
“吉林省科技管理數據中心”由吉林省科學技術信息研究所牽頭,其核心任務是對吉林省科技管理數據進行整理,進行數字化建設,特別是吉林省科技廳掌握的相關數據。通過對整個數據調查結果整理分析,確定了數據中心第一期數據庫及信息內容,即建設兩個特色主體數據庫:吉林省科技統(tǒng)計數據庫、吉林省基礎科學數據庫?!凹质∞r業(yè)科學數據中心”由吉林省農業(yè)科學院牽頭組建,負責收集、整理、加工與農業(yè)相關的科技數據,通過整理分析,確定了該數據中心第一期數據庫的建設內容,即建設吉林省農業(yè)產業(yè)科學數據庫。主要內容為近五年吉林省各市州主要農畜產品生產規(guī)模、產量、單產、經濟效益,各種主要農產品生產環(huán)節(jié)各項成本、總成本。
(4)開展“吉林省科學數據共享服務平臺”共享機制研究,包括吉林省科學數據資源的整合與分類分級共享機制的研究,撰寫研究報告。在報告中可以提出將吉林省內凡是列入吉林省科技廳各類科技計劃的項目,其研究中產生的數據統(tǒng)一納入共享范圍,將“數據匯交”作為項目驗收時的必備條件之一,實現(xiàn)省內科學數據的整合與共享。
3? 要解決的關鍵技術
吉林省科學數據共享服務平臺和三個特色科學數據庫建設擬采用以下關鍵技術。
(1)元數據建設,科學數據多維分析與挖掘研究。
元數據建設:吉林省科學數據平臺以元數據為核心實現(xiàn)科學的描述、分類、檢索、關聯(lián),借助技術手段實現(xiàn)數據的物理存儲與邏輯表達的分離。元數據作為描述科學數據的結構化數據,包含了數據的標識信息、內容信息、人員和權責信息、關聯(lián)信息、技術信息等方面。該項目對省內基礎科學數據、科技統(tǒng)計數據以及農業(yè)科學數據信息進行規(guī)范整理、整合,進行統(tǒng)一的數據編碼、數據清洗、數據標簽化等操作,建立元數據標準和元數據索引,為我省科學數據今后的一系列相關工作奠定基礎。
科學數據多維分析與挖掘研究:基于多形態(tài)科學數據,引入深度學習、知識檢索的記憶機制和邏輯推理機制,提出基于深度學習的用戶隱式知識檢索需求理解技術,提升檢索結果查準率、查全率,平衡檢索結果的多樣性和個性化,構建多形態(tài)科學數據的存儲和管理模型,實現(xiàn)智能檢索及海量復雜科學數據的可視化展示;綜合時效性、個性化和多樣性的檢索結果排序和推薦。
(2)數據庫整合,統(tǒng)一跨庫檢索。
本項目按照“吉林省科學數據共享服務平臺門戶網站——科學數據分中心——數據生產系統(tǒng)”三級架構模式,整合我省的科學數據資源,通過標準的元數據整合規(guī)范,將各種類型數據資源的元數據進行重新清洗、補充與標引,使元數據集實現(xiàn)統(tǒng)一、規(guī)范、清晰、完備。通過這樣的整合方式,可以完全打破各個數據庫的壁壘,并保證效率和準確性。
數據中心的各個科學數據庫資源并不部署在平臺上,只是提供接口,由各類科學數據分布的資源單位進行元數據加工,數據庫建設,更新完善和日常維護管理,并為平臺提供接口,平臺可以隨時調用,真正從底層實現(xiàn)了科學數據資源的統(tǒng)一檢索,統(tǒng)一應用,并為進一步的數據分析,對象化處理奠定了基礎。
4? 預期取得的成果
針對目前我省科學數據管理中存在的薄弱環(huán)節(jié),《吉林省科學數據管理辦法》進行系統(tǒng)的部署和安排,加強和規(guī)范科學數據的采集生產、加工整理、開放共享等各個環(huán)節(jié)的工作;完成《吉林省科學數據共享服務平臺》建設,提供科學數據的目錄查詢、數據統(tǒng)一檢索和分布式的延伸功能服務,實現(xiàn)數據的統(tǒng)一發(fā)布;建設完成《吉林省科技統(tǒng)計數據庫》、《吉林省基礎科學數據庫》、《吉林省農業(yè)產業(yè)科學數據庫》。
參考文獻
[1] 劉潤達,諸云強.科學數據共享關鍵問題探索——以地球系統(tǒng)科學數據共享網為例[J].地理科學進展,2007(5):118-126.
[2] 張紅.我國科技資源共享的現(xiàn)狀及其分析[J].科技與法律,2007(2):18-24.
[3] 孫九林,黃鼎成,李曉波.我國科技數據管理和共享服務的新進展[J].世界科技研究與發(fā)展,2002(5):15-19.