伍曉光
(南京中醫藥大學,江蘇 南京 210000)
科學數據是在科研活動中產生的,以文字、圖表、音頻等形式存儲的數據集合體。科學數據是重要的科研產出成果,是科研機構、政府部門等制定決策的參考依據,也是有助于國家科技創新的戰略資源。高校圖書館作為科研支持機構,擁有豐富的科學數據儲備,在科學數據管理方面具備優勢,能夠利用多樣化的技術工具,為用戶提供與科學數據相關的知識產權、隱私保護等咨詢服務。而促進科學數據開放共享,有助于科研人員之間的信息交互,能夠加快科學數據流通和科研成果轉化,減少重復科研成本[1]。然而由于國內很多圖書館對科學數據缺乏系統性的管理,受到政策、技術等因素的限制,科學數據的共享程度較低,整體利用率不高。隨著移動互聯網技術的普及,具有高性能廣域分布特點的信息環境基本形成,促進了全球范圍內的跨區域無障礙數據傳輸,改變了信息傳輸的手段,也為科學數據開放共享提供了支持。尤其是E-Research 這種新興科研模式的提出,要求充分利用虛擬現實、數據挖掘、可視化等先進技術,突破數據資源利用的時空阻礙。E-Research 改變了傳統的科研環境,也給高校圖書館服務帶來機遇和挑戰,這就要求圖書館科學定位,建立科學數據共享機制,為用戶提供更加優質的服務。
E-Research 引發科研模式變革,對科學數據服務提出新挑戰。面對E-Research 為主導的用戶新需求,高校圖書館作為科學數據管理機構,有必要進行重新思考、定位與規劃。
數字化技術的不斷發展,使得數字化資源的數量迅速增多,逐步超過紙質信息資源,成為科學數據的主體。數字化科研環境改變了科研人員的交互方式,數據的可復制、高效傳遞與共享特性,成為現代科研活動的新需求。科學數據是科研活動的支撐,沒有穩定、可靠的數據傳輸途徑,科研任務很難順利完成[2]。而E-Research 是建立在移動網絡技術之上的科研活動形式,綜合了虛擬現實、網格計算等關鍵技術,目標在于為科研人員營造安全、開放、共享的協同式、數字化科研平臺。E-Research 建立在精準化、高質量的數據集之上,要求高校圖書館盡快實現數據開放共享,用于支持可重復的科研工作,加快科研成果轉化進程。
如今數字化資源的應用日益普遍,大規??茖W數據的傳輸流通,在滿足科研活動需求的同時,也要求相關存儲機構提升數據管理水平。為了更好地適應E-Research 環境,國外很多科研機構制定了科學數據管理政策,從立法角度明確了不同主體的職責,要求高校圖書館等管理機構實現數據開放共享,最大限度為科研項目提供支持。如英國研究理事會出臺多項管理規定,要求研究機構承擔共享責任,鼓勵科研人員共享科研數據。我國也頒布了《科學數據管理辦法》,明確了科學數據管理機構的職責、流程和保密措施,充分利用大數據等新技術,建立科學的數據管理框架,以規范有序的管理推動科學數據開放共享。1.3 提供科學數據保障服務
E-Research 環境下科學數據成倍增長,尤其是數據密集型學科產生的數據量驚人,對這些數據進行加工處理,占據了科研人員大部分時間,耗費了大量人力與物力。面對日益復雜的數字化科研環境,以及亟待處理的大規模異構分散的數據資源,科研人員迫切要求高校圖書館等機構提供可靠的服務,通過對科學數據進行迅速采集、整合與分析,降低科學數據處理成本,更好地為科研活動提供支持。尤其是E-Research 改變了科學研究范式,提供了跨區域、跨機構、跨學科的交流環境,加快了數據傳遞共享[3]。高校圖書館只有順應EResearch 發展趨勢,全面分析科研人員新需求,才能更好地發揮自身在數字化科研中的價值。
科研活動的開展需要可靠的數據支持,也需要專門的機構負責科學數據管理工作,以實現數據的長期保存與共享。高校圖書館作為教學科研服務機構,雖然在科學數據管理方面積累了豐富的經驗,但在科研數據共享上依然面臨較多障礙。
如今科學數據的增長速度驚人,大量非結構化的數據給高校圖書館的管理帶來難題,表現在數據篩選、過濾難度增大,數據之間的互操作性不足等。并非所有數據都需要長期存儲,這就需要依靠適宜的軟件進行過濾,而不同學科的數據由于獨立存儲,使得彼此之間的關聯不足,這勢必影響到科學數據的高效整合,不統一的數據存儲方式,也影響到用戶的檢索體驗。同時科學數據在長期存儲過程中,還面臨數據丟失、泄露等風險。高校圖書館雖然會對科學數據進行學科分類,并依據分類標準確定存儲模式,但大數據環境下信息流通頻繁,很難界定數據的流向與轉化方式,甚至難以實現準確定位,這不僅增加了數據整合難度,也增加了數據安全管理的風險。
先進的數據管理傳輸技術,是實現科學數據集成與共享的前提。E-Research 環境下語義網、可視化等先進技術的應用,為科學數據流通提供了便利,也成為高校圖書館科學數據管理的新工具[4]。如今很多高校圖書館建立了專業學科數據庫,用于數據資源儲備的高端服務器增多,科學數據存儲空間不斷擴大,科學數據管理效率大幅度提升[5]。然而從目前高校圖書館科學數據的組織模式來看,存在基礎設施建設不到位等問題。高校圖書館在學科數據庫建設方面,對不同學科資源的組織,一般采用該學科公認的管理標準。然而不同學科技術標準的差異性,影響到平臺對資源的集成效率,無法保障用戶對資源的集中式獲取。加上無論是數據庫還是云存儲中心,其網絡傳輸系統建設都需要大量資金支持,若資金不足勢必影響到系統的維護和更新,進而阻礙科學數據的長效存儲與共享。
高校圖書館的服務對象主要為科研工作者,提供科學數據服務的目的在于支持科研創新??蒲杏脩粼跈z索利用科學數據方面,對數據的專業性要求較高,這就對科學數據服務提出更高的要求[6]。隨著E-Research運動的發展,開放存取理念深入人心,也要求進一步擴大科學數據開放范圍。然而很多高校圖書館僅向本校用戶開放,在科學數據服務方面存在獨立性,不同機構之間缺乏協作,極大阻礙了技術交流與經驗分享,也不利于科學數據的廣泛共享。同時很多高校圖書館采取封閉式管理體制,并沒有建立資源傳輸共享機制,導致不同機構之間科學數據無法順利流通,加上受到知識產權等因素的影響,部分圖書館不愿意共享特色資源,這就很難滿足E-Research 環境下的協同式科研交流需求。
高校圖書館要想順應E-Research 發展趨勢,營造開放共享的科學數據服務生態,有必要建立科學數據共享模型,對科學數據進行統一匯總,以語義描述與關聯數據的方式組織管理,方便用戶對科學數據進行檢索、查閱與傳播(如圖1)。

圖1 高校圖書館科學數據開放共享模型
高校圖書館獲取科學數據的途徑,主要是與科研機構或科研人員協同合作,對其科研成果進行統一整合。由于研究學科與方法的差異,用于描述科學數據的元數據標準不一,不同機構提供的數據質量也參差不齊,這極大地阻礙了科學數據的廣泛傳播。高校圖書館需要設置統一的元數據標準與格式,方便服務系統進行識別、分析與傳輸,避免數據冗余和錯誤發生。同時要求科研人員按照要求傳輸科學數據,遵循共享平臺的數據規范,共同實現數據共享。為了提高科研人員提供數據的積極性,高校圖書館需要做好學術成果評價工作,綜合分析科研成果的學術地位,認可科研活動的社會價值,保護科研人員的知識產權,以吸引更多人參與到科學數據共享中來。
面對來源各異的數據資源,高校圖書館在多方采集整理后,可以對已有科學數據進行語義轉化,在賦予唯一標識基礎上,促進既有數據與關聯詞匯集中本體的匹配,若匹配成功則進行URI 復用和實體關聯化。若匹配不成功,則由專業人士介入進行處理,選擇適宜的URI 命名方式實現數據關聯化[7]。然后利用RDF結構模型,實現不同科學數據之間的語義關聯,將大規模數據轉化為具有語義特征的數據集,并通過服務系統對外發布。為了擴大科學數據傳播范圍,高校圖書館可以構建關聯數據鏈接,以語義映射的方式,清晰展現不同科學數據之間復雜的關系,發現更多數據資源的相關性,進而實現大范圍的數據共享。
高校圖書館將關聯數據納入服務系統,為用戶提供可以展現科學數據之間復雜關系的服務界面,有助于用戶根據需要檢索、瀏覽、下載數據資源,并且通過與館員互動,提出自己對共享平臺的建議??蒲杏脩糁g的在線溝通交流,也可以促進科學數據的傳播,他們可以相互瀏覽評價對方上傳的資源,或者根據經驗給出相關的建議,這樣不僅營造了良好的學術交流氛圍,也可以提高科學數據的轉化率。與傳統的檢索方式不同,基于語義關聯的科學數據檢索支持SPARQL查詢語言,能夠實現多個數據庫的數據關聯,以建立網頁鏈接的方式擴大檢索范圍,將具有學科相關性的數據整合起來,并反饋給用戶個性化的檢索結果,進而保障服務的專業性與高效性。
E-Research 環境下科學數據來源復雜,涉及主體眾多,實現科學管理需要多方力量的協同合作。而建立良好的運行保障機制,從政策、技術與服務層面提供支持,是高校圖書館科學數據共享得以實現的關鍵。
科學數據的生產、傳播與利用,涉及科研機構、圖書館、出版社等眾多主體。要想切實實現科學數據開放共享,有必要根據不同主體的特點和需求,從宏觀、中觀和微觀層面,制定合理的科學數據共享政策。具體而言,國家可以從宏觀層面制定法律法規,確定科學數據的所有權、共享方式等,為E-Research 環境下科學數據的合理利用提供指導。中觀層面,由科學數據提供方設計數據共享規則,明確元數據標準和格式規范。微觀層面,由科學數據管理服務機構制定,包括存儲方式、提交規范、引用途徑、產權保護措施等。尤其是高校圖書館作為數據存儲、管理與服務主體,應該依據國家政策法規要求,做好知識產權保護工作,明確學術規范與倫理,切實保障科研用戶的基本權益。
E-Research 環境下各種先進技術的應用,有助于高校圖書館服務系統升級,提高科學數據流通管理效率[8]。從硬件層面看,高校圖書館可以利用物聯網、大數據等技術,搭建科學數據管理服務平臺,為大規??茖W數據的整合提供支持。同時利用云計算技術,在高效計算基礎上建立系統安全認證機制,實現從數據采集、分析、管理到利用的一體化認證,避免信息丟失與泄露(如圖2)。例如北京大學圖書館依托國家自然科學資金資助,建立開放研究數據平臺;武漢大學圖書館成立數據管理中心,開發專門的科學數據管理加護模塊,為科學數據共享提供了安全的環境。從軟件層面看,高校圖書館不僅要積極開發數據管理工具,也要注重與科研組織深入合作,實施統一的數據管理標準,并且強化科學數據素養培訓,引導用戶更好地檢索和使用各類資源。

圖2 高校圖書館基于云計算的系統安全認證模型
科學數據是在科研活動中產生的,這些數據具備從生產、存儲、流通到消亡的生命周期,不同階段的參與主體各異,對科學數據的組織管理要求也不盡相同。由于很多科研項目是由多個機構協作完成的,結果就是多個單位均存儲有這些數據,如不能有效共享信息,勢必導致數據資源的重復建設與浪費。高校圖書館作為科學數據服務主體,需要針對不同階段的服務特點,有意識地開展科學數據共享宣傳工作,從學科專家、校領導、學科辦等入手,提高更多主體的科學數據服務意識。此外,強化與科研院所、政府部門、出版社等機構的合作,形成多主體協同的服務體系,創建統一的元數據標準格式,促進信息互通和資源互補,共同探討適宜的科學數據共享路徑。
科學數據是實現科技創新的重要戰略資源,是高校圖書館服務的新領域。隨著E-Research 的深入發展,基于移動網絡的協同式科研范式初步形成,改變了科研環境和方式,也要求實現更大范圍內的科學數據開放共享。高校圖書館必須審視E-Research 發展態勢,重視科學數據管理與共享工作,依據國家政策法規健全科學數據共享機制,以功能完備的技術平臺和可靠的服務體系,讓科學數據服務工作緊跟時代變化,為科研活動的開展提供更加有力的支持。