陳 璐
(南京審計大學圖書館 江蘇 南京 211815)
?
大數據背景下圖書館在數據監管中的角色和使命
陳 璐
(南京審計大學圖書館 江蘇 南京 211815)
在大數據環境下,科學數據在各個領域的發展具有非常重要的作用。對科學數據進行有效管理和有效使用日趨重要,科研機構和為學術研究提供事實數據支撐的圖書館認識到了數據監管的效益和價值,在實踐中日益注重對數據進行持續的管理和維護,以期讓數據符合用戶的需求,推動圖書館參考咨詢服務的發展。
數據監管;高校圖書館;科學數據
大數據是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據具有5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。 近年來,數據監管(Data Curation)、大數據(Big Data)作為全新獨立的研究領域受到研究機構和圖書館的關注。在國外,各大圖書館(尤其是美國高校圖書館)已充分意識到在大數據的環境下,作為海量信息資源聚集的機構,更加需要適時做出應對措施,做好數據監管,提高數據信息存儲的安全程度,以提高數據存儲的效率性[1]。
美國伊利諾伊大學圖書館與信息科學研究生院是這樣進行數據監管的闡述的: 數據監管是一種持續的、動態的數據管理和控制,隨著對學術探討、科學研究和學科教育服務的不同階段的數據需求而展開的數據服務。通過為各個領域展開研究提供相應的數據監管服務,科研人員能夠在搜索尋找資料的過程中更加容易搜索數據、挖掘數據,提高數據的可信度,充分發揮信息資源的巨大價值,同時便捷地保存引用數據。數據監管這個全新的領域涵蓋了對數據信息資源的評估、數據保存、數據分類存檔、數據的智能推送、數據的提取再現幾大模塊[2]。
數據監管讓那些可信度高的數據結論能夠得到充分的二次利用,從而發揮這些數據的潛在價值。這對數據的版權所有者、科研人員、數據庫供應商、數據的使用者來說,都能產生一些即期收益,從長遠來看,價值潛力也非常大。數據監管具有八種即期效益,包括提高數據信息資源的可信度、對大數據進行深度挖掘和推送、提高科研成果的質量和科研價值、授權外部進行數據結論驗證、維持穩定的紀錄發布標準、提高不同動態數據集的兼容度、確保有價值、參考度高的信息資源和知識以及授權不同類型數據集的集結獲取。此外數據監管還具有多方面長期價值,如維護科研成果著作權、留存科研進程紀錄、收集和評估鑒別數據的未來價值潛力、對來源數據進行匯總加工編輯以便使用、保留系統歷史版本入口、保證來源數據真實可靠性、授權未來潛在數據使用者挖掘使用這些數據等[3]。
數據監管日益成為國外圖書情報界關注的熱點問題。2003年,現任美國國家科學基金會信息基礎設施主席阿特金斯首次提交了《通過信息基礎設施促進科學和工程的革命》( Revolutionizing Science and Engineering through Cyberinfrastructure)的報告 ,也稱阿特金斯報告。當時這份報告對數據監管的闡述并不十分明晰,到了2007年美國國家科學基金會正式闡述表明數據監管需要作為一個新的領域開展研究,自此之后,數據監管從教育領域開始迅速發展,逐步擴大到圖書館、研究機構,相關的政策也在實踐中不斷地得到完善[4]。2007 年,美國研究圖書館協會 (ARL)專門對數據監管展開全面的研究,在數據監管的軟硬件開發管理、實施原則以及圖書館員的定位等方面形成指導性文件,成為各個圖書館、高校和研究機構進行數據監管研究和發展的風向標,為培養數據監管人才,形成數據監管準則提供官方指導意見。
我國部分大型科研項目對數據監管工作重視程度較高,基本集中在社會公共服務、國防軍用建設等領域,譬如氣象監測系統數據,為科技發展進步提供了強有力的支撐。與此同時,許多小規模科研項目的數據零散,缺乏有效的歸集和整理。雖然部分高校圖書館設置了碩士論文提交系統,但基本上還是以保管歸檔為目的,各大院系的科研數據也多是各自保管,數據信息格式多樣化,這既不利于科研數據的長期存儲和提取,也難以實現共享,在今后的科研活動中發揮作用受到限制。信息保存機構和圖書館有必要行動起來,積極發揮自身的作用。
3.1 成為數據管理的技術管理者和咨詢服務者
近十年來,圖書館向研究者提供的核心服務體現了圖書館在信息技術能力方面的提升。高校圖書館為了能夠實現成為學校信息研究中心的目標,新引進的專業人才中IT專業的館員占到很大比例,特別是信息系統和編程方面的技術人員。這就為圖書館提供大數據管理服務提供了人才基礎,當然,大數據管理需要多種專業人才,以便在學科方向上形成互補。
在數據的整個生命周期中需要四個角色來完成:數據管理人、數據生成者、數據館員和數據處理專家。圖書館可以扮演的角色是為研究群體提供培訓[5],使其擁有組織和系統化管理數據的能力和技巧,當數據產生和集合后能被高效利用。數據監管若要想取得長期成功,精通于處理數據的專家需要在研究項目前期準備階段就扮演咨詢角色。圖書館的相關人員可以從兩個方面發揮作用:其一,要有越來越多的圖書館員從元數據專家轉變為信息技術工作者。其二,面對有數據分析需求的讀者,館員們可以像以往提供學科服務一樣幫助其制定數據管理計劃[6]。
3.2 成為科研人員和信息技術專家之間的橋梁
圖書館為各學科提供數據管理服務的方式因學科而異。各學科都有自身的研究方法和內容,雖然各領域對數據的需求完全不同,但是幾乎沒有學科是不需要數據服務的。因此,承擔相關任務的館員,應該根據不同的學科需求學習管理數據的方法,或者至少能夠在研究者和數據管理專家之間建立聯系。
在數據管理領域,從業人員一般是IT專業人才或者至少具備IT行業基本素質。其實大數據管理需要的專業技能和素質是非常廣泛的,比如大數據網絡建設、數據恢復以及數據融合,這些都是進行數據監管必備的能力。如果圖書館有這樣的人才當然最有利于工作的開展,然而對于大部分圖書館來說,更加現實的是成為溝通數據管理專家的橋梁。除此之外,圖書館還可以在數據安全、公平使用、版權以及風險管理方面有所作為。
當大數據集合融入有序建構的貯存體系,它們需要通過一系列重要的途徑呈現在學術研究者面前。首先,數據集合必須從內到外緊密有序排列。其次,一旦大數據集合產生,它們就應該以一種與研究環境和諧的方式保存。而后者對于數據的再次利用是非常必要的。通過數據有序保管,圖書館可以為研究機構提供服務,以節省科研時間。
4.1 尋找并與其他組織建立伙伴關系
在科研領域,數據產生的速度過快,政府和科研機構無力為龐大的數據集制定管理標準。站在數據原生研究者的角度,基礎的數據存儲、備份能夠滿足其研究需求;然而這樣基礎的存儲和備份對于其他對研究數據感興趣的學者來說遠遠達不到可以被利用的水平。數據監管的發展趨勢已經被研究型圖書館注意到,然而一些院校圖書館盡管對研究數據監管服務感興趣,卻并沒有意識到可以和其他圖書館展開合作。很多高校圖書館都在努力或希望成為研究數據的收集管理中心,成為所在院校學者們值得信賴的智庫。然而大多數的教授學者不認為高校圖書館有提供數據管理服務的能力,這種不信任是高校圖書館發展數據監管服務的最大障礙之一。在大數據環境下,數據管理的標準是不斷變化的,高校圖書館相關人員需要付出大量的時間來學習探索并執行這些數據管理的標準。圖書館可以依托高校圖工委等機構共同探討和構建數據管理的框架,交流和共享數據管理的經驗,也可以和專業可靠的信息技術公司合作,獲取可靠的數據技術服務。
4.2 評估本地需求,開發本地基礎設施,制訂相關政策
圖書館界已經在探尋增加數據利用率的途徑。如前文所述,與不斷變更的數據管理標準保持一致就需要圖書館工作人員付諸大量的時間,除此之外資金層面的支撐也是一個主要的壓力。信息科學領域的專家們正在努力從法律、科學和技術層面進行分析,制定適合各種類型數據生成和儲存的標準。
目前有很多機構能夠支撐科學和工程研究對大數據處理的需求,然而卻沒有固定的人員來協助制定數據管理計劃。事實上,在最近幾年中,全球范圍內為學術研究服務的數據管理越來越顯示出其重要性。無論是政府機構還是個人都受益于大數據在國家安全領域抑或是商業領域的運用。自然科學學科,如化學、物理和生物在大數據分析利用和管理上領先于人文科學和社會科學學科。
4.3 形成數據監管執行組,重組數據工作組
為了保證研究群體的最大利益,圖書館可以協助規劃處理大數據集合以使其能被最大限度地利用。圖書館亦可以充當研究團隊、信息技術部門、研究管理部門與科研處、老師、學生之間的使者,以保證實現統一的高水平的數據管理標準。大數據管理不僅是暫時性的,更多的是保存數據的生命力及后續使用周期。大數據的處理分析需要數據具有一致性,這就要求在數據產生的初始階段就有管理者的介入,這樣才能在后續階段保證其符合數據監管的標準。目前,有些研究項目的科研數據存儲量非常大,更加需要標準化管理以保證高質量的存儲研究成果。一旦數據產生、融合和被儲存,在數據產生的初始階段投入監管,將使數據的挖掘獲取變得更加便捷。信息技術專業人員可以協助研究者對數據融合、分析、過濾和序列化進行規劃,以便數據可以為以后的研究服務。
以往的圖書館學科服務一般針對特定的研究領域,學科館員一般具有良好的專業素養,可作為研究群體和圖書館之間溝通的橋梁。在如今的大數據背景下,非常需要信息技術專家全程監控數據的產生和融合,并且實時與相關領域研究專家溝通。很多情況下,研究機構不了解這種服務,這就是圖書館應該發揮作用的時機——向相關研究群體提供咨詢服務,使之清楚數據監管服務的流程,以便在研究的過程中能夠及時地保存、處理研究數據。
[1]鐘聲.大數據驅動的高校圖書館數據監護探究[J].情報資料工作,2014,(3):103-106.
[2]沈婷婷,盧志國. 數據監管在我國高校圖書館的應用展望[J].圖書情報工作,2012,(7):54-57,87.
[3]王晴.國外Data Curation研究綜述[J].情報資料工作,2014,(1):52-57.
[4]高紅文,陳清文. 國外數據監管研究綜述及啟示[J].圖書館學研究,2013,(10):2-4, 27.
[5]王芳,慎金花.國外數據管護(Data Curation)研究與實踐進展[J].中國圖書館學報,2014,(4):116-128.
[6]丁培.數據策展與圖書館[J].圖書館學研究,2013,(6):94-98.
G250
A
2016-07-02 責任編輯:張靜茹)