


[摘 要]大數據時代產生了海量、無序、多模的科學數據,這對圖書館如何存儲和遴選出有價值的數據提出了更高要求。本文借鑒資源價值分類理論,從數據利用價值和數據本身價值兩個角度建立了大數據時代圖書館科學數據的價值測度指標體系,最后利用層次分析法測算出指標權重以得到大數據時代圖書館科學數據的價值測度公式,以期為圖書館科學數據管理工作提供借鑒參考。
[關鍵詞]大數據;圖書館;科學數據;價值與測度
[中圖分類號]G203[文獻標志碼]A[文章編號]1005-6041(2023)01-0001-05
科學數據作為圖書館面向用戶提供的基礎資源之一,在科學研究、經濟社會發展、技術創新等方面發揮著重要的作用。大數據時代的科學研究迅猛發展,產生了大量的科學數據,但是并非所有的科學數據都需要保存,科學數據受研究對象、研究領域、研究設備、研究方法等影響,數據的質量參差不齊。同時,大數據時代要求圖書館科學數據管理更加科學化、準確化,如何評估識別科學數據的價值成為圖書館數據管理工作的重點。目前,圖書館關于科學數據價值的評估主要從定性和定量兩個維度進行評估,如CAI L等[1]構建數據質量的動態評估模型;張琳等[2]從數據使用量和引用量兩個維度評估交叉科學數據的影響力;孟銀濤等[3]根據影響科學數據保存的因素構建科學數據的評價指標體系,遴選和保存科學數據。總結國內外研究現狀,尚未有學者從數據利用價值和數據本身價值兩個角度綜合評估科學數據價值。因此,本文借鑒資源價值分類理論,結合定性和定量分析方法,從數據利用價值(定量分析)和數據本身價值(定性分析)兩個角度去研究科學數據價值,建立大數據時代圖書館科學數據的價值測度指標體系,最后提出圖書館科學數據未來發展策略,以期為圖書館提供高質量和高效率的科學數據服務提供參考。
1 研究現狀
1.1 圖書館大數據概述
大數據是指利用傳統的數據處理工具無法在短時間內完成數據的搜集、處理、分析的數據集合[4],具有海量性、多樣性等特點。大數據技術是指大數據的應用技術,通過信息檢索、文本挖掘、數據處理以及平臺內容管理等技術實現信息發布、內容管理、數據的自動化處理等。圖書館作為重要的社會教育機構,通過大數據技術實現了數據資源處理[5]、知識發現[6]、服務轉型[7],如圖書館通過搜集、分析館藏,提煉知識,實現知識關聯,為用戶提供科學知識服務,實現圖書館服務的創新性改革。
1.2 圖書館科學數據研究現狀
科學數據,又稱科研數據,是指在科學研究過程中產生的數據以及對其進行加工后的相關數據產品和信息產品等[8],包含科學研究過程中產生并存儲的所有數據[9]。科學數據的形式多樣化,可以是文本格式,也可以是數值、音頻等格式[10]。圖書館科學數據服務是指圖書館為促進科學數據的利用,利用相關平臺,面向科研人員提供的相關數據服務[11],包含數據管理、存儲、分析等服務。目前圖書館關于科學數據的研究主要集中在數據服務框架構建[12]、數據監管[13]、數據管理平臺搭建[14]等方面,利用計算機等技術對科學數據進行收集、處理和共享,實現科學數據價值增值。
1.3 大數據時代給圖書館科學數據管理帶來的影響
大數據時代,圖書館需要借助大數據技術不斷提高科學數據管理水平,促進科學數據利用和共享。大數據時代,圖書館科學數據管理工作發生了兩方面的變化[15]:1)服務方式發生轉變。一方面,科學研究的迅猛發展產生了海量的數據,各種類型的科學數據增加了圖書館數據收集、處理、分析的復雜性,從而促使圖書館形成新的數據服務方式;另一方面,大數據時代用戶的需求也發生了變化。在海量的科學數據中,用戶最關心的不再是有多少的數據量,而是能否從海量、無序、多模的數據中獲取到高質量的數據;2)管理要求提升。面對海量化、多模化的科學數據,圖書館不僅要了解科學數據產生的背景、領域,還要分析、預測、關聯相關科學數據,從而促進科學數據的利用和共享。因此,大數據時代,圖書館科學數據管理工作需要更加系統化、科學化,如何利用大數據技術最大限度地識別出科學數據的價值以及促進科學數據的傳播、利用和共享成為圖書館科學數據管理工作的重點。
2 大數據時代圖書館科學數據的價值識別
本文借鑒資源價值分類理論,將科學數據看作是信息商品[16],認為科學數據的價值是凝結在產品中的無差別、抽象的人類勞動。因此,圖書館科學數據價值可分為數據使用價值和非使用價值(見圖1):使用價值是數據得到利用后所產生的效益,反映的是科學數據質量水平和有用性,包含直接和間接使用價值;非使用價值是科學數據本身所具備的價值,反映的是科學數據的顯性和隱性價值,包含存在價值(顯性價值)和潛在價值(隱性價值)。
2.1 使用價值
使用價值是指圖書館科學數據被用戶利用后所產生的價值。使用價值是測定科學數據有用性、科研水平、學術質量的指標。圖書館科學數據的使用價值可分為直接和間接使用價值。
直接使用價值是指用戶直接使用科學數據進行科學研究所產生的效益,可以直接通過圖書館資源管理系統獲得或計算所得。科學數據直接使用價值反映的是科研人員繼續使用科學數據開展后續研究的價值,一般來說數據的下載量越大、引用量越高、影響因子越高,科學數據的直接使用價值越高,故科學數據的直接使用價值可以采用下載量、引用量、影響因子等進行測定。例如,作為一種科學數據,圖書館資源管理系統中統計的科研文獻資源可以通過下載量和被引量體現該科研文獻資源的使用價值。
間接使用價值是指用戶通過分享、傳播等間接使用科學數據所產生的效益。此類價值數據一般可以通過社交媒體平臺獲得,能夠衡量某一領域科學數據的實時利用情況。科學數據間接使用價值反映的是科學數據被傳播、被分享的價值,一般來說數據的點擊量越高、瀏覽量越大、被閱讀次數越多,科學數據的間接使用價值越高,故科學數據的間接使用價值可以采用點擊量、瀏覽量、分享量、閱讀次數等進行測定,具有時效性強、傳播范圍廣等特點。例如,作為一種類型的科學數據,科研視頻可以通過在微博等社交媒體平臺上的點擊量和分享量體現該科研視頻的間接使用價值。
2.2 非使用價值
非使用價值是指科學數據的內在屬性所展現出來的價值,主要是指科學數據本身所具備的價值,與用戶是否使用它沒有直接關系。非使用價值是測定科學數據顯性價值和隱性價值的指標,分為存在價值和潛在價值。
存在價值是科學數據受自身數據易用性、時效性、精準性等影響所具備的顯性價值。科學數據的準確性越高、時效性越強,科學數據的存在價值越高,故可以采用數據的準確性、易用性、時效性等對科學數據的存在價值進行測定。例如,學科專家根據自身經驗以及學科積累對科學數據的準確性進行評判,專家的打分結果即該數據的準確性數值。
潛在價值是指科學數據受學科領域未來發展趨勢、創新性、預測性等因素的影響所具備的隱性價值,這是一種預估的價值。科學數據的潛在價值也會間接影響數據的價值總和。科學數據的潛在價值取決于圖書館對該科學數據以及風險的認知態度,價值的大小取決于科學數據所屬領域以及圖書館對用戶需求的預判,具有一定的主觀性。例如,關于人工智能領域的科學數據,圖書館根據人工智能學科影響力、科研團隊構成、科研時長、科研數據內容質量綜合評估該科學數據的價值,最終形成該數據的潛在價值。
3 大數據時代圖書館科學數據的價值測度模型
本文首先根據識別的科學數據價值,結合專家調查建立了大數據時代的圖書館科學數據測度指標體系,再通過專家評判指標的重要性,最后利用層次分析法計算各個指標的權重值,得到圖書館科學數據的價值測度公式。
3.1 大數據時代圖書館科學數據的價值測度指標體系
本文構建大數據時代圖書館科學數據的價值測度指標體系的目的是確定科學數據不同價值的重要性,科學數據的價值測度需要多方參與才能完成。因此本文選取科學數據領域專家,包含數據分析專家、科研人員、專業圖書館館員、數據中心人員等,組建了專家評估團隊。通過專家評估,結合上文分析,大數據時代圖書館科學數據的價值測度指標體系(見表1)共包含兩個一級指標“使用價值”和“非使用價值”。其中,“使用價值”下的二級指標“直接使用價值”包含“數據下載量”和“數據引用量”兩個三級指標,“間接使用價值”包含“數據分享量”“數據閱讀量”“數據評論數”三個三級指標,科學數據的直接使用價值和間接使用價值均可通過圖書館科學數據管理系統獲得。“非使用價值”下的二級指標“存在價值”包含“數據準確性”“數據時效性”“數據不可復制性”三個三級指標,“潛在價值”包含“特殊學術價值”“數據長期價值”“研究預測性”三個三級指標,科學數據的存在價值和潛在價值可通過專家測評的方式獲得。
3.2 指標權重計算
構建完指標體系后,專家基于對科學數據的認知對各個指標的重要性進行評估。層次分析法將定性和定量有效地結合,量化專家評估結果,從而提高了決策的效率。本文利用層次分析法測算指標權重,首先建立層次結構模型,將目標、因素和對象分為最高層、中間層和最低層,在大數據時代圖書館科學數據的價值測度指標體系中最高層、中間層和最低層分別對應一、二、三級指標。其次構建判斷矩陣,核查每一位專家對指標權重的打分情況,根據各個專家排序向量加權幾何平均的方法計算指標的最終權重值(見表2),各判斷矩陣均通過一致性檢驗。由表2可以看出:1)科學數據的使用價值和非使用價值對科學數據的價值測度同樣重要;
2)直接使用價值較間接使用價值對科學數據價值測度產生更重要的影響,存在價值和潛在價值對科學數據價值測度同樣重要;3)數據引用量、數據閱讀量、數據不可復制性、數據的研究預測性在科學數據價值測度中占有更為重要的位置。最后根據權重值可得大數據時代圖書館科學數據的價值測度公式:科學數據的價值=0.513 4*0.631 4*(0.286 6A11+0.713 4A12)+0.368 6*(0.258 9*A21+0.487 3*A22+0.253 8*A23)+0.486 6*0.500 3*(0.209 7*B11+0.377 3*B12+0.413 0*B13)+0.499 7*(0.356 4*B21+0.216 8*B22+0.426 8*B23)。
4 大數據時代圖書館科學數據的價值增值策略
大數據時代科學數據的價值會受到科研領域、科研團隊、傳播方式、出版方式等的影響,為進一步促進科學數據的保值和增值,未來圖書館需要進一步建立科學數據關聯,豐富數據出版方式,全方位確保科學數據安全,引導用戶規范引用科學數據,不斷增強科學數據的影響力。
4.1 建立科學數據關聯,增強數據質量
為促進科學數據的共享和利用,各大圖書館建立了科學數據管理平臺,為用戶提供高質量和高效率的數據服務,如上海政法學院圖書館智慧大數據分析展示平臺、中科院科學數據中心公共服務平臺、中國研究數據服務平臺等。雖然圖書館按學科特色或業務重點建立了科學數據管理平臺,但各個數據平臺之間相互獨立,不利于科學數據開放共享。因此,大數據時代圖書館要加強機構間科學數據的互聯互通,在協商一致的情況下制定數據整合規則,設計元數據標準,關聯科學數據,這樣既可以確保數據數量,又可以保障數據質量,從而不斷提高科學數據的影響力。
4.2 維護科學數據安全,提高數據使用價值
圖書館通過識別科學數據的價值,篩選出了有價值的科學數據,提高了科學數據的使用效率,但科學數據安全性也是用戶最為關心的問題之一,因為科學數據泄露可能還會危及國家安全或導致科學技術泄密。因此,大數據時代圖書館要進一步結合先進信息技術,制訂完備的科學數據安全管理辦法,牢固樹立數據安全意識,明確各個部門維護數據安全的職責分工,同時引進技術和圖書館相結合的復合型人才,確保圖書館工作人員安全使用科學數據以及幫助用戶科學規范使用科學數據,不斷促進科學數據保值和增值。
4.3 豐富數據出版方式,擴大數據共享范圍
大數據時代數據驅動科研發展,產生了海量、無序、多模的科學數據,因此外界對圖書館共享科學數據也提出了更高的要求。目前,我國更多的還是以文本形式的文獻期刊為主,較少有數據形式的期刊,未來圖書館要探索科學數據的出版方式,創新出版形式,突破數據格式的限制,將數據以更易懂的方式呈現給用戶,便于不同學科、不同行業的用戶理解和接受科學數據,從而拓展科學數據的共享范圍和促進學科交叉融合。例如,2017年《中國科學數據》[17]以視頻方式解說數據集,打破了數據出版的傳統方式,提升了數據的影響力。
4.4 規范引用科學數據,共建科學數據共同體
大數據時代科學數據得到了廣泛傳播和共享,但在科學數據引用方面仍存在不規范的現象,導致科學數據的價值受到一定的影響。因此圖書館要完善科學數據引用標準,提高用戶的科學素質。一方面,圖書館需要引導用戶尊重科學數據,提高科學數據意識,合理規范引用科學數據,引導科研工作者提高科學素質,尊重他人科研成果;另一方面,圖書館要從政策、制度、宣傳等角度出發,引導和鼓勵科學數據受用者參與科學數據的建設,促進科學數據健康可持續發展,共建科學數據共同體,實現科學數據增值。
5 結 語
大數據時代,如何存儲和利用有價值的科學數據對于科學研究、經濟社會發展、技術創新等產生重要影響。本文借鑒資源價值分類理論,從數據利用價值和數據本身價值兩個角度建立大數據時代圖書館科學數據的價值測度指標體系,分析出大數據時代圖書館科學數據的價值測度公式。未來,圖書館仍需進一步高效管理科學數據,不斷增強科學數據的影響力,持續為科學研究、社會發展等提供數據支持。
[參考文獻]
[1]CAI L,ZHU Y.The Challenges of Data Quality and Data Quality Assessment in the Big Data Era[J].Data Science Journal,2015(14):1-10.
[2]張琳,孫蓓蓓,王賢文,等.交叉科學成果影響力研究:使用數據與引用數據視角[J].情報學報,2020,39(5):469-477.
[3]孟銀濤,趙蕾霞,于倩倩.面向科學數據保存的科學數據評價指標體系研究[J].農業圖書情報學報,2021,33(12):48-59.
[4]王路.大數據背景下的圖書館數據服務研究[D].昆明:云南大學,2016.
[5]楊文.公共圖書館特色資源建設探討:以浦東圖書館上海兒童文學基地為例[J].圖書情報研究,2022,15(3):83-89.
[6]郭紹華.數據驅動知識發現的圖書館知識服務模式研究[J].圖書情報導刊,2022,7(5):23-27.
[7]王曄斌,張磊.虛實相生:元宇宙視角下智慧圖書館場景實現[J].圖書館雜志,2022,41(7):18-24.
[8]黃鼎成,郭增艷.科學數據共享管理研究[M].北京:中國科學技術出版社,2002:33-34.
[9]李曉輝.圖書館科研數據管理與服務模式探討[J].中國圖書館學報,2011,37(5):46-52.
[10]李卉,呂方婷.高校圖書館科研數據管理實踐研究:以西英格蘭大學為例[J].圖書館學刊,2020,42(5):65-70.
[11]劉瓊,劉桂鋒.高校圖書館科學數據管理計劃服務框架構建與解析[J].國家圖書館學刊,2019,28(4):21-31.
[12]馬素素,邱春艷.高校圖書館嵌入式科學數據服務框架構建及現狀調查[J].圖書情報導刊,2022,7(5):35-43.
[13]廖文杰.共生理論視域的科學數據監管研究[D].哈爾濱:黑龍江大學,2022.
[14]孫清玉,梁美宏,張友華.FAIR原則背景下基于機構知識庫的高校科學數據管理平臺研究[J].高校圖書館工作,2022,42(1):37-40.
[15]楊瑩.大數據環境下高校圖書館提升信息管理水平研究[J].江蘇科技信息,2018,35(28):11-14.
[16]劉麗.數字資源價值測度方案探索[J].科技視界,2012(33):73-74.
[17]阮冰穎,劉桂鋒,蘇文成.我國科學數據管理實踐探索的回顧與展望[J].情報科學,2021,39(2):185-192.
[收稿日期]2022-09-22
[作者簡介]欒美生(1971—),女,碩士,館員,哈爾濱工業大學圖書館;李 君(1974—),女,學士,館員,哈爾濱工業大學圖書館;初源莉(1975—),女,碩士,研究館員,哈爾濱工業大學圖書館。
[說 明]本文系2021年黑龍江省高校圖工委科研項目“數據資源深度挖掘技術在圖書館管理中的應用”(項目編號:2021-088-B)的研究成果之一。