董京祥
(東北林業大學圖書館 哈爾濱 150040)
近年來,隨著大數據、云計算、人工智能、物聯網等信息技術的不斷發展,各類數據呈爆炸式增長態勢,將科學研究推向通過數據采集、存儲、分析尋求相關性規律的科學知識發現新模式,科學研究第四范式“數據密集型科學發現(Data-Intensive Scientific Discovery)”理論日趨成熟,人類社會進入一個以數據驅動的嶄新時代[1]。數據不再滿足于被存儲,而是被挖掘、分析和管理,用以揭示事物之間的相關關系、預測發展趨勢、制定合理策略,在為社會生活的方方面面帶來發展機遇的同時也帶來了巨大挑戰。如何以最有效的方式管理、利用數據已成為學界、業界專家研究探討的重要課題。
圖書館作為人類文化傳遞中心和知識交流中心,一直都是信息技術應用的先行者。當前,新技術不斷改變著圖書館服務模式,傳統的知識存儲與獲取方式已發生巨大變化,圖書館進入數字化建設的轉型發展階段。數字化技術的運用為圖書館積累了大量數據,涵蓋了從信息資源角度描述資源本身的文獻數據,以及從空間、設備、人力資源角度構成資源本身的內容數據。但實際上這其中的大部分數據都因其復雜性、不可見性或其他原因而不能或不易被訪問,并沒有得到及時有效的開發利用,雖然這些數據可能非常有價值,但也有可能成為隱藏或暗數據。
為使圖書館能夠更好地管理和利用暗數據,文章以國內外暗數據相關研究為基礎,從暗數據的視角對高校圖書館的數據構成進行概括總結,梳理圖書館大數據、小數據與暗數據之間的關系,分析圖書館暗數據的成因、潛在價值和可能存在的風險,提出高校圖書館暗數據治理策略,并以實際案例闡述了暗數據對高校圖書館創新發展的重要性,以期為我國圖情領域的暗數據研究提供參考與借鑒。
目前,學界對“暗數據”的研究尚處于初始階段,其概念和范圍并沒有統一的界定,其定義主要來自于科研機構的學術文章以及IT公司的行業報告。
有學者認為,暗數據是科學長尾中“一種無形的、被忽視的數據”,沒有經過仔細索引和存儲,用戶幾乎看不到,且大概率會保持未充分利用狀態直至最終丟失[2]。與科學和工程研究中存儲在高性能計算(HPC)設施上“未經仔細標記的數據”相同,暗數據是可靠信息的潛在豐富來源卻被遺忘,基本沒有任何使用的可能性[3]。對于物聯網技術產生的暗數據,研究者將其定義為“具有創造新價值潛力的未使用和隱藏的數據”[4];制造業的暗數據則被假設為“未編目或結構不充分、組織可能不知道的數據”,是組織在常規業務活動中生成、收集和存儲來自不同異構源的不同類型的數據,但由于缺乏先進的分析工具而無法對之進行分析[5]。這與針對暗數據的非結構化數據部分(如系統日志和社交媒體圖像)將其描述為“組織收集并存儲,但無法利用傳統分析工具處理的數據”的觀點部分一致[6-8]。
國內對暗數據的研究較少,一般認為暗數據是“沒有掌握和收集但已產生影響的數據或沒有開發挖掘的數據”[9],或“凡是存儲(無論是否感知其存在)但目前尚未開發使用的數據”,主要是從圖書館拓展服務的需求角度進行的探索實踐[10]。
以Gartner、Intel、IBM和Deloitte等為代表的信息技術咨詢機構或數據管理服務公司從商業應用的視角對暗數據進行了相關探討,其中國際權威信息咨詢機構Gartner的定義獲得的認可度最高。Gartner認為暗數據是組織在常規業務活動中收集、處理和存儲的,但通常無法用于其他目的的信息資產[11]。其他機構或公司多是在Gartner定義的基礎上,根據各行業的不同特點對暗數據的概念予以進一步明確,是“不可訪問的、低質量的、未開發的”數據[12-14]。
通過歸納總結國內外科研和商業等不同領域、不同學者對暗數據的定義,同時結合圖書館數據的特點,文章將圖書館暗數據概括為:圖書館在日常業務活動中生成、收集和存儲但從未進行分析與利用的數據,包括沒有經過組織或編目的資源數據、已存檔但不再使用的業務數據以及因缺少元數據而無法定位的非結構化數據,無論其格式如何、是否可見以及有無價值。
首先,理論研究的缺失。關于暗數據的理論研究始于2010年前后,國外的專家學者們從不同角度對暗數據的概念進行了定義,但其概念至今未能統一,研究領域涉及多方面并在商業領域中得到了更多關注。然而關于學術圖書館中存在的未使用數據的問題,目前少有學者研究。國內部分學者在2015年前后基于國外研究進行過少量探討,但并沒有形成明確的觀點。同一時間,國內圖書館界關于圖書館小數據的研究開展得如火如荼,但鮮少談及小數據與暗數據之間的關系,其實從本質上看,圖書館小數據在被充分開發利用之前,同樣屬于暗數據范疇,利用小數據其實就是在“點亮”暗數據。可以說,國內外圖書館領域并沒有給予暗數據研究應有的重視,對暗數據在圖書館領域應用的理論基礎與實踐運用缺乏必要的探索,還沒有形成較為系統、成熟的理論體系,暗數據理論在圖書館中的應用還要經歷一個漫長而曲折的過程。
其次,應用價值的忽視。多年的數字化建設為圖書館積累了大量數據,但其中大部分數據只是作為業務數據進行必要存儲,少部分數據應用(如圖書館年度報告)也多以簡單的描述性統計為主,很少對數據的內在關聯進行深度分析。近年來隨著圖書館的轉型發展,讀者的個性化服務逐漸成為圖書館的主要服務方向,與讀者相關的數據研究得到重視,其中對各類讀者小數據的應用尤為明顯,但各類新信息技術應用產生的數據大多是非結構化數據,圖書館進行數據挖掘的難度與成本會不斷提高。對于這些大量未揭示的暗數據的價值,圖書館并沒有明確的認知,缺乏將數據轉換成知識的思維意識,而組織架構與職責權限的模糊更是導致了對數據可能包含的價值的忽視,使得數據長期處于未使用狀態。
最后,挖掘能力的不足。挖掘暗數據的主要挑戰在于缺少有效的工具和技術來訪問暗數據。新技術給圖書館帶來不斷上漲的數據量,但技術的應用并沒有顯著提高圖書館的數據挖掘能力,圖書館能夠處理的數據比例反而不斷下降,其中非結構化數據占據了主要部分。受限于數據來源、類型、時間等因素,非結構化數據缺少固定結構,數據特征與格式各不相同,需采用不同的數據采集、存儲、組織和分析技術,如數據管理系統、分析軟件和其他專用工具(人工智能和機器學習)等進行處理。但這些技術對于軟硬件條件都有著較高的要求,一般的高校圖書館很難滿足,尤其是具有數據分析與軟件開發能力的復合型館員更是少之又少,導致圖書館空有大量數據卻沒有相應的挖掘分析能力。
數據挖掘在高校圖書館有著廣泛的應用,通過對數據資源進行信息挖掘,以提供優質和個性化的服務、擴展信息服務的廣度和深度、作為科學決策的參考依據等,必須以高質量的數據為基礎,對圖書館各類數據(尤其是暗數據)進行精確管理與分類,進而實現高效合理的利用。因此,暗數據有著巨大的應用潛力,如可通過分析用戶行為數據,了解用戶的需求內容、行為偏好,為其提供個性化特色服務,增強用戶黏性;統計館藏資源的使用情況,可提高信息資源的利用率與質量,規劃資源部署、優化館藏布局,為資源建設提供支撐;構建面向對象的服務模型,分析評估用戶價值與流失原因,可為圖書館的整體發展提供決策支持。
在肯定暗數據價值的同時,也要注意到其存在的問題。一方面,隨著各種新設備(傳感器與監控器)被廣泛使用,圖書館每天產生的數據量大幅度增加,其中不乏一些冗余的、過時的和錯誤的無用數據,這些數據的存在不僅增加了數據檢索與利用的難度,也造成了存儲空間和維護成本的巨大浪費。另一方面,暗數據的存在會導致很大一部分圖書館數據被忽視,難以被有效發現、保護與利用,尤其是敏感數據可能會因為沒有進行有效的技術隔離,而存在一定的安全隱患。如果數據被竊取、篡改或者丟失,圖書館服務的可行性和讀者的隱私保護將面臨威脅,直接影響圖書館的服務質量與讀者滿意度[15]。要有效管理這些暗數據,須定期分析與整理各類數據、刪除無用數據并對敏感數據進行必要的安全加密。
受益于數字圖書館的建設成果,圖書館積累了大量、各類型的數據,呈現出較強的多源性、異構性。根據來源的不同,一般可將數據分為資源數據、業務數據、用戶數據和管理數據四個大類[16-19]。
這其中既有結構化數據,也有半結構化和非結構化數據,并以半結構化和非結構化異構數據為主(見表1)。從近年對圖書館數據的相關研究中可以看到,已有的數據應用多是基于傳統業務數據等結構化數據的統計分析,對音視頻資源數據、環境數據、科研數據等半結構化和非結構數據缺乏有效的管理與應用。高校圖書館在數據的保存與利用方面存在一定的盲目性,數據應用的目的不明確、數據的來源不清晰、數據統計的標準不一致,加之受限于各館的軟硬件條件,部分數據有意或無意地被忽視、遺忘,導致數據缺失成為“暗”數據。數據的不完整、不準確將直接影響圖書館對于數據的利用率,因此,優化高校圖書館的數據管理工作尤為重要。
隨著信息技術的不斷發展與應用,圖書館在實現自動化、網絡化、信息化、智能化的同時,積累了大量的各類數據,逐漸具備了“大數據”的特征,館藏數據、業務數據、用戶數據和管理數據構成了圖書館大數據的主要部分。對這些數據進行深度分析,挖掘其潛藏價值,并將之應用于圖書館的資源建設、業務重組和服務改進等創新實踐當中,可提高圖書館的服務質量并提供決策支持,使圖書館擁有更強的洞察力、決策力和執行力。
圖書館小數據主要是指圖書館大數據中與用戶群體密切相關的數據,包括基本特征數據、圖書館活動數據、第三方開放數據、行為感知數據以及這些數據之間的關聯數據等。對此類數據進行分析與利用,圖書館可提供比以往更具個性化、精準化和智慧化的服務[20]。
圖書館大數據與圖書館小數據相輔相成,圖書館大數據可被理解為圖書館的全部數據,圖書館小數據則是所有數據中與讀者個體或某一群體特征及行為相關的數據,是圖書館開展個性化服務的基礎。
為保證數據決策的科學性和可靠性,有關主體在利用數據進行決策分析時,應保證數據的完整性與準確性,需要將其中被忽視的暗數據點亮,盡可能使決策具有針對性與實時性,以提高決策的可靠性與可用性。對服務數據、行為數據、科研數據以及運行數據中的未開發數據進行挖掘分析,了解用戶需求、完善館藏資源、提升服務能力,為用戶提供更好的個性化服務;追蹤研究熱點、預測前沿發展、開展人才評價,為學校的科研工作和人才引進提供支持;優化業務流程、調整組織架構、提高工作效率,為圖書館的發展決策和戰略規劃提供有效的數據支持[21]。
數據的規模和質量是影響圖書館大數據分析與應用有效性的兩個關鍵因素,無序化的數據只是一種信息資源而非知識或情報,圖書館作為知識的中介機構具有對數據進行組織并將之提供給用戶的職能[22]。這需要圖書館加強對各類數據完整性與準確性的掌控,進一步提升數據的質量和安全性,以保證數據的價值密度和可用性。
當前圖書館各類數據中存在著大量未被使用或未被發現的暗數據,且可能具有一定的潛在價值,如何發揮出這些暗數據的活力是圖書館數據管理的重要內容。圖書館可通過建立系統化的數據中心、采用智能技術對數據進行自動化提取、設立專門的數據館員崗位、制定并健全數據標準規范等措施,根據高校圖書館數據的特點構建高校圖書館暗數據治理框架(見圖1)??蚣芤灾卫韺訛楹诵?,數據層的各類數據匯總到數據中心后,保障層的數據館員在數據標準的規范下,利用智能化工具對數據進行分類提取,實現數據的收集、索引、訪問、挖掘和歸檔,從數據層、保障層、治理層到應用層四個層面對圖書館數據進行全生命周期的統一管理,將暗數據充分組織起來,在保證數據質量與安全的同時確保數據的完整性與準確性,進而對數據進行有效的分析與揭示,為圖書館的服務創新與決策支持提供參考。

圖1 高校圖書館暗數據治理框架
3.1.1 數據中心的建立
數據的完整性和準確性是數據應用的前提與基礎,直接關系到圖書館數據決策的科學性、實用性與可靠性。數字化發展至今,圖書館的很多業務都需要多部門協作完成,無論是資源建設還是信息服務,越來越多的工作需要整體規劃、統一部署,因此應對圖書館的各類數據進行統一收集、管理和分析,整合不同業務信息,以促進業務融合、加強數據管理,進而滿足讀者日益增長的個性化需求。
這需要圖書館有系統化的數據管理機構——數據中心,專門負責數據的采集、存儲、整合、分析與利用,制定統一的數據獲取、分類和使用策略,確定數據存儲標準、加強數據質量控制、完善硬件環境建設,協調館內各部門間數據的交換與共享,實現對數據全生命周期的統一組織與管理(見圖2),以更有效地使用數據、分析數據,最大化地揭示數據的潛在價值。

圖2 數據全生命周期管理模型
圖書館的數據中心不是簡單的數據存儲、查詢部門,而是需要構建語義級業務模型和信息資源服務目錄,對不同業務系統的數據建立索引并進行關聯整合,使用戶能夠自行定義所需信息資源,為其提供信息服務。實施的關鍵環節是元數據管理,應采用不同的元數據規范對不同類型的數據進行標引,制定合理的元數據戰略,并保證戰略能得到貫徹執行。通過元數據管理,使數據得到有效整合,確保數據資源能夠在不同部門、不同服務平臺、不同用戶之間保持高度的流動性、連續性、開放性與共享性,并在此基礎上開展數據的深度分析與挖掘工作。
3.1.2 數據信息的提取
數據信息的提取是暗數據治理的重要組成部分,是從大量結構化、半結構化和非結構化數據中收集和提取相關信息的過程。圖書館可用智能化數據提取技術來提高工作效率,因為數據的智能化提取比手動收集更準確、有效和安全,需要的時間和資源更少,可最大程度降低數據丟失或錯誤處理的風險,使圖書館對數據的管理更為經濟、高效。
對于圖書館來說,確保數據提取流程正確非常重要,智能化提取一般包括以下步驟。首先,圖書館必須確定需要收集哪些數據以及如何使用這些數據,進而評估需要收集的信息類型,如書目數據和元數據以及數據的來源;其次,在確定了數據的來源與用途之后,就可以開始數據提取,通過創建程序、算法和其他數據提取方法(自然語言處理、機器學習等)從所識別的數據源中檢索、歸納所需數據;最后,通過質量管理和安全管理保證數據信息在數據中心被正確地存儲、組織并加以利用。
3.1.3 數據館員的培養
高校圖書館作為服務于高校教學、科研的主要機構,其開展的各類服務均是以數據為基礎,尤其是近年來以大數據技術為核心提供的創新服務(如學科服務、數據服務等)更是對館員的數據分析、挖掘能力提出了更高的要求,迫切需要設置專門的數據館員崗位[23]。數據館員是數據治理的核心,是防止數據變暗的實際執行者,在數據管理中的作用主要是圍繞數據生命周期管理數據資源,制定數據管理政策,對圖書館的各類數據資源進行選擇、存儲、組織、分析與維護等;開展數據服務工作,提供數據素養教育、數據服務咨詢和數據資源共享等創新服務;組織協調不同部門間的數據應用,提升圖書館大數據的利用率,進一步揭示數據的潛在價值,為圖書館服務的創新發展提供方向與依據。
圖書館應重視數據館員的作用,設置相關崗位,明確崗位職責與任職條件。數據館員需要有較高的綜合素質與學習能力,應具備圖書館學和信息學等相關學科的專業背景,具有資源組織能力和機構庫建設經驗,掌握文獻計量知識和信息處理技術,了解科學研究流程、熟悉科研管理政策,并擁有良好的團隊合作與溝通能力,此外還要對數據版權、數據隱私、數據倫理等問題有一定的了解[24]。圖書館應更加注重對數據館員的培養,建立數據館員職業發展規劃,確定相應的培養要求與目標,通過網絡研討、在線課程、系統化培訓和學術會議等多途徑為數據館員提供學習交流的機會,持續強化數據館員的數據意識與數據道德,不斷提高數據館員的數據處理能力與數據素養,加快培養與圖書館創新服務相匹配的數據管理與服務人才[25]。
3.1.4 數據標準的規范
數據標準的規范化是數據治理的有效保障,是指在數據質量、數據管理、數據安全、數據隱私和數據監管等方面制定相關規則和制度,用于管理和維護數據的質量、完整性和安全性。圖書館應根據數據決策的對象、方式和目標,針對具體的數據內容與業務類型,制定相應的數據收集、存儲與使用策略,以實現數據的有效管理。鑒于圖書館組織結構復雜、業務類型多樣,為保證數據的安全與有效利用,應明確劃分圖書館員可訪問的數據范圍,做到不同部門館員身份和數據訪問權限的合理設定;制定數據保留標準與規則,對數據進行審查與分析,決定其是否有價值,進而對數據實行有效保存與定期刪除;組織數據治理團隊,負責監督圖書館的數據管理流程,確保圖書館的數據利用在達到預期目標的同時也符合法律、法規的監管與審計要求。
3.1.5 數據安全的加強
數據安全包括數據的安全存儲與訪問以及讀者隱私保護兩個方面,不當的數據存儲會導致暗數據的產生,從而引發個人隱私安全問題。數據安全存儲是指數據得到長期安全完整的存儲,包括如何防止數據在保存、使用和傳輸過程中被非法修改、復制與刪除,可通過制定數據容災備份策略與嚴格的數據管理制度來保證數據的安全存儲。同時要防止未經授權的訪問,應基于用戶的角色分工、業務要求,通過適當的系統和協議來控制不同人員對數據的訪問權限,確保數據訪問的合規性。
由于圖書館數據中有很大一部分是關于用戶的個人信息以及行為數據,涉及用戶的個人隱私數據,故如何保證相關數據不被濫用與泄露非常關鍵。高校圖書館不同于公共圖書館,其讀者主要為學生,學生畢業后圖書館會對讀者賬戶進行注銷,注銷后的讀者數據如何處理是必須認真思考的問題。圖書館應從讀者隱私管理、權限設置、法律規范、技術應用和保護意識等方面制定數據隱私保護策略,利用先進的技術手段加強數據中心的安全防護,對數據進行分類分級管理和脫敏處理,確保數據采集、存儲、分析和處理等流程的規范性與安全性,防止信息泄露;應增強相關人員的法律意識并提高職業素養,保證數據管理行為符合相關法律與道德規范,避免用戶隱私數據被過度挖掘與使用;要制定合理的數據刪除策略,對注銷后的讀者數據進行妥善處理,清除冗余、過時的無用信息。
數據挖掘的相關概念自本世紀初圖書館進入數字化建設伊始便受到了重點關注,至今已積累了一定的研究成果,大數據技術的發展與應用更是將數據挖掘推到了一個新的研究層次,理論研究日趨成熟。但實踐方面的應用探索仍相對薄弱,大多是對某類業務數據的常規統計,僅是對圖書館日常業務服務中產生的大部分數據進行的簡單存儲,其潛在價值并沒有得到充分挖掘與利用。隨著暗數據理念的不斷普及與深入,以及各種信息技術的廣泛應用,國內部分圖書館及學者已開始嘗試利用圖書館業務數據開展個性化推薦、科學數據管理、決策支持等創新服務[26-27]。
當圖書館進入以“用戶為中心”的發展階段,由于“小數據”的概念更加契合以用戶需求為核心的個性化服務理念,以小數據為切入點的各類應用實踐得到了充分研究,如基于用戶小數據的個性化知識服務、推送服務[28-29],基于科研小數據的學科知識服務、科研服務[30-31],以及小數據思維驅動下的文獻資源建設與信息服務建設等[32-33]。小數據作為用戶數據中具有個性化特征的數據,在沒有被利用之前也成為了圖書館大數據中的“暗數據”,對其進行分析與利用正是使這些數據由“暗”轉“亮”的具體實踐。
此外,由于高校圖書館的讀者主要以學生為主,故對于讀者相關數據的分析利用必須考慮到時效性,過期數據只能成為無效數據,不再具有挖掘參考的價值。因此對于有時效性的暗數據,應盡可能定期、及時地進行統計分析,以利于數據價值的發揮。
大數據時代,現代信息技術的發展對社會、經濟和文化都產生了深遠影響,圖書館的發展環境也發生了根本性變化,如何在新技術環境下充分發揮自己的資源優勢,為學校的雙一流建設提供更好的信息服務,這是每個圖書館都要面臨的挑戰。
目前,圖書館正邁入智慧圖書館發展階段,作為智慧圖書館建設基礎設施的下一代圖書館服務平臺也已提出多年,其最主要的兩項功能就是中央知識庫與大數據分析,這與暗數據治理建立數據中心以及設置專職數據館員的規劃相契合。雖然國內已有部分圖書館上線了相應的服務平臺,但大多數圖書館還未有升級至智慧圖書館服務平臺的計劃,更不用說實現對數據的有效管理。對大數據的利用還大多停留在單純的數據存儲,少數的分析與運用也是基于結構化數據進行的簡單統計,對于日常業務運行產生的半結構化、非結構化數據則關注甚少甚至遺忘。圖書館應積極利用大數據相關技術,對各類數據進行采集、存儲、管理與分析,充分利用各類被忽視的“暗”數據,通過挖掘數據背后的潛在價值,創新服務內容、提升服務效能,為提高圖書館的管理與服務水平、拓展智慧化服務內容、預測未來發展趨勢提供數據支撐,更好地服務于學校的教學和科研工作。
現階段對暗數據相關理念及技術的研究還未得到國內圖書館界專家的重點關注,圖情領域僅有的幾篇研究文獻也主要集中在理論層面,對于圖書館實際運行中遇到的問題涉及不多,實踐研究不夠深入。今后業界應加強與暗數據相關的理論研究,同時注重與實踐相結合,將圖書館暗數據的開發與利用工作提上日程,通過完善數據管理策略、提高數據分析的效率,有效點亮暗數據并從源頭上抑制暗數據的產生,以此充分挖掘利用圖書館大數據的潛在價值。