田 青
在互聯網快速發展的推動下,數據量和數據類型也在不斷地激增,麥肯錫首次在咨詢報告中提及“大數據”,并指出“大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合。”[1]更有學者指出“大數據是組織內外網頁數據的集合”。可見,在互聯網的推動下,數據在數量、類型、速度、格式、價值等方面都發生著巨大的變化,由大數據構成的新產業環境正在加速發展,并不斷對各行各業甚至是國家與政府發揮著巨大的牽引力。由于整個信息生態環境的變化,直接對圖書館產生著影響,圖書館外部的數據源不斷增多,充實著圖書館的館藏資源,并因其動態發展不斷增加與改變著圖書館的數據結構,這成為圖書館大數據的主要構成部分;同時,由于圖書館需要對這些數據進行管理,由此會產生管理數據、流通數據、分析數據、關聯數據等,這對數據的應用與開發、館藏結構的建設與調整,以及分析用戶需求變化等及其重要,也是圖書館大數據的構成部分;此外,圖書館內部的用戶因自身工作、學習與生活受大數據的影響,用戶的信息需求行為與知識需求也在不斷地發生著變化,圖書館為了能在第一時間了解用戶的需求與變化趨勢,重點深入地開展用戶行為分析,包括用戶的個人信息、借閱信息、知識服務過程、知識解決方案記錄、社會網絡信息、即時信息等,即用戶的動態行為數據也成為圖書館大數據的構成部分。而在每類數據構成中又都存在著比以往任何時候都多的形式、類型與不同價值的數據內容,因此,當外部信息環境進入到大數據時代時,圖書館等信息機構受其影響將最為明顯,圖書館應積極應對大數據時代對自身的沖擊,重新思考現行的數據存儲方法、數據管理模式與知識服務模式,充分利用大數據為圖書館提供的機遇,將大數據內嵌于圖書館的知識服務中,更好地服務于用戶。
一個完整的數據生命周期包括數據加工和知識抽取兩個層次,而數據加工又包括初次加工與高級加工,數據存儲隸屬于數據初次加工的范疇,而高級加工與知識抽取等都要基于數據存儲來進行。與此同理,知識管理也是在知識庫的基礎上,實現組織內員工的知識共享與交流,不斷提升知識創新能力,以增強組織的應變能力與市場競爭力。在知識管理的過程中,知識庫的建立正是知識存儲的集中體現,借助于數據轉換為知識的過程,將有價值的知識有目的地存入機構庫或數據倉庫中,以備知識共享、知識交流與知識創新所用。因此,知識存儲成為知識服務的前提,知識存儲的數量、種類、格式、知識元、標引方法等直接影響知識服務的內容、方法、模式、平臺等[2]。
圖書館的知識服務觀是信息社會發展下的必然產物,圖書館因其對知識的專業性與技能性,能夠從用戶的需求出發,分析用戶的知識需求,基于內外知識的儲備與融合能夠向用戶提供問題的解決方案。雖然在知識服務的過程中,圖書館員的專業性占據了較大的比例,但是“巧婦難為無米之炊”,知識服務的基礎是每一個有意義的知識單元,館員正是從這些有價值的知識元出發,發現蘊含其中的聯系與機理,不斷地剖析推理,才能為用戶提供優質的知識服務。因此,知識存儲的數量與質量決定著知識服務的范圍、深度與質量水平,圖書館要想在知識服務的領域中爭得一席之地,必須扎扎實實地搞好知識存儲的工作。
知識管理就是要通過對確定有效的知識單元進行處理(包括知識標引、知識表達、知識存儲、知識檢索、知識計量、知識評價等) 以達到知識服務、知識發現和知識創新的目的[3]。由此可見,知識存儲與知識服務共同隸屬于知識管理過程,經過數據轉換為知識的處理后,知識元成為知識的基本單位,不僅可成為知識存儲的特征點,同時也可成為知識服務時的檢索點,提高知識服務的響應速度和效率,而且知識服務的結果與過程也可成為新的知識點進入知識存儲階段,不斷增加與更新知識的容量與質量,二者互為依存、互為進退,共同內嵌于知識管理的情境中,既統一于知識管理的統一戰略,又具有各自的獨特性,共同服務于用戶實現知識創新的目標。
圖書館在大數據的背景下,面臨著數據來源繁多、形式多樣、格式多元等特點,只有對大數據進行有序的規劃與處理,才能為知識服務提供夯實的基礎。圖書館的知識存儲規劃分為數據轉換、知識評估、知識分類、知識存儲4個過程 (見圖1) ,在用戶需求的導向下,將大數據轉換為有價值的知識,利用數據生命周期、價值性、更新頻率、使用頻率等指標對知識進行重要性評估,對知識進行重要性排序,基于此進行知識分類,形成從高到低的知識層次,對應不同重要級別的知識進行分級分層存儲,同時需要預防各種可能的數據存儲災難,保證知識數據的實時、同步與可用性。

圖1 圖書館大數據的知識存儲規劃過程
大數據的“大”為圖書館的知識服務提供了豐富的數據源,從數據類型上看,有結構化數據、半結構化數據與非結構化數據;從數據類型來看,有音頻、文本、視頻、URL、圖像、即時通信、電子商務等;從數據來源看,有圖書館外部的信息機構、網絡等數據和圖書館內部的館藏目錄數據、圖書、論文、專利、標準、電子數據庫及動態的RFID數據、用戶信息行為記等,但這些數據都是對客觀事物的屬性、特點、位置及相互關系的抽象表述,是客觀社會中的原始資料,適合人們進行保存、傳播與加工處理。而知識是對數據處理后形成的信息再進行定量與定性的歸納、演繹的邏輯推理后形成的、經過實踐檢驗的、有價值的、被人消化吸收的結果。因此,知識是對數據處理后的高級產物,而知識恰恰是圖書用戶利用的對象,不能與用戶需求聯系的任何數據都是沒有價值的。因此,在知識存儲的過程中,首先要對大數據進行知識轉換與處理,基于用戶需求角度,對數據進行數據過濾、數據清洗、數據格式處理、知識元分解等處理過程,將數量龐大的大數據升級為用戶可用的、有價值的知識元對象。
對知識進行存儲的前提是將知識按照重要性將其進行分類,以重要程度的不同來進行分類存儲。因此,需要對知識進行評價,知識分類可選擇的指標較多,如按照數據的生命周期、數據的價值性、數據存儲成本、數據在線與離線、知識的使用頻率、知識的可重復性等。如以用戶的使用頻率與知識的可重復性兩個屬性來對知識進行分類,可形成UF-KR二維圖,如圖2所示。用戶的使用頻率可用知識服務引擎或者圖書館服務管理系統自動進行搜集與記錄,將用戶在不同時間、不同地點、不同知識需求及其知識查詢結果等知識行為記錄下來,根據不同知識使用頻率的排序,將知識分為3類,分別為高使用頻率知識、中使用頻率知識與低使用頻率知識;知識的可重復性這一指標的確定比較容易,如實時觀測的數據難以進行重復,這些數據就需要進行長期保存。如美國航空航天局 (NASA) 建設的DAAC's計劃,涉及數據篩選與清洗、定義與保存元數據、定義文件格式、確定需要保存的數據等各項長期保存計劃,目的就是保存實時的衛星觀測數據,做好存檔與再利用的準備工作。同樣,將知識的可重復性也劃分為高、中、低3個層次,這樣,具體知識因其使用頻率域可重復性的不同特點落在相應的象限中,據此我們將知識進行分類。依據此原理,我們也可以增加分類的維度,形成更為綜合的知識矩陣,知識存儲系統可依據知識排序后的劃分與計算方法進行知識歸類,然后自動存儲在相應的存儲空間中,并支持動態的知識調整與維護。
將知識進行分類的方法很多,如邁克爾·波拉尼根據知識的編碼程度分為顯性知識與隱性知識,日本學者野中郁次郎在此基礎上,認識到顯性知識與隱性知識之間的相互轉換關系,提出二者之間的動態轉換模型,以期為知識創新提供基礎。我們借鑒此思想,將知識與知識服務、知識創新的關系引進來,知識的分類必須考慮最終用戶的使用情況與價值效果,結合用戶使用知識的實際情況,如知識訪問頻率、響應速度要求、安全性能等,如前所述,根據知識評估的重要性排序,確定劃分標準,可形成高、中、低3類,這是基本的類別,圖2應用用戶使用頻率與知識可重復性兩個維度形成4種知識類型,對應不同的象限選擇對應的知識存儲類型。如果圖書館的存儲預算、成本、存儲設備與技術支持允許知識多層存儲,可以再多設置知識類別,前提是二者之間必須協調統一,相互之間能夠支持與匹配,充分調動圖書館內部各種資源的最大潛力,實現資源的最優化配置。

圖2 UF-KR二維知識評估范例
國外某些圖書館逐漸認識到資源的不同級別重要程度,對資源進行分級處理,如人文數據服務機構 (AHDS) 將網絡資源分為檔案級、服務級、代理級、鏈接級與檢索工具5個級別分別采集;伯克利數字圖書館分為檔案級、服務級、鏡像級、鏈接級4個級別;加拿大國家圖書館則分為檔案級、服務級與鏈接級[4]3個級別……表明國外實體機構與研究人員不僅認識到網絡資源的重要性,同時對資源的價值性、獲取的級別性與維護成本進行了多方位考慮,使其資源的獲取與存儲變得更為高效。同理,根據知識的3個分類級別,應該設置相對應的存儲層次,一是快速存儲區,可使用低成本或是高端磁盤陣列,其特點是容錯性高、在線訪問速度快、數據可靠性高 (可保護由硬盤故障導致的數據丟失) 等,主要適用于知識訪問頻率高、技術支持速度快、數量小、價格昂貴的知識類型,包括重要性知識、使用頻率高的知識等;二是備份級存儲區,主要是離線存儲方式,使用光盤、磁帶、容災備份磁盤陣列、跨地域數據復制等手段,其特點是成本低、容量大、訪問少,主要適用于對在線數據的存儲、需要長期保存不可重復的知識數據以及知識數據在不同階段及非常時期可能遇到的雪崩式災難等。三是介于快速存儲與備份存儲之間的中級存儲區,其知識價值性、使用頻率、存儲成本、安全要求等指標處于中級水平,可使用Hadoop開源分布式計算平臺,集成多個知識節點的存儲功能,實現知識數據有效結合與分布,而每個知識節點的數量可以是有限的;也可使用Cloudera、微軟、Amazon等提供的云形式的存儲方案[5]。四是存儲知識的動態調整,知識存儲系統能夠自動根據知識的分類級別設置相應的存儲類別,實現知識與存儲空間的對等性,并隨著用戶知識需求的變化、知識老化周期的發展,知識存儲系統應具備知識遷移功能,將訪問頻率下降到一定程度的知識調出本存儲區,并動態地從其他存儲區調入新出現的熱數據,始終保持不同存儲層的知識對等,這樣才能兼顧知識的使用頻率、存儲成本、運行速度、安全、預算等相關因素。
大數據對圖書館資源收集、組織、存儲、檢索與利用都存在著不同程度的作用效果。相關學者從云平臺、分布式、協同體系、知識推薦等角度對知識存儲進行了相關研究。本研究深入數據與知識內部,區別大數據與知識的不同,將大數據轉換為圖書館所用的知識;并根據知識存儲的目標設置用戶使用頻率與知識可重復性兩個指標,形成知識評估矩陣,分析不同知識的重要程度,這對于精準存儲與加速存儲具有重要意義。現階段,學者研究的重點在于如何有效把握用戶的知識需求,如何將用戶的情景資源有效地進行挖掘和利用,劉海鷗等研究新型的過濾與評價機制[5];楊俊生、劉江玲、陳臣、張興旺、官思發等從云計算MapReduce方法、發現系統、分布式、關鍵要素、數據耕耘理論、社會化標簽等理論與方法,探索更為精準與加速的大數據挖掘與存儲[6-7],這表明精準存儲式的知識服務將成為今后的研究方向,筆者將在數據轉換知識工具開發、知識評估模型、精準推薦模型等領域進一步展開研究。
[1]化柏林,李廣建.大數據環境下的多源融合型競爭情報研究[J].情報理論與實踐,2015,(4) :1-5.
[2]丁寧,馬浩琴.國外高校科學數據生命周期管理模型比較研究及借鑒[J].圖書情報工作,2013,(6) :18-22.
[3]姜春林,張立偉,谷麗,等.知識單元視角下學術論文評價研究[J].情報雜志,2014,(4) :29-34.
[4]謝劍敏.泛在知識環境下高校數字圖書館發展的困境與對策[J].情報理論與實踐,2015,(3) :45-48.
[5]劉海鷗.面向云計算的大數據知識服務情景化推薦[J].圖書館建設,2014,(7) :31-35.
[6]陳臣.一種基于新型存儲的數字圖書館分布式大數據存儲架構[J].現代情報,2015,(1) :100-103.
[7]官思發.大數據知識服務關鍵要素與實現模型研究[J].圖書館論壇,2015,(6) :87-93.