劉曉亮
摘要:大數據的關鍵在于數據的分析與應用,提高圖書館基于數據挖掘的處理分析能力是開展知識服務的必然要求。文章首先闡述了圖書館的大數據服務應用特征,接著提出大數據階段圖書館數據挖掘面臨的挑戰,并給出相應對策,最后探討了數據挖掘中值得關注的重點技術以及圖書館開展知識服務應用的一些做法。
關鍵詞:大數據;數據挖掘;圖書館;信息服務
1.圖書館的大數據應用特征
大數據是一場革命,將改變人們的生活、工作和思維方式。大數據至今并無統一定義,通常以“4v”特征或對大數據進行描述性解釋:規模(Volume)指數據的數量規模大;類型(Variety)指數據類型多樣復雜,混合結構化與非結構化多種類型;實時(Velocity)一方面是數據增長速度快,另一方面要求在合理的時間內處理數據;價值(Value)反映了大數據隱含著價值轉化。大數據發展的最終目標是分析挖掘數據的價值,其重點在于數據的分析和應用,“大”不過是信息技術不斷發展所產生的海量數據的表象而己。
社會進步和信息技術不斷改變著圖書館的服務內容與模式,網絡環境下要求將這些信息資源組合成整體并延伸至更大的范圍。隨著數字圖書館的興起,圖書館數字化文獻信息、數據庫的數量種類不斷增加,各地市級圖書館都已具有海量信息規模,比如上海圖書館提供的數據庫已多達400余個。這些數據包括類型多樣的文本、圖片、音頻與視頻各類非結構化數據,滿足大數據的基本特征。然而,這些數據資源價值遠未得到有效體現與利用。一個重要的原因是缺乏有效的數據挖掘技術方法。通過人工從大量結構繁雜的數據中發現價值,是難以實現的。隨著大數據技術的發展與應用,必然要求圖書館重點利用數據挖掘技術從大量的信息中發掘數據價值,以此推出知識化產品化的服務應用。同時,通過大數據處理分析對信息資源進行深度、動態、廣泛的知識挖掘,便于揭示信息內容中各個要素及其相互之間的聯系,促進信息交流,實現信息資源共享,提高文獻信息的利用效率,從而實現圖書館信息增值服務并提高信息服務的競爭力。因此,探索數據挖掘方法技術提高圖書館的服務水平是亟須思考和解決的問題。
2.大數據時代圖書館數據挖掘面臨的挑戰
大數據時代的到來,極大地促進了數據科學的興起。數據科學包括用科學的方法研究數據與用數據的方法研究科學,后者主要的實現方式就是數據挖掘方法與技術。數據挖掘是指從數據源中發現知識的過程。實現數據價值的關鍵環節在于數據的挖掘方法技術。所以,如何充分有效地利用數據挖掘方法對圖書館大數據進行開發處理,是開展圖書館知識服務的重要研究方向,也是服務創新的關鍵途徑與支撐服務技術。大數據時代圖書館的數據數量大、類型多,對數據挖掘提出新的需求與挑戰,主要有以下方面。
2.1大規模數據量
數字館藏數據規模與數據類型在不斷增長,對于數據挖掘算法的能力要求也在不斷提高。傳統對于大規模數據的分析一般采用隨機取樣,以較少數據獲得最多的信息,其準確性會隨著隨機性增加而提高。這是在計算機性能較低特別是無法收集全部數據的情況下的選擇。然而,大數據環境數據價值隱匿于海量數據中,單靠取樣是無法捕捉到這些細節的,需要采用全集數據進行處理分析。如此大量的數據分析僅靠單機是無法完成的,分析挖掘模型必然要借助分布式計算框架,比如,Map Reduce或者當前流行的Spark,將分析模型遷移至集群計算環境。大數據應用具有實時性,如智能推薦、文獻關聯等,需要在合理的時間完成分析過程,采用集群計算環境也是提高計算效率的選擇。另外,數據量增加的同時,噪音數據也會增加。因此,在數據分析之前必須進行數據清洗等預處理工作。
2.2數據的高維特征
圖書館數據的多樣性能夠提供更多維度的客觀對象描述屬性。數據從過去的一維、多維逐漸發展為巨量維度。雖然能夠建立豐富的多維數據模型與方法,但在構建的大數據特征空間中,往往會超出傳統方法的處理能力。可以考慮引入維度規約技術,比如主成分分析、奇異值分解來降低數據維度。同時,數據屬性可能過于稀疏,也會極大影響數據模型的有效性。
2.3數據關系廣泛
圖書館服務應用過程中的信息、用戶對象之間存在多種行為與內容關聯,從而組成多關系網絡。大數據的多源性、多樣性正是構建這種復雜關系的基礎。比如,用戶的查詢詞、借閱記錄、瀏覽記錄、圖書館文獻信息內容之間形成的多關系網絡。特別是社交網絡數據的應用,更使其趨于多元化。許多圖書館實踐中,比如基于用戶的信息推薦就是利用這種關系作為分析依據。過多關系的簡單鏈接應用,反而會削弱關鍵特征的作用和導致語義缺失。如何廣泛利用大數據提供的各類數據類型與數據關系,成為實際應用中的一個重點。實際中,需要重視運用關系選擇、組合及判斷函數,提高分析的正確性有效性。
2.4數據保護要求不斷增長
數據是圖書館信息服務的核心和基礎,數據的安全性就顯得尤為重要。用戶在享受精準個性化推薦帶來的便捷的同時,也在深深擔心個人隱私安全問題。一些敏感信息以明文存儲也會有安全風險。這些會導致數據挖掘方或者任何可以接近數據集的人,能夠辨別特定的用戶個體或內容信息,存在利益侵犯的可能性。數據挖掘在發現數據價值的同時,也對隱私安全和數據安全帶來了威脅。這就需利用數據修改、數據模糊、數據加密、加密檢索等隱私保護技術提高數據的安全性和可控性。
2.5自然語言理解程度較低
當前,在信息檢索、自動摘要等常見的數據挖掘任務中,仍無法有效識別同義詞、近義詞以及詞語間的語義關聯,特別是一些短文本處理中,無法有效識別詞語語義,造成處理效果不理想。雖然一些圖書館建設了知識庫,但僅限于研究層面,距離實用在規模上有相當差距,在應用方法上也沒有大的突破。同時,圖書館存在大量圖片、音頻、視頻數據,這些數據的加工處理也沒有引入有效的自動圖像、音頻識別技術,圖書館難以基于數據挖掘提供全方位的信息服務。
3.大數據時代圖書館數據挖掘的關鍵技術方法
3.1數據存儲
圖書館數據類型眾多,需要引入非結構化數據存儲技術。比如典型的HDFS,No SOL(Not Only SOL),已廣泛用于非結構化數據的分布式存儲。傳統關系型數據庫適合結構化數據存儲。需要注意的是,要區分結構化與非結構化數據,針對數據特點使用相應的存儲技術。在實際中,難以使用一種數據存儲方式存儲管理所有的數據,即使谷歌也是將結構化數據存儲在關系型數據庫中。同時,需要運用高效存儲技術,比如數據壓縮、自動精簡配置、自動分層存儲、存儲虛擬化等解決或緩解數據量過大、存儲利用率、存儲效率低等難題。
3.2數據集成
目前,相當數量圖書館的一個重要問題是數據資源分散化、碎片化,數據存儲在不能相互訪問的數據庫與系統中,形成數據孤島。孤立的數據是難以發揮出數據價值的,如何連接這些數據,實現資源交互共享,是數據價值最大化的關鍵。數據集成將不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,經過關聯和聚合之后采用統一定義的標準來存儲數據,從而應對大數據數量眾多、類型廣泛等問題給數據管理服務所帶來的挑戰。數據的集成連接涉及異構數據的統一語義描述、多維特征關聯。同時,要保證數據質量,需要對數據進行清洗。但清洗的粒度過細,容易過濾有效數據;反之,無法達清洗效果。所以,在質與量之間需要做出一定權衡。
3.3數據處理加工
語義處理技術能夠為深層的數據分析提供支持,提高各種數據挖掘算法的語義化程度與性能,提高機器可理解數據的能力。語義知識庫是語義處理的基礎支撐,典型的知識庫有WordNet、中文知網,但其構建存在人工成本高、更新慢的問題。實踐中,可以從維基百科、互動百科等結構化程度較高的海量數據中抽取詞語關系,以低成本方式自動構建語義知識庫獲取語義知識,也可以利用大規模語料構建概念詞語矩陣或利用Word2 Vector工具,提高數據挖掘的語義化處理程度。圖書館需要采用圖像、音視頻內容檢索技術,提高多媒體數據的處理能力。比如利用語音識別技術,將音頻數據處理為文本并記錄聲音信號在音頻中的時間位置,以此提高用戶獲取音頻數據的快速性與準確性。通過語義標注從圖書館數據中識別概念本體,實現信息之間的關聯,形成知識網絡,為個性化、語義化服務應用提供支撐,進而可通過分類、聚類等數據挖掘加工處理從多維度滿足用戶的信息需求。另外,可借助微博、微信等社會化網絡提供的API接口,獲得更廣泛的用戶數據,展開用戶需求與圖書館信息之間的深層處理分析,利用APP等多種方式為圖書館與用戶之間搭建有效的服務橋梁。
3.4數據可視化
數據可視化是關于數據視覺表現形式的技術,其借助圖形化手段,清晰、有效地傳達與表示信息。一般以圖形、圖表等概要形式展現數據的各種屬性和變量值。比如,通過數據餅圖、柱狀圖、趨勢圖、關系網絡圖將處理分析結果或過程與用戶進行交互,以此提高用戶對查詢結果的理解程度和興趣。
4.結語
本文介紹探討了圖書館大數據知識挖掘技術中值得關注的一些技術問題和重點,以及圖書館開展知識服務應用的一些做法。在大數據時代,拓展提高圖書館的信息服務水平,必須把握數據挖掘方法技術的發展趨勢與特點,才能為滿足時代需求改進與創新圖書館服務應用的方法與模式。