郝亞可
【摘 要】隨著信息技術的飛速發展進步,大數據的研究和應用已經成為了關注度非常高的熱門技術,可以說,大數據時代已經到來了。在大數據時代,圖書館館藏資源的整理技術需要進行進一步的優化和提升,而將資源數字化來進行資源整合和存儲,既可以提高實現資源共享,又可以提高文獻的易用性,對圖書館的工作優化有著很大幫助。本文針對大數據時代圖書館館藏數字資源的整合和存儲策略進行分析,對相關內容進行了介紹,以供參考。
【關鍵詞】大數據時代;圖書館;館藏數字資源;整合和存儲
隨著信息技術的發展以及物聯網技術等新型技術的涌現,信息平臺上所存儲和傳輸的數據呈指數型爆炸增長,大數據時代已然到來。而如何對巨量的數據進行有效分析和處理,從中尋找到自己所需要的信息分量,即大數據分析技術,已經成為了當下的研究熱點,在各行各業中都進行了分析和應用。對于圖書館而言,作為圖書資源的匯集處和整合中心,圖書館也應該跟上時代的步伐,提高自身的圖書檢索和資源整理效率。在大數據時代背景下,圖書館應該積極進行信息化數字化資源平臺的建設,積極將大數據處理分析技術運用到圖書的資源整合和存儲中來,使圖書整理和檢索的效率最大化,從而提高自身的工作水平,保證用戶的閱讀體驗。
一、大數據有關內容介紹
大數據是IT行業的術語,其最早是由奧地利學者維克托·邁爾-舍恩伯格以及肯尼斯·庫克耶所提出簡要來說就是巨量數據的集合體,這部分數據使用常規手段不能進行完全搜集和整理,也無法進行分析,需要更為有效的數據處理手段才能進行大數據分析,大數據的主要特點可以概括為5V,即Volume(大量):信息數量遠遠大于之前的常規數據、Velocity(高速):數據產生的速度與獲得數據的速度極快,以之前的常規信息處理手段無法正常處理、Variety(多樣):數據類型非常多樣化,、Value(低價值密度):數據質量參差不齊,海量數據中所蘊含的高價值信息較少,價值密度較低、Veracity(真實性):數據都是由即時情況所轉化而來,需要進行真實性篩選,此外還具有復雜性等其它特點。
二、大數據時代背景下進行圖書館資源數字化整合的原因分析
1.為了提高資源整合的效率,保持資源時效性
長期以來,圖書館進行書籍資源的整理時都是使用人力進行工作的,無論是書籍的種類標示、分類存放還是標號都需要人工進行,并且進行書籍檢索的關鍵字確定時也需要手工確定和錄入,不僅需要耗費大量的時間,一旦工作人員出現疏忽或者疲憊情況,出錯的可能性還非常大。而進入網絡信息時代以后,網絡數字資源例如數字多媒體資料等逐漸增多,而大部分數字資源都擁有一定的時效性,如果還是按照之前的人工整理方式進行資源整合的話不僅效率低,還會嚴重降低資料使用時的時效性。因此對于數字資源來講,必須尋找更加智能化高效率的資源自動標注和整理方法,這也是現在圖書館管理和資源整理研究的重點內容。目前,通過大數據分析技術結合智能化整理技術對數字資源進行整合成為了主流選擇,與人工方式相比,大數據技術不僅資源篩選速度快、準確率高,其整合速度和分類速度也非常迅速,對于保持數字資源的時效性以及提高資源整合的效率都有很大的幫助。
2.為了提高數字信息資源的標準程度,使其便于使用
網絡資源是通過互聯網這一媒介將各種類型各種領域的資源所整合在一起的大型集合體,其在網絡中的分布是無序且較為散亂的。如果需要對網絡儲存的數據進行交流使用的話,必須要將其進行整合,否則未經加工的數字資源不僅在格式類型上不一致,其索引方式和使用方式也不一樣,直接進行利用基本無法進行有效的信息獲得。除此之外,進行互聯網信息訪問并不需要專門的場所和機構,普通用戶都可以借助個人信息設備例如智能手機、平板電腦等來登陸數字圖書館進行信息瀏覽,而普通用戶很難做到準確使用信息平臺對各種類型的數據文件進行正確瀏覽的。因此,必須要對雜亂的數字資源進行整合和合理化的存儲,從而提高信息資源的標準化程度,并且使其使用更加簡便,從而保證數字圖書館平臺能夠具有應有的使用價值。
三、數字資源整合和存儲的具體方法探討
在大數據時代背景下,利用大數據對數字資源進行整合要按照不同的信息模塊進行順序操縱,信息模塊一般分為四種,即大數據資源提取模塊、資源篩選與分析模塊、資源整理與分類模塊以及最后的綜合控制與反饋系統。其功能包括數字資源的提取、過濾、整理、儲存。接下來分別進行介紹。
大數據資源提取模塊的任務是將數據進行抓取與儲存,主要的處理數據類型包括信息數據、系統以及客戶的管理數據等。除了進行數據獲取,該系統也能根據數據的源頭、基本特點等將數據進行初步分類,分配到其應該進入的數據庫之中,這個模塊是信息資源整合系統的基礎部分,主要負責信息的錄入工作。
資源篩選與分析模塊緊緊承接著大數據資源模塊而來,上一模塊將資源注入到數據庫中之后,資源篩選和分析模塊要對數據進行特征過濾,首先清除掉無用的冗余資源,然后要根據數據的特征和格式等特點對資源進行進一步的分類,提高數字資源的利用準確程度。
資源整理模塊是在數據經過大數據處理和分類轉換之后對數據進行進一步的分類處理和存儲工作,將數據按照類型存放入數據庫,為數據進行最關鍵的處理做準備。
綜合控制和反饋系統是對數字資源進行整合和存儲的最關鍵部分,數據經過前三個階段的大數據提取和篩選分析并存放進入數據庫之后,由綜合控制及反饋系統使用信息數據分析處理技術對最終余下的數據進行資源可利用程度的評估,對資源的分區儲存等進行調整,并且對信息回傳做好反饋。此系統還負責對數據處理工作進行監控,尋找工作中的問題點和錯誤,并及時進行更正,從而提高數字資源整合和存儲的效率和正確度。該系統是整個處理步驟的核心部分。
在進行數字資源整合和儲存時要按照這四個模塊建設存儲系統,將存儲系統分為多個層次以對應不同模塊的處理工作,基本層次分為基礎設施服務層(IaaS),負責大數據資源提取模塊的工作以及存儲工作,PaaS層即平臺服務層即平臺服務層,負責資源整理模塊以及提供多種信息接口,例如管理接口、加工以及分布接口等,還有應用服務層(SaaS),是整個存儲系統的軟件結構,并且用戶可以借助此層次中的軟件功能實現多種信息檢索和使用功能。
進行系統設計時要注意以下幾點:優化資源整理模塊的功能,盡量使用功能更為強大的信息篩選技術,提高信息過濾的效率,為數據篩選和分析功能騰出工作空間;注意硬件系統的負載,防止大量的數據流入而導致硬件負載過高而降低效率。
四、總結
在大數據時代下,數據由書面化向數據化信息化轉變,并且數據的量大大增加,這對圖書館這一公共數據平臺而言是很大的挑戰。圖書館想要得到進一步的發展就要與時俱進,積極使用先進的技術。要結合大數據技術進行資源整合和存儲技術的優化,認真研究圖書館館藏數字資源整合和存儲工作的開展必要性、基本工作模塊結構、服務層種類等內容,并積極進行有關技術的應用和開展,從而提高自身的工作效率,優化用戶的閱讀和信息搜集體驗。
【參考文獻】
[1]劉靜春.大數據時代圖書館信息資源建設與服務方式變革[J].中國中醫藥圖書情報雜志,2019,43(01):23-25.
[2]張青錕.大數據時代高校圖書館數字資源服務創新研究[J].信息記錄材料,2019,20(01):163-164.
[3]王震宇,王寧.大數據時代圖書館館藏數字資源整合與存儲策略分析[J].中國中醫藥圖書情報雜志,2017,41(03):35-38.