D
隨著社會經濟和科學技術的快速發展,大數據逐漸成為了人們生活的主角。大數據是網絡和信息技術的產物,具體是指海量的、高速持續流動的數據流。大數據通過使用新系統、新技術、新模式對大量的數據信息進行整合,并從中發掘更真實、更有價值的信息。大數據時代的到來,顯著提升了各行業的工作效率。圖書館是各種文獻資料的集中地,管理工作繁瑣,借助大數據技術進行管理能有效提升工作效率和服務質量。該文以大數據的深層含義為切入點,詳細分析當前圖書館管理與服務中存在的問題并提出若干管理辦法,力求為圖書館工作質量的提升增添助益。
大數據 ??情報分析 ??圖書館 ??管理 ??服務
中圖分類號:G251???文獻標識碼:A???文章編號:1672-3791(2022)02(b)-0000-00
Application of Big Data Information Analysis Platform in Library Management and Service
Abstract: With the rapid development of social economy, science and technology, big data has gradually become the protagonist of our life. Big data is the product of network and information technology, specifically refers to massive, high-speed and continuous data flow. Big data integrates a large amount of data information by using new systems, new technologies and new models, and explores more real and valuable information. The advent of the big data era has significantly improved the work efficiency of various industries. The library is the concentration of various documents and materials, and the management work is cumbersome. The management with the help of big data technology can effectively improve the work efficiency and service quality. Taking the deep meaning of big data as the starting point, this paper analyzes in detail the problems existing in the current library management and service, and puts forward some management methods, so as to contribute to the improvement of the quality of library work.
Key Words: Big data; Intelligence analysis; Library; Administration; Service
隨著網絡的普及和信息技術的更新換代,智能化和數據化已經滲透至各個行業,并取得了可喜的成果。我國的圖書館文化有著幾千年的歷史,圖書館中收藏著各類經典文獻,是民族文化的傳承者和傳播者。圖書館工作的主要職能是滿足大眾對書籍、文獻的查詢和閱讀需要,圖書館管理工作具有重復性高、繁瑣復雜的特點。在大數據背景下,圖書館管理工作也要積極轉變觀念,摒棄傳統的管理方式,借助信息技術實現管理工作的智能化。近年來,各大圖書館都加快了信息化進程,使圖書管理工作更加人性化,更具有針對性,但這一工作目前還不夠完善,仍存在一些亟待解決的問題。
在數據背景下,各種數據信息呈現爆炸增長,海量的信息源已逐漸成為最有價值的財富。可以將大數據看作是容量大、速度快、樣式多的數據資產。這些信息需要經過科學地處理,才能為使用者的決策判斷提供參考。如何在無邊無際的信息海洋中篩選出有價值的信息,發現事物的發展規律,是需要廣大專家學者共同努力的。
情報分析工作,是指有組織、有計劃地收集、整理、篩選、加工各種有價值的情報信息,在進行交流傳播后滿足使用者需求的工作。當前,分部發達國家已將大數據情報分析技術適用于實際操作,例如,美國就借助該技術對恐怖分析進行追蹤,對社會不安定因素進行監控。大數據情報分析能對人們社會立場的變化進行預測和監控,分析出他們下一步所要采取的行動。由此可見,大數據情報分析具有極強的功能性,能幫助各行各業獲取良好的發展前景。
國外的圖書館在幾年前便開始使用基于眾包的管理工作模式。一些專家學者認為,目前廣泛存在于圖書館數據中的數據類型缺乏統一架構,存在信息孤島等問題,需要將關系和非關系型數據庫相互融合,借助分布式問價系統、內存數據庫等技術手段進行管理。還有學者認為,應該使用該技術改革現有的館藏數據智能檢索系統,幫助實現數據轉化和特征提取。
此外,云技術的出現和使用加大了大數據的適用范圍。通過對圖書館大數據服務理論和云計算理論研究成果的學習,不難看出,兩者的相互融合為圖書館管理與服務創造了更多的機遇。以云架構為基礎創建圖書館大數據服務系統,有助于圖書館管理工作創新服務模式。在信息技術高度發達的當代,圖書館管理工作已采取了各種高效的管理辦法,但還沒有形成體系化的大數據情報分析平臺,管理工作效率和服務質量還有較大提升空間。
現階段,信息技術改變了人們的生活方式,傳統的圖書管理模式已無法適應客戶的多元化需求。現代化圖書館的館藏資料不僅包括字紙文獻,還包括大量的電子文獻。如仍按傳統的資料查找辦法查找資料,要花費大量的時間和人力,而且查找效果無法保障。因此,圖書館管理需要借助更強大的檢索功能,在最短的時間內為讀者提供更滿意的服務。這主要包含兩方面內容:一是實現智能化管理,提高文獻管理效率,降低人工維護時間和手動作業成本;二是為使用者提供智能化服務,擴大讀者查找文獻的范圍,縮短查找時間。按讀者的查找范圍分析讀者的喜好需求,提供自動推薦。
3.1情報收集
網絡爬蟲是當前運用較為普遍的情報收集技術,它是在固定規則限制下,對萬維網進行自動抓取,可分為四種類型:深層網絡、通用網絡、增量式網絡、聚焦網絡爬蟲。該文的主要研究目的是對各大圖書館的館藏資源和使用者的借閱喜好等數據信息進行隨機抓。具體操作流程如下:第一步是URL初始化,分析網頁全文的具體內容進行并對關鍵內容抓取,按上傳的檢索條件篩選出符合要求的數據。第二步是將有效數據提取后再從網頁中產生全新的URL鏈接,篩選出最佳鏈接加入URL列表。網頁全文篩選是個循環反復的過程,直到符合所有篩選條件才會真正結束。URL初始包括若干環節,其中最關鍵的核心環節是網頁解析。要想充分發揮該模塊的功效就要從兩方面入手,處理好兩大問題:一是通過不同的網頁全文提取符合條件的子鏈接,并加入到URL列表。二是對網頁內容進行精準解析。解決以上兩種問題的技術手段有幾種,其中最受歡迎的是HTMLParser,效果最為理想,使用的范圍最廣。
HTMLParser(解析器)的主要工作內容是快速實時分析處理現有HTML。HTMLParser具有從網頁全文中提取URL子鏈接的功能,還可以通過解析網頁結構提取網頁信息,在篩選清洗后再進行格式轉化(XML格式)。使用HTMLParser解析器對子URL的具體提取過程如下:一是借助初始URL將Parser和Filter實例化,在實例化之前要提前預設過濾條件,主要包括A和Frame標簽內容。二是對網頁全文中所有符合要求的節點利用Parser進行抓取,完成后加入URL列表。三是重新檢查節點列表收集所需節點,用特定的技術手段提取子URL鏈接并加入進子URL集合。在利用HTMLParser(解析器)對網頁全文進行解析時應遵循以下步驟:第一步是HEML文件內容讀取,將其格式轉化為字符串格式,使用網頁編碼技術將網頁的Parser實例化。第二步是通過設定好Filter進行節點提取,以Filter的限定條件為依據,使用Parser技術對網頁文件行進詳細解析。第三步是處理文本內容。該過程以圖書館為主題使用網絡爬蟲技術進行爬取。通過以上技術手段收集到的情報數據都是以萬維網HTML網頁為源頭。萬維網的HTML網頁可分為兩部分,分別是與網頁主題相關程度高的信息和與主題相關程度低的信息,具體內容包括網站的版權信息和導航。對關聯程度高的數據要進行保留,關聯度低的進行過濾。
3.2情報處理
通過篩選收集到的數據信息數量龐大,如馬上進行分析則工作量過大,應先進行分詞處理。收集到的數據信息有英文和中文兩種形式。英文文獻的分詞處理相對比較容易,無需特殊的處理技術,僅用英文空格作分隔符即可。與之相比,中文文獻的處理難度較大,沒有具體的分隔符,只有特殊的標點符號。現階段比較完善的分詞系統主要有兩種,即以字符串匹配為基礎進行計算和以機器學習、統計學相結合的計算方式。第一種算法是先掃描字符串,以語料庫中詞條儲備為比對依據,只要字符串的子串匹配即可。在使用這種運算方式時可適當加入啟發式算法,常見的有雙向算法、反向算法和正向算法。這些算法操作起來更加簡單,不僅更容易實現,還能節省計算時間。融入這種計算方式的算法分類效果良好,但不適用于處理未登入或有歧義的詞語。機器學習與統計學相結合的分析系統分類效果更顯著,能有效解決存在的歧義詞語問題,但需要借助人工標注詞性,工作量大。在完成詞性統計后應建立相應的分析系統模型,使用標注后的數據訓練模型(調整模型參數)。該計算方式的最后環節是分詞,此環節是應用調整后的模型體系對不同信息出現的概率進行計算。上述兩種分詞處理方式各具優勢,但也都存在一定缺點。有的學者在使用時將兩種方式結合在一起,最具代表性的為分詞消歧模型。它是由隱馬爾可夫模型(HMM)和雙向最大匹配為基礎結合而成的情報處理模式。該模式工作先是用正向和逆向最大匹配進行文本信息分詞,再用隱馬爾可夫模型與兩次對比后的結果進行消歧,以求實現預期分詞效果。Hadoop運算能力強大、儲存時采用分部式結構,能有效化解算法分詞速度慢的問題。因此,大數據情報分析平臺在處理中文文獻時主要采用該種模式。基于HMM的分詞系統的操作步驟如下:一是建立HMM模型,用事先標注好的語料訓練模型。二是以語料庫為參考測試模型。三是適用調整后的模型分析處理網頁內容。
4
在大數據背景下,圖書館的館藏資料類型更加豐富,數量更加巨大,具有多結構性。現代化的圖書館管理需要借助大數據分析平臺,將各種情報數據以分部形式存儲在平臺的數據庫中。圖書館的規模相對有限,分布式存儲平臺所包含的應用框架即可滿足需要。HBase是Hadoop的存儲層,HDFS是其安全系數的保障,系統的運算能力主要依靠MB支撐。底層儲存的實現主要通過PIG和HIVE提供高級預言支撐。構建完善的大數據平臺能大幅提升圖書館館藏資源的存儲效率。
基于Hadoop平臺的MB框架具有高效檢索功能和情報分析功能,能從萬維網中隨時獲取所需信息,再經過HP解析器分析處理后存儲在數據庫中。通過分詞系統按特征提取數據情報,去查留優,確保讀者僅需輸入關鍵詞就可檢索到優質文獻。
隨著網絡的全面覆蓋和信息技術的快速發展,大數據情報分析的重要地位已不可替代。信息技術在圖書館管理工作中的應用,提升了管理工作的效率和服務的質量。打造現代化的圖書館,要以大數據為基礎,積極學習新的技術知識對原有的工作方式進行改革創新,全面優化圖書館的管理工作,為讀者提供更加專業的個性化服務。
參考文獻
[1]劉川峰.大數據與互聯網時代高校圖書館圖書采購的供應鏈管理分析[J].智能城市,2020,6(12):96-97.
[2]李靜,楊敏,金新建.大數據背景下醫學高校圖書館科研數據管理探究[J].電腦知識與技術,2020,16(18):15-18.
[3]王麗慧.關于大數據時代公共圖書館圖書資料管理的改革與創新[J].才智,2020(18):247.
[4]張衛寧.大數據驅動下圖書館管理與服務分析[J].科教導刊(下旬),2020(4):184-185.
[5]張國友.大數據在圖書館管理與服務中的應用綜述[J].文化創新比較研究,2020,4(9):162-163.
[6]張玲玲.高校圖書館科研數據管理服務體系構建[D].哈爾濱:黑龍江大學,2021.
基金項目:海南省哲學社會科學規劃課題《海南省華僑文化資源數字化整合研究》(項目編號:JD(ZC)20-47)。
作者簡介:關鑫(1985—),女,本科,講師,研究方向為圖書館學、情報分析。