王瑛瑛
(朔州師范高等專科學校 山西 朔州 036002)
在網絡信息數據庫不斷發展壯大的背景下,國內高校的圖書館都在很短時間內完成了對海量數據的積累,人們想要檢索特定的信息數據的難度逐漸增加,所以檢索技術變得更加有效。對高校圖書館來說,過去的管理重點是登記圖書借閱和圖書歸還,沒能及時分析有關數據,沒能重視信息資源。數據挖掘技術能夠結合基本理論與圖書館具體管理,為圖書館的信息資源管理工作建立相關的檔案信息平臺。
數據挖掘技術指的是整理并提取儲存于數據庫的海量的數據信息,并從這些數據信息中將能夠為人們所用的數據信息挖掘出來的技術,本質是對數據的處理。其具體功能如下。
這個功能指的是利用淺顯且容易明白的語句和詞語來描述指定對象的關鍵特點。在劃分類別時應該依據描述對象的關鍵特點來分類其群體。定義的側重點在于描述同一數據區的共性特點,而類別的側重點是區分存在差別的數據對象。
關系發現即對不同的信息變量的潛在性規律以及內部關聯進行發現和處理。關系發現能夠被分成因果作用類型、時序關系類型、簡單關系類型。關系發現功能在商務關聯方面和決策分析方面均有廣泛應用,此種數據挖掘方式廣受人們歡迎。
假如必須分類信息數據與預估信息數據,則應該在對數據進行處理的初期進行有益的習得性操作,設置模型與規定。分類功能通常被用來估算散亂信息,預估功能應該對連續信息進行估計,常見的分類方法包括遺傳算法分類、神經網絡分類、貝葉斯公式分類、決策樹分類、模糊集分類、粗糙集分類,常見的預估技術可以分為非線性回歸預估和線性回歸預估。
聚合的意思是詳細地區分相似的數據組成的各個類別,在分類劃分樣本時,應該依據組間最小相似度和組間最大相似度。在研究信息對象時,人們通常不能確定它的詳細類別。此時,應該使用劃分方法、分層方法、網格主導方法、模型主導方法、密度主導方法對類別實行聚合研究操作。
人們常用孤立點指代無法符合信息的常規行為以及無法符合信息的一般模型。因為系統檢索的不足,使得信息分析存在偶然偏差,進而使這些信息變成無效數據,最終遭到清除。但是這些信息數據大部分是具有含義與現實作用的,對孤立點進行挖掘的方式包括基于距離、非基于距離、統計學的方法。
確定數據挖掘的目標是開展數據挖掘操作的必要準備工作,例如高校圖書館要想對師生在文獻類型方面的需求有所了解,就需要把高校圖書館的文獻分成許多類型,在此基礎上,對大數據內部的所需信息進行挖掘,以此提高數據挖掘的針對性,從而能夠為高校圖書館的信息資源管理提供更加優質的服務[1]。
在準備用戶信息的過程中,高校圖書館的工作人員能夠在對師生的基本信息進行確認的過程中使用圖書館系統。在高校師生使用圖書館的過程中,借助RFID技術把它們的個人信息反映在系統中。首先,能夠在學生查閱文獻和圖書的過程中完成對其詳細記錄的獲取,獲取證件號、獲取專業、獲取借閱登記記錄、獲取院系、獲取性別、獲取年齡、獲取類型。其次,在高校圖書館的信息資源管理中,讀者借閱的歷史記錄是其關鍵數據信息,如果把讀者借閱的歷史記錄當作統計數據的對象,就可以實現對圖書條碼號信息、索書號信息、讀者編號信息、借閱時間信息、書名信息、歸還時間信息的整合。通過詳細的分類統計與整理分析這些信息,高校圖書館能夠對文獻的利用效率進行預測與分析。此外,圖書館的文獻書目記錄和流通日志同樣屬于借閱歷史信息的范疇,是數據挖掘的目標[2]。
3.3.1 數據清理技術
數據清理過程是對數據之中的異常數據進行清理的過程,這樣做能夠使數據挖掘的結果更加準確。在對圖書數據和讀者數據進行處理的過程中,工作人員能夠發現數據中具有不夠完整的數據和不一致的數據,這也印證了清理數據的必要性。在此過程中,應該對數據光滑技術和缺失值處理技術多加利用,把“續借”缺失值和“性別”缺失值替換成unknown,把“年齡”缺失值替換成ageave,如果記錄中存在空字段,應該使用手工編寫的SQL腳本,如果少數圖書的分類號是中文字符,則在挖掘過程中必須進行妥善處理,應該盡快將壞數據刪除。
3.3.2 數據整合技術
在對完整的信息進行獲取之后,能夠使用大數據挖掘技術對數據進行深入地挖掘,此時應該利用面向屬性的歸納算法來對數據進行分類,從而得到數據的屬性集合。例如,在對高校圖書館的信息資源進行管理的過程中,產生的數據能夠分成文獻圖書數據、記錄數據、用戶數據、借閱檢索圖書的集合,這樣做能夠使數據維度減少,能夠起到降低挖掘難度的作用。此時,應該把分散數據導入數據庫,從而形成讀者的借閱記錄。
3.3.3 數據歸約算法
當數據倉庫運行至一定期限之后,數據量會以很快的速度增長,如果不利用歸約算法而是進行直接挖掘,會出現的問題如下:(1)每一個字段都需要占據很大的空間,這會使得內存的占用率提升,從而使內存導入的時間延長。(2)絕大多數單項是漢字字符串,而且候選序列的生產時間和空間開銷都會變多,出于節省時間和提高實踐效率的目的,應該對全部事務記錄進行壓縮,把單一事務記錄成6個字符串,單一字符必須是小寫字符,在系統對屬性配置進行讀取之后,依據順序把特定的字母賦予屬性值。假如程序讀取至“本科”,就會把“a”賦值給本科,會在讀到“研究生”時把“b”賦值給研究生,以這樣的方式完成對全部屬性值的讀取,從而能夠完成對字母字符至屬性值映射表格的建立,通過對讀者的數據庫進行壓縮的方式,達到減少預處理文件數量的目的,使效率能夠提升。舉例說明,沒有壓縮數據庫之前的大小是127 M,在對數據進行壓縮之后會縮減成11.6 M,能夠直觀地發現內存資源得到了明顯節省[3]。
對高校圖書館來說,它在購置文獻方面的經費是有限的,在對各個學科文獻的購置經費進行分配的過程中,不但應該結合高校的調研狀況,而且應該結合高校的教學狀況,從而使費用支出達到均衡,能夠發揮購置文獻的作用。以往高校圖書館在對信息進行采集時,大多是通過幾位專家和采訪人員進行商議的方法決定的,這樣做難免會出現信息不夠全面的狀況,不但會使信息資源出現缺失問題,還會出現浪費經費問題。此外,儲存文獻的空間同樣不是無限的。優化館藏分布,館藏分布可以分為多媒體和傳統文獻的擺放,以及服務器中的文獻索引組織,使資源的利用效率得到有效提升。在對高校圖書館的圖書流通數據、圖書借閱數據、圖書檢索請求數據進行挖掘之后,按照類別對文獻的頻繁借閱集和文獻的拒借集進行統計,能夠幫助信息資源進行補充,而且能夠使決策變得更加豐富,從而實現對文獻利用率的分析,把過時的文獻去除,減少收集部分文獻,通過對用戶借閱文獻的關聯進行分析,能夠查出文獻的比例關系和文獻的關聯規則,以此優化高校圖書館的館藏布局和信息建設。
出于保證用戶可以在很短的時間內得到想要的信息的目的,高校圖書館應該對用戶的專題瀏覽集合進行收集,依據用戶的瀏覽記錄來建立事務庫,在此基礎上執行事務庫操作。首先,利用關聯規則來查找訪問頻率高過閾值的項目,使用分類算法把頻繁項目和用戶的瀏覽模式進行相似度的匹配,把瀏覽模式相像的用戶安排至相同服務器,使服務器頁面的傳輸數量和服務器的緩存得到減少。其次,如果事務庫內部的專題的訪問頻率大于閾值,在進行關聯分析之后,能夠得到專題的關聯規則,把它儲存到服務器的知識庫中,由用戶在網頁上進行瀏覽,就能夠按照規則來提前連接關聯頁,使響應的速度得到提升。智能信息檢索的支持范圍包括聯想、模糊、概念、多語言的檢索,還可以使用聚類算法來對查詢的結果進行聚類分析,確保呈現的內容是有條理的內容,方便用戶進行篩選。
在對高校圖書館的信息資源進行管理的過程中,因其文本數據眾多,能夠使用文本挖掘技術自行摘要的方法對文本數據文檔進行分類。在此過程中,文本自動摘要需要使用統計算法,將原文中和主題有密切關聯的語句挑選出來,自行實現對文本摘要的生成,這種數據挖掘技術非常適合用在電子期刊和電子圖書這類文獻信息中。文檔自動分類指的是按照文檔文本的數據特征來實現對文檔類別的挖掘,將其歸至合適的主題范圍,以便高校師生查詢。在大量的數據信息背景下,利用文本挖掘技術能夠防止出現時間緊張問題和人員短缺問題,可以有效保障高校圖書館的信息資源管理服務的效果[4]。
綜上所述,高校圖書館要想建立數字化檔案,需要在數據挖掘技術的基礎上有針對地建立檔案信息管理平臺,從而促進高校圖書館不斷發展。因此,相關人員應該對數據挖掘技術優勢進行充分利用,增加人力投入與物力投入,使數字化檔案平臺能夠不斷完善,盡量提高使用圖書館信息資源的效率,充分開發與利用高校圖書館的檔案資源,而且應該積極促進高校圖書館朝著科學化方向不斷發展。