高鵬博 遲呈英 戰學剛
(遼寧省鞍山市遼寧科技大學,遼寧 鞍山 114051)
隨著時代的發展和變革,面對多樣性特征下的書籍數量和類型,需要更加完善、專業的管理模式,由此為圖書館建立提供了保障。作為專業性圖書服務機構,如何發揮出最大效能,滿足不同服務對象的需求,一直是圖書館研究的主要課題,雖然在各種創新方式的支撐下取得了顯著成果,但其所節省的單位時間效益并不可觀。如今,隨著數字化時代的來臨,數字圖書館發展形態之下,圖書分類技術將發揮不可替代的作用,尤其是面對虛擬的網絡信息環境,必須要立足于計算機分類技術,更加快速、便捷、安全地提供分類服務,并以圖書管理系統為窗口,為不同的用戶提供相應圖書資源。而在關聯規則下的文本分類領域,實現了對決策范圍的拓展,解決了傳統圖書分類中的錯誤和缺陷,通過對數據之間關聯性挖掘,實現對文本信息的自動分類,有效實現了對圖書分類管理技術的優化。
圖書館具有海量信息服務的特征,其數據庫將產生文本頻繁集。而FP-growth則可以依托樹形結構特點,消除候選文本頻繁集因素,壓縮了獲取文本頻繁集的時間與流程成本,提升了文本分類的效率。若以圖書館中所涉及的所有單一文本比作一個項目,則同樣可將圖書館所有項目視為一個集合,通過關聯規則下的Apriori算法和FP-growth算法,對圖書文本信息進行計算。
設I={i1,i2,……,in}為所有文本的集合,設A為多文本所組成的集合,則可以將其稱為文本集。文本子集以事務T表示,同時對不同的事務利用唯一的標識進行表示,即Tid,A作為事務T中的文本集,當且僅當AT。其中,若文本集A中包含k個文本項集時,則K也被稱為文本項集。文本數據庫由D表示,在計算的過程中一般以文本集A在D中所出現的頻次,并核算出其在總文本中的占比,由此被視為文本集A的支持度。當用戶給定最小支持閾值小于文本集支持度時,則將被稱為文本大項集。基于關聯規則之下的圖書分類技術,正是通過XY之間的文本邏輯,利用X所代表的文本隱性規則,Y所代表的線性文本規則,形成數據庫文本的關聯規則XY,其中通過信任度與支持度的關聯,完成對圖書文本分類概率的計算。
數據是數字圖書館最為依賴的內容,通過數據之間的轉換與交互,實現數字圖書館的多樣化功能。數據處理是圖書文本分類的基礎內容,其在注重事物特征的同時實施預定處理模式,以完成具體的圖書分類方法。伴隨現代計算機技術的快速發展,其信息收集與數據處理能力日益增強,實現了圖書文本分類的高效性,能夠在短時間內完成海量的數據處理,并遠遠超過傳統人工處理的精準性,實現了圖書文本內容的自動化處理。根據其具備的流程而言,主要包括了文本預處理、文本特征表示、文本特征選擇及分類器等,這些流程在圖書分類中發揮著承上啟下的關鍵作用,如圖1所示。

圖1 文本分類流程
在計算機分類技術的應用中,主要的特點在于能夠向用戶提供開放性的服務系統,并根據用戶的實際需求或者檢索目標,對相關的文獻信息進行分類處理,從而實現相關圖書文本的查找。在現代的圖書管理系統中,最為核心的服務是實現信息的存貯與檢索功能,在圖書分類檢索行為中,包括了自動檢索與手工檢索兩個階段,自動檢索主要是根據用戶的偏好進行推薦,而手工檢索則主要是利用文摘、題錄、目錄、索引等關鍵詞,對數據庫中的關聯信息進行分析檢索。從信息提取層面看,用戶所提供的目錄、索引、文摘等關鍵詞,屬于數據庫相關文本的外部特征或者內容特征的描述集合體,而用戶在檢索中應用文獻的事實問題,獲得相關文獻的線索則被稱為提取關鍵詞。因此,通過用戶的提出關鍵詞操作,則能夠運用計算機圖書分類技術,為用戶提供最終文獻信息,以此達到“命中”的效果。
基于關聯規則下的圖書分類技術,其根本目標在于通過數據集找到項與項之間的關系。在實際的文本分類過程中,可以建立相應的邏輯標準,如人文類圖書、自然類圖書等。另外,也可以根據圖書的學科特征或者屬性,進行更為細致地劃分,包括A哲學、B宗教、C倫理……Z社會等,根據特定的編碼規則形成類型標記。再者,利用品種屬于劃分又可分為理論著作、應用著述、學術、教學等類型。由此可見,將計算機圖書分類技術應用于圖書館,尤其是數字圖書館背景下,勢必產生更大的應用效能,使圖書文本分類更加具體,大幅優化管理效率和質量,實現對各類圖書信息資料的高速、便捷搜索。
綜上所述,隨著數字圖書館建設的深入,計算機技術應用日益廣泛,通過信息技術及管理系統的整合,大幅提升了其管理效率與應用價值。圖書分類技術應用于圖書館,為圖書館及用戶提供了銜接便利性,能夠促進數據價值的發揮,使自動分類技術實現應用場景的拓展。