徐 輦
(常州紡織服裝職業技術學院,江蘇 常州 213164)
隨著計算機和互聯網的不斷發展,我國已經進入了信息時代,海量信息的不斷增長,雖然給民眾帶來了便利,但也引發了許多問題。如今,民眾面臨的主要問題是大量數據已經超出其日常分析、掌握或處理范疇,存在諸如難以區分真假信息、難以確保安全性及統一格式等問題。在這種情況下,數據挖掘技術應運而生。數字圖書館是信息管理及服務的主要組織,它積累了大量的信息,在使用中也存在很多問題。數據挖掘技術在數字圖書館中的應用可以為相關管理人員提供必要的決策依據,也對其他關聯性工作產生直接影響。
數據挖掘技術主要指應用大量的數據庫信息,充分掌握并分析各類技術運用模型,從而構造數據庫,最后形成運用模型。總的說來,數據挖掘技術任務主要有:(1)開展相關預測。(2)對特定對象開展描述。預測任務有益于圖書館單位綜合當前的信息進行日常匯總。[1]描述任務則有益于發現工作中存在的其他問題,并及時改善工作方式,從而提升工作效率及工作質量。此外,就數據挖掘技術的工作過程而言,主要有以下過程:第一,數據的準備和存儲。對現有數據進行綜合整理和存儲,為技術應用做好準備。第二,數據挖掘任務十分明晰,各個單位均有其各自的挖掘需求,因此要預先明確針對人群的技術使用需求。第三,創建數據模型,可以更加高效地進行數據分析,以此獲取更加科學的工作方式。
現階段,圖書館主要模塊有:館藏模塊、日常存儲模塊及閱讀器模塊。隨著當前階段信息技術的飛速發展,圖書館的各個模塊也能夠有效集合于同一個系統內,故而每個模塊每天均會產生較多的信息數據[2]。按照日常情況明晰模塊最終結果,對于圖書館內不斷提高工作水平具有特定的優勢特征。在日常工作中,數字圖書館的工作發展也存在一些問題:圖書館資料管理的運用效率低,大部分書籍及文獻使用價值較低,書目及其他資料庫存數量不足等。圖書館是知識獲取的地域之一,然而在實際工作中,數字圖書館在此方面的工作遠遠低于預期目標,對閱讀人員的吸引度不夠。故而,應運用數據挖掘技術進一步指導數字圖書館的工作,提升數字圖書館的服務水平。
數字圖書館運用先進的信息化技術滿足使用人員日益增長的信息需求,同時充分運用數字圖書館提供的信息實現自動化。數字圖書館作為信息和情報的中心,在實現自動化發展的同時,其功能也得到了提高。對此,在這一要求的背景下,重中之重便為抓好綜合建設工作,原因如下:第一,因為圖書館需要處理的信息量大,且涵蓋面廣較。因此,為有效防止由于數據豐富但是信息貧乏等問題,必須提高管理人員的信息處理能力,加強其對于海量信息的處理力度,在海量信息中發現不適宜的信息并進行進一步處理,理清問題的內在聯系,以滿足用戶的要求。第二,雖然當前階段數字圖書館管理系統已初步具備簡單統計、檢索等性能,然而要想對相關數據進行分析,仍然存在問題。尤其是在分析不同的需求時,需要進行更多的重復動作。例如,在流通子系統中,圖書館在對閱讀人員進行詳細分析的前提下,僅以報表的形式展示一定時期的信息,不能具體劃分哪些信息是使用人員經常借閱的。因此,如果想再次有效地運用有效數據,就應該充分利用數據挖掘技術。實踐證明,將數據挖掘技術應用于數字圖書館,不但能夠提升數字圖書館信息資源的運用率,還能夠進一步提升其服務質量,滿足管理及借閱使用的需求[3]。
當數據挖掘對象實現文本類型的數字信息組合時,將數據挖掘算法和信息檢索算法相結合以自動分析和處理大量文本信息的過程稱為文本挖掘。文本挖掘包括:特征提取、文本商、文本分類和聚類、概念操作和探索性數據分析。文件數據挖掘的大部分是數字圖書館的文本數據,因此對自動信息處理有很高的要求包括:文檔表達和索引、自動文本摘要、自動文檔分類等。面對海量信息,文本挖掘技術彌補了人力和時間的不足,促進了數字圖書館中各種信息的處理和映射過程,為以后的數字圖書館服務提供了保證。
在數字圖書館特色資源建設中,數據挖掘技術的應用相對有限。一些價值較高的信息普遍存在于網絡數據庫中,普通人無法通過搜索引擎獲得這些信息。他們只有登錄專業信息網站,通過網站提供的查詢界面,才能在網絡數據庫中找到信息,并根據專業知識庫自動進行分析,整理搜索結果,最后導入本地信息數據庫。例如,在構建具有地方特色的文獻數據庫時,只有構建與地方文獻相關的各種屬性的統計字典,有效利用網絡信息挖掘檔案,才能實現自動挖掘和檢索。無須人工干預,即可搜索指定范圍[4]。數據庫中的相關信息通過重復數據消除、凈化等技術進行挖掘和處理,導入本地相關數據資源數據庫。為用戶提供相關項目的信息檢索服務,有助于建立具有地方特色的圖書館數據庫。
收集用戶信息并形成用戶信息數據庫。完整的用戶信息可以充分確保挖掘工作,了解用戶的一般需求和特殊需求,從而提供有效性的個性化服務。故而,用戶才是數字圖書館的主要資源。通過挖掘用戶的日常訪問日志等數據信息能夠掌握用戶的興趣,因此其對于提供網絡信息推送及個性化信息定制服務是有益的。從總體上看,數據挖掘技術通過豐富、動態的在線查詢和分析來了解用戶的實際需求,通過在線提問和調查等方式,系統可以獲得用戶的用戶名、訪問IP地址、個人喜好、職業或者其他第一手資料。然后,通過關聯規則和文件規則(例如,OLAP),全面分析上述數據并為用戶建立信息需求模型。根據實際需求,積極跟進圖書館數字資源的變化,搜集用戶需求的信息,同時通過智能推送方式將所需信息推送到用戶的郵箱、手機或者計算機中。
以往查閱方式中,用戶需要通過對其他書號進行分類來獲取圖書信息,但是這種查詢方法效率低下,不能滿足當前用戶的需求[5]。為了獲得更加詳細的內容,需要將數據挖掘技術合理地應用于圖書館數據信息。隨著信息技術的不斷發展,用戶閱讀需求的分類和專業背景可以更好地幫助用戶查詢所需的數據。在滿足用戶的特殊閱讀需求時,可以根據用戶的閱讀歷史和相關記錄推薦閱讀書籍,為用戶提供更加便捷地服務,同時也應滿足其日常查詢需求。
圖書館具有較多的文獻,尤其是在一些高等院校圖書館中,信息的收集主要由藏家決定。故而,在某些情況下,不同類型書籍的數量無法平衡,導致流通書籍和雜志的收集和安排不足,許多書籍的資金配置也不合理。此種技術在數字圖書館中的使用可以更加高效地分析出各類文獻的使用價值,而后對其進行更加客觀地評價,準確預測圖書館的文獻量、購買趨勢及實際需求。為更加便捷地服務于圖書館的藏書工作,同時,方便使用人員查詢所需的信息,這對于數字圖書館具有至關重要的作用和意義[6]。
綜上可知,圖書館是民眾的日常工作及生活關鍵組成內容,作為促民生的一項基建工程,是獲取知識來源的一種重要形式。運用數據挖掘技術不斷發現數字圖書館中各項工作的存在問題,并不斷改善方式,對于數字圖書館的工作長效機制具有深遠意義。