徐曉霞
【摘要】隨著近年來我國經濟快速發展,檔案資源種類數量逐步增多,有必要使用文本挖掘技術對檔案資源的內容深入挖掘,使檔案資源利用效率提升。本文基于文本挖掘技術,就如何高效率挖掘檔案資源的潛在價值展開分析,并提出研究思路,供廣大讀者參考。
【關鍵詞】文本挖掘技術;檔案資源利用;問題研究
檔案文獻資源是地方文獻資源體系的重要組成部分,在信息資源利用上具有唯一性,因此在檔案資源服務中具有重要地位。伴隨著當前科學技術快速發展,各領域產生的信息資源數量快速增多,越來越多的專家學者借助檔案資源從事歷史考察及數據研究工作,特別是檔案館與政府文化機構從事編纂現代史以來,各領域對檔案資源的需求與日俱增,并對學者研究地方經濟發展情況有著重要作用。基于文本數據挖掘技術加快檔案資源的開發利用,使檔案資源更好地服務地方經濟、文化、社會發展,成為當前檔案工作者應著力解決的問題。
一、文本數據挖掘技術的內涵
(一)文本數據挖掘技術的產生與發展。隨著計算機技術快速發展,依托計算機設備形成的數據網絡規模不斷擴大,并產生了大量信息數據,為了給信息獲取者提供全局信息視角,許多科技企業、互聯網公司在多個領域建立了大量數據倉儲,但大量的文本數據使人無法從中快速找到有價值以供決策需要的信息資源,而依托傳統信息網絡形成的數據查詢、報表分析工具無法滿足海量文本數據提取的需求,更難以從中抽取有價值的信息資源。因此,迫切需要一種新的數據分析技術針對數據倉庫海量的文本數據挖掘進行分析,并從中提取有價值的信息。文本數據挖掘技術應運而生,并伴隨數據倉儲技術逐步完善起來。文本數據挖掘是指從大量文本數據信息中自動抽取隱藏在文本夾內有價值信息數據的過程。這些文本數據表現形式可能為規律、概念、模式及各種準則。文本數據挖掘技術可幫助信息獲取者分析數據倉儲中的歷史數據和當前數據,并從中發現各類型信息數據潛在的規則與聯系,進而實現未來預測。文本數據挖掘技術是數據挖掘技術的一種,是一門涉及多個領域的交叉學科,涉及到數據庫、大數據、可視化表達、交叉計算、人工智能等多個領域。文本數據挖掘的主要特點是針對數據倉庫中大量的文本數據進行挖掘、提取、轉換、分析和其他可視化模型處理,并從中找到滿足決策者需求的信息數據。傳統的報表查詢處理技術只能直觀顯示事件的發生結果,并沒有深入分析事件產生的背景、原因,而文本數據挖掘技術側重了解事件發生的背景、原因以及其他誘發因素,并以一定的置信度模型對未來事件發生進行可能性預測,為決策者的信息咨詢提供參考。
(二)文本數據挖掘技術的內涵。文本信息的數據挖掘,通常被學者稱為文本數據挖掘。當數據挖掘對象全部是文本信息時,使用多種信息挖掘算法與信息檢索算法對數據倉庫中海量數據進行智能化識別與自動化處理的過程被稱為文本數據挖掘。文本數據挖掘通常包括信息特征提取、文本標題識別、文本摘要提取、文本信息分類、文本概念界定、文本信息提取以及文本信息數據分析等流程。文本數據挖掘技術包括用于文檔詞匯頻率分析的向量表示法、用于文本概念解析的數據分析法、用于文本詞匯解讀的字符串技術、用于文本分類的貝葉斯分類算法、基于文本概念的聚合優化方法等。作為用于文本數據挖掘分析的技術,文本數據挖掘技術可針對多種數據文本進行分析,如語音文本分析、可視化視頻文本分析及文本文檔分類等,將其應用檔案資源開發利用中對檔案資源檢索分析有著重要價值。
二、檔案資源應用文本數據挖掘技術的優勢
檔案資源是一種重要的信息資源及高價值的信息產品,不僅記錄地方的經濟發展情況,也對開放的檔案信息數據有效集成,不僅反映特定文化區域內社會活動現狀,也是社會發展的重要信息資源記錄,對推動社會經濟發展,企業管理進步,事業單位優化建設有著重要意義。基于文本挖掘技術對檔案資源全面挖掘可反映出檔案資源的潛藏價值,提高檔案資源的信息獲取速度,提高文獻資源檢索效率。
(一)挖掘文獻資源的潛藏價值。文本數據挖掘技術針對海量的檔案資源高效挖掘、快速聚合,而地方檔案資源大多以紙質書籍、特色檔案、電子文獻的形式存在館藏資源數據庫中,發揮地方檔案資源的社會價值就要挖掘檔案資源的隱含信息,找到其歷史價值和文化價值。文本數據挖掘技術可針對地方檔案管理機構海量的檔案資源深入挖掘,并進行科學分析,使用算法工具、數理統計工具及信息聚合技術,挖掘檔案資源的潛藏價值,并實現其潛在信息的高效聚合,以此挖掘檔案資源的潛藏價值。
(二)提高檔案資源信息獲取速度。為保障用戶盡可能短時間內通過線上信息檢索系統獲取檔案資源,可針對不同用戶的檔案資源獲取需求單獨設置出信息獲取專題,并將用戶的專題需求設置為事務,記錄每一次檔案資源資源獲取過程并組建專題事務庫,使用關聯規則采掘算法找到訪問頻率較高的專題項目集,通過分類算法工具將用戶對不同檔案資源的瀏覽日志記錄與項目集合進行相似匹配,將具有相同信息獲取習慣的用戶組織到同一數據鏈中,通過減少服務區信息傳輸數量,針對用戶的信息專題需求進行關聯檢測,找到事務庫中頻繁訪問的專題集,利用語義關聯技術分析不同專題間的語義聯系,找到各個主體間的語義關聯規則,并存儲到相關數據庫中,當用戶通過檔案數據訪問界面快速訪問地方特色文獻資源時可通過網絡代理根據預先設置規則快速響應,提高信息獲取速度,保障用戶能快速得到與個人需求匹配的檔案資源。
(三)提升檔案資源檢索效率。檔案資源采用的信息檢索系統在信息交互、用戶信息認知方面還存在著不足,用戶使用信息檢索系統得到的信息查詢結果往往呈線性分布,致使用戶不知如何高效檢索咨詢需求的檔案資源數據。基于文本數據挖掘技術針對檔案資源開發利用設置的檢索系統不僅支持概念檢索、模糊檢索及多語言輸入檢索,而且能快速利用文本數據挖掘算法將檢索結果精確分類,使之條理化呈現,并借助UI可視化界面進一步幫助用戶智能篩選,同時還能針對用戶的個性化需求,對檔案資源檢索結果精準定位,在滿足用戶信息認知的基礎上,實現高效的信息交互,提高檔案資源檢索效率。
三、基于文本數據挖掘技術的檔案資源開發應用方法
(一)建立檔案資源數據庫。基于文本數據挖掘技術對檔案資源開發利用,應針對特色檔案信息進行數字化處理,借助轉換算法工具將檔案數字資源轉變為文本數據,并使用文本數據挖掘技術對檔案數字資源深入挖掘,在挖掘其潛在價值和潛藏信息的基礎上,應用SQL數據庫技術將檔案資源存儲到特定的數據倉儲中,并針對不同種類、不同結構的檔案資源分類存儲,設置不同的專題集集中利用,并以此為依托面向用戶推出不同種類的地方檔案資源產品與服務,滿足用戶個性化使用需求。
(二)構建檔案資源檢索系統。基于文本數據挖掘技術對檔案資源的開發與應用還要依托數據分析技術、數據解析工具、信息檢索工具設計開發檢索系統,實現用戶需求與檔案資源的有效對接,使檔案資源利用效率提升。檔案信息檢索系統的設計不能局限于操作功能上,除了考慮到檔案資源結構特點的基礎上,還要根據數據庫的構造、檔案資源的類型設計不同的算法工具,針對數據中各類檔案資源有效分析、及時調取,圍繞用戶需求提供便捷的檔案資源檢索服務,提高檔案資源利用效率。
(三)建立檔案資源智能服務模式。使用文本數據挖掘技術對檔案資源的開發利用還要考慮到用戶的服務需求,即根據不同的讀者類型、檔案資源結構,依托檔案數字系統推出檔案資源智能化服務模式。這就要求在使用文本數據挖掘技術分析檔案資源結構、用戶需求的基礎上,根據用戶的資源獲取習慣,依托大數據分析技術面向用戶建立專門的習慣集,通過精準分析用戶需求,采用智能技術為用戶量身打造個性化服務方案,并及時調取與用戶需求匹配的檔案資源提供給用戶,并提供相關解析、數據分析、參考決策等服務,使檔案資源的使用價值達到最佳。
四、結語
針對檔案資源的高效利用應使用文本挖掘技術構建集成化的檔案資源使用體系提高檔案資源利用效率,在確定檔案資源結構、類型、特點的基礎上,使用數據庫技術、大數據挖掘技術挖掘檔案資源的潛藏價值,并建立良好的資源利用體系,以此提高檔案資源的使用效率。
【參考文獻】
[1]魏巍.基于大數據的檔案數據深度挖掘的探索[J].黑龍江檔案,2017(06):66.
[2]穆向陽,朱學芳.圖書、博物、檔案數字化服務融合模式研究[J].情報科學,2016,34(03):14-19.
[3]孫艷波.檔案數字化的系統性及相關性分析[J].蘭臺內外,2016(01):36.
[4]趙紅穎.圖書檔案資源數字化融合服務實現研究[D].吉林大學,2015.