張偉
(遼寧省檔案局(館)沈陽110167)
檔案大數據挖掘流程與技術研究
張偉
(遼寧省檔案局(館)沈陽110167)
當前,海量數據挖掘技術誕生相比其他信息技術更加契合檔案管理工作的需要,尤其是在大數據時代下,通過數據挖掘技術將海量檔案資源轉化為知識資源,會成為今后檔案管理工作一個必然發展趨勢。因此研究探索大數據挖掘技術在檔案工作中如何應用是檔案工作者的重要課題。
大數據技術數據挖掘檔案管理檔案大數據
檔案信息資源挖掘實際上就是要在維護黨和國家根本利益的前提下,將潛在的檔案信息盡可能地挖掘出來、傳遞出去,發揮其應有的作用,從而最大限度地發揮檔案信息的經濟效益和社會效益[1]5。從知識管理的角度分析,檔案信息資源挖掘即開發主體(檔案工作者)采用一定的方法和手段將客體(檔案信息資源)更加系統化、有序化,以滿足不同利用者的需求并從利用者對客體的利用中獲得收益的過程。
但目前不存在針對檔案行業開發的系統性專門挖掘技術,理論研究方面也需要我們檔案人在實踐中不斷研究探索,而數據挖掘是門專業性較強的學科,其技術方法與理論基礎不斷延伸,我們無法全部掌握并加以實施,而是應根據檔案管理自身情況,研究具有可行性的并被廣泛應用的普適性數據挖掘技術。
檔案信息資源的挖掘過程簡單的說就是從大量數據中提取或“挖掘”知識的過程,此過程通常包括六個基本步驟:定義主題、準備數據、瀏覽數據、生成模型、瀏覽和驗證模型、部署和更新模型。……