徐濤+李京林+藍傳锜
摘 要:在信息化高度發展的今天,隨著紙質檔案數字化轉變,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用、挖掘用戶使用檔案行為并進行分析以及關注焦點等信息,對研究檔案的利用具有很大的價值。作為查檔用戶,通過需求調研發現,單純的電子檔案信息的調閱已經不能滿足如今諸多時間緊任務重的工作環境,如何在盡可能少的時間內獲取盡可能多的有用信息是用戶關注的焦點。
關鍵詞:數據挖掘;檔案;大數據
DOI:10.16640/j.cnki.37-1222/t.2018.05.116
1 檔案數據挖掘的基本認識
1.1 檔案數據挖掘的定義與特性
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。對數據化的檔案資源進行數據挖掘,從而找到蘊藏在檔案中的價值,獲取檔案中的知識和規律,這一過程可以說是從數據到新知識的蛻變。
如,檔案人員想要做好檔案編研選題,不僅要對用戶利用檔案數據,包括檔案調卷數量、檔案利用次數、復制檔案數量、制發檔案證明數量等進行深度挖掘,而且還需要對用戶訪問記錄,包括網頁采用的關鍵字、下載記錄、檢索詞、用戶利用網頁時間和頻度等信息進行深度挖掘,然后利用分類功能及數據分析,建立檔案編研選題的用戶模型,一是按需確定不同類型的編研選題,提供個性化的服務;二是根據檔案用戶需求特點,預測其未來趨向,結合社會熱點選定檔案編研題目,從而使檔案編研部門推出用戶滿意的編研成果[1]。在檔案利用方面,對檔案利用登記數據庫進行深度挖掘,分別選取不同方面數據進行建模,可以得出不同檔案利用形式的變化趨勢,從而對檔案利用趨勢進行分析和預測,對利用頻率高的檔案進行全文數字化,既可以提高檔案利用效率,又可以起到保護檔案原件的作用。
因此,檔案數據的挖掘是大數據時代的主要特點,檔案學的發展歷程告訴我們,每一次重大的技術變革都必然影響著檔案學的發展,如計算機和網絡技術的引人,引起了檔案管理理念與實踐的變革,改變了文件與檔案的處理流程。大數據技術對檔案數據的深度挖掘為檔案管理流程由粗放走向精細化提供了可能。
1.2 從數字化檔案轉變為數據化檔案
“數據化”是近兩年隨著大數據的發展才逐漸被人們從“數字化”概念中逐漸分離并提出來。最初“數字化”和“數據化”是混為一談的,數據化的提出不是對數字化的否定,而是在對數字世界認識逐步深化的基礎上,對數字化理論的拓展與推進。可以說數字化帶來了數據化,但是無法取代數據化。
我國檔案界探討最多的是檔案的數字化,在理論和實踐方面都取得很多成果。國家在檔案數字化方面出臺了《電子文件歸檔與管理規范》和《紙質檔案數字化技術規范》兩個重要的標準規范。在實踐中,我國檔案數字化主要做了兩方面工作:一是檔案目錄信息的數字化,即建立檔案目錄數據庫,嚴格規范檔案信息的著錄標引,科學選定檔案目錄的數據庫結構;二是檔案全文信息的數字化,即采用掃描錄入的方式將檔案全文按照原貌逐頁存儲為圖像文件并為其編制目錄索引,或是經OCR(光學字符技術)識別后采用文本格式存儲檔案內容,輔之以全文檢索數據庫[2]。可見,我國在檔案數字化過程里已經無意識地進行了部分檔案的數據化,盡管所占的比例很小。
2 數據挖掘技術在檔案信息管理中的應用
檔案數據挖掘過程中,會用到包括文本信息抽取、文本分類、文本聚類、文本數據處理等技術進行文本的數據挖掘工作[3]。比如以檔案文本數據為基礎資源知識庫,根據檔案發布的時間信息,分析檔案產生的節點趨勢以及政府部門針對某一政策的關聯度;對檔案類目信息或文本信息進行分詞,運用文本分類和文本聚類技術,結合檔案數據的基本屬性(時間、所屬部門等),對檔案進行歸類(如按照關鍵詞、檔案發布部門、主題等);采用主題識別技術對檔案數據進行抽取,以檔案主題為中心,結合檔案類別歸屬,找出與之關聯的檔案。基于上述資源,結合多策略的內容抽取,進行文檔數據內容的對比,分析相關政策的影響力、執行力以及變化趨勢,從而給政府部門提供相應的決策資源[4]。同時也可以通過知識管理技術,主要包括信息積累、知識挖掘、知識運用等,結合信息檢索、分析及挖掘技術,將信息進行適當的分類及抽取或形成一組問答序列,并將這些信息進行提取,形成解決某一問題域的數據集,挖掘出一定的專門知識,作為決策的依據,進一步提升檔案信息資源的再利用與檔案編研工作者的工作效率[5]。
3 結語
在信息爆炸的“互聯網+”時代,檔案工作仍面臨三大矛盾:一是檔案本質屬性與管理理念的矛盾,智慧時代產生的檔案信息以原生電子檔案、多媒體檔案為主,而檔案部門仍按傳統實體檔案思維進行管理;二是檔案數據規模與管理能力的矛盾,當前數字檔案爆發性增長,檔案館已經成為一個龐大的數字化倉庫,憑檔案部門現有的技術、設備和人員難以支撐海量數據的管理;三是檔案服務能力與社會發展需求的矛盾,在轉型升級的時代背景下,倘若檔案部門不能及時融入和順應時代潮流,就不能在智慧城市建設中提供更好的公共服務。
因此,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用成為了我們工作的重中之重。由此就需要相關人員在檔案信息管理的過程中,做好檔案數據挖掘的基礎研究工作使我們能夠準確、有效的進行檔案管理,在確保檔案信息管理質量的同時,創新檔案信息的管理模式。
參考文獻:
[1]張文元,張倩.大數據技術與檔案數據挖掘[J].檔案管理,2016
(02).
[2]王學平.淺議我國檔案數字化建設實踐與發展策略[J].檔案學通訊,2011(06).
[3]許桂清.對智慧檔案館的認識與探析[J].中國檔案,2014(06).
[4]張芳霖,唐霜.大數據影響下檔案學發展趨勢的思考[J].北京檔案,2014(09).
[5]曹莉.芻議大數據時代的數據挖掘與精細管理[J].經營管理者,
2013(18).
本文受甘肅省檔案局科技項目《甘肅省檔案局檔案信息資源挖掘平臺建設與研究》(甘檔2016-1)支持