王 靜 王 喆 魯達志
(吉林大學檔案館,吉林 長春 130012)
高校歷史檔案是學校校史文化的重要載體,它真實而全面的收集了高校在學校文化傳承、辦學教育思想、科學研究等歷史發展進程的珍貴資料,是見證高校發展與變化的一面明鏡。而產生于各高校建校早期的歷史檔案不僅有效的記載著高校這一時期的歷史軌跡,同時也是當時國家政策制定、執行、反饋的最好的外在表現之一。將這些珍貴的檔案資源尤其是歷史檔案資源應用于檔案編研及校史研究中,不僅能夠增加研究成果的真實性、權威性,更是對學校發展歷程的進一步開拓和完善。
檔案機構針對歷史檔案的傳統編研模式為:成立編研小組、對檔案文獻進行整理、研究與考證、編寫研究成果。這一過程基于多人協作且對人工依賴程度較高,當所需處理的檔案資料體量較大時效率不高,另一方面因為信息處理的標準因人而異,編研成果的客觀性也將大打折扣。利用文本挖掘技術模擬傳統編研模式對數字化完畢的歷史檔案中的文本內容進行分析與挖掘,獲取有價值的、潛藏的新知識和史實,可以輔助檔案工作人員對學校歷史進行編纂和研究。
1)原始檔案文獻的數字化。高校歷史檔案多形成于學校建校初期,產生年限較長,以筆者所在學校為例,最早的歷史檔案可追溯至百余年前,這一部分檔案多為手稿形式。由于年代久遠,受當時紙質、書寫工具及保管條件的限制,很多手稿檔案如今紙張發黃、變薄、受潮,字跡褪色、掉色嚴重, 與此同時手稿檔案往往還存在字跡潦草等現象給檔案的開發、利用和研究工作帶來很多不便。這也造成了歷史檔案資料大多處于“重保管, 少利用”的狀態。雖然部分高校檔案部門已經認識到了歷史檔案開發和利用的重要性并且逐步開展了這部分檔案的數字化加工,但是加工形式多為圖片掃描,想要借助文本挖掘來輔助編研,必須將檔案文獻進一步轉換為文本類型。
2)待挖掘案例的選取。歷史檔案體量龐大,隱含知識豐富,先期挖掘案例的選取關系挖掘過程的效率、結果的有效性驗證等,因此需要多方考察與論證。在進行檔案編研實際選題前,需要對歷史檔案的原始狀況進行初步采集與分析,劃定編研選題及相關檔案的范圍,排除不屬于編研范疇的檔案信息。
3)文本數據轉化。文本挖掘從廣義上講屬于數據挖掘的范疇,但是有別于傳統的對結構化的數據進行統計分析的數據挖掘技術,文本挖掘首先需要將非結構化的文本內容轉化為結構化的數據值型數據,再采用成熟的數據挖掘技術進行后續的處理。因此如何將文本數據轉化成可以直接進行數據挖掘分析的結構化數據,是實現文本挖掘的首要和核心任務。
4)文本挖掘方式的選擇。文本挖掘是一個廣泛概念,包含文本分類、文本聚類、序列標注、信息檢索、文本摘要等多種方法,這些方法又包含多種算法,其實現過程及挖掘的側重點不一,如何選定適用的算法將依賴具體案例和編研需求而定。因此,在進行歷史檔案的實際挖掘操作前,需要對挖掘內容和挖掘方法進行初步規劃。
以高校歷史檔案的現實情況為依據,結合其他領域成功的應用范例,筆者將整體挖掘過程分為4個主要環節,分別為:
1)文本數據獲取。因歷史檔案原件年代久遠且多為手稿,除去前文提到的檔案紙張和字跡等問題還可能存在有批注、修改、繁體字等情況,因此數字化加工人員嘗試利用OCR識別技術來輔助檔案原件進行文本轉化。OCR識別技術相對于傳統的手工錄入方式來說,具有處理速度方面巨大的優勢。但考慮到原始檔案的實際情況,需要重視識別前期的影像前處理工作以及后期的人工校正工作,這樣才能進一步保證文本處理的質量。對于原始檔案實在辨識不清的情況,可以采取手工著錄的形式來進行文本轉換。
2)文本預處理。在這一環節的處理上,首先需要對原始歷史檔案文本進行內容篩選即簡單分析去除無關文獻,再進行文本標準化和文本結構化處理。文本標準化主要指去除無效、特殊字符,錯別字修復、簡體字繁體字統一、構建同義詞、近義詞表以減少文本特征等過程,目的在于通過有效的設計和利用標準化模型來降低后續文本分析任務的復雜性。文本結構化將文本對象轉換為數值類型,從而使文本挖掘任務轉換為較為簡單的數據挖掘任務。歷史檔案文檔大多為包含大量連續字串的中文文本,除了標點符號外沒有任何間隔。因此在處理歷史檔案文本時首先應該完成對文本的分詞。然而不同的分詞結果可能會影響算法處理結果,所以正確的切分是文本預處理的關鍵一步。分詞后得到的詞項和詞集再進行特征表示、特征抽取等環節,隨后以此為基礎建立分析模型。模型的建立需要如實地反應詞匯與原始文檔的關系,還要有對不同文檔的區分能力。值得注意的是任何統計模型都不能把原始文本的所有含義表達出來。因此在對歷史檔案進行分析時,應當以當前檔案編研工作真正關心的信息和需求為出發點來進行文本建模。
3)文本挖掘分析。歷史檔案文本轉換為結構化的向量形式后就可以進行后續的挖掘分析了。常用的文本挖掘分析方式有:文本結構分析、文本摘要、文本分類、文本聚類、文本關聯分析、分布趨勢和趨勢預測等。根據編研任務的不同,我們可以選取其中某些分析方式為自己所用。聚類技術可以自動對大量無序、無類別的檔案文檔進行歸類,將內容相近的文檔歸類并自動生成這一類檔案的主題詞,為編研人員確定編研類目提供方便,這是一種無監督的挖掘方式。而分類技術可以實現檔案史料的有監督挖掘,即通過預設主題分類對原始檔案資料進行自動分析和判別,從而劃分出滿足編研需求的文檔對象。文本摘要技術可以對文本內容進行壓縮,生成原始檔案文檔的簡要概述以幫助編研人員快速領會原文檔的基本內容,從而節省了編研人員對文檔的甄別時效。關聯分析可以協助編研人員從原始檔案文檔集合中挖掘出不同詞語間的關系。分布趨勢和趨勢預測對原始檔案文檔觀點進行傾向性分析和統計,可以協助編研人員識別文檔的分布趨勢。
4)文本可視化。在文本挖掘過程中可以結合可視化技術及工具來實現挖掘過程及結果的展示。通過開發相關功能,將數據映射為圖表、圖形等形式,并添加點擊、縮放等交互操作效果來全面直觀的掌控挖掘過程,協助編研人員觀察和探索文檔間及文檔內部的隱含信息。可視化功能的加入為編研人員提供了參考思路,增強了編研人員對歷史文檔的認知效率與認知能力,減輕他們的信息壓力與信息負荷,從而也成為數據分析領域中不可或缺工具。
高校歷史檔案中涵蓋了大量的學校早期的重要史實信息,實現堪稱海量的歷史檔案資料的快速整理、分類、錄入和知識挖掘是檔案編研工作者的訴求。利用文本挖掘技術協助完成此項工作,為傳統的檔案編研工作提供了一種新的思路和解決方案,同時也為實現歷史檔案的妥善保護與知識共享創造了可能性。