999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘在高校歷史檔案編研中的應用策略探討

2021-04-14 20:04:39魯達志
卷宗 2021年1期
關鍵詞:數據挖掘文本分析

王 靜 王 喆 魯達志

(吉林大學檔案館,吉林 長春 130012)

高校歷史檔案是學校校史文化的重要載體,它真實而全面的收集了高校在學校文化傳承、辦學教育思想、科學研究等歷史發展進程的珍貴資料,是見證高校發展與變化的一面明鏡。而產生于各高校建校早期的歷史檔案不僅有效的記載著高校這一時期的歷史軌跡,同時也是當時國家政策制定、執行、反饋的最好的外在表現之一。將這些珍貴的檔案資源尤其是歷史檔案資源應用于檔案編研及校史研究中,不僅能夠增加研究成果的真實性、權威性,更是對學校發展歷程的進一步開拓和完善。

檔案機構針對歷史檔案的傳統編研模式為:成立編研小組、對檔案文獻進行整理、研究與考證、編寫研究成果。這一過程基于多人協作且對人工依賴程度較高,當所需處理的檔案資料體量較大時效率不高,另一方面因為信息處理的標準因人而異,編研成果的客觀性也將大打折扣。利用文本挖掘技術模擬傳統編研模式對數字化完畢的歷史檔案中的文本內容進行分析與挖掘,獲取有價值的、潛藏的新知識和史實,可以輔助檔案工作人員對學校歷史進行編纂和研究。

1 文本挖掘應用面臨的問題

1)原始檔案文獻的數字化。高校歷史檔案多形成于學校建校初期,產生年限較長,以筆者所在學校為例,最早的歷史檔案可追溯至百余年前,這一部分檔案多為手稿形式。由于年代久遠,受當時紙質、書寫工具及保管條件的限制,很多手稿檔案如今紙張發黃、變薄、受潮,字跡褪色、掉色嚴重, 與此同時手稿檔案往往還存在字跡潦草等現象給檔案的開發、利用和研究工作帶來很多不便。這也造成了歷史檔案資料大多處于“重保管, 少利用”的狀態。雖然部分高校檔案部門已經認識到了歷史檔案開發和利用的重要性并且逐步開展了這部分檔案的數字化加工,但是加工形式多為圖片掃描,想要借助文本挖掘來輔助編研,必須將檔案文獻進一步轉換為文本類型。

2)待挖掘案例的選取。歷史檔案體量龐大,隱含知識豐富,先期挖掘案例的選取關系挖掘過程的效率、結果的有效性驗證等,因此需要多方考察與論證。在進行檔案編研實際選題前,需要對歷史檔案的原始狀況進行初步采集與分析,劃定編研選題及相關檔案的范圍,排除不屬于編研范疇的檔案信息。

3)文本數據轉化。文本挖掘從廣義上講屬于數據挖掘的范疇,但是有別于傳統的對結構化的數據進行統計分析的數據挖掘技術,文本挖掘首先需要將非結構化的文本內容轉化為結構化的數據值型數據,再采用成熟的數據挖掘技術進行后續的處理。因此如何將文本數據轉化成可以直接進行數據挖掘分析的結構化數據,是實現文本挖掘的首要和核心任務。

4)文本挖掘方式的選擇。文本挖掘是一個廣泛概念,包含文本分類、文本聚類、序列標注、信息檢索、文本摘要等多種方法,這些方法又包含多種算法,其實現過程及挖掘的側重點不一,如何選定適用的算法將依賴具體案例和編研需求而定。因此,在進行歷史檔案的實際挖掘操作前,需要對挖掘內容和挖掘方法進行初步規劃。

2 文本挖掘應用的策略探討

以高校歷史檔案的現實情況為依據,結合其他領域成功的應用范例,筆者將整體挖掘過程分為4個主要環節,分別為:

1)文本數據獲取。因歷史檔案原件年代久遠且多為手稿,除去前文提到的檔案紙張和字跡等問題還可能存在有批注、修改、繁體字等情況,因此數字化加工人員嘗試利用OCR識別技術來輔助檔案原件進行文本轉化。OCR識別技術相對于傳統的手工錄入方式來說,具有處理速度方面巨大的優勢。但考慮到原始檔案的實際情況,需要重視識別前期的影像前處理工作以及后期的人工校正工作,這樣才能進一步保證文本處理的質量。對于原始檔案實在辨識不清的情況,可以采取手工著錄的形式來進行文本轉換。

2)文本預處理。在這一環節的處理上,首先需要對原始歷史檔案文本進行內容篩選即簡單分析去除無關文獻,再進行文本標準化和文本結構化處理。文本標準化主要指去除無效、特殊字符,錯別字修復、簡體字繁體字統一、構建同義詞、近義詞表以減少文本特征等過程,目的在于通過有效的設計和利用標準化模型來降低后續文本分析任務的復雜性。文本結構化將文本對象轉換為數值類型,從而使文本挖掘任務轉換為較為簡單的數據挖掘任務。歷史檔案文檔大多為包含大量連續字串的中文文本,除了標點符號外沒有任何間隔。因此在處理歷史檔案文本時首先應該完成對文本的分詞。然而不同的分詞結果可能會影響算法處理結果,所以正確的切分是文本預處理的關鍵一步。分詞后得到的詞項和詞集再進行特征表示、特征抽取等環節,隨后以此為基礎建立分析模型。模型的建立需要如實地反應詞匯與原始文檔的關系,還要有對不同文檔的區分能力。值得注意的是任何統計模型都不能把原始文本的所有含義表達出來。因此在對歷史檔案進行分析時,應當以當前檔案編研工作真正關心的信息和需求為出發點來進行文本建模。

3)文本挖掘分析。歷史檔案文本轉換為結構化的向量形式后就可以進行后續的挖掘分析了。常用的文本挖掘分析方式有:文本結構分析、文本摘要、文本分類、文本聚類、文本關聯分析、分布趨勢和趨勢預測等。根據編研任務的不同,我們可以選取其中某些分析方式為自己所用。聚類技術可以自動對大量無序、無類別的檔案文檔進行歸類,將內容相近的文檔歸類并自動生成這一類檔案的主題詞,為編研人員確定編研類目提供方便,這是一種無監督的挖掘方式。而分類技術可以實現檔案史料的有監督挖掘,即通過預設主題分類對原始檔案資料進行自動分析和判別,從而劃分出滿足編研需求的文檔對象。文本摘要技術可以對文本內容進行壓縮,生成原始檔案文檔的簡要概述以幫助編研人員快速領會原文檔的基本內容,從而節省了編研人員對文檔的甄別時效。關聯分析可以協助編研人員從原始檔案文檔集合中挖掘出不同詞語間的關系。分布趨勢和趨勢預測對原始檔案文檔觀點進行傾向性分析和統計,可以協助編研人員識別文檔的分布趨勢。

4)文本可視化。在文本挖掘過程中可以結合可視化技術及工具來實現挖掘過程及結果的展示。通過開發相關功能,將數據映射為圖表、圖形等形式,并添加點擊、縮放等交互操作效果來全面直觀的掌控挖掘過程,協助編研人員觀察和探索文檔間及文檔內部的隱含信息。可視化功能的加入為編研人員提供了參考思路,增強了編研人員對歷史文檔的認知效率與認知能力,減輕他們的信息壓力與信息負荷,從而也成為數據分析領域中不可或缺工具。

3 結語

高校歷史檔案中涵蓋了大量的學校早期的重要史實信息,實現堪稱海量的歷史檔案資料的快速整理、分類、錄入和知識挖掘是檔案編研工作者的訴求。利用文本挖掘技術協助完成此項工作,為傳統的檔案編研工作提供了一種新的思路和解決方案,同時也為實現歷史檔案的妥善保護與知識共享創造了可能性。

猜你喜歡
數據挖掘文本分析
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 99青青青精品视频在线| 99久视频| 99久久国产综合精品2020| 国产亚洲精品yxsp| 人妻精品全国免费视频| 日韩免费成人| 亚洲无码电影| 美女内射视频WWW网站午夜| 免费A级毛片无码免费视频| 久久亚洲美女精品国产精品| 国产乱子伦视频在线播放| 国产天天色| 香蕉综合在线视频91| 中文字幕无码av专区久久| 久久人妻xunleige无码| 免费日韩在线视频| 亚洲欧美综合精品久久成人网| av大片在线无码免费| 制服丝袜 91视频| 国产亚洲第一页| 天天视频在线91频| 91免费国产高清观看| 国产午夜精品鲁丝片| 成人在线观看不卡| 欧美一级夜夜爽www| 亚洲一区二区三区在线视频| 国产性生交xxxxx免费| 国产粉嫩粉嫩的18在线播放91| 成人年鲁鲁在线观看视频| 91极品美女高潮叫床在线观看| 国产极品嫩模在线观看91| 国产高清国内精品福利| 亚洲V日韩V无码一区二区| 国产毛片片精品天天看视频| 九九九久久国产精品| 亚洲一级毛片在线观| 成人欧美日韩| 99久视频| 美女无遮挡免费视频网站| 99视频精品全国免费品| 国产亚洲欧美另类一区二区| 97久久精品人人| 国产美女一级毛片| 免费毛片全部不收费的| 九九热这里只有国产精品| 国产亚卅精品无码| 国产91精选在线观看| 特级做a爰片毛片免费69| 中文字幕在线永久在线视频2020| 精品91自产拍在线| 国产日韩欧美在线视频免费观看| 天天综合亚洲| 欧美日韩午夜| 一区二区三区国产精品视频| 91在线精品麻豆欧美在线| 鲁鲁鲁爽爽爽在线视频观看 | 91美女在线| 午夜综合网| 久久精品国产91久久综合麻豆自制| 久久久久九九精品影院| 国产在线精彩视频论坛| 午夜激情婷婷| 亚洲国产日韩欧美在线| 这里只有精品在线播放| 国产成人综合久久| 成人在线不卡视频| 一级毛片在线免费视频| 亚洲欧美一区在线| 国产亚洲欧美日韩在线一区| 国产丰满成熟女性性满足视频| 朝桐光一区二区| 亚洲一级毛片在线观| 欧美日韩免费在线视频| 无码aaa视频| 国产一区二区三区在线观看视频| 在线观看91香蕉国产免费| 97视频精品全国在线观看| 国产91全国探花系列在线播放| 亚洲A∨无码精品午夜在线观看| 在线国产三级| 999精品在线视频| 国产一级α片|