李寶玲 郭立鑫 李珂

摘? 要:河南省數字檔案館選型HanLP工具包,采用NLP、OCR、全文檢索等技術,開發檔案智能檢索系統,探索檔案數據智能挖掘、智能關聯、智能檢索、智能學習的途徑,對檔案利用智慧檢索模式進行了有益初探。
關鍵詞:智能檢索;HanLP工具;數據管理
Abstract: HanLP tool kit was selected in henan digital archives, and NLP technology, OCR technology, full-text retrieval and other technologies were adopted to explore the ways of intelligent mining, intelligent classification, intelligent retrieval and intelligent learning of archival data, develop the intelligent retrieval system of archives, and makes a beneficial exploration on the intelligent retrieval mode of archives utilization.
Keywords: Intelligent retrieval; HanLP tool kit; Data management
1 開發背景
1.1 數字檔案館向智慧檔案館的轉型發展。智慧檔案館是數字檔案館發展的新階段。理論界這幾年很多關注于智慧城市背景下數字檔案館或智慧檔案館的研究,實踐層面上青島市檔案館開始了智慧檔案館建設的探索。[1]
河南省數字檔案館智能檢索系統(簡稱“系統”)作為檔案數據應用層面的初探,將NLP技術應用于檔案數據和知識管理,旨在提高檔案現代化管理和智能服務水平。
1.2 海量數字檔案資源知識管理的需要。隨著檔案數量的增多,歷史存量檔案數字化率逐步提升,增量電子檔案比例連年提升,條目加全文關聯對應的傳統檢索模式,已不能滿足從海量檔案中快速、有效、精準地獲取信息,如何充分挖掘檔案數據、匯聚關聯信息,讓檔案檢索功能更加人性化,做到檔案數據專題匯總、實時統計和智能分析,這對檔案檢索系統而言是一個新課題。[2]
河南省數字檔案館館藏豐富,檔案內容所涉及到的人物、地點、時間、建筑、事件等檔案元素交叉重疊,如何以這些元素為切入點,在海量結構化和非結構化數據中,將有意義的檔案元素挖掘出來,以準確有效的關聯形式表達,組成完整的知識體系,這是探索智能檢索系統的價值所在。[3]
2 系統設計
2.1 技術路線
2.1.1 CES Coral框架。CES Coral是基于J2EE開發且具有自主知識產權的框架,采用Spring、Struts和hibernate開發技術,并集成公司強大的基礎組件庫產品,完全符合MVC開發模式的要求。表示層和控制層采用Struts,數據持久層采用hibernate。整個架構的整合以及事務處理主要采用Spring Framework,適合檔案系統開發。
CES Coral架構既包括邏輯層組件,也包括表示層組件,組件兼容目前主流瀏覽器,其應用可以大大提高檔案搜索系統的性能和穩定性,并減少后期維護工作量。
系統中,用戶通過操作檢索前臺界面發送請求到檢索后臺,由后臺總控制器分析請求并找到具體的控制層類以及方法,然后由控制層方法執行相應的操作,并調用服務層進行業務處理。服務層完成業務處理后,將結果推送給控制層進行判斷。根據判斷結果,控制層將結果返回給請求端,即用戶瀏覽器進行視圖展示。
2.1.2 HanLP工具包。HanLP是由一系列模型與算法組成的NLP工具包,具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
本系統在HanLP的基礎上,結合河南省地名信息、人名信息、本館制定的同義詞庫、近義詞庫以及本館常用的檔案詞語形成基礎詞庫,為后續中文分詞和詞組提取制定規則依據;基于HanLP工具包進行檔案業務的工具制定,實現更貼近檔案應用的語言處理工具集合。
系統以河南省檔案館海量館藏數字檔案和資料為數據來源,通過數據同步的方式將數據放入到智能檢索數據池,供智能檢索系統分析應用。
系統根據設定的檢索模型(因果、條件、并列、轉折等)以及設定的智能檢索規則進行模型數據的填充;[4]按照關鍵詞、詞頻、權重,按照時間、地點、人員、建筑、事件五個維度在各檔案、資料之間進行語法、語義等關聯關系的創建,形成本系統核心的數據模型圖譜。上述工作均由系統后臺執行,創建檢索模型、數據模型圖譜、知識圖譜、標注拼音,形成各檔案、資料之間的關聯關系。
2.1.3 全文檢索技術。全文檢索技術最顯著特點是它能夠以文中任何一個有檢索意義的詞作為檢索入口,而且取得的檢索結果是原始文獻,而不是文獻線索。
檢索過程分為索引、搜索兩個過程,可以高效地管理檔案資源海量非結構化數據。
系統采用 Sorl全文檢索軟件,基于系統后臺創建的各種智能檢索模型和語法、語義關系,提供基本檢索、拼音檢索、同義詞檢索、聯想檢索、模型檢索、熱點排行、檢索結果的圖譜化展示,保證檢索結果的準確性、全面性和智慧性。
2.1.4 OCR技術。OCR技術是指針對印刷體字符,采用光學方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。本系統通過OCR工具對單層PDF文件進行文字抽取,并形成獨立的文本文件,為全文檢索提供條件。
2.4.2.3 詞典管理。詞典管理模塊具有基礎詞庫管理、擴展詞庫管理、詞性管理、同義詞庫管理、語料訓練和在線學習等功能。
基礎詞庫管理用于從檔案數據集合中進行關鍵詞抽取形成基礎詞庫。擴展詞庫管理用于維護不在基礎詞庫中的關鍵詞或短語等操作。詞性管理用于標識詞組或短語的不同詞性,供檔案檢索模型進行使用。其他模塊分別用于同義詞庫、語料管理的智能化和線語句補充學習等。
3 系統評價
3.1 檢索指標。智能檢索系統在系統正常運行的前提下,重點關注的是功能指標和性能指標。其中,功能指標包括系統的完備性、正確性和適合性,性能指標包括系統的關聯率、查全率、查準率和響應時間。
3.2 檢索環境。檔案檢索系統就檢索工具而言,主要依靠機檢系統,即利用電子計算機和數據庫檢索檔案文獻信息資料。其組成包括計算機、數據庫、管理軟件、通信網絡和檢索終端,數據庫是核心,檢索的過程依賴計算機、網絡和數據庫,檢索性能因運行環境的不同而不同。
3.3 功能測試。為驗證本系統的完備性、正確性和適合性,測試中主要對前臺(數據挖掘、人名庫、地名庫、數據分析、詞語聯想、拼音聯想、簡拼聯想、關鍵詞檢索、模型檢索、智能檢索、檢索分類、搜索熱點、知識圖譜)13功能和后臺(首頁展示、系統管理、資源管理、角色管理、組織管理、用戶管理、系統表管理、詞庫管理、同義詞庫、語料訓練、檢索配置、檔案數據、檔案詞庫、聚類管理、檔案分類、檔案模型、擴展詞庫、詞性管理、在線學習、統計分析、統計配置)21個功能,經過3輪測試,查看執行結果,最終結果均能順利完成相應功能測試指標任務。
3.4 性能測試
3.4.1 關聯率。關聯率是指智能檢索系統搜索到的關聯檔案數據占傳統檢索數據的比例。測試以搜索“張仲景”關鍵詞為場景,設置兩種方式:a.通過河南省數字檔案館館藏檔案綜合管理系統檢索功能進行查詢;b. 通過河南省數字檔案館智能檢索系統檢索功能進行查詢。
測試結果數據顯示:a.館藏檔案綜合管理系統共檢索到包含“張仲景”的數據71條(序號1-71);b.智能檢索系統共檢索到包含“張仲景”的數據71條,且智能關聯其它相關數據97條,共計168條(序號1-168)。檢索到的檔號呈現包含關系,關聯率高達136%。
3.4.2 查全率、查準率。查全率指系統在進行某一檢索時檢索出的相關資料量與系統資料庫中相關資料總量的比率;查準率指系統在進行某一檢索時檢索出的有效資料數量與檢索出資料總量的比率。參照搜索“張仲景”關鍵詞,后續設定其它關鍵詞搜索測試場景5次,與館藏檔案綜合管理系統相比,智能檢索系統的查全率能夠達到100%。同時采取人工方式,對每次測試場景結果進行驗證,查準率可以達到95%以上,能夠符合檔案用戶的查詢訴求。
3.4.3 響應時間。響應時間指從提交檢索請求到查出資料結果所需時間。響應時間測試是以獨立虛擬機部署的測試環境為基礎,使用館藏檔案數據為測試數據,測試結果根據測試工具執行結果分析得出。將測試數據與測試指標相比較,確定檔案系統壓力負載承受能力是否達到預期目標,以期發現性能瓶頸。
測試方式按在線和并發方式分別增加虛擬用戶數,在線方式運行5分鐘(包含思考時間),并發方式循環10次執行腳本,測試場景如下:
a.在線虛擬用戶數分別為10、100;b.并發虛擬用戶數分別為50、100。測試結果顯示,10人在線用戶檢索時間小于1秒,100人在線用戶檢索時間小于3秒;50人并發檢索時間小于3秒,100人并發檢索時間為3.097秒。響應時間符合現有實際使用人數的檢索體驗。
4 不足和展望
4.1 系統不足。系統研發中采用的J2EE平臺、oracle數據庫均是甲骨文公司系列產品,服務器、操作系統及中間件高度依賴于微軟等國外產品,網絡安全和檔案信息安全還有一定風險漏洞,這需要運用國產自主信息技術進行替代,優化配置,真正實現向國產智能檢索系統的轉型。同時,受人力、時間、技術、資金等因素限制,河南省數字檔案館數據來源不夠廣泛,數據總量還不夠豐富,數據結構還比較單一,數據分類還不夠完善,還不能較好滿足檔案用戶智慧體驗需求。[5]
4.2 價值展望。首先,通過智能檢索系統的探索與實踐,將館藏檔案數據灌入到該系統,經過各種數據處理、分析,對原有通過檔案類型分類無法定位的檔案、因某些檢索條件不全面、數據不規范造成的無法檢索的檔案,系統地進行了梳理和分析,客觀全面地摸清了館藏檔案信息總量,有利于深入挖掘更多的有價值檔案信息。
其次,該系統為檔案利用提供了一條更加便捷、快速的通道,特別是對于專題研究的人員,知識獲取更加全面、利用效率更高。
最后,系統不局限于對檔案數據的智能分析利用,資料、現行文件以及其他行業文件都可以作為系統學習的語料,在不同的業務場景下有良好的適用性和實用性,并且系統預設了各種配置功能。
隨著人工智能技術的應用,智能化、網絡化檔案檢索模式將逐漸成熟,檔案智能檢索系統的綜合性能、用戶的個性化體驗將不斷提升。同時,借助智能檢索技術,檔案資源共享水平將有一個質的躍升,智慧檔案館的理念也將變為現實。
本文系國家檔案局項目“數字檔案資源共建共享研究”(批準編號:2017-X-22)
參考文獻:
[1]楊來青.再信息化:檔案館發展戰略的思考[J].浙江檔案,2019(09):15-18.
[2]馮珂.智慧檔案館體系構建初探[J].檔案與建設,2016(01):18-21.
[3]許惠瑋.基于數據挖掘的數字檔案信息管理研究[J].北京檔案,2012(09):29-30.
[4]周之誠.基于查詢意圖聚類的實時搜索建議[J].現代圖書情報技術,2011(02):87-93.
[5]梁曉誠,岳曉光,麥范金,趙子強,路英,王挺.基于NLP技術和相似度計算的智能搜索引擎研究[J].昆明理工大學學報(理工版),2010,35(04):76-79+88.
(作者單位:河南省檔案館? ? 來稿日期:2020-08-20)