文/王雪荻 劉世儉 王玉吉
人工智能技術廣泛應用于社會服務領域,在檔案智慧化管理服務中也逐漸嶄露頭角,本文基于人工智能中的智能問答技術賦能檔案咨詢服務場景,從可行性分析、系統架構、技術路徑、業務應用四個方面對人工智能賦能檔案咨詢服務的可行性和效益性進行具體分析,以期為人工智能技術與檔案管理服務多點結合探尋思路
人工智能技術即機器模擬人的智能反應方式處理復雜工作,其技術根底是深度學習和類腦智能,主要應用場景包括生物特征識別、復雜環境識別、語言圖像識別、人機交互、自然語言理解、智能決策控制等。全國檔案事業發展“十三五”“十四五”規劃連續提到了人工智能技術,“十四五”規劃更是在“提升檔案利用服務能力”和“加快數字檔案館建設”兩個方面點明了對人工智能技術的加強,可見人工智能與檔案結合前景廣闊。從目前的實踐看,公共檔案館和企業檔案館對人工智能技術的探索較為領先,如太倉市檔案館[1]、青島市智慧檔案館、國網智慧型檔案館、科大訊飛自助進化語音語言開放創新平臺[2]等,其應用體現在檔案收集、整理、利用、安全管理等各個環節,但是從其應用深入和范圍看,與物聯網、云計算、大數據分析等技術相比,人工智能技術在數字檔案館、智慧檔案館的應用中占比非常小,通常以單一環節或具體功能為依托,且智能化程度多處于識別層面,未達到人機交互層和智能決策層[3]。(見表1)

表1
智能咨詢服務是基于自然語言理解、智能語音識別、深度神經網絡學習等人工智能技術發展起來的一項機器人輔助咨詢服務,目前在人工智能領域有較為成熟的技術背景和應用市場,從早期的蘋果Siri、微軟小冰等智能語音助手,到線上購物的機器客服,再到今天我們在商場、餐廳、圖書館、博物館經??梢姷膶в[機器人,都是智能咨詢服務在虛擬和實體狀態的應用成果,該技術的成熟為賦能檔案咨詢服務提供了較高的用戶認可度和較低的技術成本。
當前快節奏的生活,人們對信息的個性化、精準化、即時化需求不斷增強,傳統檔案咨詢服務存在的覆蓋面不足、程序繁瑣、時滯等弊端日益凸顯。尤其是隨著數字檔案館、智慧檔案館的建設,“網端服務”“指尖服務”“云上服務”趨勢不斷增強,檔案咨詢方式也應當與時俱進,從人工轉向智能,由被動轉向主動,成為智慧檔案館建設的突出一環。
AI 智能問答系統的設計,從其功能分析,包括用戶端和管理端,用戶端應當滿足利用者對信息的一站式咨詢,需要具有多渠道配置功能、人機交互功能、語言交互功能、實時響應、精準識別和信息推送等功能;管理端應當滿足管理者對系統的操作和信息的掌握,需要具有用戶信息存儲統計功能、無縫人機轉換功能、系統個性化設置功能、知識庫更新功能等。
從其技術邏輯分析,AI 智能問答的實質是一個從用戶提問到機器回答的過程,主要包括兩個技術環節,一是對用戶提問的處理和理解,二是對用戶意圖的識別和匹配,技術邏輯參見圖1。在用戶問句處理環節,系統會自動對用戶會話(session)進行切分,對用戶問題進行ngram 特征、正則表達式特征、主題模型特征等多維度特征提取,并使用自然語言處理(NLP)技術處理原始問題,通過智能分詞、糾錯、詞嵌入轉換等處理,結合特征提取得到的多維度數據,形成用戶問題的高維度空間向量表示。用戶意圖的識別和匹配環節,是使用問題意圖識別模型對用戶意圖進行在線預測,將生成的用戶問題高維度空間向量表示輸入意圖識別模型,進行深度神經網絡計算,計算結果輸出與標準知識庫中知識的匹配概率分布,置信區間對匹配概率判斷,達標則預測用戶意圖,輸出答案,未識別則加入問題識別模型,通過在線訓練增強模型能力。

圖1 AI智能問答系統技術邏輯設計
在智能問答系統中“問題識別模型的構建”和“自主學習”是檔案咨詢服務智能化與否的兩個關鍵點,“問題識別模型構建”包括訓練集構建和問題識別模型生成兩個步驟,其訓練和學習過程如圖2 所示。訓練集構建主要是通過對問題領域進行分析,找到種子問題,通過智能分詞、NLP技術處理、構建笛卡爾積等,創建初始語料庫,再通過人工標注去掉無效語料后形成訓練集語料庫。問題識別模型生成是結合深度學習的LSTM 和卷積神經網絡對訓練集語料庫進行訓練學習,通過構建無人工干涉的評測集對訓練結果測評,當測評準確率達到閾值后,模型上線。這一過程可使圖1中未識別問題通過反復訓練,形成可與標準知識庫匹配的意圖識別模型,從而準確判斷用戶意圖,輸出相應答案。

圖2 AI智能問答系統的學習和訓練過程
AI 智能問答系統在檔案咨詢服務中的應用主要是基于檔案館線上服務平臺的建立和成熟。目前公共檔案館、高校檔案館等各類檔案館都陸續開設了網站、微信、微博等線上服務平臺,并提供相應的宣傳、展示、查閱服務。AI 智能問答系統與線上端口結合,既可使用戶享受實時的咨詢服務,又可與其他線上線下服務相結合,形成一鍵關聯的便捷應用。
檔案智能咨詢服務應用實例分析——
筆者以西安理工大學檔案館為例,基于檔案館網站平臺、微信平臺兩個線上端口建立智能咨詢系統并投入使用。
1.前期準備階段:筆者通過調研本館各門類檔案咨詢中的常見問題,查閱兄弟院校檔案館服務指南、查檔指南,隨機選取來館利用者填寫問卷三種方式,歸納總結高校檔案服務中的常見問題,建立包括學校信息、檔案知識、綜合業務信息、中英文成績制作、教學檔案、學生檔案、黨群行政檔案、科研檔案、基建檔案、會計檔案、人事檔案11 個門類200 余個問題的檔案Q&A知識庫。
2.搭建及測試階段:將AI 智能問答系統接入檔案館網站平臺及微信平臺,在兩個平臺分別制作可視化標識及咨詢界面,將Q&A 知識庫導入AI 智能問答系統,從管理端口對問題分類準確性、問題與答案匹配性進行檢查,調試無誤后上線系統,管理員分別從PC網站端、手機網站端、PC微信端、手機微信端對檔案館智能咨詢服務平臺進行測試,通過標準問題訓練、未識別問題學習、不滿意問題糾錯來引導機器實現自主訓練,進一步優化知識庫。
3.使用及反饋:初步測試完成后在網站平臺及微信平臺向利用者開放智能咨詢服務功能,并通過宣傳提高該功能使用,筆者以開放后的1 個月、2 個月、3 個月、4 個月為時間節點,對每個月的用戶數據進行比較分析,對高頻提問進行關聯性延展,對未解答問題建入知識庫,對無效會話內容進行刪除,通過一定時間的使用及逐月訓練發現智能問答系統運行穩定,自動應答用戶的各類咨詢;通過對用戶咨詢數據的整理積累,初步形成了可以持續復用的檔案館Q&A 知識庫;對系統的實際應答效果進行統計分析,機器人直接回復標準答案及引導推薦回復比可達到90%以上;系統自動生成的統計數據可幫助管理者了解回話趨勢、咨詢熱點,及時做好配套服務。
4.服務狀況:目前智能咨詢系統與我館的預約查檔系統相配合為利用者提供較好的線上服務,尤其在疫情期間保證了基礎業務不斷檔。未來,基于館藏資源的數字化及智能咨詢系統的富文本格式推送答案,智能咨詢系統與檔案管理系統和資源體系相對接可引導用戶實現在線自助查檔,極大節約人力,真正實現數據多跑路,利用者少跑路。
通過上述分析研究可見,人工智能技術正在全世界迅猛發展,并將迎來一個嶄新的智慧時代。在我國,人工智能技術三次被寫入政府工作報告,并作為國家科技戰略廣泛開發應用。目前各行各業都在積極探索與人工智能技術的結合,導覽機器人、文獻分類編目機器人、書架巡檢機器人等AI技術已經在博物館、圖書館取得突破性應用。檔案工作亦不能落后,要主動把握時代脈搏,在智慧檔案館建設過程中積極利用已經取得應用成果的AI技術,并主動與大數據、物聯網、VR等技術融合,嘗試將檔案智慧化建設由單一環節向多環節、全流程升級,推動檔案事業在信息化浪潮中實現跨越式發展。