李雪婷+李莘


〔摘要〕圖書館的微信自動問答機器人可以為讀者提供24小時信息咨詢服務,提高圖書館的受關注度。本文針對自動問答技術中語言問題進行研究和分析,編寫一套針對圖書館問答機器人的語言體系,設計了哈爾濱工業大學圖書館自動問答機器人來實現全時段虛擬咨詢,加強讀者與圖書館之間的互動交流。
〔關鍵詞〕微信平臺;FAQ;自動問答;圖書館;機器人;語言體系
〔Abstract〕Library WeChat automatic question-answering robot can provide 24-hour information consulting services for readers,improve the librarys attention.Based on analysis of question-answeringlanguage question,it is focused on preparing a language system of questions and answers.Designing HIT libraryquestion-answering robot attracted the attention of readers and strengthened the communication between readers and the library.
〔Key words〕platform of WeChat;FAQ;automatic question-answering;library;robot;language system
自動問答技術是一種允許用戶以自然語言查詢作為輸入,系統從相關文檔集中查找并返回確切答案的新型智能檢索系統。目前,微信公眾賬號數量已超過200萬。隨著微信公共平臺影響力的不斷擴大,越來越多的圖書館利用微信公共平臺開展相關服務。基于自動問答技術的微信平臺公眾賬戶服務機器人以其24小時在線、快速及時反應成為辦公自動化的標志性服務項目。哈工大圖書館的微信公眾號開通以來受到了很多關注,擴大了圖書館的影響力,本研究致力于在哈工大圖書館公眾號基礎上建立自動問答機器人系統。
1高校圖書館自動化網絡服務現狀分析
高校圖書館的自動化網絡服務的研究工作已經開展了很多年,FAQ常見問題的問答咨詢即(Frequently Asked Questions)已經在我國高校全面普及開來。這一服務有其獨特的優勢,不僅能將館員從繁重、單調的工作中解脫出來,也符合當今用戶自主化、個性化的趨勢;同時可操作性強,對FAQ的組織與管理已成為網絡咨詢工作的一個重要環節,便于圖書館為用戶提供服務[2]。常見問題庫一般都進行分類管理,有的還可進行檢索,對常見問題的分類是方便讀者使用的重要方法和途徑[3]。近期針對國內100所高校的圖書館FAQ進行了專項調查,超過50家大學圖書館進行了FAQ相關建設、分類瀏覽、提供鏈接等全方位服務。
但大多數基于FAQ的高校圖書館自動化服務基于人工建立的常見問題庫匹配進行檢索,可回答的問題數量極其有限,問題集合更新緩慢。在信息迅速發展的時代,尤其以微信、微博為代表的平臺產生后,常見問題庫的方式就遠遠不能滿足信息更新的速度。而微信擁有其得天獨厚的優勢,它的用戶基數早已突破6億,所以,基于微信公眾平臺的開發也正如火如荼地發展起來。微信團隊給開發者提供了一套標準的接口,為開發者的開發工作提供了很大的便利[4]。因此利用微信公眾平臺研究自動問答機器人將會提升圖書館信息服務效率和范圍。在交互服務方面,廈門大學、東南大學圖書館提供微信機器人的智能咨詢服務[5]。
本文提出以人工智能為基礎的圖書館自動問答機器人技術是集自然語言處理技術和信息檢索技術于一身的新一代智能搜索引擎。區別已有常見問題的問答咨詢及FAQ,自動問答系統可以自動分析用戶問題,通過對問題的分類和理解,在大規模數據庫基礎上利用人工智能技術自動回答讀者問題,并利用哈工大微信公眾平臺為廣大讀者提供服務。
自動問答機器人的研究已經開展多年,讓計算機和人一樣自動回答讀者問題是國內外很多學者認為不夠成熟的一門技術。但這項技術在特定領域已經取得過一些顯著的成果。本研究是基于哈工大圖書館的讀者服務這一特定領域展開的,自動問答機器人系統設計方案如圖1所示:
答案處理
答案處理部分包括答案抽取和答案排序,對信息檢索得到的結果根據問題類型抽取出答案,返回給用戶[6]。
3自動問答機器人關鍵技術
為實現上述目標,涉及以下幾個關鍵技術需要分步進行研究。
語料收集和整理
中文自動問答研究已久,但是針對圖書館的自動問答研究還比較少見,因此語料庫建設是本文研究的難點和重點。為解決這個問題,前期做了大量相關工作,主要包括:
1針對國內存在大量圖書館FAQ系統,在網絡收集相關問題對1 000條。對問題進行人工校驗,保留原問題的前提下根據哈工大信息補充完善答案。
3.對圖書館的工作及服務有意見或建議,向誰反映?
回答:讀者意見箱。歡迎讀者提出批評和建議,對留有地址或電話的讀者意見,圖書館都會逐一答復。
4.圖書館實行連續開放嗎?
回答:圖書館閱覽室服務時間是周一~周日8∶00到1∶30連續開放。其它詳見圖書館主頁中的“服務時間”。
3針對常用問題人工建立針對哈工大圖書館的專用問題集。
8.407信息共享空間可以預約研修間嗎?
回答:可以。方式一,可以在407室咨詢臺或是撥打電話86403590預約;方式二,可以關注“HITLibrary咨詢部”微信公眾賬號信息動態中,按照預約須知完成。
9.每周三晚圖書館走進院系培訓課件在哪里下載?
回答:在圖書館主頁信息咨源中下載培訓課件。
3利用“維基百科”和“百度知道”建立關于圖書館的通用問題集合。
56.圖書館主要功能?
回答:圖書館,是搜集、整理、收藏圖書資料以供人閱覽、參考的機構。
78.圖書館最早出現在哪年?
回答:早在公元前3000年就出現了最早的圖書館。
79.圖書館一詞最早出現在哪年?
回答:最早由德國圖書館學家施萊廷格于1807年提出。這一概念的提出,標志著現代圖書館學的誕生。
通過以上3種方法收集到關于“哈工大圖書館自動問答機器人”問答標準句對1 000條,并對所有語料人工加工,調整格式,糾正錯誤,形成一套完整的語料體系。
問題的分類
機器人自動回答問題面臨的第一個問題,就是分析好問題。對于機器理解“自然語言提出的問題”,首先要把問題進行分類,才能進行下一步理解。問題的類型往往決定著如何回答的問題,也就是需要一個分類的體系,見表1。表1圖書館自動問答系統問題分類體系
Ⅰ類(大類)Ⅱ(小類)例句(問句)時間年月日142.十一期間圖書館哪天放假?時間段138.周末圖書館幾點到幾點開館?地點位置202.哈工大圖書館的位置?電話204.請問406科技查新站的電話是多少?表1(續)
Ⅰ類(大類)Ⅱ(小類)例句(問句)事件數據庫查詢12.通過校園網如何檢索圖書館的外文數據庫?咨詢服務18.圖書館提供文獻的代檢代查服務嗎?圖書借閱35.我借的圖書已經歸還,但該書仍然借在我的帳上怎么辦?…
33基于復述的問題自動擴展
每個人都有自己的語言習慣,因此自然語言表達的問題可能因人而異。在語料庫的規模有限的情況下,必須進行問題歸類,并確認同一問題的不同說法。下面兩組例子,雖然表述不同,但是意義完全一致。這種想法稱為中文的“復述”問題。
A類(地點類)
1.哈工大圖書館的位置?
.咱們學校圖書館在哪?
3.我明天想去圖書館辦證,應該怎么走?
B類(時間類)
1.明天圖書館開門嗎?(假定今天是6月25日,周六)
.這周日圖書館正常開門嗎?
比如對A類問題,語料庫只有第一個問題的答案,通過復述理解的分析,也要知道后兩個問題和第一個是完全一致,才能回答這個問題。
問題的情感分析
人類語言的情感特點往往直接決定了問題的答案,問題的褒義和貶義反應著讀者提問的喜好和希望得到的答案,被稱之為“情感分析”。通過對問題情感的判斷來獲得更好的答案,見表。表對問題情感的判斷
情感詞類型例句分析正例(褒義)今天找到《×××》這本書超贊,還有下冊嗎?褒義詞(同構)這書內容不錯,就是有點陳舊,還有新書嗎?褒義詞(異構)反例(貶義)圖書館自習座位好緊張啊,每天都這么難找嗎?貶義詞(同構)今天去檢索了,沒有想象的那么繁瑣啊?貶義詞(異構)
通過上述例子可以證明情感分析的重要性。通過對情感詞的判斷理解才能更好的自動回答問題,但情感詞也需要在特定的語言環境來進行判斷,否則讀者得到的答案可能是相反的。
35答案抽取的模版建立
理解了讀者的問題,如何給出滿意的答案才能讓讀者滿意?機器人的表達是否有它的優勢?當然,機器人還無法給出“性格各異”的“風趣答案”。因此需要建立了一系列答案模版,讓機器的回答更規范和更禮貌,見表3。表3圖書館自動問答機器人問題分類系統
Ⅰ類(大類)Ⅱ(小類)例句(答案句)時間年月日××年××月××日時間段××∶00到××∶30地點位置××街××號電話0451-8641×××事件數據庫查詢您好,查詢結果為…咨詢服務主要提供(1)…,(2)…圖書借閱鏈接指向說明…您的提問暫時無法回答,請在
工作日時間聯系…4實驗結果分析及研究結論
在理論研究基礎上,本研究還針對哈工大圖書館自動問答系統中的問題分類和答案抽取進行了相關實驗。
41問題分類實驗
本文采用在很多領域被廣泛應用的支持向量機分類進行分類實驗,選擇的最終語料規模大約為1 000個問題對。隨機挑選出1 000個問題作為訓練集和測試集,訓練集和測試集的比例為9∶1,測試集的產生采用了隨機抽取的方式以便能夠保證語言的分布一致性,并采用常用的3個評價指標,對實驗結果進行評價,即準確率(Precision)、召回率(Recall)和F指數(F-measure),它們各自的計算公式如下:
準確率p=正確分類的正例的數目決策樹判為正例的數目(1)
召回率r=正確分類的正例的數目所有正例的數目(2)
F指數f=(α+1)prαp+r(3)
其中為準確率與召回率之間的關系權重,在本實驗中設置以保證試驗中準確率與召回率具有相同的權重測試結果見表4。表4測試結果(一)
項目測試集100句(%)全部語料1 000句(%)準確率p681732召回率r633760F指數f668744
4答案抽取實驗
同時,本文還完成答案抽取的初步實驗。為客觀評價系統,測試問題由二個部分組成,一部分來自測試集20句;一部分為人工提問20句。由于暫時缺少有效的自動評價的機制,因此我們采用了人工評價的方法。人工評價由3位相關領域專家對抽取答案的語句合理性、答案準確性進行評價測試結果見表5。表5測試結果(二)
項目測試集20句(%)人工提問20句(%)答案語句合理性9580答案準確性68348
43實驗分析與結論
實驗結果一表明,圖書館自動問答問題集由于缺少相關研究和訓練數據,還難以建立一套完全合理的問題分類體系。繼續擴大語料規模,建立合理體系是未來圖書館自動問答機器人走向實際應用的關鍵問題,需要不斷進行擴展和研究。
實驗結果二表明,該系統對現有語料中的問題類型達到一個比較好的效果,但人工提問的隨機性導致性能有明顯衰弱,還無法對收集的問題集以外的問題進行人工智能回答。
目前,自動問答機器人的研究已經得到越來越多的關注。本文針對圖書館讀者咨詢需求,研究適合于圖書館的自動問答系統設計方案,并建立相應問答語言體系。通過對問題集的維護和補充,提高自動回答準確率,應用此研究成果幫助讀者快速找到自己想要的答案。
參考文獻
羅濤.圖書館微信公眾平臺的建設與研究[J].現代圖書情報技術,2015,(1):96-100.
[2]王晨俊,葉春峰.FAQ在圖書館的應用及前景分析[J].現代情報,2013,(6):73-77.
[3]張超.基于用戶的高校圖書館網站FAQ多維分類與應用[J].圖書館學刊,2011,(12):107-109.
[4]石凱,諶志群.基于微信的自動問答系統研究[J].計算機時代,2014,(9):9-11.
[5]李丹.圖書館微信平臺建設實踐與思考[J].現代圖書情報技術,2016,(4):104-110.
[6]張蓓,竇天芳,張成昱,等.開發模式下圖書館微信公眾平臺服務的設計與實現[J].現代圖書情報技術,2014,(1):87-91.
張志昌,張宇,劉挺,等.開放域問答技術研究進展[J].電子學報,2009,(5):1058-1069.