999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交通知識的移動智能問答系統

2016-07-06 05:53:51趙沛時張曉陽啟明信息技術股份有限公司長春30吉林大學計算機科學與技術學院長春300
電子測試 2016年12期
關鍵詞:微信

趙沛時,葛 亮,張曉陽(.啟明信息技術股份有限公司,長春,30;.吉林大學計算機科學與技術學院,長春,300)

?

基于交通知識的移動智能問答系統

趙沛時1,葛 亮1,張曉陽2
(1.啟明信息技術股份有限公司,長春,130122;2.吉林大學計算機科學與技術學院,長春,130012)

摘要:交通知識與人的生命安全息息相關。針對如何方便快捷的獲取交通知識,設計并實現了以即時通訊軟件微信為人機交互媒介的移動智能自動問答系統。首先,對文本進行特征向量提取,并對同義詞進行歸一化,消除同義詞對查詢準確率的干擾;然后,綜合詞頻和詞性信息計算文本關鍵特征的權值;最后采用BM25模型計算問題與知識庫中文本信息的相似度,返回與問題最相似的答案。實驗表明,本系統的移動性強,人機交互友好,查詢準確度高。

關鍵詞:智能問答; 微信; BM25;同義詞歸一化;文本相似度

0 引言

在現代生活中,交通知識與人的生命安全息息相關。根據百度百科:在中國,每一分鐘就有一人因交通事故傷殘,每五分鐘就有一人因交通事故死亡。每天因車禍死亡的有300人左右,每年因車禍死亡的有10萬人左右。造成交通事故的主要原因是人們對交通知識的匱乏。面對突發性交通事故,缺乏合理的應對知識會造成更大的二次傷害。通過科目考試、宣傳手冊、公益廣告等方式普及交通安全知識受益面窄、社會成本高,且人在緊張、慌亂中會出現短暫的記憶遺忘。如何以低成本、簡單、快捷的方式普及交通安全知識是交通系統面臨的問題。隨著人工智能技術的發展和智能手機的普及,基于交通知識的移動智能問答系統是一種有效的解決方式。

智能問答系統要解決的首要問題是信息檢索。信息檢索分為搜索引擎和自動問答系統兩種方式。百度、谷歌搜索屬于搜索引擎檢索方式的應用,這種方式需用戶輸入和結果關聯的一個或多個關鍵詞,通過檢索算法獲得結果信息,結果信息的價值與輸入的關鍵詞緊密相關。自動問答系統是根據自然語言描述的問題,通過檢索直接返回答案。這類應用如微軟的Encarta3和MIT的START。對于自動智能問答系統有很多研究,文獻[1-4]主要研究了智能問答系統中的相似度計算問題,提高了系統檢索的準確率,文獻[5-7]研究了問答系統的構建。上述研究都是都是基于WEB的方式實現的,在交互方式上并不能滿足如今移動互聯網發展的需要。

目前,手機等移動終端具有小巧靈活等特點,逐漸取代PC機。作為具有海量用戶群體的微信公眾平臺,是目前移動應用的絕好載體。微信公眾平臺在圖書館、醫院、電子政務等領域都有了創新性的應用,文獻[13-15]主要研究了微信公眾平臺的搭建。上述研究實現的問答系統在做檢索時都是基于關鍵詞的搜索,這種方式沒有考慮語義信息,更不能處理同義詞的干擾。基于此,本文結合自然語言處理技術、數據庫技術和微信公眾平臺開發接口,以交通知識為依托,設計并實現了基于微信的智能問答系統。該系統在做信息檢索時綜合考慮詞頻和詞性信息,并對同義詞進行了處理,實驗表明本文實現的系統具有靈活、方便、查詢準確率高等特點。

2 問答系統關鍵技術

2.1 關鍵特征提取。關鍵特征是將自然語言表示的語句,進行中文分詞,并去掉一些與語句含義關聯程度較小的詞語后,剩余的詞語作為該語句的關鍵特征。進行中文分詞之前應該對語句進行去除語句中的空格、去除標點符號、將英文大寫轉換為小寫、進行繁簡轉化將繁體轉化為簡體等預處理工作。

問答系統并不用保證每個詞語都會精確的切分,而一些專有名詞或對語句檢索有重要意義的詞語應該被精確的切分出來,例如“交通信號燈”應該為一個詞語不應被切分。為了提高語句的檢索效率,本文添加自定義詞典user_dict,將一些交通術語、符號等添加到自定義詞典中。這樣在對語句進行分詞時就可以正確的切分存在于詞典中的詞語。且隨著系統的使用,自定義詞典中的詞語將不斷的添加修改和完善。對語句進行分詞后,要根據停用詞表stopword去掉與語句含義無關的詞。

2.2 同義詞處理。問答系統中,一般查詢信息較短,由于同義詞的存在會導致檢索的準確率低。例如“交通信號燈”是正規的書面語言,而日常生活中將其稱為:“交通燈”或“紅綠燈”。為解決由于同義詞的存在而導致檢索準確率低的問題,本文構建同義詞典,將同義詞以鍵值對的關系添加到同義詞典中SimilarDict(key,value)。例如上述交通信號燈將{“交通燈”,“交通信號燈”}、{“紅綠燈”“交通信號燈”}添加到同義詞典中。對由1.1節中精確分詞并去停用詞后得到的關鍵詞集合S=(S1,S2,… Sn),進行同義詞處理算法思想如下:

FOR Si IN S:

IF Si IN SimilarDict:

Si=v;//v是同義詞典中的value值

END IF

END FOR

這樣將所有的存在同義詞典中的同義詞都進行了歸一化,消除了同義詞對檢索準確度的干擾。

2.3 相似度的計算。一般的檢索算法中,僅考慮詞頻作為關鍵詞的權值,而忽略了單詞本身的重要程度。例如“酒后駕車”,若只考慮詞頻,那么“酒后”和“駕車”的權值都是1。而這句話的重點應該在于“酒后”。所以為了更準確的描述關鍵詞的重要程度以提高系統檢索的準確度,本文根據不同詞性設置不同的權值。由于自定義詞典中存在的是一些必須進行精確分詞的術語或名詞,顧其權重最高為1。具體權值表如表1所示。

表1:詞性權值表

本文計算語句相似度的方法采用以BM25算法為基礎,通過將IDF算法與詞性權重相結合的方法計算文本特征的權值,用以提高算法的檢索準確度。BM25模型是由Okapi信息檢索系統所實現。一般公式如下:

其中,Q為查詢問句,qi為對Q進行分詞處理后得到的一個關鍵特征,d為一個檢索結果文檔。Wi為關鍵特征qi的權重。R(qi,d)是關鍵特征qi與文檔d的相關性得分。

對于公式(1)中的權值Wi,較為常用的是IDF。IDF公式如下:

其中,N取值為全部文檔數的數量,n(qi)為包含了qi的文檔數。由公式(2)可以看出,當包含某一關鍵特征qi的文檔越多時,IDF(qi)的值越小,因為很多文檔中都包含關鍵特征qi,說明qi的區分度不好。

為了達到更好檢索效果,本文引入詞性權重。設IDF在權重中所占比重為a,詞性所占比重為b,對于關鍵特征qi的詞性權值為Wpi。則對于關鍵特征qi的綜合權重為:

經實驗測試,a,b取值均為0.5時算法準確度比較好。則公式(3)變為:

對于公式(1)中關鍵特征qi與文檔d的相關性得分R(qi,d),其一般性公式為:

公式(5)中k1,k2,b為調節因子,一般根據經驗設置,本文中,k1=1.5,b=0.75。fi為關鍵特征qi在d中的頻率,qfi為qi在Q中的頻率。dl為d的長度,avgdl為所有文檔的平均長度。在絕大多數的情況中,qi在Q中只會出現1次,因此公式(5)簡化為:

由公式(6)可知b越大,文檔的長度對相關性得分的影響就越大。

綜上, BM25算法相關性得分公式為:

公式(8)為本文最終采用的文本相關性得分公式,兩文本之間得分越高,兩文本越相似。

2.4 智能問答算法實現。本文使用BM25算法模型,并引入IDF方法和詞性權重相結計算關鍵特征權值。圖1所示為算法的流程圖。其算法思想如下:

圖1:智能問答算法流程圖

輸入:有關交通知識的問句

輸出:與輸入問句相同或者相關度很好的問題與答案。

1)初始化:加載自定義詞典,連接數據庫等;

2)輸入有關交通知識的問句Qa;

3)加載問題庫中所有問題字段Qb;

4)對Qa和Qb進行文本預處理,得到預處理后的文本Qap=Pretreatment(Qa);Qbp=Pretreatment(Qb);

5)對Qap和Qbp進行分詞,并去掉停用詞,得到文本的關鍵特征。Qap_C=Cut(Qap),Qbp_C=Cut(Qbp);

6)對關鍵特征進行同義詞處理,Q=Synonym(Qap_C),d=Synonym(Qbp_C)。

7)使用BM25算法計算輸入問題的關鍵特征Q與問題庫中每個問題字段關鍵特征d的相關性分數。并存儲到字典dict_ score中;

8)在dict_score中選擇相關性好的N個問題,通過查找問題知識庫中的數據,返回給用戶相關的問題與答案。

3 系統實現

3.1 系統結構。本系統以微信認證訂閱號為交互平臺,以問題匹配算法和知識數據庫技術為核心模塊,以交通知識作為知識庫,搭建了移動智能問答系統。系統結構如圖2所示。

微信應用程序是用戶的人機交互界面,用戶關注微信公眾平臺成為粉絲,通過手機微信應用程序向系統推送問題。

微信公眾平臺可以接收和發送圖文、音頻、視頻等多媒體信息,同時在開發者模式下,具有豐富的可編程接口。

微信服務器主要功能是實現信息轉發,將信息轉發到綁定的智能問答服務器。同時也接收智能問答服務器返回的信息,并將信息推送到手機端微信應用程序。

智能問答服務器是系統的核心。它在接收到微信服務器的請求后,首先對問句進行去空格、中文分詞、過濾停用詞、提取關鍵詞等操作;然后通過相似度算法計算用戶問句和知識庫存儲信息的相似度;以TOP-N的方式選擇相似度高的N個問題,認為這N個問題是知識庫中問句和用戶問句是相同問題或最相似的問題,通過檢索知識庫獲取該問題答案;最后將答案發送給微信服務器,再由微信服務器推送給用戶手機端的微信。

3.2 微信公眾平臺開發接口。通過使用微信公眾平臺開發接口可以實現接收消息、發送消息等普通功能,也可以實現獲取用戶地理位置、生成帶參數二維碼等高級功能,但是許多高級功能只有認證服務號才具有,提高了使用門檻。本系統的功能僅通過使用微信接收文本消息、發送文本消息兩種基本開發接口實現。

(1)接收文本:接收文本:微信用戶在向微信公眾賬號發消息時,微信服務器將消息以XML格式的數據包POST到開發者填寫的URL上。

XML數據格式如下:

<![CDATA[toUser]]>

<![CDATA[fromUser]]>

<![CDATA[text]]>

<![CDATA[this is a test]]>

(2)回復文本消息:用戶發送消息給微信公眾帳號時,微信服務器會對智能問答服務器產生一個POST請求,智能問答服務器進行處理后,在響應包中將問題答案以特定XML結構,返回給微信服務器。

XML數據格式如下:

<![CDATA[toUser]]>

<![CDATA[fromUser]]>

<![CDATA[text]]>

<![CDATA[你好]]>

上述XML中各個參數具體描述見文獻[13]。

3.3 微信公眾及平臺搭建。微信公眾帳號共分為三大類:企業號、訂閱號、服務號,其中每大類又分為認證和未認證兩種。首先申請公眾賬號,獲取微信公眾帳號后,登陸微信公眾平臺管理系統(http://mp.weixin.qq.com)進行設置。打開開發者中心頁面,點擊“修改配置”按鈕,填寫智能問答系統服務器所在地址(URL),隨意填寫用于生成簽名的Token字段,手動填寫或者隨機生成用于加密密鑰的EncodingAESKey字段。

提交信息后,微信服務器將發送帶有四個參數的GET請求到智能問答系統所在的服務器地址URL上,這四個參數為:signature、timestamp、nonce、echostr。微信服務器將前三個參數進行排序、拼接成一個字符串并進行SHA1加密,最后將獲得加密后的字符串與signature對比。對比成功后,用戶請求通過微信服務器轉發到智能問答系統服務器由智能問答系統服務器對信息進行處理,智能問答系統服務器將處理后的結果返回給微信服務器,最后,微信服務器將結果送到用戶手機端微信應用程序。

圖2:系統結構

4 實驗

4.1 實驗數據。收集整理2千多條交通知識,將每條知識分成問題和答案兩個部分,構建知識庫。知識庫部分內容如圖3所示。其中question字段是問題部分,answer字段為問題對應的答案,weights字段是用于記錄該問題被查詢的次數。整理交通知識有關詞語,構建自定義分詞詞典和同義詞詞典。

4.2 實驗結果及分析。本文所實現的智能問答系統主要應用到交通領域,若問題描述清楚,則答案基本唯一。隨機抽取120個問題進行檢索,若返回的結果中,正確答案出現在TOP-N中,則認為匹配正確。表2所示為在N=3、相似度閾值為0.8時,對120個問題做4組對比試驗的結果。

表2:相似度測試結果

由實驗結果可以看出,由于問答系統中的文本信息較短,同義詞處理要比詞性權值處理對最終檢索準確率的影響大,且在對文本信息做同義詞處理和加入詞性權值后準確率有明顯的提高。

用戶通過移動端的微信客戶端提問有關交通知識的問題,經由智能問答算法計算知識庫中的問題與用戶問題的相似度,返回兩個結果。其結果如圖4所示。

圖4:微信問答結果

5 結語

本文以自然語言處理技術、數據庫技術為核心技術,微信公眾平臺為用戶交互媒介,實現了交通知識的移動智能問答系統。經實際使用表明,本系統信息獲取便捷、準確,在規范日常交通行為、青少年交通知識教育、突發交通事故應對方案檢索等領域具有一定實用價值。系統在智能技術方面還需要優化。

圖3:知識庫部分內容

參考文獻

[1]陰紅志,張帆,丁鼎,趙斌. AnswerSeeker:基于互聯網挖掘的智能問答系統[J].計算機系統應用,2010,01:6-17.

[2]康海燕,李飛娟,蘇文杰. 基于問句表征的web智能問答系統[J].北京信息科技大學學報(自然科學版),2011,01:36-41.

[3]張江濤,杜永萍. 基于語義鏈的檢索在QA系統中的應用[J].計算機科學,2013,02:257-260+300.

[4]周永梅,陶紅,陳姣姣,張再躍. 自動問答系統中的句子相似度算法的研究[J]. 計算機技術與發展,2012,05:75-78.

[5]劉芳,于斐. 面向醫療行業的智能問答系統研究與實現[J].微電子學與計算機,2012,11:95-98.

[6]侯麗敏,張永強. 面向課程的中文FAQ自動問答系統模型[J].計算機與現代化,2014,10:20-24.

[7]王北斗,竇志,陳純,卜佳俊. 支持評價類問題與電影智能搜索的問答系統構建[J]. 大連理工大學學報,2011,S1:93-97. [8]張秋,楊玲,王曼. 高校圖書館微信公眾平臺服務發展現狀及對策[J]. 圖書館建設,2014,02:61-65+69.

[9]張正. 圖書館微信公眾平臺的構建[J]. 國家圖書館學刊,2014,02:26-31.

[10]劉路遙, 楊祚, 曹戰強, 等. 醫院微信公眾號的技術與應用現狀研究[J]. 中國數字醫學, 2014(8): 35-37.

[11]黃永剛, 劉素溫, 騰騰, 等. 微信公眾平臺在門診就醫流程中的應用研究[J]. 中國數字醫學, 2015, 10(5): 105-106. [12]龔花萍, 劉帥. 基于微信平臺的政務信息公開新模式[J]. 現代情報, 2014, 34(4): 62-66.

[13]曹小平,程靜. 基于微信自助查詢系統的設計與實現[J]. 重慶工商大學學報(自然科學版),2014,02:66-69.

[14]錢海鋼. 基于微信的移動圖書館服務系統APP應用實踐[J].河北科技圖苑,2013,06:89-92.

[15]沈奎林,邵波,趙華. 利用微信構建圖書館智能問答系統[J].圖書館學研究,2015,08:75-80.

[16]Robertson S E, Walker S, Jones S, et al. Okapi at TREC-3.[J]. 1996.

Mobile intelligent question answering system based on traffic knowledge.Computer Engineering and Applications

Zhao Peishi1,Ge Liang1,Zhang Xiaoyang2
(1.qiming information technology co.,LTD, Changchun,130122,China;2.College of Computer Science and Technology,Jilin University,Changchun,130012,China)

Abstract:Traffic knowledge is closely related to people's life and safety.Aiming at how to obtain the traffic knowledge conveniently and quickly,the mobile intelligent question answering system,which is based on the instant communication software WeChat,was designed and implemented. Firstly,extract the feature vector of the text,and normalized synonyms,eliminating the interference of synonyms on query accuracy. Secondly,calculation of critical feature weights according to the part of speech and word frequency. Finally,according to the BM25 model to calculate the similarity of text,return the most similar answer to the question. Experiments show that the system features strong mobility,man-machine friendly interaction and high query accuracy.

Keywords:intelligent question and answer;WeChat;BM25 model;normalized synonyms;text similarity

猜你喜歡
微信
微信
微信
微信
微信
微信
微信
微信
微信
微信
微信
主站蜘蛛池模板: 国产精品视频第一专区| 视频二区欧美| 免费无码AV片在线观看国产| 中文字幕无码电影| 国产成人精品一区二区免费看京| 日本成人福利视频| 久久久久九九精品影院| 91青草视频| 一级一毛片a级毛片| 精品久久久久久中文字幕女| 国产亚洲欧美在线中文bt天堂| 自慰网址在线观看| 日韩最新中文字幕| 波多野结衣在线se| 欧美19综合中文字幕| 国产乱子伦视频三区| 亚欧乱色视频网站大全| 日韩免费毛片| 久久99精品国产麻豆宅宅| 国产在线观看91精品| 免费A∨中文乱码专区| 亚洲国产精品VA在线看黑人| 国产青青草视频| 亚洲国产精品VA在线看黑人| 丁香亚洲综合五月天婷婷| A级全黄试看30分钟小视频| 午夜限制老子影院888| 欧美日本视频在线观看| 亚洲成在线观看| 日韩小视频网站hq| 色婷婷丁香| 国产丝袜一区二区三区视频免下载| 不卡视频国产| 热热久久狠狠偷偷色男同| 亚洲清纯自偷自拍另类专区| 亚洲女同一区二区| 日韩国产精品无码一区二区三区| 日韩A级毛片一区二区三区| 四虎影视无码永久免费观看| 成人综合网址| 亚洲热线99精品视频| 国产精品欧美激情| 亚洲婷婷在线视频| 在线看片免费人成视久网下载| 国产无码制服丝袜| 精品一区二区三区水蜜桃| 国产在线视频自拍| 在线无码九区| 真实国产乱子伦高清| 亚洲伊人电影| 在线色国产| 午夜在线不卡| 国产麻豆另类AV| 精品第一国产综合精品Aⅴ| 国产精品人成在线播放| 思思热精品在线8| 她的性爱视频| 99久久无色码中文字幕| 一本视频精品中文字幕| 99re热精品视频国产免费| 国产欧美精品专区一区二区| 色天堂无毒不卡| 免费人成在线观看成人片| 巨熟乳波霸若妻中文观看免费| 国产欧美视频一区二区三区| 99热这里只有精品国产99| 国产精品无码翘臀在线看纯欲| 日韩欧美中文在线| 日本在线视频免费| 为你提供最新久久精品久久综合| 午夜色综合| 欧美狠狠干| 精品人妻AV区| 精品国产黑色丝袜高跟鞋| 午夜精品久久久久久久2023| 欧美日韩亚洲国产| 欧美中文字幕在线视频| 精品亚洲麻豆1区2区3区| 日韩最新中文字幕| 欧美午夜网| 久久久久免费精品国产| 国产00高中生在线播放|