999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ALICE的智能聊天機器人的程序開發(fā)

2018-01-26 04:58:02廣州市執(zhí)信中學聶碩琳
電子世界 2018年1期
關鍵詞:智能用戶

廣州市執(zhí)信中學 聶碩琳

一、引言

智能聊天機器人的主要用于模擬人類對話或聊天,應用場景是客服坐席。它替代客服人員回答大量重復而且簡單的問題,反映速度比人要快很多,而且不會感到疲憊和厭煩。它唯一的需求是有電源供應。

聊天機器人分為目標驅(qū)動型和無目標驅(qū)動型。目標驅(qū)動型機器人的語料庫通常是固定的,因此針對用戶的提問,回答也是固定的,開發(fā)起來相對也比較簡單。微信群里的自動回復就屬于這一類機器人的應用場景。無目標驅(qū)動型機器人如微軟的小冰,賢二機器人等,它們可以回答用戶千奇百怪的問題,可以代替真人客服與用戶進行聊天。

一般來說,聊天機器人應該具備以下特點:

(1)正確回答問題。如果與人聊天時總是答非所問,那就不能稱之為智能聊天機器人。

(2)回答問題時使用正確的語法。在內(nèi)容完整,邏輯合理的基礎上,要保證語句的通順,符合語法規(guī)則,這樣才不會引起歧義。

(3)答案應變化多端,豐富多彩。既然是聊天機器人,就不能給人無聊的感受,應該通過不同的用詞和句法,使對話能夠完成,并解答用戶的疑問。這樣才能吸引更多的用戶使用聊天機器人。然而做到以上這幾點需要多種技術的結合,包括自然語言處理、大數(shù)據(jù)分析、機器學習等等。Google的ALICE便使用了這些技術。

二、研究背景

1960年外國的科學家就提出“計算機要能用自然語言與人溝通”的設想。隨著科學技術的發(fā)展和移動互聯(lián)網(wǎng)的日新月異,各大互聯(lián)網(wǎng)公司推出了自己的智能聊天機器人,替代人工面對龐大的客服需求,使得聊天機器人成為人們關注的方向之一。國外聊天機器人的發(fā)展比較早,目前已經(jīng)有很多成熟的產(chǎn)品,比如蘋果的Siri, 用戶可以給Siri發(fā)布定時、打開應用等指令。 微軟的小冰可以與用戶進行有趣的聊天。還有Google的Alice,IBM的Watson等。聊天機器人在中國也有廣泛的應用,比如許多微信群,淘寶的客服,百度的度秘,科大訊飛的語音助手等都能提供智能聊天服務,極大地減少了人工成本。但是相較于國外,發(fā)展還是相對落后,主要原因是中文比較難處理,語料庫的積累也比較少。

在機器人的主要設計技術方面,目前比較主流的是基于人工模板和人工智能的兩種聊天機器人。

基于人工模板的聊天機器人制作最簡單,主要是通過人工錄入一些對話的模板,當有用戶提問時,會從這些模板中找出匹配的答案返回給用戶。這種技術的優(yōu)點是開發(fā)簡單,返回答案速度快,缺點是答案單一,人工成本高。

基于人工智能的聊天機器人是利用一些算法來生成答案,答案的準確度取決于算法的好壞。這種聊天機器人有自我學習的能力,隨著聊天次數(shù)的增多,答案也會越來越準確。這種聊天機器人的優(yōu)點是前期不需要人工輸入大量模板,答案較靈活,缺點是開發(fā)難度大,模型訓練復雜。這種聊天機器人制作的主要難點在于語料庫的積累,規(guī)則的匹配。

三、理論原理

行為主義理論又稱為刺激-反應理論,這種理論認為通過對環(huán)境的“刺激”和對行為的“強化”,所有行為都可以被設計、創(chuàng)造乃至改變。另外,只要不斷地強化正確的反應,消除錯誤的反應,學習的效果就會越好。本文中提到的ALICE的AIML(人工智能標記語言)采用的就是“刺激-反應”理論,通過對輸入語句進行匹配和分析,也就是刺激,給出答案,即反應,從而使得答題內(nèi)容能夠正確地的表示并傳輸。

四、技術原理

智能聊天機器人涉及多方面的技術,比如大數(shù)據(jù)分析、自然語言處理、機器學習等,這些都屬于人工智能的范圍。自然語言處理是智能聊天機器人的核心技術之一。機器人會根據(jù)用戶輸入的語句,進行分詞,然后和語料庫進行比對,然后返回預先設定的回答。機器人的語料庫越大,返回的答案越精確,這就涉及到了大數(shù)據(jù)技術。另外,機器人從這么龐大的語料庫中篩選獲取準確數(shù)據(jù)的過程,就使用了機器學習的算法,并且機器人還有自學習的能力,能通過和不同的人聊天,積累經(jīng)驗,會變得越來越智能,并能夠應付更多不同的提問。

1.自然語言處理

自然語言處理是研究實現(xiàn)人與計算機之間用自然語言進行溝通的技術,涉及到語言學、數(shù)學、計算機科學等多種學科。自然語言處理的應用主要在聊天機器人、機器翻譯、搜索引擎等領域。自然語言處理在智能聊天機器人的開發(fā)中起著重要的作用。自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心即分詞。句法分析就是對自然語言中句子的結構、語法進行分析,如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文中特定的語義和情感態(tài)度。

機器人的語料庫也叫知識庫,知識庫的設計要通過大量的調(diào)研,作為前期的語料儲備。在機器人與用戶溝通積累到一定程度后,機器人可以將這些聊天內(nèi)容儲存并分析,從而豐富語料庫。當機器人要回答問題時,要先對問題進行分詞,這就涉及到了分詞器。分詞器也分多種語言。常用的分詞技術有基于字符串的分詞算法,基于統(tǒng)計以及基于理解的分詞算法。分詞完成后,拿這些詞語與語料庫中的數(shù)據(jù)進行相似度計算,選擇相似度大的結果返回給用戶。

2.大數(shù)據(jù)分析

IBM給出了大數(shù)據(jù)的5V特點,分別是Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。首先數(shù)據(jù)量要大,并且處理速度快,而數(shù)據(jù)格式、內(nèi)容多種多樣;通過對大數(shù)據(jù)的挖掘能得到少量數(shù)據(jù)得不到的有價值的信息;另外數(shù)據(jù)要真實可靠。

大數(shù)據(jù)分析是對大規(guī)模的數(shù)據(jù)進行分析的技術。大數(shù)據(jù)分析的流程一般分為數(shù)據(jù)收集、數(shù)據(jù)預處理、算法分析挖掘、產(chǎn)生結果、結果可視化這五步。其中數(shù)據(jù)收集是前提,數(shù)據(jù)預處理是將收集到的雜亂的數(shù)據(jù),按照一定格式存儲,并對無效數(shù)據(jù)進行過濾。算法分析挖掘時通過運用一些算法來處理這些數(shù)據(jù),產(chǎn)生有價值的信息,并作出預測,最后可視化是將結果以合適的方式展現(xiàn)出來,可以是統(tǒng)計圖,也可以是表格。

智能聊天機器人的語料庫積累到一定規(guī)模后,對語料庫的挖掘過程就可以稱之為大數(shù)據(jù)分析。語料庫的積累即是數(shù)據(jù)收集的過程。數(shù)據(jù)在存儲的過程中,可以進行初步的篩選,去掉無意義或重復的語句,保證語料庫的質(zhì)量。聊天機器人在收到請求后,會利用一些機器學習的算法從語料庫中搜集、挖掘可能的答案,最后將最適合的答案返回給用戶。

3.機器學習

機器學習是人工智能的核心,在人工智能的各個領域都有應用。機器學習是機器研究獲取新知識的技術。機器學習分為監(jiān)督學習和無監(jiān)督學習,以及半監(jiān)督學習。監(jiān)督學習就是通過給定的有標簽的訓練集來訓練模型。無監(jiān)督學習是沒有給定有標簽的數(shù)據(jù)集,需要通過初始化,不斷地優(yōu)化模型。半監(jiān)督學習介于兩者之間,訓練集的標簽可能不是最終的標簽,只是一個中間結果。常用的機器學習算法有決策樹、關聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡等等。

智能聊天機器人在檢索答案的過程中往往會產(chǎn)生許多結果,并且會給這些結果打分,最后返回打分最高的結果。這個分值是在與人們聊天的過程中根據(jù)人們的反饋積累下來的,所以智能聊天機器人模型的訓練是有監(jiān)督的。

五、ALICE的工作原理

ALICE第一個版本是由Richard S.Wallac于1995年開發(fā)完成的,先后有300多人為其做出貢獻,目前存儲四萬多條知識分類,可以支持英語、德語、法語等多種語言,現(xiàn)在ALICE在問答系統(tǒng)、智能導航、網(wǎng)站服務等系統(tǒng)中都有廣泛的應用。

ALICE具有豐富的標簽,算法也并不復雜,主要采用的是模式匹配的方法。

ALICE有兩個核心的模塊:AIML語料庫和Chatterbean引擎。AIML即人工智能標記語言,是基于XML發(fā)展的,采用了簡單的模式匹配和“刺激-反應”理論。Chatterbean使用JAVA語言開發(fā),該引擎負責處理用戶的輸入,并對AIML進行解析。

AIML的標簽主要有