999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Seq2Seq的機器人聊天應用實踐

2021-09-10 03:10:25翟高粵高乾龍趙云杰唐竹韻
客聯(lián) 2021年5期
關鍵詞:文本語言信息

翟高粵 高乾龍 趙云杰 唐竹韻

摘 要:自然語言處理(NLP)中的語言對話一直是機器學習的“圣杯”,也是機器學習挑戰(zhàn)圖靈測試的主力。從人工智能的概念被提出開始,語言對話任務一直是業(yè)界研究的熱點,本文通過NLP基礎理論知識、Seq2Seq模型來介紹中文聊天機器人的原理,并使用TensorFlow 2.0的高階API完成編程。

關鍵詞:深度學習;Seq2Seq模型;機器人聊天;Tensorflow2.0

目前機器學習,尤其是深度學習,已經(jīng)成功的解決了圖像識別的問題。從IMAGENET大賽的近幾年成績看,識別類問題準確度已經(jīng)接近100%。與此同時,機器學習在解決“語音到文字”(Speech to Text)以及“文字到語音” (Text to Speech)方面也有了飛躍。聊天機器人的研究可以追溯到上個世紀五十年代,阿蘭圖靈提出了一個圖靈測試來回答“機器能思考嗎”的問題,隨后掀起了人工智能研究的熱潮。聊天機器人可應用于多個人機交互場景,比如問答系統(tǒng)、談判、電子商務、輔導等。最近,隨著移動終端數(shù)量的急劇增加,它也可以用于手機終端的虛擬助理,如Apple的Siri、微軟的Cortana、Facebook的Messenger,Google助手等,讓用戶更容易地從終端上獲取信息和服務。

一、機器人聊天基礎理論知識簡介

(一)語言模型

語言模型其實是一個打分模型,通過對一句話進行打分來判斷這句話是否符合人類的自然語言習慣。語言模型的發(fā)展歷史久遠,經(jīng)歷了統(tǒng)計語言模型、n-gram語言模型和神經(jīng)網(wǎng)絡語言模型三個階段。

統(tǒng)計語言模型是統(tǒng)計每個詞出現(xiàn)的頻次來形成詞頻字典,然后根據(jù)輸入計算下一個輸出詞的概率,最后形成輸出語句的。統(tǒng)計語言模型輸出語句的概率是依據(jù)貝葉斯公式進行鏈式分解計算得到的,計算公式如下:p(w1,w2,w3,…,wn)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2w3…wn),這樣的計算求解方法雖然直觀、明了,但存在著致命的缺陷。我們細想一下就會發(fā)現(xiàn),如果字典中有1000個詞,當處理一個句子長度為3的語句時,則需要計算輸出語句概率P的數(shù)量是10003;當句子長度為10時,需要計算輸出語句概率P的數(shù)量是100010。在計算完輸出語句的概率之后,需要選擇P值輸出語句作為最終的生成語句。以上計算過程在通用算力下幾乎是不可能完成的。

由上我們發(fā)現(xiàn),利用統(tǒng)計語言模型計算輸出語句概率的數(shù)量大到無法計算,是由依據(jù)貝葉斯公式通過鏈式法則進行展開后全量連乘所引起的,那么解決這個問題的方法只有一個,就是縮短連乘的長度,其理論依據(jù)是馬爾可夫假設。簡單來說,所謂的馬爾可夫假設就是指當前的狀態(tài)只與過去有限時間內(nèi)的狀態(tài)有關。基于馬爾可夫假設的語言模型稱為n-gram,這里的n表示馬爾可夫鏈的長度,表示當前狀態(tài)與前n-1個時間點事件有關。當n=1時,表示一個詞出現(xiàn)的概率與其周圍的詞出現(xiàn)的概率是相互獨立的,稱為unigram。在unigram中,假設字典大小為1000,我們所需計算的輸出語句概率P的數(shù)量為1000。依此類推,當n=2時,表示一個詞出現(xiàn)的概率只與其前一個詞出現(xiàn)的概率有關,稱為bigram。在bigram中,假設字典大小為1000,我們所需計算的輸出語句概率P的數(shù)量為1000×1000。當n=3時,表示一個詞出現(xiàn)的概率只與其前兩個詞出現(xiàn)的概率有關,稱為trigram。在trigram中,假設字典大小為1000,我們所需計算的輸出語句概率P的數(shù)量為1000×1000×1000。一般我們選擇 trigram,因為如果n過大的話,則同樣會出現(xiàn)統(tǒng)計語言模型遇到的問題。

神經(jīng)網(wǎng)絡語言模型是Begio等人在2003年發(fā)表的A Neural Probabilistic Language Model論文中提出的方法,其在n-gram語言模型的基礎上進行了改進。神經(jīng)網(wǎng)絡語言模型采用one-hot(獨熱編碼)表示每個詞的分布情況,將輸入語句進行編碼轉換后輸入神經(jīng)網(wǎng) 絡,經(jīng)過tanh非線性變換和softmax歸一化后得到一個總和為1的向量,在向量中最大元素的下標作為輸出詞的字典編碼,通過字典編碼查詢字典得到最終的輸出詞。

(二)循環(huán)神經(jīng)網(wǎng)絡

循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)是神經(jīng)網(wǎng)絡專家Jordan、Pineda.Williams、Elman等人于20世紀80年代末提出的一種神經(jīng)網(wǎng)絡結構模型,這種網(wǎng)絡的特征是在神經(jīng)元之間既有內(nèi)部的反饋連接又有前饋連接。當前主流的NLP應用都集中在RNN領域。

RNN的提出是神經(jīng)網(wǎng)絡語言模型領域一次非常大的突破,但人們在應用的過程中發(fā)現(xiàn)RNN存在兩個致命的缺陷:梯度消失和梯度爆炸。

二、Seq2Seq模型介紹

Seq2Seq的全稱是Sequence to Sequence,它是基于Encoder- Decoder框架的RNN的變種。Seq2Seq引入了Encoder-Decoder框架,提高了神經(jīng)網(wǎng)絡對長文本信息的提取能力,取得了比單純使用LSTM 更好的效果。目前Seq2Seq在各種自然語言處理的任務中得到大量的應用,最常用的是語言翻譯和語言生成。Seq2Seq中有兩個非常重要的概念需要我們掌握,其中一個是Encoder-Decoder框架;另一個是 Attention機制。

(一)Encoder-Decoder框架

Encoder-Decoder是處理輸入、輸出長短不一的多對多文本預測問題的框架,其提供了有效的文本特征提取、輸出預測的機制。Encoder-Decoder框架包含兩部分內(nèi)容,分別是Encoder(編碼器)和Decoder(解碼器)。

(1)編碼器

編碼器的作用是對輸入的文本信息進行有效的編碼后將其作為解 碼器的輸入數(shù)據(jù)。編碼器的目標是對輸入的文本信息進行特征提取,盡量準確高效地表征該文本的特征信息。

(2)解碼器

解碼器的作用是從上下文的文本信息中獲取盡可能多的特征,然后輸出預測文本。根據(jù)對文本信息的獲取方式不同,解碼器一般分為4種結構,分別是直譯式解碼、循環(huán)式解碼、增強循環(huán)式解碼和注意力機制解碼。

(二)Attention機制

Attention機制有效地解決了輸入長序列信息時真實含義獲取難的問題,在進行長序列處理的任務中,影響當前時刻狀態(tài)的信息可能隱藏在前面的時刻里,根據(jù)馬爾可夫假設這些信息有可能就會被忽略掉。神經(jīng)網(wǎng)絡模型沒有辦法很好地準確獲取倒裝時序的語言信息,要解決這個問題就需要經(jīng)過訓練自動建立起句子間的關聯(lián)關系,這就是Attention機制。

三、基于seq2seq項目工程結構設計

整個項目工程結構分為兩部分:文件夾和代碼文件,在編程實踐中建議采用文件夾和代碼文件的方式來設計項目工程結構。所謂的文件夾和代碼文件的方式是指把所有的Python代碼文件放在根目錄下,其他需要存放的靜態(tài)文件、訓練數(shù)據(jù)文件和模型文件等都放在文件夾中。本項目分為5個部分:配置工具(getConfig.py)、數(shù)據(jù)預處理器(data_util.py)、神經(jīng)網(wǎng)絡模型(seq2seqModel.py)、執(zhí)行器(execute.py)和應用程序(app.py)。配置工具提供了通過配置文件來全局配置神經(jīng)網(wǎng)絡超參數(shù)的功能;數(shù)據(jù)預處理器提供了數(shù)據(jù)加載功能;神經(jīng)網(wǎng)絡模型實現(xiàn)了Seq2Seq神經(jīng)網(wǎng)絡;執(zhí)行器提供了訓練模型保存、模型預測等功能;應用程序是一個基于Flask用于人機交互的簡單Web應用程序。在文件夾中,model_data存放訓練導出的模型文件;train_data存放訓練數(shù)據(jù);templates存放HTML渲染模板;static存放JS等靜態(tài)文件。具體功能如下所述。

(一)工具類實現(xiàn)

在實際的編程中,往往需要對參數(shù)進行頻繁的調(diào)整,因此我們定義一個工具類來讀取配置文件中的配置參數(shù),這樣當需要調(diào)參時,只需對配置文件中的參數(shù)進行調(diào)整即可。

(二)data_util實現(xiàn)

data_util對原始語料數(shù)據(jù)根據(jù)其格式特點進行初步處理,比如將問句和答句分開、對語料進行分詞等。

(三)seq2seqModel實現(xiàn)

seq2seqModel是本文的核心內(nèi)容,我們按照Encoder-Decoder框架構建一個完整的Seq2Seq模型。

(四)執(zhí)行器實現(xiàn)

執(zhí)行器提供創(chuàng)建模型、保存訓練模型、加載模型和預測的功能,在編程實踐中分別定義了create_model函數(shù)、train函數(shù)和預測函數(shù)用于實現(xiàn)以上功能。

(五)Web應用實現(xiàn)

Web應用的主要功能包括完成頁面交互、圖片格式判斷、圖片上傳以及預測結果的返回展示。這里我們使用Flask這個輕量級Web應用框架來實現(xiàn)簡單的頁面交互和預測結果展示功能。

四、結論

本文介紹了seq2seq的結構、應用及基本實現(xiàn)。seq2seq屬于encoder-decoder結構的一種,其基本思想就是利用兩個RNN,一個RNN作為encoder,另一個RNN作為decoder。encoder負責將輸入序列壓縮成指定長度的向量,這個向量就可以看成是這個序列的語義,這個過程稱為編碼,而decoder則負責根據(jù)語義向量生成指定的序列,這個過程也稱為解碼。本文為應用seq2seq框架的技術人員提供了一個較為詳細的使用價值。

【參考文獻】

[1] 張鶴凝等.基于seq2seq模型的心理咨詢對話系統(tǒng)的研究[J],信息記錄材料,2021(3).

[2] 張宇等.融入注意力機制的深度學習動作識別方法[J],電訊技術,2021(4).

[3] 閆濤. 深度學習算法實踐 [M]. 電子工業(yè)出版社出版社,2020.

[4] 王宇石等.一種基于卷積神經(jīng)網(wǎng)絡的違禁品探測系統(tǒng)及部署方法[J],科技創(chuàng)新與應用,2020(7).

猜你喜歡
文本語言信息
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
累積動態(tài)分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
我有我語言
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日韩专区第一页| 呦系列视频一区二区三区| 欧美国产在线看| 成人午夜免费观看| 色婷婷在线播放| 亚洲精品高清视频| 国产精品三级专区| 动漫精品啪啪一区二区三区| 99免费在线观看视频| 日韩在线2020专区| 国产午夜不卡| 国产99免费视频| 99精品高清在线播放| 99ri国产在线| 国产SUV精品一区二区| 亚洲激情区| 日本国产在线| 99视频精品在线观看| 天天摸天天操免费播放小视频| 亚洲av无码久久无遮挡| 香蕉视频在线精品| 久久久久青草大香线综合精品 | 国产人在线成免费视频| 色有码无码视频| 高清无码不卡视频| 中文字幕乱妇无码AV在线| 毛片免费在线视频| 精品91在线| 欧美人与牲动交a欧美精品| 色综合成人| 国产乱子伦精品视频| 亚洲不卡网| 91亚洲精选| 尤物国产在线| av大片在线无码免费| 国产91小视频在线观看| 久久99国产综合精品女同| 91免费国产高清观看| 色欲不卡无码一区二区| 亚洲—日韩aV在线| 青青青国产视频| 亚洲啪啪网| 天天爽免费视频| 亚洲成人网在线观看| 国产日韩AV高潮在线| 一本一道波多野结衣av黑人在线| 欧美精品啪啪一区二区三区| 狠狠操夜夜爽| 美女被操91视频| 手机精品视频在线观看免费| 中文字幕在线视频免费| 欧美一区二区三区欧美日韩亚洲| 九色综合伊人久久富二代| 欧美日韩午夜视频在线观看| 第一页亚洲| 国产三级精品三级在线观看| 日韩精品专区免费无码aⅴ| 国产精品hd在线播放| 午夜福利网址| 色天天综合| 欧美午夜性视频| 永久在线精品免费视频观看| 国产精品免费电影| 欧美午夜在线视频| 亚洲成人在线免费| 亚洲91精品视频| 激情午夜婷婷| 国产高清精品在线91| 久久男人资源站| 中文国产成人精品久久| 欧美yw精品日本国产精品| 免费国产小视频在线观看| 久久国产热| 国产毛片片精品天天看视频| 男人天堂伊人网| 国产欧美日韩综合一区在线播放| 99久久国产精品无码| 亚洲aaa视频| 91久久天天躁狠狠躁夜夜| 亚洲成人在线免费观看| 日本精品中文字幕在线不卡 | 亚洲不卡av中文在线|