999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學(xué)習(xí)的自然語言處理技術(shù)

2020-11-24 17:40:34馮少迪臺灣長庚大學(xué)
數(shù)碼世界 2020年3期
關(guān)鍵詞:人工智能動作文本

馮少迪 臺灣長庚大學(xué)

引言

隨著人工智能技術(shù)的發(fā)展,機器翻譯作為自然語言處理(Natural Language Processing,簡稱NLP)研究的重要組成部分受到人們的廣泛關(guān)注。經(jīng)過了多年的研究和努力,以機器翻譯為代表的自然語言處理技術(shù)取得了巨大的進(jìn)展,并且在未來有著廣闊的應(yīng)用前景。機器翻譯(Machine Translation)是指通過特定的計算機程序?qū)⒁环N文本形式或聲音形式的人工自然語言,翻譯成另一種形式的人工自然語言,是計算機語言學(xué)、人工智能和數(shù)理邏輯相結(jié)合的一門交叉學(xué)科。現(xiàn)在,機器翻譯已經(jīng)成為世界自然語言處理研究的熱門。網(wǎng)絡(luò)化和國際化對翻譯的需求日益增大,翻譯軟件商業(yè)化的趨勢也非常明顯。近年來,加入深度學(xué)習(xí)、強化學(xué)習(xí)(Reinforcement Learning,簡稱RL)等人工智能的機器翻譯已經(jīng)不止于簡單的將一個個單詞翻譯成另一種自然語言,而是能夠像人工翻譯一樣,不斷向前回顧,能夠理解結(jié)構(gòu)復(fù)雜的句子,同時能夠聯(lián)系上下文進(jìn)行翻譯。最為明顯的就是現(xiàn)在的部分機器翻譯軟件已經(jīng)可以理解每一個代詞具體指代何人或何事物,這在許多年前是不可想象的。實現(xiàn)這種功能的關(guān)鍵,分別依賴于兩種神經(jīng)網(wǎng)絡(luò)架構(gòu):循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)。

1 強化學(xué)習(xí)

強化學(xué)習(xí)是人工智能領(lǐng)域熱門的研究方向,它是一種與監(jiān)督學(xué)習(xí)不一樣的學(xué)習(xí)范式,即通過一個智能體與環(huán)境進(jìn)行交互從而達(dá)到學(xué)習(xí)的目標(biāo)。強化學(xué)習(xí)在機器人AI方面獲得了很大的成功,從而引起了越來越多的關(guān)注。利用強化學(xué)習(xí)技術(shù),可以更好地解決NLP中的兩個經(jīng)典任務(wù):關(guān)系抽取和文本分類。在關(guān)系抽取中,用強化學(xué)習(xí)可以解決遠(yuǎn)程監(jiān)督方法自動生成的訓(xùn)練數(shù)據(jù)中的噪音問題;在文本分類中,利用強化學(xué)習(xí)文本能夠獲得更好的結(jié)構(gòu)化表示,并利用該表示得到了更好的文本分類效果。

強化學(xué)習(xí)的優(yōu)勢主要體現(xiàn)在:序列決策,即當(dāng)前決策影響后面的決策;試錯,即不告訴智能體怎樣決策,讓其不斷試錯;探索和開發(fā),即探索一些低概率事件,開發(fā)是利用當(dāng)前的最佳策略;未來收益,即當(dāng)前收益可能不是最佳的,對未來來講當(dāng)前決策最佳。由Google DeepMind使用強化學(xué)習(xí)訓(xùn)練出了一個智能體,它在Atari 2600游戲中取得了令人感嘆的表現(xiàn)。更令人驚訝的是,這種強大的性能僅僅是通過將游戲的屏幕和游戲過程中取得的獎勵作為輸入來實現(xiàn)的,這使通用人工智能的發(fā)展向前邁出了一大步。強化學(xué)習(xí)的目標(biāo)是生成一個與環(huán)境自主交互的智能體,通過反復(fù)試驗來學(xué)習(xí)最優(yōu)行為。目前,研究人員已經(jīng)開發(fā)了三種主要的方法來解決RL問題:基于價值函數(shù)的方法、基于策略的方法和行為批評家的方法。Google DeepMind使用的是一種基于價值函數(shù)的方法,即Deep Q-Network,它是一種深度卷積神經(jīng)網(wǎng)絡(luò)。以Atari 2600游戲中的Breakout為例,智能體的目標(biāo)是通過控制小球,使它擊中磚頭來獲取獎勵,并用球拍接住小球來避免生命的損失。這是一個典型的RL問題,它訓(xùn)練一個智能體與游戲環(huán)境進(jìn)行交互,并努力通過使用某些策略來獲得最大的獎勵。最終,通過迭代訓(xùn)練,智能體變得更加智能,能夠與游戲環(huán)境進(jìn)行交互并獲得很高的回報。

DQN模型有幾個重要的擴展。有些研究人員提出了一種使用競爭網(wǎng)絡(luò)來學(xué)習(xí)狀態(tài)的價值函數(shù)和與狀態(tài)相關(guān)聯(lián)的優(yōu)勢函數(shù),并將它們結(jié)合起來來估計動作的價值函數(shù)的方法。Double-DQN使用兩個估計量來解決DQN網(wǎng)絡(luò)的過度估計問題。還有一個重要的擴展是優(yōu)先級經(jīng)驗重放[,它使用了更加頻繁地對重要經(jīng)驗進(jìn)行采樣的方法。

2 自然語言處理

目前,強化學(xué)習(xí)在NLP方向的研究主要在對話管理、文本生成、機器翻譯、自動文本摘要、文本游戲、熱點預(yù)測和推薦等方面。在對話管理方面,Williams等人提出了使用混合編碼網(wǎng)絡(luò)(Hybrid Code Networks,簡稱HCNs)與監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)混合的方法,HCNs可以大大減少所需的訓(xùn)練數(shù)據(jù)的數(shù)量,同時還可以保留對話狀態(tài)的潛在的關(guān)鍵點,并且他們還通過改變梯度的更新策略來使用監(jiān)督學(xué)習(xí)或者強化學(xué)習(xí)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對原有的對話管理技術(shù)進(jìn)行了優(yōu)化。

現(xiàn)實世界中的許多問題都可以使用序列到序列(sequence to sequence)的方式來學(xué)習(xí)。其中重要的應(yīng)用包括文本生成、機器翻譯等。這類問題可以表示為將一個單詞句子映射到另一個單詞序列。對這些任務(wù)進(jìn)行建模最主要的挑戰(zhàn)是文本序列的長度是可變的,這些通常是未知的先驗知識。為了解決這個問題,有研究人員提出了一種編碼器-解碼器-長-短期存儲器(Long Short-Term Memory ,簡稱LSTM)體系結(jié)構(gòu),它被證明是一種有效的解決方式。其核心思想是使用一個LSTM對輸入序列進(jìn)行編碼,從而得到一個固定維度的向量來表示輸入序列。隨后,使用這個固定維度的向量,作為另外一個LSTM的輸入,進(jìn)行解碼得到最終的輸出序列。解碼過程本質(zhì)上是一個遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)語言模型。Guo[3]等人,提出了一種使用深度Q網(wǎng)絡(luò)(Deep Q-Network,簡稱DQN)來進(jìn)行迭代解碼的策略,首先使用編碼器-解碼-LSTM網(wǎng)絡(luò)對輸入序列進(jìn)行編碼,在此過程中自動生成文本的信息特征來表示DQN的內(nèi)部狀態(tài)和潛在的操作列表。然后使用DQN對輸出序列進(jìn)行迭代解碼,DQN會從操作列表中選擇哪個單詞來修改當(dāng)前解碼序列,新編輯的輸出序列隨后作為輸入,送入下一解碼迭代的DQN當(dāng)中。

關(guān)于提取文本摘要,最著名的解決方案就是Goldstein等人提出的使用最大邊際相關(guān)性(MMR)。然而,由于其貪婪性,MMR不能考慮整個摘要的質(zhì)量。另一種解決方案是使用優(yōu)化技術(shù),如整數(shù)線性規(guī)劃(ILP)來推斷句子的分?jǐn)?shù)并且同時考慮整個摘要的質(zhì)量。此外,還有少數(shù)研究者提出了使用RL來進(jìn)行自動文本摘要的方法(Goldstein等人)。他們的研究主要是在基于RL的文本自動摘要中使用手工來標(biāo)記復(fù)雜的特征。然而,為任務(wù)選擇重要的特征以及為新應(yīng)用程序重新生成新的特征是非常困難且耗時的工作。目前,最主流的NLP程序都是用深度學(xué)習(xí)來減輕手工標(biāo)記特征的負(fù)擔(dān),有研究人員提出了一種在RL方法中使用簡單特征嵌入的方法來對自動文本摘要任務(wù)進(jìn)行優(yōu)化。

從文本中學(xué)習(xí)控制策略也引起來研究人員極大的興趣。主要的應(yīng)用方向包括解釋軟件幫助文檔、導(dǎo)航和計算機游戲方面。游戲為基礎(chǔ)語言分析提供了一個豐富的領(lǐng)域。Gorniak和Roy開發(fā)了一個游戲角色,可以通過語音指令來適應(yīng)游戲環(huán)境。命令到動作的基礎(chǔ)是從一個用動作和狀態(tài)屬性手動注釋的腳本中學(xué)習(xí)獲得的。He和Ostendorf[6]提出了一種引入在線流行度預(yù)測和跟蹤任務(wù)作為基準(zhǔn)任務(wù),以結(jié)合組合的自然語言動作空間進(jìn)行強化學(xué)習(xí)的方法,采取以自然語言為特征的選項,以最大化長期回報為目標(biāo),考慮具有組合動作空間的任務(wù),其中每個動作是一組多個相互依賴的子動作。

3 結(jié)論

強化學(xué)習(xí)與自然語言處理作為人工智能領(lǐng)域最熱門研究方向,已經(jīng)吸引了越來越多學(xué)術(shù)界和工業(yè)界人士對其不斷的研究與發(fā)展,本文介紹了強化學(xué)習(xí)與自然語言處理結(jié)合使用的方法,將強化學(xué)習(xí)融入到自然語言處理當(dāng)中可以很好的對現(xiàn)有算法進(jìn)行優(yōu)化,對于自然語言處理的發(fā)展起到了極大的促進(jìn)作用。

猜你喜歡
人工智能動作文本
在808DA上文本顯示的改善
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業(yè)
動作描寫要具體
畫動作
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
動作描寫不可少
下一幕,人工智能!
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产精品永久免费嫩草研究院| 午夜精品久久久久久久无码软件| 亚洲六月丁香六月婷婷蜜芽| 青青青草国产| 精品三级网站| 国产在线97| 国产精品成人免费视频99| 小说 亚洲 无码 精品| 视频二区中文无码| 免费人成黄页在线观看国产| 国产尤物在线播放| 亚洲美女一区二区三区| a毛片在线免费观看| 国产精品hd在线播放| 精品久久蜜桃| 中文字幕一区二区人妻电影| 免费毛片网站在线观看| 在线精品亚洲国产| 免费国产高清精品一区在线| 亚洲美女视频一区| 一级毛片基地| 国产最新无码专区在线| 狠狠色狠狠色综合久久第一次| 国产精品成| 国产福利一区二区在线观看| 国内精自线i品一区202| 欧美怡红院视频一区二区三区| 精品国产成人三级在线观看| 日韩欧美在线观看| 欧美亚洲欧美| 欧美高清三区| 亚洲精品老司机| 91视频99| 成人免费视频一区| 国产成人精品一区二区三区| 久久精品这里只有精99品| 无码免费的亚洲视频| 88国产经典欧美一区二区三区| 国产真实乱人视频| 黑人巨大精品欧美一区二区区| 亚洲va精品中文字幕| 毛片卡一卡二| 青青国产成人免费精品视频| 91精品专区| 亚洲欧美日韩另类在线一| 国产精品美女网站| 在线观看亚洲国产| 福利国产在线| 97久久超碰极品视觉盛宴| 日韩精品无码不卡无码| 中文字幕人成乱码熟女免费| 先锋资源久久| 国产一区二区三区免费| 在线无码九区| 久久久亚洲色| 婷婷激情五月网| 国产伦片中文免费观看| 日本午夜三级| 四虎永久在线| 青草91视频免费观看| 欧美a在线| 精品福利视频网| 欧美综合成人| 国产精品视频观看裸模| 婷婷综合缴情亚洲五月伊| 五月婷婷丁香色| 日本一本在线视频| 国产成人一区免费观看| 露脸一二三区国语对白| 欧亚日韩Av| 免费a在线观看播放| 欧美中文字幕无线码视频| 91美女视频在线观看| 91po国产在线精品免费观看| 欧美中出一区二区| 国产主播喷水| 国产精品综合色区在线观看| 国产精品网曝门免费视频| 国产欧美日韩va另类在线播放| 成人一级免费视频| aa级毛片毛片免费观看久| 亚洲六月丁香六月婷婷蜜芽|