999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學(xué)習(xí)的自然語言處理技術(shù)

2020-11-24 17:40:34馮少迪臺灣長庚大學(xué)
數(shù)碼世界 2020年3期
關(guān)鍵詞:人工智能動作文本

馮少迪 臺灣長庚大學(xué)

引言

隨著人工智能技術(shù)的發(fā)展,機器翻譯作為自然語言處理(Natural Language Processing,簡稱NLP)研究的重要組成部分受到人們的廣泛關(guān)注。經(jīng)過了多年的研究和努力,以機器翻譯為代表的自然語言處理技術(shù)取得了巨大的進(jìn)展,并且在未來有著廣闊的應(yīng)用前景。機器翻譯(Machine Translation)是指通過特定的計算機程序?qū)⒁环N文本形式或聲音形式的人工自然語言,翻譯成另一種形式的人工自然語言,是計算機語言學(xué)、人工智能和數(shù)理邏輯相結(jié)合的一門交叉學(xué)科。現(xiàn)在,機器翻譯已經(jīng)成為世界自然語言處理研究的熱門。網(wǎng)絡(luò)化和國際化對翻譯的需求日益增大,翻譯軟件商業(yè)化的趨勢也非常明顯。近年來,加入深度學(xué)習(xí)、強化學(xué)習(xí)(Reinforcement Learning,簡稱RL)等人工智能的機器翻譯已經(jīng)不止于簡單的將一個個單詞翻譯成另一種自然語言,而是能夠像人工翻譯一樣,不斷向前回顧,能夠理解結(jié)構(gòu)復(fù)雜的句子,同時能夠聯(lián)系上下文進(jìn)行翻譯。最為明顯的就是現(xiàn)在的部分機器翻譯軟件已經(jīng)可以理解每一個代詞具體指代何人或何事物,這在許多年前是不可想象的。實現(xiàn)這種功能的關(guān)鍵,分別依賴于兩種神經(jīng)網(wǎng)絡(luò)架構(gòu):循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)。

1 強化學(xué)習(xí)

強化學(xué)習(xí)是人工智能領(lǐng)域熱門的研究方向,它是一種與監(jiān)督學(xué)習(xí)不一樣的學(xué)習(xí)范式,即通過一個智能體與環(huán)境進(jìn)行交互從而達(dá)到學(xué)習(xí)的目標(biāo)。強化學(xué)習(xí)在機器人AI方面獲得了很大的成功,從而引起了越來越多的關(guān)注。利用強化學(xué)習(xí)技術(shù),可以更好地解決NLP中的兩個經(jīng)典任務(wù):關(guān)系抽取和文本分類。在關(guān)系抽取中,用強化學(xué)習(xí)可以解決遠(yuǎn)程監(jiān)督方法自動生成的訓(xùn)練數(shù)據(jù)中的噪音問題;在文本分類中,利用強化學(xué)習(xí)文本能夠獲得更好的結(jié)構(gòu)化表示,并利用該表示得到了更好的文本分類效果。

強化學(xué)習(xí)的優(yōu)勢主要體現(xiàn)在:序列決策,即當(dāng)前決策影響后面的決策;試錯,即不告訴智能體怎樣決策,讓其不斷試錯;探索和開發(fā),即探索一些低概率事件,開發(fā)是利用當(dāng)前的最佳策略;未來收益,即當(dāng)前收益可能不是最佳的,對未來來講當(dāng)前決策最佳。由Google DeepMind使用強化學(xué)習(xí)訓(xùn)練出了一個智能體,它在Atari 2600游戲中取得了令人感嘆的表現(xiàn)。更令人驚訝的是,這種強大的性能僅僅是通過將游戲的屏幕和游戲過程中取得的獎勵作為輸入來實現(xiàn)的,這使通用人工智能的發(fā)展向前邁出了一大步。強化學(xué)習(xí)的目標(biāo)是生成一個與環(huán)境自主交互的智能體,通過反復(fù)試驗來學(xué)習(xí)最優(yōu)行為。目前,研究人員已經(jīng)開發(fā)了三種主要的方法來解決RL問題:基于價值函數(shù)的方法、基于策略的方法和行為批評家的方法。Google DeepMind使用的是一種基于價值函數(shù)的方法,即Deep Q-Network,它是一種深度卷積神經(jīng)網(wǎng)絡(luò)。以Atari 2600游戲中的Breakout為例,智能體的目標(biāo)是通過控制小球,使它擊中磚頭來獲取獎勵,并用球拍接住小球來避免生命的損失。這是一個典型的RL問題,它訓(xùn)練一個智能體與游戲環(huán)境進(jìn)行交互,并努力通過使用某些策略來獲得最大的獎勵。最終,通過迭代訓(xùn)練,智能體變得更加智能,能夠與游戲環(huán)境進(jìn)行交互并獲得很高的回報。

DQN模型有幾個重要的擴展。有些研究人員提出了一種使用競爭網(wǎng)絡(luò)來學(xué)習(xí)狀態(tài)的價值函數(shù)和與狀態(tài)相關(guān)聯(lián)的優(yōu)勢函數(shù),并將它們結(jié)合起來來估計動作的價值函數(shù)的方法。Double-DQN使用兩個估計量來解決DQN網(wǎng)絡(luò)的過度估計問題。還有一個重要的擴展是優(yōu)先級經(jīng)驗重放[,它使用了更加頻繁地對重要經(jīng)驗進(jìn)行采樣的方法。

2 自然語言處理

目前,強化學(xué)習(xí)在NLP方向的研究主要在對話管理、文本生成、機器翻譯、自動文本摘要、文本游戲、熱點預(yù)測和推薦等方面。在對話管理方面,Williams等人提出了使用混合編碼網(wǎng)絡(luò)(Hybrid Code Networks,簡稱HCNs)與監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)混合的方法,HCNs可以大大減少所需的訓(xùn)練數(shù)據(jù)的數(shù)量,同時還可以保留對話狀態(tài)的潛在的關(guān)鍵點,并且他們還通過改變梯度的更新策略來使用監(jiān)督學(xué)習(xí)或者強化學(xué)習(xí)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對原有的對話管理技術(shù)進(jìn)行了優(yōu)化。

現(xiàn)實世界中的許多問題都可以使用序列到序列(sequence to sequence)的方式來學(xué)習(xí)。其中重要的應(yīng)用包括文本生成、機器翻譯等。這類問題可以表示為將一個單詞句子映射到另一個單詞序列。對這些任務(wù)進(jìn)行建模最主要的挑戰(zhàn)是文本序列的長度是可變的,這些通常是未知的先驗知識。為了解決這個問題,有研究人員提出了一種編碼器-解碼器-長-短期存儲器(Long Short-Term Memory ,簡稱LSTM)體系結(jié)構(gòu),它被證明是一種有效的解決方式。其核心思想是使用一個LSTM對輸入序列進(jìn)行編碼,從而得到一個固定維度的向量來表示輸入序列。隨后,使用這個固定維度的向量,作為另外一個LSTM的輸入,進(jìn)行解碼得到最終的輸出序列。解碼過程本質(zhì)上是一個遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)語言模型。Guo[3]等人,提出了一種使用深度Q網(wǎng)絡(luò)(Deep Q-Network,簡稱DQN)來進(jìn)行迭代解碼的策略,首先使用編碼器-解碼-LSTM網(wǎng)絡(luò)對輸入序列進(jìn)行編碼,在此過程中自動生成文本的信息特征來表示DQN的內(nèi)部狀態(tài)和潛在的操作列表。然后使用DQN對輸出序列進(jìn)行迭代解碼,DQN會從操作列表中選擇哪個單詞來修改當(dāng)前解碼序列,新編輯的輸出序列隨后作為輸入,送入下一解碼迭代的DQN當(dāng)中。

關(guān)于提取文本摘要,最著名的解決方案就是Goldstein等人提出的使用最大邊際相關(guān)性(MMR)。然而,由于其貪婪性,MMR不能考慮整個摘要的質(zhì)量。另一種解決方案是使用優(yōu)化技術(shù),如整數(shù)線性規(guī)劃(ILP)來推斷句子的分?jǐn)?shù)并且同時考慮整個摘要的質(zhì)量。此外,還有少數(shù)研究者提出了使用RL來進(jìn)行自動文本摘要的方法(Goldstein等人)。他們的研究主要是在基于RL的文本自動摘要中使用手工來標(biāo)記復(fù)雜的特征。然而,為任務(wù)選擇重要的特征以及為新應(yīng)用程序重新生成新的特征是非常困難且耗時的工作。目前,最主流的NLP程序都是用深度學(xué)習(xí)來減輕手工標(biāo)記特征的負(fù)擔(dān),有研究人員提出了一種在RL方法中使用簡單特征嵌入的方法來對自動文本摘要任務(wù)進(jìn)行優(yōu)化。

從文本中學(xué)習(xí)控制策略也引起來研究人員極大的興趣。主要的應(yīng)用方向包括解釋軟件幫助文檔、導(dǎo)航和計算機游戲方面。游戲為基礎(chǔ)語言分析提供了一個豐富的領(lǐng)域。Gorniak和Roy開發(fā)了一個游戲角色,可以通過語音指令來適應(yīng)游戲環(huán)境。命令到動作的基礎(chǔ)是從一個用動作和狀態(tài)屬性手動注釋的腳本中學(xué)習(xí)獲得的。He和Ostendorf[6]提出了一種引入在線流行度預(yù)測和跟蹤任務(wù)作為基準(zhǔn)任務(wù),以結(jié)合組合的自然語言動作空間進(jìn)行強化學(xué)習(xí)的方法,采取以自然語言為特征的選項,以最大化長期回報為目標(biāo),考慮具有組合動作空間的任務(wù),其中每個動作是一組多個相互依賴的子動作。

3 結(jié)論

強化學(xué)習(xí)與自然語言處理作為人工智能領(lǐng)域最熱門研究方向,已經(jīng)吸引了越來越多學(xué)術(shù)界和工業(yè)界人士對其不斷的研究與發(fā)展,本文介紹了強化學(xué)習(xí)與自然語言處理結(jié)合使用的方法,將強化學(xué)習(xí)融入到自然語言處理當(dāng)中可以很好的對現(xiàn)有算法進(jìn)行優(yōu)化,對于自然語言處理的發(fā)展起到了極大的促進(jìn)作用。

猜你喜歡
人工智能動作文本
在808DA上文本顯示的改善
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業(yè)
動作描寫要具體
畫動作
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
動作描寫不可少
下一幕,人工智能!
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 青青青国产视频手机| 精品三级网站| 国产视频你懂得| 女人18毛片久久| 欧美一级在线看| 亚洲男人的天堂在线| 99精品在线看| 中文字幕无线码一区| 精品欧美一区二区三区久久久| 中文字幕精品一区二区三区视频| 亚洲an第二区国产精品| 992tv国产人成在线观看| 成人毛片免费观看| 国产午夜人做人免费视频中文| 一级毛片免费的| 九九久久精品国产av片囯产区 | 欧美成人午夜视频免看| 欧美日本在线观看| 免费久久一级欧美特大黄| 亚洲国产日韩一区| 国产无码在线调教| 无码高清专区| 国产欧美日韩在线一区| 亚洲国产成人精品一二区| 久久黄色毛片| 色妺妺在线视频喷水| 国产9191精品免费观看| 亚洲国模精品一区| 国产区网址| 亚洲天堂在线视频| AV片亚洲国产男人的天堂| 一级爆乳无码av| 91人妻在线视频| 蜜臀AVWWW国产天堂| 国产精品女熟高潮视频| 成人午夜视频网站| 91久久国产综合精品| 久久综合婷婷| 全部免费特黄特色大片视频| 国产午夜福利在线小视频| 亚洲午夜福利精品无码不卡| 欧美成人区| 一本色道久久88亚洲综合| 黄色在线网| 国产欧美视频在线观看| 一本大道在线一本久道| 美女无遮挡免费视频网站| 91精品国产丝袜| 婷婷亚洲天堂| 久久黄色一级片| 国产成人一区二区| 美女扒开下面流白浆在线试听| 一本大道视频精品人妻| 99精品伊人久久久大香线蕉| 国产精品久久久久久久伊一| 欧美啪啪视频免码| 日韩国产综合精选| 久久中文字幕不卡一二区| 国产精品成人AⅤ在线一二三四| 日韩欧美视频第一区在线观看| 动漫精品啪啪一区二区三区| 亚洲美女高潮久久久久久久| 国产精品香蕉在线| 蜜桃视频一区二区| 亚洲综合网在线观看| 中文字幕免费视频| 中文字幕亚洲乱码熟女1区2区| 国产精品九九视频| 动漫精品中文字幕无码| 99久久婷婷国产综合精| 欧美色视频网站| 国产精品成人一区二区不卡| 亚洲日韩AV无码精品| 伊人丁香五月天久久综合 | 中文字幕久久波多野结衣| 无码'专区第一页| 国产精品亚洲日韩AⅤ在线观看| 亚洲综合专区| 国产真实乱子伦精品视手机观看| 国产丝袜无码精品| 狠狠做深爱婷婷综合一区| 精品福利国产|