基于強化學(xué)習(xí)的自然語言處理技術(shù)

2020-11-24 17:40:34馮少迪臺灣長庚大學(xué)

數(shù)碼世界 2020年3期

馮少迪臺灣長庚大學(xué)

引言

隨著人工智能技術(shù)的發(fā)展，機器翻譯作為自然語言處理（Natural Language Processing，簡稱NLP）研究的重要組成部分受到人們的廣泛關(guān)注。經(jīng)過了多年的研究和努力，以機器翻譯為代表的自然語言處理技術(shù)取得了巨大的進(jìn)展，并且在未來有著廣闊的應(yīng)用前景。機器翻譯（Machine Translation）是指通過特定的計算機程序?qū)⒁环N文本形式或聲音形式的人工自然語言，翻譯成另一種形式的人工自然語言，是計算機語言學(xué)、人工智能和數(shù)理邏輯相結(jié)合的一門交叉學(xué)科。現(xiàn)在，機器翻譯已經(jīng)成為世界自然語言處理研究的熱門。網(wǎng)絡(luò)化和國際化對翻譯的需求日益增大，翻譯軟件商業(yè)化的趨勢也非常明顯。近年來，加入深度學(xué)習(xí)、強化學(xué)習(xí)（Reinforcement Learning，簡稱RL）等人工智能的機器翻譯已經(jīng)不止于簡單的將一個個單詞翻譯成另一種自然語言，而是能夠像人工翻譯一樣，不斷向前回顧，能夠理解結(jié)構(gòu)復(fù)雜的句子，同時能夠聯(lián)系上下文進(jìn)行翻譯。最為明顯的就是現(xiàn)在的部分機器翻譯軟件已經(jīng)可以理解每一個代詞具體指代何人或何事物，這在許多年前是不可想象的。實現(xiàn)這種功能的關(guān)鍵，分別依賴于兩種神經(jīng)網(wǎng)絡(luò)架構(gòu)：循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，簡稱RNN）和卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）。

1 強化學(xué)習(xí)

強化學(xué)習(xí)是人工智能領(lǐng)域熱門的研究方向，它是一種與監(jiān)督學(xué)習(xí)不一樣的學(xué)習(xí)范式，即通過一個智能體與環(huán)境進(jìn)行交互從而達(dá)到學(xué)習(xí)的目標(biāo)。強化學(xué)習(xí)在機器人AI方面獲得了很大的成功，從而引起了越來越多的關(guān)注。利用強化學(xué)習(xí)技術(shù)，可以更好地解決NLP中的兩個經(jīng)典任務(wù)：關(guān)系抽取和文本分類。在關(guān)系抽取中，用強化學(xué)習(xí)可以解決遠(yuǎn)程監(jiān)督方法自動生成的訓(xùn)練數(shù)據(jù)中的噪音問題；在文本分類中，利用強化學(xué)習(xí)文本能夠獲得更好的結(jié)構(gòu)化表示，并利用該表示得到了更好的文本分類效果。

強化學(xué)習(xí)的優(yōu)勢主要體現(xiàn)在：序列決策，即當(dāng)前決策影響后面的決策；試錯，即不告訴智能體怎樣決策，讓其不斷試錯；探索和開發(fā)，即探索一些低概率事件，開發(fā)是利用當(dāng)前的最佳策略；未來收益，即當(dāng)前收益可能不是最佳的，對未來來講當(dāng)前決策最佳。由Google DeepMind使用強化學(xué)習(xí)訓(xùn)練出了一個智能體，它在Atari 2600游戲中取得了令人感嘆的表現(xiàn)。更令人驚訝的是，這種強大的性能僅僅是通過將游戲的屏幕和游戲過程中取得的獎勵作為輸入來實現(xiàn)的，這使通用人工智能的發(fā)展向前邁出了一大步。強化學(xué)習(xí)的目標(biāo)是生成一個與環(huán)境自主交互的智能體，通過反復(fù)試驗來學(xué)習(xí)最優(yōu)行為。目前，研究人員已經(jīng)開發(fā)了三種主要的方法來解決RL問題：基于價值函數(shù)的方法、基于策略的方法和行為批評家的方法。Google DeepMind使用的是一種基于價值函數(shù)的方法，即Deep Q-Network，它是一種深度卷積神經(jīng)網(wǎng)絡(luò)。以Atari 2600游戲中的Breakout為例，智能體的目標(biāo)是通過控制小球，使它擊中磚頭來獲取獎勵，并用球拍接住小球來避免生命的損失。這是一個典型的RL問題，它訓(xùn)練一個智能體與游戲環(huán)境進(jìn)行交互，并努力通過使用某些策略來獲得最大的獎勵。最終，通過迭代訓(xùn)練，智能體變得更加智能，能夠與游戲環(huán)境進(jìn)行交互并獲得很高的回報。

DQN模型有幾個重要的擴展。有些研究人員提出了一種使用競爭網(wǎng)絡(luò)來學(xué)習(xí)狀態(tài)的價值函數(shù)和與狀態(tài)相關(guān)聯(lián)的優(yōu)勢函數(shù)，并將它們結(jié)合起來來估計動作的價值函數(shù)的方法。Double-DQN使用兩個估計量來解決DQN網(wǎng)絡(luò)的過度估計問題。還有一個重要的擴展是優(yōu)先級經(jīng)驗重放[，它使用了更加頻繁地對重要經(jīng)驗進(jìn)行采樣的方法。

2 自然語言處理

目前，強化學(xué)習(xí)在NLP方向的研究主要在對話管理、文本生成、機器翻譯、自動文本摘要、文本游戲、熱點預(yù)測和推薦等方面。在對話管理方面，Williams等人提出了使用混合編碼網(wǎng)絡(luò)（Hybrid Code Networks，簡稱HCNs）與監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)混合的方法，HCNs可以大大減少所需的訓(xùn)練數(shù)據(jù)的數(shù)量，同時還可以保留對話狀態(tài)的潛在的關(guān)鍵點，并且他們還通過改變梯度的更新策略來使用監(jiān)督學(xué)習(xí)或者強化學(xué)習(xí)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，對原有的對話管理技術(shù)進(jìn)行了優(yōu)化。

現(xiàn)實世界中的許多問題都可以使用序列到序列（sequence to sequence）的方式來學(xué)習(xí)。其中重要的應(yīng)用包括文本生成、機器翻譯等。這類問題可以表示為將一個單詞句子映射到另一個單詞序列。對這些任務(wù)進(jìn)行建模最主要的挑戰(zhàn)是文本序列的長度是可變的，這些通常是未知的先驗知識。為了解決這個問題，有研究人員提出了一種編碼器-解碼器-長-短期存儲器（Long Short-Term Memory ，簡稱LSTM）體系結(jié)構(gòu)，它被證明是一種有效的解決方式。其核心思想是使用一個LSTM對輸入序列進(jìn)行編碼，從而得到一個固定維度的向量來表示輸入序列。隨后，使用這個固定維度的向量，作為另外一個LSTM的輸入，進(jìn)行解碼得到最終的輸出序列。解碼過程本質(zhì)上是一個遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，簡稱RNN）語言模型。Guo[3]等人，提出了一種使用深度Q網(wǎng)絡(luò)（Deep Q-Network，簡稱DQN）來進(jìn)行迭代解碼的策略，首先使用編碼器-解碼-LSTM網(wǎng)絡(luò)對輸入序列進(jìn)行編碼，在此過程中自動生成文本的信息特征來表示DQN的內(nèi)部狀態(tài)和潛在的操作列表。然后使用DQN對輸出序列進(jìn)行迭代解碼，DQN會從操作列表中選擇哪個單詞來修改當(dāng)前解碼序列，新編輯的輸出序列隨后作為輸入，送入下一解碼迭代的DQN當(dāng)中。

關(guān)于提取文本摘要，最著名的解決方案就是Goldstein等人提出的使用最大邊際相關(guān)性（MMR）。然而，由于其貪婪性，MMR不能考慮整個摘要的質(zhì)量。另一種解決方案是使用優(yōu)化技術(shù)，如整數(shù)線性規(guī)劃（ILP）來推斷句子的分?jǐn)?shù)并且同時考慮整個摘要的質(zhì)量。此外，還有少數(shù)研究者提出了使用RL來進(jìn)行自動文本摘要的方法（Goldstein等人）。他們的研究主要是在基于RL的文本自動摘要中使用手工來標(biāo)記復(fù)雜的特征。然而，為任務(wù)選擇重要的特征以及為新應(yīng)用程序重新生成新的特征是非常困難且耗時的工作。目前，最主流的NLP程序都是用深度學(xué)習(xí)來減輕手工標(biāo)記特征的負(fù)擔(dān)，有研究人員提出了一種在RL方法中使用簡單特征嵌入的方法來對自動文本摘要任務(wù)進(jìn)行優(yōu)化。

從文本中學(xué)習(xí)控制策略也引起來研究人員極大的興趣。主要的應(yīng)用方向包括解釋軟件幫助文檔、導(dǎo)航和計算機游戲方面。游戲為基礎(chǔ)語言分析提供了一個豐富的領(lǐng)域。Gorniak和Roy開發(fā)了一個游戲角色，可以通過語音指令來適應(yīng)游戲環(huán)境。命令到動作的基礎(chǔ)是從一個用動作和狀態(tài)屬性手動注釋的腳本中學(xué)習(xí)獲得的。He和Ostendorf[6]提出了一種引入在線流行度預(yù)測和跟蹤任務(wù)作為基準(zhǔn)任務(wù)，以結(jié)合組合的自然語言動作空間進(jìn)行強化學(xué)習(xí)的方法，采取以自然語言為特征的選項，以最大化長期回報為目標(biāo)，考慮具有組合動作空間的任務(wù)，其中每個動作是一組多個相互依賴的子動作。

3 結(jié)論

強化學(xué)習(xí)與自然語言處理作為人工智能領(lǐng)域最熱門研究方向，已經(jīng)吸引了越來越多學(xué)術(shù)界和工業(yè)界人士對其不斷的研究與發(fā)展，本文介紹了強化學(xué)習(xí)與自然語言處理結(jié)合使用的方法，將強化學(xué)習(xí)融入到自然語言處理當(dāng)中可以很好的對現(xiàn)有算法進(jìn)行優(yōu)化，對于自然語言處理的發(fā)展起到了極大的促進(jìn)作用。