基于深度強化學習的對話系統研究

2024-06-13 00:00:00宋建史紀強劉長治崔杰

中國信息化 2024年5期

一、引言

隨著人工智能技術的快速發展，對話系統在人機交互、智能助理和客戶服務等領域嶄露頭角，成為促進人機溝通的關鍵技術之一。對話系統場景可以建模成為馬爾可夫決策過程（Markov Decision Process，MDP），而強化學習也是在馬爾可夫決策過程基礎上發展起來的，所以利用強化學習解決對話系統場景有著天然的優勢。但是當模型級別過大，動作過于連續時，強化學習的缺點就暴露無疑。因此，深度強化學習算法開始逐漸走上舞臺。深度強化學習將深度學習和強化學習相結合，為對話系統帶來了新的思路和方法。

二、對話系統的發展

早在20世紀60年代，人類就開始了對話系統的研究。其中，Eliza被視為全球首個智能聊天對話系統。基于對話系統的設計目標和使用情境，可以將對話系統分為任務驅動型和開放域兩類。任務驅動型系統旨在完成特定任務，例如預訂服務、查詢信息等，其目標明確。另一方面，開放域系統更注重自由對話，模擬自然交流，無固定任務目標。任務驅動型系統通常需要特定領域知識和數據庫支持，而開放域系統則更注重處理多樣化的話題和用戶提問。隨著強化學習算法的快速發展，對話系統的研究也取得了顯著的進步。其中，Levin等人首次將對話系統視為一個馬爾可夫決策過程問題，并詳細闡述了對話系統建模為MDP問題的復雜性，以及使用RL算法優化對話策略的合理性。隨著深度學習技術的不斷突破，神經網絡與強化學習技術的融合，深度強化學習（DRL）方法在序列決策問題的學習策略中展現出了強大的潛力。

三、基于深度強化學習的對話系統

基于深度強化學習的對話系統的架構主要包含以下幾個模塊：自然語言理解模塊（NLU）、自然語言生成模塊（NLG）、對話策略學習、對話狀態跟蹤、用戶模擬器和世界模型。這六個部分協同工作，形成一個端到端的對話系統，使系統能夠理解用戶的目標、執行任務并以自然的方式與用戶進行交互。這種體系結構使得任務驅動型對話系統能夠在特定領域內提供有針對性的服務。

（一）自然語言理解模塊

采用基于雙向長短期記憶網絡（B-LSTM）的自然語言理解模塊，能夠有效地實現意圖預測和語義槽識別兩個任務。該模塊可以學習到多種對話動作和語句之間的關聯規律，從而在實際應用中能夠更好地理解人類語言并進行相應的回應。

（二）自然語言生成模塊

該模塊的設計旨在將用戶的自然語言輸入轉化為計算機可以理解的形式，以便與用戶進行交互或提供信息。其中生成對抗網絡可以通過對抗訓練來提高生成文本的質量和多樣性。因此，選擇采用基于規則的語法生成算法和生成對抗網絡的混合架構來進行自然語言的生成。

（三）用戶模擬器

用戶模擬器是對話系統的互動環境，可以為用戶提供任意多的數據，并能很好地探測到狀態空間與動作空間。用戶模擬器采用Agenda-Based來構建，在互動過程中將用戶的狀態存入堆疊中，維護用戶的對話歷史與對話目標，而狀態的更新則是采用Push和POP操作。

（四）世界模型

在任務型對話系統中，世界模型的設計旨在使系統能夠理解用戶的任務，獲取相關信息，并以準確、高效的方式執行任務。不同系統可能有不同的世界模型設計，具體取決于任務的特點和系統的目標。

（五）對話管理模塊

對話管理系統一般由對話的狀態追蹤和會話策略學習兩部分組成，二者協同工作，構成閉環體系。對話狀態追蹤為會話提供語境，對話策略學習基于此做出判斷并產生響應。隨后，對話狀態追蹤會對會話狀態進行更新，并反復循環該流程，以便在多個會話中進行管理和操作。

對于任務驅動型的對話過程，將其視為馬爾科夫決策過程。馬爾科夫決策過程提供了一種形式化的方式來處理具有不確定性和隨機性的決策問題，其中代理與用戶模擬器在交互中選取一系列相對應動作，以達到對話的目的。采用了改進的TD3算法，它是深度確定性策略梯度（DDPG）的改進版本，旨在提高穩定性和訓練效果。此算法利用對話狀態，根據相應的策略選擇動作，此時，環境返回給代理相應的獎勵，對話狀態由此更新為。在更新過程中，對話經驗會被保存到經驗回放池中，對于Q值的評估則使用兩個結構完全一致的Critic網絡從中選取較小值作為更新目標。這些改進有助于減小訓練過程中的噪音問題，提高算法的收斂速度和性能。在Mian Net中的Critic-Net中，均方誤差損失函數的最小化由參數和環境因素來調節。采用TD-error取代梯度計算來處理對話任務的離散數據。具體而言，TD-error由當前獎勵、下一狀態值函數估計和當前狀態值函數估計組成。這個差異信號被用來調整值函數的估計，以便智能體更準確地理解環境并改善其決策策略。TD-error算法在訓練過程中允許智能體逐步更新其價值估計，促使其學到適應不同環境的策略。Critic網絡使用TD-error來評估值函數的誤差，Actor網絡基于這些值函數的估計來生成確定性策略，從而選擇一個具體的動作。最后，使用batch訓練，對對話策略的參數進行迭代更新。

四、實驗評估

（一）數據集

本文所模擬的對話情景為電影票的預定，所選用的數據集是通過Amazon Mechanical Turk收集的，并且已經對其數據進行了標注。

（二）評價指標

針對于對話系統的評估指標主要有三個：對話成功率、對話平均回報和對話平均輪數。在實驗中，假設N為總的對話數目，n為成功的對話數目，R為成功對話在交互過程中所獲得的總回報，a為所有對話在交互過程中總對話輪數。則：

對話成功率= n / N （1）

對話平均回報= R / N （2）

對話平均輪數= a / N （3）

其中，第一個評估標準是對話成功率，用于衡量系統整體性能，檢驗對話系統在用戶任務完成效率方面的表現。而后兩個評估標準，即對話平均回報和對話平均輪數，則用于評估系統的魯棒性。在系統設計階段中不僅需要確保系統具備完成任務的能力，還需要保證其在任務執行過程中能夠做出明智的決策，這可以使系統能夠在較短的對話輪次內獲取更多的回報。

（三）實驗結果分析

參數實驗設置中，Main Net、Target Net以及世界模型均采用了兩層的全連接神經網絡作為基礎結構。每個網絡層的節點數設置為80，激活函數選擇了tanh，γ參數被設置為0.9。真實經驗回放池和模擬經驗回放池的容量大小被設定為5000。在Actor網絡參數優化中，我們采用了Adam方法進行優化，而在Critic網絡參數優化中，我們選擇了RMSProp方法。表1詳細記錄了在不同模型在10K輪對話的最終測試結果。

TD3模型相較于其他模型，表現更佳，對話成功率較高，并且在對話輪次較少的情況下可以達到55.56的高回報，模型更易收斂，更適合于離散的、大規模的對話系統。

五、結論

隨著自然語言處理和深度學習技術的不斷進步，對話系統將變得更加智能和逼真，能夠更好地理解用戶的意圖和情感，實現更自然的對話體驗。此外，多模態對話系統將整合語音、圖像等多種信息，提供更豐富的交互方式。對話系統也可用于自動化任務，減輕人工負擔，提高效率。此外，它們能夠處理大規模的數據和復雜的信息，支持個性化服務和定制化體驗。

作者單位：中國石油化工股份有限公司勝利油田分公司物探研究院