基于大語言模型的復雜任務自主規劃處理框架

2024-04-30 08:08:12武萬森尹全軍陽東升王飛躍

自動化學報 2024年4期

秦龍武萬森劉丹胡越尹全軍陽東升王飛躍

大語言模型(Large language models,LLMs)憑借其豐富的知識儲備和強大的推理能力,在自然語言理解和交互式知識查詢等任務展現出令人矚目的效果[1].然而,大模型常面臨幻覺輸出、知識更新滯后以及領域知識理解不足等問題,這些挑戰影響了其在信息真實性、時效性和邏輯一致性等方面的可靠性[2].隨著上下文學習(In-context learning)[3]、思維鏈(Chain-of-thoughts)[4]以及外部資源注入[5]等方法的應用,大模型在邏輯推理和復雜任務分析方面取得了巨大進步[2].工具接口的調用是大模型的典型推理應用之一,典型的應用包括網絡搜索[6]、計算器調用[7]、數據庫查詢[8]以及數學問題求解[9]等.這些應用可以彌補大模型在特定領域任務上的不足,釋放其在解決復雜任務上的潛力,使系統更精準地理解和執行用戶輸入,實現用戶與系統之間更加自然、便捷的交互,在中臺調度[10-11]、具身智能[12]、軍事模擬仿真[13]和平行智能[14]等領域具有廣闊的應用前景.

為了指導大模型有效利用這些工具接口,當前的研究通過在上下文中加入工具使用的示例來引導大模型[15],或者進行微調來優化大模型在工具使用上的性能[7,16].例如,Toolformer[7]采用自監督的方式來微調大模型,使其能夠獲得調用API 的能力,在單步工具接口調用任務上取得了突破.但實際應用往往需要進行連續多步工具調用,例如在指揮控制場景中,計算與目標位置的距離這一基礎任務涉及到三個步驟,即: 1)獲取當前自身的位置;2)獲取目標的位置;3)計算兩個坐標之間的距離.雖然詳細的指令能更好地引導模型實現任務目標,但人類往往傾向于提供粗粒度、高層次的指令.在實際情況中,指揮員通常會直接下達計算距離的命令,而不會給出具體步驟,這就需要大模型在理解上下文并且對該任務進行規劃后,調用相應的接口來執行.ToolLLM[17]使用深度優先搜索策略,邊規劃邊執行指令.TPTU[8]提出基于任務規劃和工具調用的分步處理思路,提升模型應對復雜任務的能力.然而,現有的模型在這種高層次指令的任務規劃過程中,經常出現中間步驟缺失、重復、突然中斷等不連貫的問題,主要原因在于: 1)由于工具類型和應用領域等差異,現有的大模型僅靠提示學習或者思維鏈方法直接推理輸出結果難以有效地泛化到新的工具、任務以及應用領域;2)具備單步工具調用和執行能力的模型在多步調用的過程中,存在中途模型遺忘或混淆當前應執行的任務以及無法對歷史的運算結果進行整合輸出最終答案的問題.

為解決上述問題,本文提出基于大語言模型的復雜任務自主規劃處理框架AutoPlan,整體框架如圖1 所示.具體來說,AutoPlan 將一個復雜任務分成兩個階段,先通過一個復雜任務規劃(Complex task planning,CTP)模型對復雜任務進行規劃,得到一個元任務序列.然后再利用遞進式Re-Act 提示(Progressive ReAct prompting,PRP)模型執行元任務序列,并輸出最終結果,從而實現對復雜指令的自主規劃處理.為驗證上述方法的可行性,本文構建全新的復雜任務規劃與執行數據集(Complex task planning and execution dataset,CTPaE),旨在為復雜任務規劃與執行研究提供一個測試基準,填補該領域的研究空白.CTPaE 的構建經歷模板構建、自動拆解和人工評估三個步驟,以軍事戰略游戲為背景,具備多樣的任務類型和工具種類.

圖1 復雜任務處理框架AutoPlan 示意圖Fig.1 Diagram of AutoPlan framework for complex task processing

總結來看,本文的主要貢獻在于: 1) 提出全新的復雜任務規劃與執行數據集;2) 提出基于大模型的自動規劃和工具調用框架AutoPlan,利用先進行任務規劃后執行的思路,并且設計CTP 模型和PRP 模型來有效解決復雜任務帶來的挑戰;3) 與多個經典算法進行對比實驗,結果證明了CTPaE的挑戰性以及本文提出方法的有效性.此外,Auto-Plan 框架還具有廣泛的應用前景,例如在平行智能[18]場景中,AutoPlan 可以賦能數字人使其具備獨立解決問題的能力以及賦能機器人來協助人類完成各類任務,執行人機交互、任務協調和計算實驗等功能,顯著擴展了原始解決方案的能力范圍[19].此外,將AutoPlan 框架與去中心化自治組織(Decentralized autonomous organizations and decentralized autonomous operations,DAOs)[20]相結合,可以實現框架的去中心化、自主化、組織化和有序化,極大地提高人機協作效率以及任務完成質量.

1 相關研究

使用大模型進行工具調用可以有效拓展大模型的應用范疇,克服大模型傳統對話模式的一些缺陷,是人工智能領域內的一個熱點問題,并得到了廣泛的研究.大模型可以利用軟件工具,如搜索引擎[21]、移動設備[22]、辦公軟件[23]、計算器[24]、深度模型[25]、Python 解釋器[15]和其他通用API[26],通過靈活控制多種工具來提高模型性能或完成復雜的工作流程.Toolformer[7]采用一種自監督的方式來微調大模型,使其能夠獲得自動調用API 的能力.HuggingGPT[27]將大模型作為管理AI 模型的控制器,利用來自人工智能社區(如Hugging Face)的模型來自動解決用戶的不同請求.TPTU[8]設計兩類基于大模型的智能體來分別完成單步以及多步的工具調用任務.ART[21]利用思維鏈技術和上下文學習技術為新任務自動生成多步推理過程,同時在每一步選擇和利用最合適的可用工具.QWEN[28]使用Re-Act 方法[29]來使大模型調用未見過的工具.同時,采用Self-instruct[30]的策略來對大模型進行有監督的微調,以提高大模型調用工具的能力.WebGPT[6]和WebCPM[31]使用搜索引擎來協助實現問答任務.此外,RCI[32]根據提示方案遞歸地批評和改進模型,以執行由自然語言引導的計算機任務.此外,也有大模型調用工具的相關研究在具身智能領域內開展[33].大模型可以根據用戶意圖自動設計行動步驟,引導機器人完成任務,如LLM-Planner[12],或直接生成可由機器人執行的底層代碼,如ChatGPT for Robotics[34].PaLM-E[35]將傳感器數據無縫集成到多模態大語言模型框架中,從而實現機器人行動和任務的高效規劃.

綜上所述,目前大語言模型在諸多領域的應用中展現了一定的任務理解和工具調用能力.然而,主要限于單一步驟的任務執行,缺乏針對復雜任務的規劃和多步執行功能.在此背景下,本文提出一種復雜任務自主規劃處理框架.此框架包含規劃和執行兩個階段,從而有力地解決了當前語言模型所面臨的復雜任務處理能力不足的問題.該框架將前瞻性規劃與靈活執行相結合,使得模型適應性和處理能力得以顯著提升,有效增強了大語言模型的復雜任務處理能力.

2 復雜任務規劃與執行數據集CTPaE

在本節中,為驗證大模型對復雜任務的規劃與多步工具調用和執行能力,本文提出復雜任務規劃與執行數據集CTPaE.CTPaE 以軍事戰略游戲為背景,是首個專用于評測大模型的復雜任務規劃與執行能力的中文數據集,具有重要的研究意義.

2.1 任務定義

首先對相關概念進行介紹: 1)復雜任務,指無法通過單次調用工具完成的任務;2)元任務,指可以僅靠單次調用工具或通過大模型自身計算就能完成的任務.復雜任務因其高度復雜性和抽象性,只有在進行任務規劃后才能得到可執行的一系列元任務,在分配調用相應的工具資源后將元任務逐步執行.最終,需要將所有元任務的結果進行整合,得到復雜任務的運行結果.值得注意的是,對復雜任務的規劃需要將其變成具有邏輯關聯的元任務集合,只有這樣,后續模型才能利用規劃結果進行工具的調用和執行.若記復雜任務為T,則T經過規劃后得到的具備邏輯關聯的元任務集合記為S={s1,s2,···,sn},其中n為元任務的數量.S中的任意元任務si的基本屬性數據如表1 所示,元任務之間可能存在的邏輯關系示意圖如圖2 所示.對復雜任務T最終的執行結果定義為y.

表1 元任務的屬性Table 1 Properties of meta-tasks

圖2 元任務之間的邏輯關系示意圖Fig.2 Diagram illustrating the logical relationships between meta-tasks

2.2 工具定義

數據集中涉及到12 種不同類型的工具,可以支撐數據集中所有復雜任務指令需要的功能.模型可以通過調用某個工具并輸入相應的參數配置,就可以得到工具的執行結果.本文依托于軍事戰略游戲背景,自定義多個工具函數且各個工具函數之間是相互獨立的.對各個工具的名稱和簡要介紹如表2所示.

表2 CTPaE 涉及的工具名稱和功能介紹Table 2 The name and function introduction of the tools involved in the CTPaE

2.3 任務指令

CTPaE 要求模型理解自然語言形式的復雜任務指令,然后按照指令執行相應的工具,并輸出最終結果,從而完成指令中包含的任務.數據集中每一條數據為一個三元組 (T,S,y).

具體來說,在每個任務的開始階段,模型會接收到一個自然語言形式的復雜任務指令T={tp,pp,x0,x1,x2,···,xl},其中l為任務指令的長度,xi代表指令的第i個字符,tp是提示模板中的可用工具信息,pp為提示模板中的可用參數信息.模型在理解任務并做出規劃后,得到元任務集合S.為了完成元任務,模型需要從工具庫A={a0,a1,···,ak} 中調用與該元任務相關的工具,其中k為工具庫中工具的數量.在所有的工具調用并執行結束后,模型需要輸出該任務的最終結果y.y可能是某個工具的執行結果,也可能需要從多個工具的執行結果中進行整合得到,還可能與工具的執行結果無關,這里需要模型自行判斷.

2.4 數據集構建方式

為構建多樣、高質量且適用性強的數據集,在進行構建和標注時主要遵循以下四個原則:

1) 邏輯正確且任務可執行.在構建數據集之前,應仔細規劃任務的邏輯,確保任務的目標明確、可行,并且與實際應用場景相符.這有助于確保數據集能夠有效地訓練模型,并產生可靠的結果.

2) 多樣的數據類型.數據集的多樣性是確保模型具有良好泛化能力的關鍵.數據集中應該包含長鏈條任務、單步調用工具任務以及不使用工具的通用任務等各種類型,這樣能夠幫助模型更好地適應不同的應用場景和問題.

3) 統一的數據格式和符號.為避免造成困惑和歧義,數據集中的數據格式和符號應該保持一致.例如,如果使用特定的詞匯或術語來描述任務或工具,應該在整個數據集中始終使用相同的詞匯或術語.

4) 詳盡的輔助提示信息.數據集中提供的信息應該足夠詳細以便模型準確理解任務和可使用的工具,例如提供對候選的工具和接口進行介紹.模型在了解工具功能和特性之后,可以更準確地調用相關工具.

遵循以上原則,采用人工標注和大模型生成的半自動方法進行數據集構建.具體來說,先人工構建若干條數據樣本,每條樣本包括復雜任務指令T和具備邏輯關聯的元任務集合S={s1,s2,···,sn}.此外,加入一些額外的信息構建提示模板,具體包括工具功能介紹、工具參數規范介紹,通過上下文學習方法將現有的若干條樣本和提示模板作為示例輸入到GPT4 中,要求其按照這個模板生成相同格式的數據.在對輸出結果經過人工挑選和審核后,得到任務分解結果.每條任務指令T最終的運行結果y是通過人工標注得到的,最終形成CTPaE.

2.5 特點分析

本文構建的CTPaE 共包含2 311 條長度不等的任務指令數據,需要模型對抽象復雜問題進行規劃,得到嚴密邏輯的元任務,然后執行每個元任務對應的工具才能得到最終結果.這里劃分2 111 條數據作為訓練集,200 條數據作為測試集.對數據集中所有樣本需要調用工具的次數進行統計與分析,結果如圖3 所示.可以看到,數據集中的樣本呈現出多樣性,并且需要調用多次工具的樣本占比超過了一半,這保證了數據集的復雜度.此外,圖4 為對任務指令長度的分析結果,大部分指令的長度位于0～100 個字符的區間內,這有助于保證任務表達的清晰和準確.另外,數據長度的差異性也使得數據分布更加多樣化.

圖3 每條樣本需要調用工具的次數統計Fig.3 Statistics on the number of tools used for each sample

圖4 指令長度分析Fig.4 Analysis of instruction length

2.6 需求分析

由于本數據集包含的復雜任務具有很高的挑戰性,普通的深度學習模型通常難以解決.從大模型的角度出發,為能夠準確地理解復雜任務,做出合理的規劃并且得到正確的執行結果,以下五種能力是模型所必備的:

1) 意圖理解能力.能夠理解從人類或系統中接收到的任務指令中所包含的意圖.當任務指令高度復雜時,模型需要對指令進行深度理解與推理分析.

2) 任務規劃能力.能夠根據任務指令和自身能力將復雜任務分解成一系列具備邏輯關系的元任務序列,并且能根據任務或環境的變化進行動態調整.

3) 工具調用能力.一方面,能夠選擇各種現有工具或資源來執行復雜任務.另一方面,能夠按照任務要求創建新的工具,拓展其能力范圍.

4) 更新迭代能力.能夠從日志、輸入歷史信息、運行結果和異常錯誤中進行迭代更新.通過從反饋中不斷學習,可以不斷提高任務執行的性能和效率.

5) 總結提煉能力.能夠在與用戶、工具等進行多輪交互之后,總結交互歷史信息,準確提煉出最終答案,完成指令中包含的任務.

2.7 評價指標

由于CTPaE 主要用于衡量模型對復雜任務規劃與多步調用工具進行執行的能力,因此,本文通過任務完成率、任務成功率、調用工具精確率和工具參數相似度四個指標,全面衡量模型的性能,涵蓋了任務完成情況、工具使用情況以及參數配置情況.為便于說明,將模型輸出的最終結果記為y.假設數據集有N條數據,針對每一條數據k,模型輸出記為yk,真實標簽記為.為了完成每條數據指令中的任務,模型可能調用M次工具,那么記調用工具的集合為O={a1,a2,···,am}.相應地,每一步調用工具也會將相關的參數傳入,這里記為P={p1,p2,···,pm}.

1) 任務完成率(Task completion rate,TCR):對于給定的復雜任務,模型對任務進行規劃并獲得最終答案的樣本的百分比.這個指標反映了模型生成可執行動作的能力及總結提煉答案的能力,定義為

其中,I(yk≠?) 是判斷函數,表示當yk非空時為 1,否則為0.

2) 任務成功率(Task success rate,TSR): 對于給定的問題,模型輸出最終結果且答案正確的比例.這里將原始數據k、模型輸出yk以及真實標簽輸入到QWEN-72B 的模型中,由模型判斷yk與是否一致

其中,I(yk=) 是判斷函數,表示當yk與相等時為 1,否則為 0.

3) 調用工具精確率(Precision of tool using,PT): 通過模型輸出的需調用工具集合與人工標注的需調用工具集合進行對比,計算工具調用的精確率.該指標反映了任務規劃以及動作執行過程中的指令遵循能力

其中,表示人工標注工具集合,card(·) 表示計算集合的元素個數.

4) 工具參數相似度(Similarity of tool parameters,ST): 通過將模型生成的工具參數配置的字符串進行拼接后,與人工標注的字符串拼接計算Rouge-L.由于Rouge-L 包含對召回率和最大公共序列的計算,該指標表明了對指定動作選取可執行的動作參數的準確性以及動作執行的邏輯合理性

3 AutoPlan 模型

為有效解決復雜任務帶來的挑戰,提出基于大模型的自動規劃和工具調用框架AutoPlan.Auto-Plan 主要包括兩個部分,復雜任務規劃模型CTP和遞進式ReAct 提示模型PRP.其中CTP 模型用于自動任務規劃,將復雜任務變成最小元任務序列;而PRP 模型是按照邏輯順序調用相應的工具遞進式執行,最終輸出該任務的執行結果.下面將從基線模型、AutoPlan 總體框架、CTP 模型、PRP 模型四個部分進行詳細闡述.

3.1 基線模型

本文的基線模型采用ReAct (Reason+Action)方法[29],使大語言模型具備基本的任務執行能力.ReAct 是一種基于思維鏈的技術,根據人類提供的工具函數,對人類提出的問題進行逐步的思考、觀察和執行,最終得出答案.具體來說,ReAct 方法要求大語言模型在每一個時刻t獲取對當前環境的觀察obst,并且根據觀察來執行當前步的動作,記為actt.需要注意的是,這里的actt可以是調用工具,也可以是模型對當前任務輸出的分析和推理.如果將大語言模型記為fπ(·),那么actt=fπ(actt|ct),ct=(obs1,act1,···,obst-1,actt-1,obst)是大語言模型的上下文記錄.ReAct 方法通過將模型的動作空間進一步拓展到大語言模型的語言空間,有效提升了模型理解和推理能力.

3.2 模型框架

現有的中文開源模型如QWEN、ChatGLM[36]等,結合ReAct 方法也具備一定的工具調用能力.但是這些模型只能解決簡單的單步工具調用和執行任務,無法處理復雜的需要多步調用工具任務,主要原因有兩個方面: 1) 由于工具類型和應用領域等差異,現有的大模型僅靠提示學習或思維鏈方法直接推理輸出結果,難以有效地解決CTPaE 中的復雜任務;2) 具備單步工具調用和執行能力的模型在多步調用的過程中,存在中途模型遺忘或混淆當前應執行的任務以及無法對歷史的運算結果進行整合輸出最終答案的問題.

針對以上問題,AutoPlan 提出兩階段的解決方案,首先對一個小規模的模型進行微調,得到專用的復雜任務規劃模型CTP.然后針對遺忘和混淆問題,提出遞進式ReAct 提示方法PRP,可以有效幫助模型追蹤當前任務執行進度,并整合歷史信息輸出任務最終的執行結果.模型的框架如圖5 所示,主要包括四個組成部分:

圖5 AutoPlan 總體框架示意圖Fig.5 The diagram of the overall framework of AutoPlan

1) 提示模板.這是AutoPlan 框架的輸入.除任務指令之外,本文還在指令前面加入額外的提示信息,包括系統說明、工具的介紹、參數接口規范等.此外,還可以在提示信息中加入一些歷史或者應用實例,使得模型可以進行上下文學習.

2) 工具集.工具集擴展了大語言模型的能力,使其能夠訪問和處理超出其內部知識范圍的信息,與其他系統交互,或執行其自身無法勝任的專門任務.這里的工具集不限于一些工具的API,還可以是服務或者子系統的集合.

3) CTP 模型.針對復雜任務規劃的問題,本文對現有的大語言模型進行微調,得到CTP 模型.CTP 模型可以對復雜任務進行規劃得到元任務序列,是后續任務能夠順利執行的重要前提.CTP 模型可以基于各類現有的開源模型進行訓練得到,如QWEN、ChatGLM 等.

4) PRP 模型.PRP 模型負責執行一個規劃完成的元任務序列.具體來說,PRP 將所有元任務分成已完成、進行中和未完成三大類,并隨著任務的執行過程不斷地迭代更新.這種遞進式的方法可以幫助模型有效追蹤當前的任務進度,避免遺忘和混淆等問題.

3.3 CTP 模型與PRP 模型

3.3.1 CTP 模型

任務規劃的目的是將復雜任務分解成多個有邏輯性且能夠根據已有工具完成的元任務序列,其中復雜任務是模型不能僅調用一次工具或者直接生成結果的任務,元任務是指能夠通過一次使用工具就能完成的任務.

CTP 模型輸入為復雜任務,輸出為具備邏輯關聯的元任務序列,即

其中,fθ(·) 表示 CTP 模型,S={s0,s1,···,sn}.

本文對 QWEN-1.8B 模型在 CTPaE 上進行全量微調,實驗設備為一張 A100-80G,訓練中batch_size 為7,梯度累計次數為8,學習率為2×10-5,共訓練300 步.在訓練數據中輸入數據包括待分解任務和工具介紹、工具接口介紹、Re-Act 格式規范,在推理過程中需要將待分解任務轉化為相同格式.

3.3.2 PRP 模型

雖然現有的一些大模型具備一定的工具調用與執行能力,但是僅限于單步調用工具的簡單任務,對于需要多步調用的復雜任務,性能會大幅下降.主要原因在于多步調用工具過程中,模型由于輸入的文本長度過長,注意力被分散,導致中途遺忘或混淆當前應該執行的任務.針對上述問題,本文提出一種遞進式ReAct 提示模型,能夠幫助模型保持對當前執行任務的追蹤.具體來說,PRP 模型可以將元任務序列中的任務分成三類,即已完成任務、進行中的任務以及未進行的任務,在模型執行每一步的時候都作為提示信息加入,并且隨著任務的執行而不斷地迭代更新.這種遞進式的方法可以幫助模型更好地關注當前執行的任務,不會因復雜任務的文本長度過長而導致注意力分散[37].

PRP 模型輸出為前序規劃好的元任務序列S,然后逐步調用相應的工具并執行,得到運行結果,即

其中,f?(·) 表示 PRP 模型,ri為第i步的運行結果,這里模型將前序的所有結果和當前任務一起輸入,得到當前步的運行結果.所有的元任務執行完畢后,模型會整合所有的中間輸出和歷史信息,輸出最終的執行結果y,即

4 實驗與結果分析

本文的實驗基于前文提出的CTPaE 進行評測,并與ReAct[29]和TPTU[8]方法進行對比.Auto-Plan 的CTP 模型是基于QWEN-1.8B 在一張NVIDIA A100 上進行全量微調.為更全面地對比和分析實驗結果,ReAct、TPTU 以及本文提出的PRP 方法均在QWEN-1.8B、QWEN-14B 和QWEN-72B (int4)三種不同規模的大語言模型上進行實驗.

4.1 與其他方法的比較

首先探究模型的整體性能,輸入為原始的復雜任務指令,模型需要根據指令來調用并執行相關的工具,然后給出最終的答案.這里采用前文中介紹的四個指標來對模型的性能進行綜合評價,即任務完成率TCR、任務成功率TSR、調用工具精確率PT 以及工具參數相似度ST,其中任務成功率TSR 為最主要的評價指標.表3 為本文提出的Auto-Plan 和其他方法在CTPaE 上的性能對比結果.其中ReAct 技術是基于大語言模型,通過Reason+Act 的方式來直接進行任務執行.而TPTU 方法則是使用提示學習的方法,利用大語言模型對任務進行規劃,然后再結合ReAct 方法完成任務的執行.本文的AutoPlan 先利用CTP 模塊對復雜任務進行規劃,得到一個元任務序列,然后再利用PRP 方法對該元任務序列進行執行,進而生成最終的執行結果.

表3 與相關方法在CTPaE 上的性能比較Table 3 Performance comparison with related methods on the CTPaE

從表3 可以看出,大語言模型規模對性能的影響顯著.隨著模型規模的增加,大多數評價指標的結果也有所提升.這是因為更大的模型通常具有更強的理解和推理能力,可以更好地捕捉輸入數據的復雜性,從而提高任務規劃和執行的準確率.

相比于另外兩種方法,AutoPlan 在所有模型規模和全部指標上均有顯著優勢.例如,在72 B 規模下,AutoPlan 的TCR 和PT 分別為99.90%和99.34%,表明模型具備強大的理解能力以及后續的規劃執行能力.而TSR 作為主要的性能評價指標,AutoPlan 的性能與另外兩種方法相比提高了約47%,增長幅度均高于其他三個指標.該結果充分證明了AutoPlan 的有效性.從表中還可以看到,AutoPlan 框架在1.8 B 規模下的調用工具精確率已經達到了91.11%,但是任務成功率只有18.70%,原因在于模型無法給工具配置正確的參數,即工具參數相似度只有48.15%.而隨著模型規模的增加,工具參數相似度得到了顯著的提高,進而也帶來了更好的任務成功率.

4.2 消融實驗分析

本文從兩個方面開展消融實驗分析: 1)對任務規劃模塊的消融實驗.對比方法為不使用任務規劃、利用TPTU 方法進行規劃和利用人工對復雜任務進行規劃三種方法.執行階段均采用相同的Re-Act 方法.2)對執行策略的效果分析.主要對比方法為ReAct 方法.前序的任務規劃方法分別采用人工規劃和本文提出的CTP 模塊進行規劃.

4.2.1 任務規劃效果分析

表4 為不同任務規劃方法的結果.不難發現,TPTU 方法在小規模模型(如1.8 B 和14 B 的結果)上難以發揮出效果,可能的原因是模型規模小、泛化能力不足,導致在任務分解的細節上與人工標注的label 存在一定誤差,這些誤差在沒有對Re-Act 的執行邏輯進行改進前被執行模型所放大.在改進后的ReAct 執行模型上獲得較大提升,這也反映了沒有對任務執行模型進行指定任務微調時泛化能力不足的問題.而在72 B 的情況下,模型具備了一定的推理能力后,這種基于提示的任務規劃方法可以發揮出一定的效果,但是并不顯著.本文提出的CTP 方法在三個不同規模的模型上的表現與不進行規劃的結果基本一致,與人工標注的結果仍有一定差距.

表4 不同任務規劃方法性能比較Table 4 Performance comparison of different task planning methods

4.2.2 執行策略效果分析

表5 展示了不同任務執行策略的結果.這里首先使用人工規劃或CTP 方法,將復雜的任務分解為元任務序列,然后分別采用ReAct 方法和本文提出的PRP 方法來執行這些元任務序列.值得注意的是,在兩種不同的任務規劃策略下,ReAct 方法的四個指標值均遠低于PRP 模型的執行方法.具體而言,PRP 模型可以幫助1.8 B 規模的模型在調用工具精確率上實現約52%的增長.這表明遞進式的策略可以有效幫助模型準確理解當前任務的執行狀態,從而調用正確的API 來執行任務.此外,在任務完成率和任務成功率指標上,使用CTP 模型結合PRP 模型,可以達到甚至超越人工規劃的結果.

表5 不同任務執行策略性能比較Table 5 Performance comparison of different task execution strategies

5 結論與展望

本文針對軍事游戲背景,構建國內首個中文的復雜任務規劃與執行數據集CTPaE,旨在測試大語言模型對復雜任務的理解、規劃及執行能力,有效填補了該領域的空白.此外,本文提出基于大語言模型的復雜任務自主規劃處理框架AutoPlan,將復雜的任務執行分解成兩個階段,即任務規劃和任務執行.AutoPlan 中的CTP 模型通過微調獲得復雜任務的規劃能力,將復雜任務分解成元任務序列.為提高長序列任務的執行能力,本文提出遞進式ReAct 提示方法PRP,保證模型能夠準確關注到當前的任務進度.最后,將本文提出的方法在CTPaE 上進行驗證和分析,并與領域內的經典算法進行對比分析,驗證了本文方法的有效性.通過消融實驗分析,驗證了兩階段執行方式以及各個模塊的有效性.

本文提出的AutoPlan 框架具有廣泛的應用前景,例如實現指揮控制的自動化、工業生產中的任務自動化執行以及作為數字人等角色在平行智能中發揮重要作用.若將DAOs 的技術引入,可以使框架進一步拓展,與其他任務環境、工具集及基礎模型形成自主化、有序化和去中心化的應用結構,借助區塊鏈技術的追溯性還可以保證任務指令內容的正確和規范.另外,當遷移到新的任務場景或者加入新的工具后,還可以借助基于檢索生成的技術將新的任務知識或工具知識加入到AutoPlan 框架中,從而提高模型對新任務或新工具的泛化能力.

致謝

感謝國防科技大學的李新夢和朱正秋對本研究的深入討論及寶貴建議.