








【摘要】在當前學界業界, 尚缺乏關于AI大模型財務能力的規范化評估體系。基于該背景, 本文選擇CPA考試作為評估體系, 針對ChatGPT、 智譜清言、 訊飛星火三款AI大模型財務能力展開深度測評, 希望在數據可驗證的范圍內, 呈現大模型應用于財務場景的優勢與不足, 并通過深入分析, 處一隅而觀全局, 從整體層面把握AI大模型在財務行業的應用可行性及未來發展趨勢。研究結果顯示, 三款參評大模型在2023年CPA六門真題的單科測試中均未及格, 但在側重于零散化知識理解、 記憶、 應用以及文本撰寫能力的《稅法》《經濟法》《公司戰略與風險管理》科目上展現出相當潛力, 在需要復雜鏈式思維能力、 高度計算準確性、 文本細節深度理解的《會計》《財務成本管理》《審計》科目上存在明顯不足。本文認為, 在整體層面, 財會行業對未來大模型的應用可持謹慎的樂觀態度, 并進一步從學習備考輔助、 會計職能轉型、 財務應用場景、 教學及科研四個維度, 提煉了本次測評對大模型財務應用的具體借鑒及啟發, 以期為在校學生、 CPA考生、 會計專業人士、 研究學者及軟件開發商等提供有益參考。
【關鍵詞】ChatGPT;AI大模型;CPA;財務能力測評;啟示
【中圖分類號】F275" " " 【文獻標識碼】A" " " 【文章編號】1004-0994(2024)18-0044-8
一、 引言
2022年11月底, OpenAI發布對話式AI產品ChatGPT, 一石激起千層浪, 谷歌、 Meta等巨頭也陸續推出了各自的代表性產品, 如Claude、 Gemini、 Llama等。2023年也是國產大模型集中發力之年, 據不完全統計, 截至2024年5月, 國內共有約140個大模型成功完成生成式人工智能服務備案, 代表性產品包括文心一言、 智譜清言、 訊飛星火、 Kimi、 通義千問、 百川智能、 天工、 騰訊混元、 360智腦等, 星星之火終成燎原之勢, 有望帶來新一輪人類生產力與人類思想的大解放。
與此同時, 以ChatGPT為代表的預訓練大語言模型(簡稱“大模型”)的出現, 也在財務領域掀起了新一輪討論熱潮。劉勤(2023)從整體層面探討了類ChatGPT系統對會計工作的影響, 研究指出其影響主要表現在會計數據處理、 報表生成和分析、 會計咨詢和教育等方面, 而對于一些更需要創造性和抽象思維(如會計準則制定、 企業盈利模式創新等)以及需要高度社交智慧和談判技巧等方面的工作ChatGPT則難以勝任。金源和李成智(2023a)通過問卷調研指出, 盡管會計人員已經意識到大模型對會計職能轉型將會產生深遠影響, 但在評估其具體影響的過程中會高估其影響, 且在變革應對過程中面臨“知易行難”等方面的困境。在具體落地場景研究方面, 金源等(2023a;2023b)通過實踐案例演示如何基于ChatGPT實現財務分析、 問答式知識庫等場景, 以進一步提升原有財務流程的自動化和智能化程度。
從定性角度, 現有學者針對大模型的財務適用性問題進行了較為全面的探討。但從定量角度, 由于財務場景的高度專業性和復雜性, 目前學界業界尚未形成一套有關大模型財務能力的規范化測評體系, 因此針對大模型對財務領域整體影響的探討也基本只有觀點交鋒, 而缺乏數據支撐。
CPA作為國內財會行業認可度最高的證書, 可以系統化地檢驗考生對會計準則、 審計程序、 財務管理方法等知識和技能的掌握程度, 一定程度上反映了財會行業對專業人才的要求和標準, 因而非常適合作為大模型財務能力的測評體系。同時, 盡管基于CPA的測評體系無法完全覆蓋財務所需的全部能力維度, 但已足夠支撐整體趨勢層面的分析。通過大模型的CPA測評, 本文希望達成如下目標: (1)基于對CPA測試結果的分析和細節的挖掘, 在數據可驗證的范圍內, 呈現大模型在財務能力方面的優勢和不足。(2)基于優勢和不足的深入探討, 現階段大模型能為財務學界、 業界、 個人和組織帶來哪些實質性幫助?(3)基于兩年的得分對比, 分析大模型在各個科目上呈現出怎樣的得分變化趨勢?(4)處一隅而觀全局, 這種變化趨勢在行業整體層面體現了大模型財務應用怎樣的未來發展趨勢?這種趨勢對在校學生、 會計人員、 CPA考生、 相關領域研究學者和軟件廠商有怎樣的借鑒和啟發?
二、 研究設計與方法
(一) 整體步驟
本文進行大模型CPA測評的整體步驟為: (1)試題搜集階段: 從可靠渠道獲取CPA整套真題試卷。(2)試題加工階段: 將整套試題中的每道小題逐個拆分, 同時將試題中的圖表轉換為文本格式, 并將試題內容與Prompt提示詞進行組合。(3)問答階段: 將經過加工的試題輸入大模型中, 并記錄大模型的返回結果。(4)AI閱卷階段: 在問答階段完成后, 使用某CPA教育機構開發的AI閱卷系統對大模型的答案進行自動評分。AI閱卷系統會根據預設的評分標準對答案進行評估, 以判斷其準確性和完整性。(5)人工復核階段: 在AI閱卷后, 采用人工復核的形式, 參照CPA具體評分標準對AI閱卷結果進行二次復核, 以修正AI閱卷系統可能存在的偏差。
(二) 方法設計
1. 大模型獲取與使用。當前大模型應用包括API接入、 直接訪問官網、 本地化部署三種主要途徑, 本文測評過程采用直接訪問模型服務所在的官方網站的方式。測評所選用的ChatGPT為GPT-4o版本、 智譜清言為GLM-4版本、 訊飛星火大模型為V4.0版本。
2. 測試題目。選取2023年CPA專業階段《會計》、 《審計》、 《財務成本管理》(簡稱《財管》)、 《經濟法》、 《稅法》、 《公司戰略與風險管理》(簡稱《戰略》)六科整套真題。
3. 評分標準。(1)以100分為滿分, 不考慮英文答題的5分額外加分; (2)參照CPA官方各科分值分布與評分標準; (3)采用AI評分+人工復核模式; (4)客觀題中, 單選給出答案模糊或超過一個答案不得分, 多選題僅全對才給分。
4. Prompt提示詞設計。(1)在選擇題測試中會明確告知大模型題型為[單選/多選], 同時Prompt提示詞中加入“請一步一步地思考并回答某某問題”, 以觸發大語言模型的思維鏈, 提高其邏輯推理能力; (2)在Prompt提示詞中加入“依據中國的會計、 審計、 稅務等方面相關的準則和法規”, 以盡可能消除各國準則、 法規理解上差異導致大模型的回答錯誤。
5. 測試方法。(1)《會計》《財管》《戰略》《審計》四門科目不開啟大模型聯網搜索能力, 僅依靠其本身的推理能力。(2)《稅法》《經濟法》科目允許大模型使用聯網搜索能力檢索對應法條, 以消除“幻覺”問題對于評估其真實能力的影響。(3)同時測評過程中檢查參考資料來源, 如大模型直接檢索出CPA真題答案, 則重新測試。(4)采用Zero-shot(零次學習)方式, 即不在提示詞中為大模型提供同類別的練習題目供其學習理解。(5)對于涵蓋大模型難以理解的圖表的題目(例如表中含有較多空格與橫杠,會嚴重影響大模型的理解), 會從測評中剔除, 并將剩余分數按比例調成百分制, 由于存在該種情況的題目僅在《財管》科目中出現三道, 因此不會對整體測評產生顯著影響。
三、 測評結果及分析
(一) 核心結果: 現階段大模型均不具備通過CPA能力
從整體結果來看, 本次三款大模型在各自的六門CPA單科測試中, 均未達到60分的及格線, 各科目具體得分如圖1所示。其中: 單科表現最好的是訊飛星火在《經濟法》科目上得到了58分, 僅差2分通過; 智譜清言在《經濟法》科目也得到了57.75的分數。單科表現最差的是訊飛星火在《會計》科目上的表現, 僅得到了23.5分。
同時, 筆者在2023年曾用GPT-4 Turbo針對2022年真題進行了全科測試①, 兩年測試結果對比如圖2所示。本次基于GPT-4o模型的ChatGPT在所有科目分數均有了2 ~ 12分的提升, 平均提分率為17%。
為進一步排除大模型得分提高是由于試題難度顯著降低的影響的可能性," 本文從《2023年注冊會計師全國統一考試分析報告》(姚冬萍等,2024)中獲取了CPA考試近三年各科通過情況以及各科目平均難度值的統計數據。2023年CPA專業階段六科平均通過率在20%, 且相比于2022年, 2023年各科通過率均表現出一定程度的下降。2022 ~ 2023年, 官方統計的CPA各科平均難度從0.4672下降到0.4562, 下降率僅為2%, 而與此同時ChatGPT在各科上卻實現了平均17%的提分。綜合上述數據可以說明, 大模型近一年得分的提高主要是由于大模型本身性能的提升。從三款大模型各科平均得分來看, 《經濟法》平均得分最高, 為55分, 而《會計》平均得分最低, 僅有30.6分, 如圖3所示。
基于《2023年注冊會計師全國統一考試分析報告》公布的考生得分的分布情況, 本文將大模型平均分與CPA考生平均分進一步對比可發現如下現象, 如圖4所示。在《會計》科目上, 大模型得分顯著低于CPA考生; 在《財管》科目上, 大模型得分略低于CPA考生; 在《審計》科目上, 二者得分基本持平; 在《經濟法》《稅法》《戰略》科目上, 大模型得分顯著高于CPA考生。
在探討CPA考試難易程度時, CPA考生群體通常會將其分為小三科與大三科。其中, 小三科指《稅法》《經濟法》《戰略》, 其考核重點在于對知識的理解、 記憶以及文本撰寫。這些科目在CPA考試中具有較高的“文科”屬性, 極好地適配了大模型在信息處理、 文本生成等方面的優勢, 因此, 大模型在這些科目上的得分表現顯著優于CPA考生。
《會計》《審計》《財管》因整體難度較大、 通過率偏低, 被稱為大三科。其中: 《會計》科目涉及眾多專業術語, 要求考生具備嚴密的邏輯連貫性和精確的計算能力, 尤其是長期股權投資、 金融工具、 合并財務報表等章節, 難度系數為整個CPA考試之最; 《財管》科目則因公式繁多、 計算量大, 對考生的數學能力提出了較高的要求。這兩個科目在CPA考試中具有較強的“理科”特征, 而大模型在邏輯嚴謹性和計算精準度方面的局限性, 導致其在這些科目上的得分表現不佳。
《審計》科目則因其命題靈活性而獨具特色, 考生需深入挖掘題干文本的細節, 并在章節之間建立高度邏輯關聯, 以全局視角進行理解和掌握。這一特點與大模型的技術特性相對契合, 使得大模型在《審計》科目上的得分處于中等水平。
(二) 各科目測評細節分析
1. 在小三科上大模型已展現出相當潛力。在本次測評中, 三款大模型在《經濟法》《稅法》《戰略》科目上的平均得分均超過50分, 在如圖5所示的《經濟法》的細項得分中, 智譜清言在單選題上正確率達到了76.9%(20/26), 訊飛星火的主觀題得分率也達到了50%。大模型在上述三個科目上的高得分率是由于其基于聯網搜索能力, 可精確?檢索到相關法條并做出判斷。
近一年來, 隨著大模型參數量的迅速提升和RAG模式(檢索增強生成)的普及, 大模型已經能夠觸摸到通過《經濟法》科目的邊緣。我們有理由相信, 一年之后, 國產大模型將可以在相當可靠的置信區間內通過CPA《經濟法》考試, 并且在《稅法》《戰略》科目上的平均成績也將進一步提升。
2. 大模型在《會計》科目上的提分達到瓶頸。在CPA考試體系中, 《會計》科目占據了核心地位, 同時也是歷屆考生普遍認為難度極大的考試內容。根據2023年中國注冊會計師協會發布的統計數據, 該年度《會計》科目的合格率僅為12.58%, 顯著低于CPA考試的其他科目。測試過程中, 大模型在《會計》科目上的得分也遠未能達到及格標準, 具體得分如圖6所示。
這一數據反映出大模型在應對此類高難度會計專業知識考核時的局限性, 通過進一步將大模型答案與標準答案比對, 本文發現是出于以下原因:
(1) 部分會計問題邏輯過于復雜, 需要非常連貫的鏈式邏輯思維, 如長期股權投資、 金融工具、 合并財務報表等通常會在綜合題中重點考察, 這也導致了大模型在《會計》綜合題中得分率較低。以2023年《會計》真題綜合題第一題為例, 題目要求依據背景資料“編制甲公司對乙公司增持股份的會計分錄”, 大模型答案與正確答案對比如圖7所示。
從上述分錄對比可以觀察到, 大模型在生成會計分錄時存在如下問題: 第一, 基本只會一借一貸," 很難進行復雜場景分錄的完整生成; 第二, 科目分類不準確, 例如在上圖中前兩筆將“長期股權投資”錯記為“可供出售金融資產”; 第三, 無法理解部分復雜會計邏輯, 例如上圖在進行公允價值調整時, 大模型未能識別出需要計提遞延所得稅負債。
(2) 大模型會犯非常基本的運算錯誤, 如圖8所示, 在2023年CPA《會計》綜合題第二題的測評過程中, 其將“9000萬元-8670萬元=330萬元”的結果算錯為“370萬元”。
此外, 進一步對比兩年ChatGPT的測試數據可以發現, 在過去一年由于模型的迭代, 其在大部分科目上提升了7 ~ 12分, 但在《會計》科目上, 僅有4分的提升。
如果進一步從技術角度來分析該現象, 從2023年的GPT-4 Turbo到2024年的GPT-4o, OpenAI訓練過程中幾乎納入了互聯網上所有可以獲得的可靠語料, 搭配充足的算力供應, 但在模型基礎能力上僅實現了微小的提升。依據 ChatBot Arena②排行榜, 從GPT-4 Turbo到GPT-4o, 基準得分僅從1158分提升至1216分。
上述數據揭示了一個不容忽視的事實, 即在應對如CPA《會計》科目這般要求高度連鎖思維的專業領域問題時, 依賴于通用型大模型的策略似乎已陷入了一種發展僵局。突破這一瓶頸的關鍵在于獲取規模龐大的會計領域高質量標注數據, 然而, 這在短期內是一個難以實現的目標。據此可以推斷, 僅基于現有可獲取的訓練數據, 且在大模型底層技術架構沒有顛覆性突破的情況下, CPA《會計》科目將持續成為大模型的重大挑戰。
3. 大模型在《審計》科目上對文本細節理解不足。《審計》科目中的“簡答題”題型要求通過對審計場景細節的理解, 判斷注冊會計師的處理是否恰當, 以2023年《審計》真題為例, 該類題型常規的出題形式為: “(1)甲公司于2022年年中啟用新的存貨管理系統, 實現了存貨的全流程自動化管理。A注冊會計師對存貨采用綜合性方案, 測試了與該系統相關的信息技術一般控制及信息處理控制運行的有效性, 結果滿意, 據此認為與存貨相關的控制運行有效。請指出A注冊會計師的做法是否恰當。如果恰當, 無需解釋, 如不恰當, 簡要說明理由。”
以該試題為例, 參與測試的三個大模型做出的判斷都是“恰當”。而標準答案為“不恰當。還應當測試存貨管理系統啟用前與存貨相關的控制運行的有效性”。這是由于題干中有一個隱藏的細節“陷阱”: 如果要認為存貨相關的控制運行有效, 僅檢測新系統的有效性是不夠的, 需在保證新系統啟用前與存貨相關的控制也運行有效。
整體測試結果顯示, 大模型在該類問題上的得分率僅為45%。但由于該類題型僅需答對“恰當/不恰當”即可得到部分分數, 假設全填寫“恰當”, 得分率也可達到35%左右, 因此45%的得分率一定程度上可以反映出大模型在理解和判斷審計場景細節上存在的不足。
要識別出這些細節對大模型挑戰極大, 因為這需要理解到題干文本的“言外之意”, 從技術原理上來說, 大模型在經過TB級的大規模語料預訓練后, 更擅長對于模式和規律的整體把握, 而很難準確把握問題細節。
4. 大模型應對《財管》科目計算困難重重。《財管》科目涉及較多復雜的公式計算, 例如NPV(凈現值)、 等額本息還款計算、 Black-Scholes期權定價模型等, 大模型目前已能基于兩種方式生成公式: (1)直接依據MarkDown語法撰寫公式; (2)基于Python代碼進行公式撰寫, 且準確率較高。但是, 其總會由于無法精確計算或正確選擇應代入公式的參數[比如本金、NCF(凈現金流量)、折現率]而導致計算錯誤。以2023年《財管》計算分析題第一題為例:
題干: 肖先生擬在 2023 年末購置一套價格為 360 萬元的精裝修商品房, 使用自有資金 140 萬元, 公積金貸款 60" 萬元, 余款通過商業貸款獲得。公積金貸款和商業貸款期限均為 10 年, 均為浮動利率, 2023 年末公積金貸款利率為4%, 商業貸款利率為 6%, 均采用等額本息方式在每年末還款。
要求: 計算前 5 年每年末的公積金還款金額和商業貸款還款金額。
正確答案: (1)前 5 年每年末的公積金還款金額=60/(P/A,4%,10)=7.40(萬元); (2)前 5 年每年末的商業貸款還款金額=(360-140-60)/(P/A,6%,10)=21.74(萬元)。
大模型首先通過MarkDown和Python代碼正確生成了等額本息還款的計算公式(上述正確答案為知道P/A系數后的簡化公式, 大模型生成的是完整公式)。但是, 其在計算商業貸款本金時出現了低級錯誤, 正確的金額應該為360-140-60=160(萬元), 而大模型計算成200-140-60=0(萬元)。
(三) 基于測評結果的大模型優勢與不足提煉
基于前文的測評結果, 本文總結出如下大模型應用于財務領域的優勢與不足:
1. 大模型財務能力的優勢。
(1) 高效的信息處理與卓越的文本生成能力。在CPA考試中, 大模型在側重于知識理解、 記憶以及文本撰寫能力的科目, 如《稅法》《經濟法》《戰略》上展現了顯著的優勢。這些科目的考試內容與大模型的核心能力高度契合, 使得大模型在這些領域的得分超過人類CPA考生。這一表現充分體現了大模型在處理大量復雜信息并提供結構化、 邏輯性強的文本輸出方面的表現令人矚目。
(2) 精確的法規檢索與出色的判斷能力。在本次測評中, 當大模型被賦予聯網能力時, 其能夠高效地檢索相關法律法規, 并在此基礎上做出精確的判斷。特別是在《經濟法》等科目中, 在聯網功能的加持下大模型得分接近及格線。這種能力對于經濟法/稅法咨詢、 合規檢查等財務相關領域的工作具有重要的實踐意義。
(3) 基礎模型性能持續提升帶來的未來可能性。隨著模型參數量的不斷增加, 大模型在多個CPA考試科目的得分上呈現出顯著的提升趨勢。此外, 目前出現的RAG(檢索增強生成)、 Copilot(智能副駕)、 AI Agent(智能體)等全新大模型應用范式, 也為大模型在財務領域提供了更為廣闊的應用前景。
2. 大模型財務能力的不足。
(1) 鏈式思維能力的局限。在應對《會計》科目中涉及的復雜鏈式思維問題(如長期股權投資、 金融工具、 合并財務報表等)時, 大模型暴露出一定的局限性。這些場景通常要求模型能夠進行多層次、 遞進式的邏輯推理, 而大模型在處理這類復雜的會計場景時顯得力不從心。
(2) 基本運算準確性欠佳。在《會計》《稅法》《財管》科目的測試中, 受限于生成式AI的底層技術原理, 大模型在執行僅涉及“加減乘除”的基本運算時頻繁出現錯誤, 直接影響了其整體得分。這種基本運算的準確性對于財務數據的處理至關重要, 大模型的這一缺陷表明其在財務數據處理方面的可靠性仍有待提高。
(3) 對文本細節理解的不足。在《審計》科目的評估中, 大模型在理解和分析文本細節, 以及建立不同章節之間的邏輯關聯方面存在缺陷。審計工作要求細致入微的文本解讀能力和對整體審計流程的全面把握, 大模型在這一方面的不足可能會影響其在審計實踐中的應用效果。
(4) 復雜公式計算能力的不足。在《財管》科目的測試中, 大模型在處理包含復雜公式和大量計算的題目時遇到了顯著困難, 其得分低于實際CPA考生。這一結果表明, 大模型在處理高難度的財務分析和計算任務時, 其能力尚不足以滿足專業財務工作的要求, 特別是在涉及復雜數學模型和財務模型構建的場景中。
四、 本測評對大模型財務應用的借鑒及啟發
經過對測試結果的細致解讀和深入分析, 本研究發現, 本次測評的結論外延影響絕不僅僅局限于CPA考試的范疇, 其對學術界、 實務界、 個人及組織都帶來了一定程度的借鑒與啟發。在本章節, 筆者將從四個關鍵維度——學習備考輔助、 會計職能轉型、 財務應用場景、 教學及科研(如圖9所示)對測評結果進行深入剖析, 全面探討大模型對財務領域的廣泛影響, 以期為包括在校學生、 CPA考生、 會計專業人士、 研究學者及軟件開發商在內的不同受眾群體提供有益的參考。
(一) 學習備考輔助維度
1. 大模型已具備入門級財務知識輔導的能力。首先, 從最直觀的影響來看, 未來大模型將有能力在會計知識傳授過程中擔任“輔導老師”的角色, 這對于提升學習效率和備考效率具有顯著意義。依據前文測試結果, 在CPA考試的《戰略》《經濟法》《稅法》科目中, 大模型在不索引專業財務知識庫的前提下, 僅依靠通用能力, 也基本具備了通過上述三個科目的潛力。
對于在校學生, 大模型可通過模擬實際案例和問題, 為“會計學原理”“初級財務會計”“管理會計”等入門課程提供強有力的學習輔助。這種模擬實踐的學習方式, 讓學生在貼近真實工作場景的環境中, 深入理解會計原理, 并學會如何將理論知識靈活運用于解決具體的會計問題, 以下呈現了一個具體示例。
請幫我用通俗的例子解釋下, 新收入準則中的“合同資產”是什么意思?
ChatGLM: 新收入準則中的“合同資產”可以理解為一個公司在完成某個合同項目后, 尚未收到的款項。打個通俗的例子, 比如說你請一個裝修公司裝修房子, 你和裝修公司簽訂了一份裝修合同, 合同上寫明了裝修總價以及付款方式。裝修完成后, 你付了一部分款項, 但合同上規定的總價中還有一部分款項尚未支付。這部分尚未支付的款項, 就相當于裝修公司的“合同資產”。
換句話說, 合同資產就是公司在履行合同過程中形成的, 尚未收到的、無條件的(即僅取決于時間流逝)向客戶收取對價的權利。
大模型互動式答疑服務不僅滿足了考生的學習備考需求, 也為其提供了即時反饋, 增強了學習的互動性和趣味性。大模型的互動式輔導不僅提高了學生的學習效率, 還通過即時反饋和個性化指導, 增強了學生對會計概念的理解和記憶, 從而在掌握專業知識的同時, 也為未來的職業生涯奠定了堅實的理論與實踐基礎。
2. 大模型將推動學習方式從“被動接收”向“主動探索”轉變。在傳統學習模式下, 學生針對學習疑問無論是查閱資料或咨詢老師, 都可能會面臨反饋不及時的問題。將大模型作為學習備考輔助工具, 為學生從傳統的“被動接收”知識向“主動提問”的互動式學習模式的遷移提供了難得的契機, 具體表現在如下方面: 其一, 強化批判性思維。在互動過程中, 學生被鼓勵對大模型的回答進行批判性思考, 這不僅加深了他們對會計概念的理解, 也提升了他們的批判性思維能力。其二, 促進自主學習。大模型作為學習伙伴, 幫助學生培養自主學習習慣, 使他們能夠在沒有教師指導的情況下, 也能有效地學習和進步。其三, 提供個性化學習路徑。大模型能夠根據學生的學習進度和風格, 提供個性化的學習建議和資源, 從而促進學習者根據自己的節奏和興趣進行學習。
(二) 會計職能轉型維度
1. 會計人員現階段無須過度擔憂被大模型取代。盡管大模型在《經濟法》《稅法》《戰略》等具有“文科”屬性的科目上表現優異, 但其思考能力仍限于“淺層思考”, 例如無法理解題干的“言外之意”、 無法“過濾”干擾信息等。具體來講, 在實務場景中, 如下能力是大模型所不具備的: 其一, 深度思考能力。大模型在面對復雜問題時, 仍然缺乏深層次的洞察力和批判性思維。會計專業人員能夠運用他們的專業知識和經驗來解讀數據背后的業務含義, 提出有見地的建議和策略。其二, 靈活執行能力。會計工作往往涉及對業務流程的靈活理解和執行, 包括會計計量方式選擇、 業財綜合分析等。這些任務需要對細節的關注和對業務流程的深入理解, 以及在必要時進行人為判斷和干預, 這些都是大模型短期內難以實現的。其三, 人際溝通技巧。會計工作不僅僅是處理數字和數據, 還需要與客戶、 同事和管理層進行有效溝通。建立信任、 理解復雜的商業環境和解決沖突都需要人際交往技巧, 這些都是大模型目前無法實現的。
2. 大模型為會計人員轉型指明方向。綜合看來, 大模型對會計人員的影響是“危”與“機”共存的。大模型未來的確可能擠壓部分會計人員的生存空間, 但也為未來會計人員突破職能邊界、 實現職能轉型指明了方向, 會計人員未來應積極擁抱RPA、 大模型等新興技術, 幫助自身從基礎勞動中解放出來, 一方面將觸覺前置到業務活動中, 另一方面將視角提高到戰略高度, 由原來的事后核算與監督拓展為通過事前預測、 事中控制和事后分析在全生命周期為企業的經營管理提供決策支持, 努力轉型成為精財務、 懂業務、 會技術的復合型會計人才(金源和李成智,2023b)。
(三) 財務應用場景維度
1. 企業應揚長避短挑選“速效方案”場景。通過前文對于大模型財務應用優劣勢的分析可知, 大模型具備高效的信息處理與卓越的文本生成能力, 企業在財務場景部署大模型時, 應注意揚長避短。建議先圍繞大模型較為擅長的文本理解、 生成相關場景進行試點形成速效方案, 以構建會計人員對于大模型應用的信心, 適合選用作為速效方案的場景包括財務制度問答、 稅法咨詢、 合同要素提取、 報告撰寫等。
2. 僅依靠大模型實現邏輯復雜、 計算精準財務場景的可行性不高。現階段大模型在復雜邏輯推理、 高運算精度要求的財務場景方面存在不足。以會計核算為例, 將大模型用于CPA難度的會計核算場景, 目前可行性并不高。從數據供給的角度來看, 目前尚缺乏足夠規模的高質量標注數據。高質量標注數據是訓練大模型的重要基礎, 它直接影響到模型的準確性和可靠性。在會計核算場景中, 數據的準確性至關重要, 因為任何錯誤都可能導致財務報告不準確, 進而影響到企業的決策和運營。
此外, 從需求角度分析, 會計實務界已通過會計引擎和標準化模板實現大部分記賬流程自動化。這些工具和方法在實踐中已經得到了驗證, 并能夠滿足實務對于記賬準確性的極高要求。因此, 即使大模型能夠達到90%以上的準確率, 其在會計實務中的應用價值仍然有限, 因為實務對于準確性的要求遠高于90%。
3. 企業可探索AI Agent模式以彌補大模型短板。AI Agent模式是一種以大模型作為“中樞”, 調用其他軟件、 接口、 模型(如RPA、 報銷系統、 專業場景的機器學習小模型等)作為“四肢”, 并開展具體行動的技術模式。AI Agent模式可以通過拆解復雜任務, 調用細分領域的專精工具組件, 從而有效彌補前文所述的大模型的短板。例如, 在智能風控場景中, AI可以通過調用企業已有的風控模型, 彌補自身在數據挖掘方面的短板, 再基于自身文本理解和生成的優勢, 生成風險分析報告。
(四) 教學及科研維度
1. 依據大模型優劣勢進行課程改革。
(1) 課程考核應盡量避免 “小論文”形式。鑒于當前“AI查重”技術的發展滯后于“AI生成”, 學生可以利用大模型文本生成方面的強大能力迅速撰寫課程小論文, 建議教師更多地采用小組作業+匯報演講的形式, 側重于考核學生的專業知識思考深度和語言表達能力, 以鍛煉學生大模型時代所稀缺的能力。
(2) 隨著大模型在財務領域的應用逐漸成熟, 教師的教學內容和方法也需要相應地進行調整和更新。會計教師需關注大模型的發展動態, 避免將過多的教學時間投入到較容易被AI取代的知識和技能領域(例如基礎知識記憶、標準化報告撰寫), 應該將教學重點轉移到培養學生的知識靈活運用、 批判性思維鍛煉等方面。
2. 大模型財務應用方法論亟待提煉。關于大模型的財務應用, 業界普遍存在“知易行難”的問題, 缺乏一套成熟的、 被廣泛認可的方法論來指導實踐。現有的應用模式多樣, 但尚未形成統一標準, 這在一定程度上限制了大模型應用效率的最大化和企業間的經驗共享。
(1) 制定統一標準和指引: 行業組織和專業協會應積極出臺關于大模型在財務領域應用的標準化指引, 包括應用場景、 方法步驟等。
(2) 深化案例研究: 通過詳細記錄和分析實踐中的成功案例和失敗教訓, 提煉出具體場景下的有效應用策略, 為其他企業提供可借鑒的經驗。
(3) 強化跨學科研究: 鼓勵財務、 人工智能等領域的專家共同參與研究, 從多角度探討大模型的財務應用, 以期發現新的應用場景和改進方法。
(4) 注重倫理和合規性研究: 隨著大模型在財務領域的深入應用, 必須加強對其倫理和合規性問題的研究, 確保技術應用不會侵犯個人隱私、 造成數據泄露或觸發道德風險。
3. 高質量標注數據與財務隱性知識待梳理。助推大模型的財務應用突破現階段發展瓶頸的兩個關鍵因素是高質量標注數據的獲取與財務領域隱性知識的顯性化, 具體來說:
(1) 專業數據集建立及共享: 為解決大模型在特定財務管理任務上的精確度不足問題(如前文《會計》《財管》得分較低), 需要系統地收集和整理實務中的財務數據, 并進行專業標注。
(2) 挖掘隱性知識: 財務專家的經驗和直覺以及長期實踐過程中形成的思維邏輯在決策過程中至關重要, 但這類知識很難直接顯性化。通過專家訪談、 案例分析等方式, 可以逐步挖掘并記錄這些隱性知識, 使其能夠被大模型學習和模擬。
五、 總結與展望
(一) 總結
基于前文分析, 本文認為, 從整體層面來看財會行業對未來大模型的應用可持謹慎的樂觀態度。
1. 對大模型財務應用可保持樂觀的原因。
(1) 大模型已在部分場景初步顯現應用可行性。大模型在《稅法》《經濟法》《戰略》科目上較為良好的表現, 反映出其在海量信息處理、 自然語言交互、 準則法規檢索等方面具有顯著優勢, 這使得其在財務領域的學習備考輔助、 財務制度問答、 稅法咨詢等場景中具備廣闊的發展前景, 通過合理運用將有機會進一步轉化為財務生產力。
(2) 大模型的基礎性能和技術范式仍處于持續改進階段。隨著大模型參數量的不斷增加, 大模型將具備更強的推理能力以及上下文理解與生成能力。同時, 當下RAG、 AI Agent等新技術范式的不斷涌現, 將助推大模型實現同企業已有知識和工具的有效銜接, 進一步拓展其財務應用可行性。
(3) 當前國產大模型的財務綜合能力已可以比肩ChatGPT。ChatGPT雖模型基礎能力較強, 但其本身的訪問限制極大地影響了其在廣大財務群體中的普及應用。從本文的測試結果來看, 國產大模型由于訓練語料更加本土化所帶來的優勢, 在《審計》《戰略》《稅法》《經濟法》科目上的得分已經能夠追平甚至超越ChatGPT, 這表明國產大模型能夠更好地理解和應用與我國準則法規、 審計程序等相關的專業知識和技能。
(4) 現階段大模型無法完全取代會計人員。盡管大模型在測評過程中在會計知識理解方面體現出較大的潛力, 但其若要實現從“理論知識”到“會計實踐”的跨越, 還必須彌補深度思考、 靈活執行以及人際溝通等方面的能力短板。因此, 現階段大模型更適合作為人機協同過程中的輔助工具, 而不能完全取代會計人員。
2. 對大模型財務應用仍需保持謹慎的原因。
(1) 現階段大模型在部分財務能力方面仍存在明顯不足。大模型在《會計》《財管》《審計》科目上表現不佳, 體現出其在需要復雜鏈式思維能力、 高度計算準確性、 深度理解文本細節的財務能力方面存在明顯不足, 這將嚴重影響大模型在會計核算、 數據分析等場景的應用可行性。
(2) 大模型財務應用仍存在諸多發展瓶頸, 如無法解決, 將極大地限制大模型在未來財務領域的進一步應用。一是數據和知識瓶頸: 若要進一步解決大模型當前財務能力方面的明顯不足, 高質量的數據標注和財務隱性知識的顯性化至關重要, 仍需未來學界業界共同應對。二是微調(Fine-tuning)算力成本: 大模型在應用于特定財務場景時, 需要進行微調以適應實際需求, 然而微調過程所需的算力成本較高, 對于單個企業來說可行性較低, 需高校或軟件廠商領銜研發財務垂直領域的基座模型。三是模型泛化能力: 大模型在特定場景下表現良好, 但在面對復雜多變的財務環境時, 其泛化能力不足, 難以應對各種未知情況。
(3) 倫理和安全方面的挑戰。財務群體數量龐大, 財務數據高度重要, 因而在推動技術應用的同時必須高度關注倫理和安全問題。大模型財務應用所帶來的數據隱私保護、 算法透明度、 人機協同方式、 技術性失業等關鍵問題仍需業界學界共同攻堅(劉勤和楊寅,2019)。
(二) 展望
回顧過去, 從電算化、 信息化(劉勤和楊寅,2019)、 智能化一路走來, 會計群體始終站在信息技術應用的前沿, 展現出對技術革新的極高熱情。展望未來, 我們有理由相信, 會計群體將繼續引領潮流, 將大模型更加深入地融入學習和工作的各個環節, 提升基礎工作的幸福感, 促進職能轉型, 助力財務價值的創造。在業界與學界的共同推動下, 我們期待大模型在財務領域迎來全新的發展階段, 開啟更加輝煌的篇章!
【 注 釋 】
① https://mp.weixin.qq.com/s/0Gy1ILfYIUXkfswWT8-9_w。
② LMSys ChatBot Arena(LMSys聊天機器人競技場),一個致力于聊天機器人排行的項目。
【 主 要 參 考 文 獻 】
金源,李成智,賈冰玉.智能財務背景下的商業倫理與會計職業道德[ J].會計之友,2024(9):57 ~ 63.
金源,李成智.ChatGPT為代表的大模型對會計人員職能轉型的影響與應對——基于調查問卷的例證[ J].財會月刊,2023a(18):52 ~ 59.
金源,李成智.ChatGPT對智能財務體系的影響:場景優化、技術革新與人員轉型[ J].財會月刊,2023b(15):23 ~ 30.
金源,魏振,李成智.基于ChatGPT的問答式財務知識庫構建與應用[ J].財會月刊,2023a(17):46 ~ 51.
金源,莊璐怡,魏振等.基于ChatGPT的財務分析:框架、應用與效果評估[ J].財會月刊,2023b(19):24 ~ 30.
劉勤,楊寅.改革開放40年的中國會計信息化:回顧與展望[ J].會計研究,2019(2):26 ~ 34.
劉勤.ChatGPT及其對會計工作的影響探討[ J].會計之友,2023(6):158 ~ 161.
姚冬萍,陳曦,王珺.2023年注冊會計師全國統一考試分析報告[ J].中國注冊會計師,2024(6):70 ~ 78.
(責任編輯·校對: 黃艷晶" 劉鈺瑩)
DOI:10.19641/j.cnki.42-1290/f.2024.18.007
【基金項目】上海市會計學會重點課題“ChatGPT為代表的AIGC技術對會計行業的影響和應對研究”(項目編號:SHKJ2023ZDLX05);上海
國家會計學院智能財務研究院科研課題“大模型在智能財務領域的發展趨勢研究”(項目編號:IF2024401)