大語言模型在審計中的應(yīng)用研究

2024-12-31 00:00:00陳唯源何嘉玉

中國內(nèi)部審計 2024年11期

關(guān)鍵詞：人工智能

[摘要]本文分析了大語言模型在審計領(lǐng)域的關(guān)鍵能力和使用方式，選取了審計資料信息抽取、文本摘要總結(jié)、審計文書撰寫、審計代碼生成、審計知識庫和邏輯推理6類典型審計場景，對大模型審計應(yīng)用效果進行了測試評估，提出了審計大模型的構(gòu)建方法，并對推進審計大模型應(yīng)用提出相關(guān)建議。

[關(guān)鍵詞]人工智能" "大語言模型" "智能審計" "審計應(yīng)用

一、引言

人工智能技術(shù)在審計領(lǐng)域的應(yīng)用有效提高了審計質(zhì)效，但傳統(tǒng)算法對海量非結(jié)構(gòu)化數(shù)據(jù)的分析能力不足，審計全覆蓋和信息化水平仍有很大提升空間。近年來，得益于深度學(xué)習(xí)算法的突破、算力的提升以及海量數(shù)據(jù)的積累，特別是大語言模型的興起，使得審計技術(shù)應(yīng)用迎來新的發(fā)展機遇。大語言模型在分析復(fù)雜審計資料和生成高質(zhì)量審計文書方面具有顯著優(yōu)勢，可以輔助完成非結(jié)構(gòu)化審計資料分析、風(fēng)險識別和審計文書撰寫等工作，發(fā)揮在審計信息化工作中的優(yōu)勢。

二、文獻綜述

語言模型是自然語言處理領(lǐng)域的核心技術(shù)之一，經(jīng)歷了統(tǒng)計語言模型、神經(jīng)網(wǎng)絡(luò)語言模型和預(yù)訓(xùn)練語言模型3個階段，并逐步演化為大語言模型。以GPT為代表的大語言模型（以下簡稱“大模型”）擴展了模型規(guī)模和預(yù)訓(xùn)練語料規(guī)模，引入了指令微調(diào)、上下文學(xué)習(xí)和思維鏈技術(shù)，能夠在簡短的文本提示要求下執(zhí)行新任務(wù)。

產(chǎn)業(yè)應(yīng)用方面，OpenAI、百度等公司推出在線使用的大模型，Meta、阿里等公司也發(fā)布了開源大模型，使得在本地私有化部署大模型輔助審計具備現(xiàn)實可能。大模型應(yīng)用已覆蓋政務(wù)、金融、醫(yī)療等多個領(lǐng)域，在審計領(lǐng)域大模型也已有初步應(yīng)用。學(xué)術(shù)研究方面，呂君杰等（2023）和張家偉（2024）提出ChatGPT在審計領(lǐng)域的可能應(yīng)用；徐超（2023）和吳花平等（2023）提出基于ChatGPT等大模型的智慧審計系統(tǒng)構(gòu)建路徑；武曉璐等（2024）和張鳳元等（2024）提出ChatGPT等AI技術(shù)在審計領(lǐng)域的挑戰(zhàn)與應(yīng)對。

上述應(yīng)用研究仍存在不足：一是審計實踐應(yīng)用案例分析較少；二是應(yīng)用驗證將測試數(shù)據(jù)外發(fā)至在線大模型，不適用于審計本地全流程應(yīng)用和數(shù)據(jù)安全限制的情況。本文主要基于本地部署的大模型，以真實場景和數(shù)據(jù)對大模型的審計應(yīng)用能力、效果進行全面、系統(tǒng)的研究。

三、大模型在審計工作中的應(yīng)用

（一）大模型的能力和使用方式

大模型與審計相關(guān)的關(guān)鍵能力主要是語言生成、知識運用、復(fù)雜推理和工具操作。基于上述能力，使用大模型主要有四種方式。一是直接編寫提示詞（Prompt）。通過問答式提示詞交互，批量執(zhí)行審計任務(wù)，如分析審計資料、生成審計代碼等。這種方法不需額外訓(xùn)練，使用成本較低，但需審計人員設(shè)計精確的提示詞。二是利用外部知識庫。此方法將審計知識庫文本向量化后存儲于數(shù)據(jù)庫中，支持檢索、篩選并使用大模型總結(jié)答案，解決了提示詞長度受限的問題，可應(yīng)用于案例推薦、審計依據(jù)搜索等場景。三是審計領(lǐng)域數(shù)據(jù)微調(diào)模型。單以文本向量搜索知識庫可能破壞文本連貫性和順序，通過補充審計領(lǐng)域數(shù)據(jù)進入預(yù)訓(xùn)練語料庫，對模型進行微調(diào)，可以讓模型更精準(zhǔn)地運用審計知識。四是集成外部插件。大模型可連接多種工具拓展其功能，如網(wǎng)頁搜索、計算器等，提升數(shù)據(jù)時效性，并增強數(shù)學(xué)計算等方面的性能。

（二）大模型審計應(yīng)用實驗

本文基于本地部署的多個開源大模型（通用大模型ChatGLM2-6B、Qwen-14B、Baichuan2-13B，代碼大模型CodeFuse），對本地和在線大模型在審計領(lǐng)域的應(yīng)用效果進行了對比分析。

1.信息抽取。

信息抽取是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié)，可將非結(jié)構(gòu)化審計文檔中的關(guān)鍵信息轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，如合同中金額、日期、交易方、關(guān)鍵條款等。與傳統(tǒng)方法相比，大模型進行信息抽取無需訓(xùn)練模型。

在合同審計中，實驗以提示詞方式使用大模型批量抽取合同關(guān)鍵信息，抽取甲乙方名稱、金額、收款銀行賬戶等18項字段級信息，以及合同標(biāo)的、履約責(zé)任和保密約定條款等15項篇章級信息。以抽取甲乙方名稱為例，使用的提示詞為“抽取以下合同中的甲方名稱、乙方名稱，并以json格式返回，上述各項信息請直接引用合同中的內(nèi)容，如果合同中無相關(guān)內(nèi)容可留空。以下是合同具體內(nèi)容：{合同內(nèi)容}”。結(jié)果顯示，本地部署大模型Qwen-14B在信息抽取任務(wù)的整體準(zhǔn)確率達93%。說明本地部署大模型在信息抽取時僅通過提示詞便可達到較好效果。

審計處理的資料、文檔長度通常在幾千到幾十萬字不等，對于超出大模型上下文處理長度限制的文檔，可以采用分治（map-reduce）或精煉（refine）策略分段處理后合并結(jié)果。以對長合同的信息抽取為例，分治策略流程如圖1所示。

2.文本摘要總結(jié)。

大模型可對審計資料進行摘要總結(jié)，并實現(xiàn)閱讀理解與資料分析。在對人民銀行某省分支機構(gòu)的審計監(jiān)督中，審計人員從裁判文書網(wǎng)抓取與各機構(gòu)相關(guān)的案件362件，全文共計160萬字。審計人員使用大模型批量總結(jié)案件內(nèi)容，并分析有關(guān)機構(gòu)在案件中的角色，再根據(jù)總結(jié)分析結(jié)果，快速判斷出案件是否涉及該機構(gòu)資金資產(chǎn)。提示詞和示例回答如表1所示。

大模型選用上下文長度為32K的ChatGLM2-6B，處理后生成案件摘要共4萬字、角色判斷共計8千字，大幅減少了查閱資料的工作量，審計人員能夠快速篩查線索，發(fā)現(xiàn)部分機構(gòu)債務(wù)債權(quán)的相關(guān)問題。經(jīng)評估，大模型生成的案件摘要基本準(zhǔn)確，但有23%的案件角色因模型幻覺導(dǎo)致誤判，如錯將被告人的就職單位認為是被告角色。實際應(yīng)用中，審計人員應(yīng)對大模型的篩查結(jié)果進行審核。

3.審計代碼生成。

大模型可以協(xié)助審計人員編寫審計代碼執(zhí)行任務(wù)，分析和處理大量業(yè)務(wù)數(shù)據(jù)。以常見的表格處理、可視化界面生成、文本分類、系統(tǒng)日志分析和圖表生成5類審計任務(wù)為例，使用本地部署的通用大模型和代碼大模型生成代碼，對比測試代碼執(zhí)行效果。設(shè)計的典型應(yīng)用場景包括：表格處理任務(wù)為交叉比對多個異構(gòu)表格中的數(shù)據(jù)是否一致；可視化界面生成任務(wù)為基于表格數(shù)據(jù)處理功能生成可視化界面；文本分類任務(wù)為基于SVC算法識別賬務(wù)中的信息化資金支出；系統(tǒng)日志分析任務(wù)為檢查日志記錄是否完整、缺失，以篩查系統(tǒng)中斷線索；圖表生成任務(wù)為根據(jù)某機構(gòu)財務(wù)報表數(shù)據(jù)繪制圖表。任務(wù)1至4以Python語言進行編程，任務(wù)5以ECharts圖表語言進行編程。

經(jīng)測試，本地部署代碼大模型可實現(xiàn)全部5個任務(wù)，其中3項任務(wù)的代碼可直接運行得到結(jié)果，2項任務(wù)的代碼稍加修改后可用。在實踐中，審計人員多采用Python等腳本語言編程處理數(shù)據(jù)，代碼架構(gòu)和實現(xiàn)邏輯較為簡單，大模型無需訓(xùn)練即可生成代碼，適用性較強。

4.審計知識庫。

審計人員通過運用集成知識庫，可以突破提示詞的長度限制。基于大模型的知識庫相比傳統(tǒng)的查詢搜索，能夠支持模糊匹配查詢，還可對查詢結(jié)果進行智能總結(jié)。

審計依據(jù)知識庫主要包括法律法規(guī)、標(biāo)準(zhǔn)規(guī)范、管理制度等文件，使用BGE語義向量算法處理分割后的文本，將其轉(zhuǎn)化為向量并存儲至向量數(shù)據(jù)庫中。使用知識庫問答時，提出的問題首先經(jīng)向量化處理，在向量數(shù)據(jù)庫中初步檢索，返回相關(guān)的參考文檔，再由大模型根據(jù)參考文檔給出精準(zhǔn)回答。流程如圖2所示。

在實踐應(yīng)用中，使用不同業(yè)務(wù)領(lǐng)域的問題進行評估測試，如“邀請招標(biāo)時未向三家以上符合要求的單位發(fā)出投標(biāo)邀請書違反什么規(guī)定”等。結(jié)果顯示，BGE向量化算法的文檔召回準(zhǔn)確率達87.5%，本地部署大模型Baichuan2-13B對召回文檔內(nèi)容的分析準(zhǔn)確率達88.6%。知識庫整體準(zhǔn)確率為文檔召回準(zhǔn)確率乘以大模型的分析準(zhǔn)確率，為77.5%。

5.邏輯推理。

大模型的邏輯推理能力適用于遵循給定規(guī)則的合規(guī)性檢查、內(nèi)控流程漏洞檢查等審計任務(wù)。

（1）合規(guī)性檢查方面。關(guān)于一致性、存在性的問題，如比對發(fā)票和報銷單據(jù)內(nèi)容是否一致、檢查合同是否存在約定違約條款等。該類問題的檢查較為簡單，測試驗證本地部署的大模型即可實現(xiàn)。對于遵從性問題的檢查，如制度規(guī)定是否符合法規(guī)要求等，需要模型具備較為復(fù)雜的文字理解和邏輯判斷能力。以檢查下位制度是否違反上位法相關(guān)規(guī)定為背景，對X機構(gòu)《行政處罰程序規(guī)定》有關(guān)條款放寬時限、刪除前提、縮減范圍，變造出3個條款，調(diào)用大模型判斷變造后的條款是否符合《中華人民共和國行政處罰法》（上位法）的相關(guān)要求。示例如表2所示。

經(jīng)測試，本地部署的大模型無法正確回答上述問題，但在線大模型可以指出變造條款的不合理之處。在線大模型正確回答的示例如表3所示。

（2）內(nèi)控流程漏洞檢查方面。大模型的復(fù)雜邏輯推理能力可以協(xié)助審計人員檢查業(yè)務(wù)流程，發(fā)現(xiàn)內(nèi)控漏洞。以財務(wù)轉(zhuǎn)賬、員工薪酬發(fā)放和備案事項審核流程中的3個真實的內(nèi)控失效案件為例，詢問大模型相關(guān)的工作流程是否存在內(nèi)控漏洞。經(jīng)測試，本地部署的大模型僅能發(fā)現(xiàn)其中1個案件的漏洞，在線大模型可發(fā)現(xiàn)全部3個案件的漏洞。財務(wù)轉(zhuǎn)賬流程漏洞檢查示例如表4所示。

上述內(nèi)控流程根據(jù)真實案件改編，該機構(gòu)出納人員利用復(fù)核人員長時間未將U盾放入保險柜、未變更網(wǎng)銀密碼的漏洞，將單位資金轉(zhuǎn)至個人賬戶，并篡改銀行紙質(zhì)對賬單，實現(xiàn)資金盜取。大模型僅根據(jù)內(nèi)控流程即可發(fā)現(xiàn)風(fēng)險漏洞。

實驗表明，本地部署的小規(guī)模參數(shù)大模型尚難以完成內(nèi)控漏洞發(fā)現(xiàn)等復(fù)雜邏輯推理任務(wù)，僅能完成一致性比對等簡單邏輯推理任務(wù)，在線大模型憑借更大的參數(shù)規(guī)模，可以實現(xiàn)較為復(fù)雜的邏輯推理審計任務(wù)。

6.審計文書撰寫。

審計文書撰寫是特殊的文本摘要和總結(jié)任務(wù)。大模型經(jīng)過微調(diào)訓(xùn)練，能夠?qū)唧w信息進行提煉和概括，并轉(zhuǎn)化為格式規(guī)范的文書。

實驗以根據(jù)問題描述進行問題定性為場景，測試了大模型撰寫問題定性的能力。以審計署網(wǎng)站公開發(fā)布的審計工作報告為實驗數(shù)據(jù)，本文使用大模型構(gòu)建了包含2，500條數(shù)據(jù)的訓(xùn)練集，如表5所示。

使用該訓(xùn)練集對Baichuan2-7B大模型完成訓(xùn)練后，對100條問題進行定性測試，評估有22%的問題定性與原文基本一致，60%的文字描述略有偏差但語義一致，評估綜合準(zhǔn)確率達到82%。若不進行訓(xùn)練，大模型在該項測試中約31%的結(jié)果不符合要求。表6為未經(jīng)訓(xùn)練和訓(xùn)練后的大模型表現(xiàn)對比示例。

進一步擴展，使用大模型從審計工作底稿、事實確認書、審計報告中結(jié)構(gòu)化地提取審計發(fā)現(xiàn)問題信息，據(jù)此生成訓(xùn)練數(shù)據(jù)，可訓(xùn)練大模型具備組織、描述和定性問題進而生成審計報告的能力。

（三）大模型審計應(yīng)用實踐總結(jié)

大模型通過簡短的提示詞描述任務(wù)即可實現(xiàn)工作目標(biāo)，降低了審計應(yīng)用門檻。實際應(yīng)用時，通過設(shè)計精準(zhǔn)的提示詞或適當(dāng)?shù)念A(yù)訓(xùn)練，本地部署的通用大模型能夠處理一般的文本處理任務(wù)并達到可接受的準(zhǔn)確率。

使用大模型時，需要注意：一是警惕大模型可能產(chǎn)生的幻覺問題。在提示詞中要求大模型不得編造內(nèi)容，可減少幻覺現(xiàn)象的發(fā)生。二是注意模型處理上下文長度的限制。文檔篇幅較長時，應(yīng)對長文檔進行拆解，逐段處理，并最后整合結(jié)果。三是避免直接使用大模型處理復(fù)雜的邏輯推理任務(wù)，可以將復(fù)雜的任務(wù)進行分解，或在提示詞中加入思維鏈提示，以避免大模型簡化判斷或遺漏關(guān)鍵要素。

四、審計大模型的構(gòu)建

前述智能審計應(yīng)用實踐已初步探索大模型的提示詞工程、指令微調(diào)和知識庫3種應(yīng)用方式。進一步，可以構(gòu)建適應(yīng)各類審計場景的垂直大模型，使之成為智能審計平臺的智慧大腦。

（一）數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)集主要來自審計依據(jù)和審計工作文檔，轉(zhuǎn)換后生成大模型訓(xùn)練所需的無監(jiān)督和有監(jiān)督數(shù)據(jù)集。數(shù)據(jù)集構(gòu)建方法如圖3所示。

在生成有監(jiān)督數(shù)據(jù)集的過程中，還可使用大模型對無監(jiān)督數(shù)據(jù)源進行自問自答（Self-QA）或自我指導(dǎo)（Self-instruct），大規(guī)模批量生成有監(jiān)督的指令集。其中，Self-QA示例如圖4所示。

（二）模型構(gòu)建

生成訓(xùn)練數(shù)據(jù)集后，對基礎(chǔ)大模型進行訓(xùn)練，以構(gòu)建審計垂直領(lǐng)域大模型。在增量預(yù)訓(xùn)練階段，使用無監(jiān)督數(shù)據(jù)進行增量預(yù)訓(xùn)練，將審計專業(yè)知識注入模型；在指令微調(diào)階段，利用有監(jiān)督數(shù)據(jù)進行指令微調(diào)，確保模型能夠準(zhǔn)確理解并回答審計領(lǐng)域內(nèi)的各種指令問題。實時地根據(jù)審計數(shù)據(jù)集建立知識庫，以減少模型幻覺；維護統(tǒng)一審計指令集，批量自動化執(zhí)行審計任務(wù)，并對審計指令集開展全生命周期管理。審計大模型構(gòu)建路徑如圖5所示。

（三）模型安全

在模型的構(gòu)建中應(yīng)采取措施確保模型安全：一是在數(shù)據(jù)準(zhǔn)備階段，做好數(shù)據(jù)隱私保護。對訓(xùn)練數(shù)據(jù)脫敏，避免大模型生成結(jié)果中包含敏感信息；審計資料以熱插拔形式接入知識庫或供大模型調(diào)用，避免將審計資料作為訓(xùn)練數(shù)據(jù)注入模型。二是在模型訓(xùn)練階段，進行安全對齊，如采用RLHF（reinforcement learning from human feedback，基于人類反饋的強化學(xué)習(xí)）等技術(shù)與人類價值觀對齊。三是在模型使用階段，做好提示詞和輸出過濾。

五、促進大模型在審計中應(yīng)用的建議

（一）挖掘大模型適用審計場景

一方面，應(yīng)對傳統(tǒng)審計應(yīng)用進行優(yōu)化升級，引入大模型提升任務(wù)完成效果，如依據(jù)搜索優(yōu)化、案例個性化推薦等。另一方面，應(yīng)梳理各類審計項目的審計事項、數(shù)據(jù)類型，各類審計方法的步驟、目標(biāo)，以多種方式將大模型融入審計檢查和審計管理工作。

（二）探索構(gòu)建新一代智能審計系統(tǒng)

探索使用審計大模型構(gòu)建智能審計系統(tǒng)，以審計大模型作為智能審計系統(tǒng)的核心中樞和智慧引擎，賦能新一代智能審計系統(tǒng)更加強大的數(shù)據(jù)處理能力、真正的智能分析和決策支持，以及多種個性化服務(wù)和自動化功能，實現(xiàn)審計作業(yè)和審計管理的智能化。

（三）加強審計大模型人才培養(yǎng)

組織擁有人工智能技術(shù)背景、審計業(yè)務(wù)扎實的審計人員，開展大模型審計應(yīng)用相關(guān)的審計理論、模型構(gòu)建等專題研究。對現(xiàn)有審計人員開展有針對性的培訓(xùn)，激發(fā)審計人員了解、學(xué)習(xí)和應(yīng)用新技術(shù)的熱情，在審計實踐中提升審計業(yè)務(wù)和審計大模型技術(shù)融合應(yīng)用能力。

主要參考文獻

[1]呂君杰，鄭石橋.ChatGPT在審計中的可能應(yīng)用路徑[J].商業(yè)會計， 2023（9）：47-49

[2]徐超.審計大模型的構(gòu)建與運用[J].審計觀察， 2023（11）：4-7

[3]吳花平，湯麒胭.ChatGPT對智慧審計的機遇與挑戰(zhàn)[J].中國注冊會計師， 2023（7）：67-72+3

[4]武曉璐，陳省軍，謝路陽，等.人工智能技術(shù)對內(nèi)部審計工作的影響研究：以ChatGPT模型的應(yīng)用為例[J].現(xiàn)代商貿(mào)工業(yè)， 2024，45（4）：147-149

[5]張鳳元，沈慧雨，席一丹.ChatGPT等AI技術(shù)下審計的機遇與挑戰(zhàn)[J].航空財會， 2024，6（1）：57-61

[6]張家偉.ChatGPT助力內(nèi)部審計智能化轉(zhuǎn)型[J].上海企業(yè)， 2024（2）：141-143

[7]Brown T， Mann B， Ryder N， et al. Language models are few-shot learners[J]. Advances in neural information processing systems， 2020， 33： 1877-1901

[8] Hu E J ， Shen Y ， Wallis P ，et al. LoRA： Low-Rank Adaptation of Large Language Models[C]. International Conference on Learning Representations， ICLR 2022