









【摘要】在審計業務中,面向審計工作底稿的審計判斷是當前審計工作面臨的共同難題。面對海量繁雜的法規條款,審計判斷存在審計定性不準確、定性依據引用存在困難、依法審計定性的規則悖反、處理處罰中自由裁量權使用不當等難題,確保審計判斷的準確性和客觀性是一個巨大的挑戰。大語言模型通過自然語言處理和深度學習技術深入學習領域知識及其潛在關系,為審計判斷提供了新的解決方案。本文以審計定性與法規推薦為目標,微調大語言模型,使其能夠服務于審計概念理解、審計定性、審計法規推薦等任務。實驗結果表明,該大語言模型相比通用大語言模型能夠更加恰當地生成問題總結短語、推薦定性依據和處罰依據,為提高審計工作質量和效率提供了新的實現途徑。
【關鍵詞】審計判斷;定性依據;智能審計;大語言模型
【中圖分類號】F239.1""""" 【文獻標識碼】A""""" 【文章編號】1004-0994(2025)06-0021-8
一、引言
2024年3月5日,習近平總書記在參加十四屆全國人大二次會議江蘇代表團審議時強調,要牢牢把握高質量發展這個首要任務,因地制宜發展新質生產力。新質生產力作為新時代經濟發展的核心動力,在數字經濟背景下對審計工作提出了更高要求,大力推進數智化轉型已成為審計工作實現高質量發展的迫切需求。近年來,大數據審計、智能審計等新型審計技術應運而生,推動了審計領域的技術創新,為審計人員提供了更加高效、可靠的工作手段和方法,也為審計技術數智化轉型發展提供了新的路徑。
在審計業務中,審計判斷是指審計人員為了實現審計目標,依據有關標準,在審計實踐和業務經驗的基礎上,通過一系列思維過程,對客觀審計對象和主觀審計行為所做出的某種認定、評價與決斷(于凌云和吳建新,2012)。審計判斷是審計活動的核心組成部分,是確保審計目標實現的關鍵手段,其直接影響著審計的質量和效果。目前,審計人員在審計判斷過程中面臨著一些共同難題: 一是難以用準確且合理的方式對審計問題進行總結; 二是法律法規的內容體系龐大且不斷更新迭代,合理地運用法律法規進行審計判斷變得尤為困難。由此可見,審計判斷是一項知識密集型活動,需要審計人員熟知審計領域常見的問題表現形式及與之相關的法規制度,方能高質量、高效率地開展這項活動。
在人工智能浪潮中,大語言模型(Large Language Models,LLMs,簡稱“大模型”)憑借卓越的自然語言處理能力,正迅速成為人工智能研究與應用的新焦點,并引領自然語言處理乃至人工智能領域研究范式的轉變(車萬翔等,2023)。大模型技術是使用大量文本數據訓練的深度學習模型,其在需要語言理解與生成、專業知識模擬與學習等信息密集、需要專業領域知識的應用場景中已展示出較強的應用潛力。因此,研究基于大模型的智能化審計判斷技術具有深遠的意義,可為推動人工智能技術在審計領域的實踐應用提供新的視角。
本文以審計定性與法規推薦為目標,借助人工智能領域的大模型微調技術,使其服務于審計概念理解、審計定性、審計法規推薦等任務。本文在應用層面上,為提高審計工作質量和效率提供了新的實現途徑; 在研究層面上,為人工智能技術賦能審計行業提供了堅實的基礎知識和實驗支持。
二、文獻綜述
(一)審計判斷相關研究
目前,學者們認為審計判斷中主要存在審計定性不準確、定性依據引用存在困難、依法審計定性的規則悖反、處理處罰中自由裁量權使用不當四個方面的難題,并從不同角度展開了研究。張樂玲(2018)針對當前審計定性中存在的主要問題,提出要規范審計定性的要點,即準確確定違規事項性質、恰當引用定性依據、規范審計定性用語,并建議審計人員加強相關法律法規的學習和內外溝通,同時審計證據要適當充分。班鳳欣(2010)針對規范審計定性及處理處罰應當把握或注意的方面,提出審計人員在審計工作中應當以事實為依據、以法律為準繩,準確運用法規,規范定性及處理處罰在報告中的表述模式等。鄭石橋和朱霽(2017)分析了依法審計定性可能出現的兩種規則悖反情形,一是合法但不合理,二是合理但不合法,并提出了救助機制。徐波和廖晨琪(2022)圍繞審計自由裁量權的濫用行為,討論了自由裁量權與審計質量之間的辯證關系,分析了規范審計自由裁量權制度體系的著力點,并且提出了一些應對措施,以期為構建完善的審計自由裁量權制度體系提供參考。
(二)智能審計相關研究
人工智能技術在過去幾年取得了令人矚目的發展,不斷推動著各行各業的變革與進步。大模型是人工智能領域的一個重要分支,具有廣泛的應用場景,能夠為不同行業賦能,助力行業發展。在法律推理領域,大模型具備案例分析、法律問答與審判輔助等實踐能力。其通過自動化處理大量法律文書和案例,幫助法律從業者更快地找到相關信息,更準確地分析案件,從而提高工作效率和服務質量。部分工作的自動化處理能夠減少從業人員的工作量,從而降低法律服務成本(張舟和劉文清,2024)。在金融領域,大模型通過先進的自然語言處理技術和機器學習技術,為金融行業帶來多樣化的能力,從對股票價格的預測到高級金融分析,這些趨勢正在不斷推動金融科技的發展(Xie等,2023)。同樣,大模型也可以為審計行業提供創新性的解決方案(Huang等,2023)。
在智能審計理論研究探索方面,學者們闡述了智慧審計的概念,并提出了一系列智能化解決方案。在智能審計理論發展方面,楊道廣等(2022)基于審計工作的系統性與復雜性以及數智技術應用的廣泛性與交互性,提出了能夠概括數智技術應用于審計的本質邏輯與核心思維的新概念——智慧審計。在此基礎上,黃佳佳等(2023)提出了面向智慧審計的思維變革,并探討了如何運用大模型、知識圖譜、深度學習等人工智能技術構建審計平臺。陳雪嵩(2024)探討了大模型在企業內部審計中的具體應用以及其未來發展前景。在智能審計實踐方面,程平等(2023)構建了基于 ChatGPT 的內部審計框架模型,為生成式人工智能技術在企業內部審計領域的智能化應用提供了參考和借鑒。
(三)文獻評述
綜上,學者們針對審計判斷中存在的挑戰,主要從人員培訓和機制管理方面提出了相應措施,這對審計人員的專業能力和工作態度提出了更高的要求,其具體實施較為困難。而在審計技術方法方面,盡管近年來有學者探討了結合人工智能技術特別是大模型技術的智慧審計的發展與應用,但鮮有研究深入探索人工智能技術與審計領域實務的結合。本文將審計判斷抽象為一系列大模型學習任務,構建一系列指令數據集,并基于指令數據集微調大模型,同時運用多個指標評估大模型的生成結果,為人工智能技術賦能審計行業提供可靠的實驗方案和結果驗證。
三、當前審計判斷中存在的難題
審計判斷是指對審計工作底稿中的潛在問題、異常情況或重要事項進行性質評估,包括對財務報表、業務運作等方面的重要問題進行分析和判斷,對照相關定性依據確定問題的性質,根據審計定性的結果參照相應的法規體系進行處理處罰。審計判斷的流程如圖1所示。
對于輸入的審計工作底稿,審計人員首先需要進行問題總結或問題分類; 其次,針對該問題檢索恰當的企業內部或國家級制度文件、法律法規作為定性依據; 最后,若對該問題的定性參考的是某條法律條款(如《稅收征收管理法》第六十三條),則可能存在對應的罰則條款作為處罰依據(如《稅收征收管理法》第六十三條)。若是將該流程智能化,則期望智能系統能夠自動輸出審計問題的總結短語、相關定性依據及處理處罰依據。
由此可見,審計判斷是一項復雜且具有一定主觀性的評估活動。審計人員在實踐中進行審計判斷時面臨著一些挑戰,主要包括審計定性不準確、定性依據引用存在困難、依法審計定性的規則悖反及處理處罰中自由裁量權的使用不當等。這些挑戰的存在不僅影響了審計判斷的質量和效率,還可能對審計結果的公正性和透明度造成影響。
(一)審計定性不準確
由于定性標準尺度不一,不同人員對相同問題的定性可能差別較大,同一人員對不同問題的定性沒有統一標準,導致處理處罰上大相徑庭,有的甚至歪曲定性(班鳳欣,2010); 審計人員有時只看表面現象,沒有觸及事項本質(張樂玲,2018),這樣的定性結果無法清晰準確地表述問題,也有可能與真實情況相偏離。例如,針對圖1審計工作底稿中“某個商業公司的業主為了逃避納稅……”的問題,審計人員可能沒有正確定性為“偷逃稅款”,而是定性為其他問題,比如“不規范的賬務處理”。對于定性不準確的問題,一般要求審計人員收集適當充分的審計證據(班鳳欣,2010)、以審計證據所表現的事實為依據進行定性、規范定性在報告中的表述模式(張樂玲,2018)。這對審計人員的工作態度和工作質量提出了更高的要求。
(二)定性依據引用存在困難
由于非結構化的法規文件種類繁多、內容繁瑣,審計人員在對照問題尋找相應審計依據或處罰依據的過程中,需要逐行逐段地閱讀大量文件,時間成本較高。并且,審計人員還有可能會引用廢止或失效的規定(張樂玲,2018)。此外,問題的定性依據不唯一。例如,針對“少(多)計收入(或者隱瞞、虛列收入)”的問題,《會計法》第二十四條及《企業會計準則第14號——收入》第二章均作出了相應的規定。對于定性依據引用存在的問題,一般要求審計人員加強相關法律法規的學習,關注各種法律法規的頒布和更新,拓展自身知識面(班鳳欣,2010;張樂玲,2018)。
(三)依法審計定性的規則悖反
嚴格應用法律法規進行問題定性可能會出現兩類規則悖反的情形: 一是合法但不合理,二是合理但不合法(鄭石橋和朱霽,2017)。例如,某員工利用公司寬泛的報銷政策,以“提高家庭辦公環境水平”為由購買家居裝飾品進行報銷。雖然合法,但從商業道德和資源管理的角度來看,這種行為屬于假公濟私,違背了報銷本意和公司的資源管理原則。有學者提出了規則悖反的救助機制,即: 對于合法但不合理的情形,實行目的性擴張(鄭石橋和朱霽,2017),在維護合法性的前提下,采用法律漏洞補充方法進行補充,以促進其合理性水平的提升; 對于合理但不合法的情形,實施目的性限縮(鄭石橋和朱霽,2017),在確保合理性的基礎上,通過合法的方式對規則進行限制,以達到合法性目的。但這要求審計人員在法學知識、倫理責任和專業技能方面具備極高的素養。
(四)處理處罰中自由裁量權使用不當
由于審計系統對于自由裁量權的使用沒有明細的規范(班鳳欣,2010),審計人員一般根據自己的經驗進行處罰,如果對自由裁量權沒有正確的認知,就不能真正發揮自由裁量的作用,從而導致自由裁量權的濫用。例如,《稅收征收管理法》第六十三條規定“對納稅人偷稅的,由稅務機關追繳其不繳或者少繳的稅款、滯納金,并處不繳或者少繳的稅款百分之五十以上五倍以下的罰款”。稅務機關在確定處罰金額時,對納稅人處不繳或者少繳的稅款百分之五十或者五倍的罰款均符合規定,但這兩種罰款金額存在一定差距。有專家提出循序漸進地構建審計自由裁量權體系制度(徐波和廖晨琪,2022),但這會進一步增加制度的復雜性,也需要耗費較多的時間和資源。
四、大模型在審計判斷中的應用設計
(一)大模型技術概述
大模型的發展可以概括為三個階段: 基礎模型階段(2018~2021年)、能力探索階段(2019~2022年)和突破發展階段(2022年至今)(Zhao等,2023)。2020年,由OpenAI發布的包含千億參數的生成式大模型GPT-3.0開啟了大模型時代。2022年11月30日,OpenAI發布了對話式大模型 (Chat Generative Pre-trained Transformer,ChatGPT)。該模型允許用戶使用自然語言對話形式進行交互,可實現包括自動問答、文本分類、自動文摘、聊天對話等各類自然語言理解和自然語言生成任務。這也引發了學術界和工業界對大模型的研究。
與傳統人工智能技術相比,大模型表現出如下優越性:
1. 大模型具有較為豐富的世界知識。以BERT(Devlin等,2018)為代表的預訓練語言模型由于模型參數規模與數據規模都相對較小,無法充分建模以及利用世界知識信息,需要以微調為主要手段來解決下游任務。而大模型在經過超大規模的數據預訓練后可以學習到較為豐富的世界知識(Bubeck等,2023)。
2. 大模型具有較強的通用任務解決能力。大模型主要通過預測下一個詞元的預訓練任務進行學習,雖然并沒有針對特定的下游任務進行優化,但能夠建立遠強于傳統模型的通用任務求解能力,這也深刻影響了很多研究領域的科研范式。例如,自然語言處理領域的傳統任務(如摘要、翻譯等)都可以采用基于大模型的提示學習方法進行解釋,而且能夠獲得較好的任務效果,早期任務特定的解決方案已經被逐步替代。
3. 大模型具有較強的復雜任務推理能力。除了具有通用性,大模型在復雜任務中還展現出較強的推理能力。例如,大模型能夠回答知識關系復雜的推理問題,還可以解決涉及復雜推理過程的數學題目。在這些任務中,傳統方法的性能相對較差,而大模型在經過大規模文本數據預訓練后,能夠展現出比傳統模型更強的綜合推理能力。
4. 大模型具有較強的人類指令遵循能力。大模型建立了自然語言形式的統一任務解決模式,即任務輸入與執行結果均通過自然語言進行表達。通過預訓練與指令微調兩個階段的學習,大模型具備了較好的人類指令遵循能力,能夠根據自然語言描述下達的任務指令直接給出結果,這對于打造以人為中心的應用服務(如智能音箱、信息助手等)具有重要意義。除了以上主要的能力,當前大模型還展現出長程對話的語義一致性、較好的人類對齊能力、對于新任務的快速適配等重要優勢。
隨著大模型技術的迅猛發展,人工智能相關研究領域正發生著重要的技術變革,同時也對產業應用帶來變革性影響,催生出基于大模型的應用生態系統,更多以大模型為基礎技術架構的科技應用產品逐漸被開發出來,進而簡化了原來復雜的工作處理流程,提高了工作的質量和效率。
(二)大模型在審計判斷中的智能推薦框架構建
在法律領域有兩種經典的推理路徑: 一是規則推理路徑; 二是案例推理路徑(張舟和劉文清,2024)。其中,規則推理路徑是基于現有的法律法規通過邏輯推理分析案件,案例推理路徑是依據先前的判例和裁決來決定新的案件。這兩種路徑在法律推薦中各有優勢和限制,再考慮到人為判斷的影響,想要得出一個公正合理的推理結果具有一定的挑戰性。在人工智能背景下,大模型可以更好地將兩種推理路徑結合在一起,以事實為依據、以法律為準繩,通過審計法規并結合案例進行分析,從而達到審計判斷更恰當的效果。
本文提出的審計依據推薦思路是從審計工作底稿和審計依據同時出發,一方面根據審計工作底稿進行問題總結,另一方面對審計依據所描述的問題進行總結,基于相似的短語描述實現審計問題與審計依據之間的匹配,相似度越高,則該審計依據被推薦的概率越大,進而輔助審計人員進行審計判斷。通過對審計判斷領域知識的學習,大模型可以識別出審計工作底稿中的問題,并進行相關依據的推薦生成。審計判斷大模型的能力展示如圖2所示。
在法規推薦方面,審計判斷大模型經過微調步驟掌握了全面、嶄新的法律法規體系,自動化的法規推薦過程大大簡化了審計人員的工作流程,使其能夠更好地應對復雜的法律環境和審計挑戰,為審計人員提供了省時省力的解決方案,提高了工作效率,保障了審計工作的準確性和合規性。
在審計判斷方面,審計判斷大模型不僅能根據審計問題簡單地進行法規推薦,還會綜合考慮法律法規、管理制度、績效等多方面因素,并從倫理、道德規范、道德原則等多個角度進行全面評估。對于審計中出現的規則悖反情況,審計判斷大模型會對其合理性和合法性兩個指標同時進行分析,給出相關的定性依據以及判斷標準。
在處理處罰方面,審計判斷大模型在識別潛在的違規行為和異常時,能夠把握一些關鍵細節,例如審計問題“挪用資金”的具體情況可能包括金額大小、挪用時間長短等。在判斷違規行為的輕重時,審計判斷大模型會基于這些因素,不受個人情感、偏見或壓力的影響去評估問題的嚴重性,提供客觀、基于證據的處理處罰意見,這確保了處理處罰的一致性,減少了主觀因素對自由裁量權使用所帶來的影響。
(三)大模型在審計判斷中的任務構成
本文基于審計判斷的實際應用場景,結合大模型微調學習的本質特征,抽象出各類型大模型微調任務,包括審計概念理解、審計定性和審計法規推薦。
1. 審計概念理解。該任務側重于讓模型理解審計的基礎概念、工作流程等,包括: ①審計概念問答。這類問答的內容豐富、類型眾多,涉及審計基礎概念、審計工作流程等。②審計知識三元組。該任務基于黃佳佳等(2022)發表的《大數據驅動的審計知識庫建設與應用》一文,從中抽取不同類型的審計知識圖譜三元組(實體1,關系,實體2)構建微調數據集,使模型能夠更好地理解實體之間的關系,如表1所示。
2. 審計定性。該任務側重于從審計案例或法律法規中識別審計問題,并對問題進行總結和分類。
(1)審計問題總結,即對審計案例描述進行深入分析并用一段或一句話總結其中存在的審計問題。
(2)審計問題分類,即判斷審計問題屬于哪類審計項目,該任務涉及的項目類型及若干相關案例如表2所示。
(3)審計問題表現,即對文中所涉及的審計問題進行分析,回答該審計問題有哪些表現形式,例如“私設小金庫”的表現形式為“在本單位財務會計部門賬外或未納入預算管理私存私放資金”。
(4)審計類型判斷,即根據審計案例描述進行分析,判斷該審計案例屬于哪個類型的審計項目。
3. 審計法規推薦。該任務側重于根據審計問題表現進行審計定性及處理處罰的法規推薦。
(1)審計依據生成,即對文中所描述的審計問題、該問題的表現形式或者審計案例描述進行分析,回答該審計問題可以依據哪些法律法規進行定性或處罰,如表3所示。
(2)審計法規分類,即判斷法律法規名稱(如《增值稅一般納稅人登記管理辦法》)屬于哪個領域。本文構建的法規類別包括金融、會計、財經等10個國家審計涉及的常見類別。
(3)審計法規問答,即以內部審計指南、會計法規、企業管理條例等法律法規的內容為基礎,通過GPT-4.0(Achiam等,2023)構建問答對,并篩選出高質量的問答對構成該指令數據。
五、大模型在審計判斷中的應用: 實驗研究與性能評估
(一)數據集收集與整理
基于抽象的審計判斷任務,進一步為每個任務構造審計判斷大模型指令調優數據集。其中,一些優質的審計案例來源于各類型審計實務與經典案例書籍,審計定性依據及處罰依據來源于《中央部門預算執行審計常用定性表述及適用法規向導(2023年版)》系列書籍。此外,還運用爬蟲技術從互聯網上獲取大量法律法規條款內容,涉及國家級、企業級等層級。在此基礎上,將收集到的數據整理成結構化數據。
(二)基于大規模微調任務構建指令集
根據任務需求構造相關的指令微調數據集,其中,針對法律法規類原始文本,本文使用GPT-4.0生成關于法律法規的提問和相應答案(Wang 等,2023)。為此,首先運用網絡爬蟲獲得大規模法律法規文本,并將其轉換為結構化三元組形式(法規名,條款號,條款內容); 其次,針對每條輸入的法規三元組構建提示詞并調用GPT-4.0生成問答對,在此過程中,不斷優化提示詞的寫法以提高GPT-4.0生成問答對的質量; 最后,運用ROUGE-L、BERT等相似度指標評估生成的問答對與原始三元組之間的相似性,并過濾掉與原始法規內容相似度較低的問答對。通過上述步驟,最終可得到一份高質量的審計法規問答的指令數據。其中,提示詞寫法如圖3所示。
針對其他各類型任務,通過人工構建prompt方式將原始語料轉換為指令數據,指令數據示例如圖4所示。
“id”字段表示當前任務類型與數據序號; “conversations”字段表示訓練內容,包含問題和對應的答案。在這一對話中,用戶發出了一條消息“請問什么是審計”,然后模型回答“審計是指由專設機關依照法律對國家各級政府及金融機構、企業事業組織的重大項目和財務收支進行事前和事后的審查的獨立性經濟監督活動”。本文參考上述格式構建審計判斷大模型微調與評估的指令集,并依據7∶2∶1的比例劃分訓練集、驗證集、測試集。統計數據量如表4所示。
(三)大模型選擇和微調
在大模型選擇方面,開源的基礎語言模型Qwen系列使用了多達3萬億個不同文本和代碼的令牌,涵蓋了廣泛的領域。這些模型在眾多下游任務中一直表現出卓越的性能,即使與更大參數規模的模型相比也是如此。開源的7B參數基礎預訓練模型Qwen-7B-Chat旨在為開發者和應用程序提供更全面、更強大的大模型(Bai 等,2023)。
此外,本文在前期工作中通過構建審計領域的評測指令數據集評估了國內外主流開源大模型在審計指令數據集上的性能表現,包括Llama-2系列、ChatGLM3-6B、Baichuan-7B、Qwen-7B、GPT-3.5和GPT-4.0。從所有任務的綜合評價結果來看,不同模型在不同任務上的表現各有千秋,但Qwen-7B針對審計領域的中文命名實體識別和關系分類表現最好,適用于審計問題定性的應用場景,如從審計工作底稿或法律法規中抽取審計問題短語。因此,本文最終選擇開源的基礎語言模型Qwen-7B-Chat作為微調模型。
在大模型微調方面,微調數據集由表4中的訓練集和驗證集組成,本文基于AdamW優化器(Loshchilov和Hutter,2019)對Qwen-7B-Chat進行了5次迭代的微調。批量大小設置為8,初始學習率為3e-4,學習率調度器類型選擇為余弦,步長為0.01,輸入文本的最大長度為2048。在顯存為48GB的A40 GPU上進行LoRA(Hu等,2021)微調,歷時50小時完成大模型微調。
(四)實驗結果與評估
本文基于構建的大模型測試集評估Qwen-7B-Chat以及微調過的大模型,即Qwen-7B-Chat_FineTuning。選擇 BERT Score(F1)(Zhang等,2020)和BART Score(Yuan 等,2021)作為文本相似度的度量指標,該指標通過計算兩個句子向量編碼的余弦相似度來評估預測答案與標準答案之間的相似性,預測答案與標準答案之間的相似度越高,該數值越大。此外,對答案準確度要求較高的任務采用ROUGE(Lin,2004)指標進行評估,該指標能夠從標準答案與預測答案的重復度和精準性角度評估大模型生成答案的質量。測評結果如表5所示。
從表5中可以看出,經過微調,各項任務的答案質量均有較大幅度的提升,微調后的大模型對審計任務的理解更加準確,生成的答案質量更高。就審計判斷任務而言,微調后的大模型對問題定性的總結更加精準,進而生成的推薦法規更加符合該審計問題的實際情況,大模型與審計領域任務的適配問題得到了有效緩解。
審計問題總結和審計依據生成任務的具體推理結果如圖5所示,未微調大模型生成的內容中提到“《中華人民共和國會計法》第八十二條”,實際上《會計法》(2017年修正)一共只有五十二條內容,內容中提到的“挪用公款與職務侵占”等問題與實際審計問題“登記賬簿不符合規定”并不相符。而經過微調的大模型在法規推薦上的準確度更高,生成答案與標準答案之間的相似度近乎100%。
六、基于大模型的審計判斷智能系統構建探索
大模型技術的持續發展使其在審計判斷實務中具有廣闊的應用前景。例如,基于微調后的審計判斷大模型可結合檢索增強生成(Retrieval-Augmented Generation,RAG)(Chen等,2024)搭建審計判斷智能系統,實現審計問題抽取/總結、審計法規推薦。該系統旨在提高審計法規推薦的準確性,同時通過結合RAG技術從法規庫中檢索出最恰當的真實法規,從而消除大模型在法規推薦方面存在的幻覺問題(Leiser等,2024)。該系統的構建和應用流程如圖6所示。
首先,構建大規模審計相關法規知識庫。該法規知識庫針對收集和整理的法規三元組(法規名,條款號,條款內容),利用嵌入向量表示模型將法規三元組轉換為高維稠密的語義向量,同時利用大模型對其進行關鍵詞抽取并構建索引。
其次,在系統應用階段,大模型針對審計人員輸入的審計判斷相關問題進行解讀和分析,并生成“偽法規”結果。該“偽法規”存在一定程度的幻覺問題,即該“偽法規”并非真實存在的法規條款,但其語義與某個真實的法規條款具有較高相似度。因此,可利用該“偽法規”對法規知識庫進行檢索,以獲取匹配度最高的若干真實法規作為審計判斷的推薦結果。相比通用大模型,該系統推薦的法規條款更合理。
因此,在實踐中,上述結合微調大模型與RAG技術的法規推薦系統可有效解決審計判斷中存在的審計定性不準確和定性依據引用存在困難這兩類難題,也能在一定程度上限制處理處罰中自由裁量權的使用。
七、總結
本文創新性地提出了一種基于大模型的審計判斷智能化方案,專注于解決審計判斷過程中所面臨的困難。通過理論設計與實驗研究,探索了相應審計法規體系構建框架,并成功構建了基于大模型的審計依據智能推薦框架。
在理論研究層面,本文將審計判斷抽象為一系列大模型學習任務,并構建了一套審計判斷相關的指令數據集。在實踐層面,本文基于審計判斷指令數據集微調大模型,并運用多個指標評估其生成結果,為人工智能技術賦能審計行業提供了堅實的實驗方案和結果驗證。在應用層面,本文面向審計判斷的大模型構建了一套審計法規體系智能解決方案,該方案能夠深入分析審計案例文本,協助審計人員進行審計判斷,從而有效解決在審計判斷過程中出現的審計定性不準確和定性依據引用存在困難等挑戰,進而提高審計人員的工作效率,有效保障審計工作的準確性和合規性。在整體層面,本文設計的方案在審計實踐中以“人主機輔”的形式進行審計判斷,大模型作為輔助工具完成審計問題的識別、總結與分類以及審計依據的推薦等任務,而審計人員基于大模型的推薦結果進行審計判斷。
在未來的工作中,我們將進一步完善和豐富審計判斷方面的知識結構及內容。目前,我們將繼續專注于深入探索審計判斷過程中所面臨的困難,繼續擴充審計法規內容,并增加更多不同類型的審計案例,以提高推薦的準確性和多樣性。此外,我們計劃基于各類知識和任務構建更豐富的大模型微調指令數據,以更全面地訓練審計判斷大模型,推動人工智能技術在審計行業中的應用。
【基金項目】國家自然科學基金面上項目“面向國家審計的大模型訓練與知識增強研究”(項目編號:62472227);江蘇省高校自然科學研究面上項目“面向審計效能提升的領域知識圖譜構建關鍵技術研究”(項目編號:23KJB520015)
【作者單位】南京審計大學計算機學院,南京 211815
DOI:10.19641/j.cnki.42-1290/f.2025.06.003
班鳳欣.審計定性和處理處罰中存在的問題及其規范[J].審計月刊,2010(12):24~25.
車萬翔,竇志成,馮巖松等.大模型時代的自然語言處理:挑戰、機遇與發展[J].中國科學:信息科學,2023(9):1645~1687.
陳雪嵩.大語言模型在企業內部審計中的應用研究[J].會計之友,2024(11):23~29.
程平,喻暢,龔悅.基于ChatGPT的智能內部審計研究[J].會計之友,2023(20):7~12.
黃佳佳,李鵬偉,徐超.大數據驅動的審計知識庫建設與應用[J].財會月刊,2022(3):101~107.
黃佳佳,李鵬偉,徐超.面向智慧審計的思維變革與審計平臺構建研究[J].審計研究,2023(5):11~20.
徐波,廖晨琪.論自由裁量權與審計質量[J].安陽工學院學報,2022(5):63~65.
楊道廣,陳波,陳漢文.智慧審計研究:理論前沿、實務進展與基本結論[J].財會月刊,2022(11):15~31.
于凌云,吳建新.審計判斷偏誤及其應對策略分析[J].會計之友,2012(29):102~104.
張樂玲.審計定性存在的問題及規范路徑[J].審計月刊,2018(2):26~27.
張舟,劉文清.人工智能背景下法律推理模型建立探究[J].南方論刊,2024(1):70~72.
鄭石橋,朱霽.依法審計定性、規則悖反與救助機制——兼論新常態下的依法審計定性[J].南京審計大學學報,2017(5):70~77.
【 主 要 參 考 文 獻 】
(責任編輯·校對: 陳晶" 喻晨)