大模型技術在審計場景的應用

2025-08-15 00:00:00王錫攀蔣琬青嚴佳蕓

中國內部審計 2025年7期

一、審計智能化發展背景和應用思路

（一）審計行業的數據分析發展背景

自2022年OpenAI推出GPT-3.5以來，生成式AI技術迎來了爆發式發展。近期DeepSeek-R1在模型架構、算法工程、訓練策略等方面的突破，在實現計算成本大幅度降低的同時，生成內容的邏輯性與表現力顯著提升。在此基礎上，2025年3月阿里云推出QwQ-32B模型，僅有320億參數的模型在多項基準測試中展現出與擁有6710億參數的DeepSeek-R1媲美的性能。在眾多智能技術涌現的基礎上，內部審計需要有效運用最新技術工具，實現審計能力的快速提升。

審計數據分析工具的演進軌跡始終與審計對象的技術架構變革深度耦合。早期，證券行業由于各生產系統數據呈現獨立分散的煙肉式架構特征，審計工具主要聚焦于單系統數據的垂直分析，審計人員需從不同系統手動導出數據，再進行拼湊整合分析。當前，隨著企業數字化智能化轉型的推進，數據中臺建設逐漸成為主流趨勢，通過構建統一的數據湖倉體系實現跨系統數據的集成治理，已經推動審計工具向支持大數據綜合分析、多源異構數據整合分析的方向發展。

（二）應用分析思路

審計行業正處于大模型技術與審計數據分析的融合發展階段，需要進一步明確審計智能化的發展思路：一是要聚焦于已落地的技術應用框架，以最小的投人實現審計的快速轉型；二是基于現有技術工具，系統化評估不同參數規模的基礎模型在審計場景下的性能表現，實現綜合運用；三是充分考量基礎模型的選型標準，尋找審計的應用場景，提高審計數據分析場景的應用成果。

1.基礎模型選型是審計運用的重要環節。

測試大模型的選型需要充分考慮“開源vS閉源”“本地vs云端”“中小規模vs超大規模”“指令模型vs推理模型”四個方向的維度。在審計場景下，既考察技術指標也要評估合規性、部署成本等現實約束條件，系統性揭示不同技術路線在審計領域的適用邊界。

為此，國泰海通證券股份有限公司審計部AI技術應用研究團隊（以下簡稱研究團隊），采用代表當前大模型領先水平的技術產品，并本地化部署了Qwen2.5-32B-instruct（以下簡稱Qwen2.5-32B）、DeepSeek-R1-distill-qwen32B（以下簡稱DeepSeek-qwen32B蒸餾版）、QwQ-32B與互聯網環境下的OpenAI的ChatGPT-ol-preview（以下簡稱o1）、DeepSeek-R1-761B（以下簡稱R1）API接口。這些大模型在架構設計、訓練方法、小規模部署等應用場景上各有特色，需要進行比較分析，并有效運用（見表1）。

2.運用場景的運用效果測試是核心。

測試場景的選擇，既要具有典型性，更要為今后大規模運用奠定基礎。測試場景的選擇要符合當前技術成熟度，且有效平衡創新風險與應用價值。綜合評估后，研究團隊將審計計劃的制訂作為測試場景，主要基于以下考慮。

從運用價值來看，審計計劃是審計工作的起點，其質量很大程度上影響著審計工作的成敗。而且，審計計劃的制訂具有綜合性和復雜性特點，需整合業務、財務、合規、風險等多維度數據，涉及復雜的數據清洗、關聯驗證。傳統模式下，審計計劃制訂需耗費審計團隊準備階段 60% 以上的工作量。利用大模型智能化處理這項工作，有利于提高審計資源的利用率。

從技術成熟度看，大模型具有大數據處理、邏輯推理的優勢，而審計計劃涉及大量的內外部信息、結構化與各類非結構化數據等，通過大模型進行審計計劃的制訂，能驗證大模型在多模態數據理解、邏輯推理的能力邊界，為其他審計場景的擴展提供技術驗證基準。而且，審計計劃輸出更多體現為指導性框架，對大模型的生成結果具有相對較高的容錯性。

表1 大模型選型與參數介紹

注：大模型的本地化部署，可以有效規避企業內部數據在大模型處理中可能出現的安全問題

二、審計場景下各大模型的能力對比

為科學評估大模型的能力，需要充分考慮審計工作的特殊需求，特別是數據匯總、異常發現、趨勢分析等審計分析的核心要素。為科學評估大模型的能力，本文構建了一套覆蓋多維度指標的基礎模型效能評估體系，建立起貼合大模型特性與應用需求的評估標準，為大模型選型提供依據。

（一）模型評價的指標體系構建

審計場景下，大模型效能評估體系分為數據理解能力、數據分析能力、結果呈現與解釋能力等維度。評估過程中，為保證評估結果滿足審計的實際需求，研究團隊采用專家分析方法，綜合確定評價標準，審計業務專家從結果輸出的有效性進行評估，技術專家對大模型效能實施評分。具體指標設計見表2。

（二）案例場景的選取

本文根據審計工作流程中的多個維度，使用仿真數據實施測試，選取的審計場景見表3。

表2 評估標準設計

表3 審計場景及數據分析目標

表3 （續）審計場景及數據分析目標

（三）基礎模型對比分析結果

各基礎模型的能力分值，經過審計人員實際運用后的反饋，基本體現了大模型在審計場景的具體狀況，具體結果見圖1。

各大模型在審計領域運用的橫向對比，具有以下典型特征。

1.多任務數據加工：Qwen2.5-32B和DeepSeek-qwen32B蒸餾版在復雜任務條件下的準確性表現欠佳。但是QwQ-32B大模型以及o1、R1的表現均能夠滿足審計需要。QwQ-32B的數學計算能力基本與o1持平，優于R1，并且其動態推理能力表現較佳，通過對推理過程的自我校驗能及時更正偏差。

2.數據提煉文字邏輯性：在結構簡單的數據條件下，Qwen2.5-32B、DeepSeek-qwen32B蒸餾版、QwQ-32B、R1和o1之間的差距并不顯著。然而在數據結構相對復雜的場景中，尤其在理解復雜問題需求、處理數據之間的關聯關系等方面，QwQ-32B、R1、o1的表現顯著優于Qwen2.5-32B及DeepSeek-qwen32B蒸餾版模型，輸出的結論邏輯更為嚴謹，表述框架更為清晰。

圖1 模型評分匯總

3.數據分析中的洞察性：在具有簡單提示詞的分析場景中，指令模型表現不如推理模型，推理模型能夠從多個維度對數據進行分析比對，表現出較強的發散思維以及對數據異常的洞察能力，QwQ-32B的整體表現強勢，甚至優于R1和o1。但是在具有詳細提示詞的分析場景中，推理模型DeepSeek-qwen32B蒸餾版的穩定性表現不如原生Qwen2.5-32B，說明該大模型的模式對提示詞的敏感性高，容易思考鏈路過長，影響了其輸出的穩定性。QwQ一32B存在校驗機制來確保最終答案輸出的準確性，但是其過度思考、推理過程中的反復論證，導致在時長和token（詞元）上都造成了一定損失。最終在該方面大模型的綜合排序為QwQ一32Bgt;o1gt;R1gt;Qwen2.5-32Bgt;DeepSeek- qwen32B蒸餾版。

4.多精度數據計算：當對數據精度要求較高，而基礎數據格式卻又存在不同類型、不同精度的情況下，大模型無法做到準確計算，尤其32B大模型在多精度數據處理中表現更為糟糕。因此研究團隊建議數據精度處理類的工作應當由規則模型實施。

5.性價比：在相同任務下，01單個任務的API使用費約為R1的70—80倍。然而，在上述審計場景中，最終這兩個大模型的綜合評分偏差僅為 2% 。QwQ-32B模型參數規模僅為R1的 1/20 ，具備了AIPC（人工智能電腦）的部署可能性，但其在部分審計場景中的表現甚至優于o1（R1綜合評分92.50分，01為94.42分，QwQ-32B為95.95分）。

綜上所述，在輸出標準化要求較高的場景，指令模型憑借其確定性的響應機制，能夠高效匹配此類需求，可作為優先考量的方案。在復雜數據分析、發散性思維場景，用戶對可解釋性、異常發現、邏輯推理等要求較高，QwQ-32B模型優勢明顯，同時更具性價比。在多精度數據加工以及多條件求和等任務場景，應當厘清規則模型與大模型數據分析的任務邊界，使用規則模型預處理，再使用大模型進一步分析。

總體而言，大模型的數據分析能力足以勝任審計數據分析的工作需求。需要關注的是在應用落地的工程實現環節，根據應用場景、算力資源等情況，合理選擇不同的大模型，以實現需求、性能、成本之間的最佳平衡。

三、審計智能化主要應用效果展示

（一）審計數據分析技術與應用架構

生成式AI發展迅速，但目前在審計領域應用中仍存在諸多挑戰。比如，輸出內容可能存在事實錯誤、輸出結果波動較大，影響了在審計作業中的落地效果，亟待通過技術改進與優化策略加以解決。研究團隊立足企業內部審計場景，力求滿足審計業務對數據全面性、廣泛性、準確性和時效性的嚴格要求，充分整合各類技術特點，構建了結合大模型基座的審計數據分析應用。

該數據分析應用以Python3.12為基礎搭建。在規則模型的開發中，憑借Python豐富的生態庫，使用了包括NumPy、Pandas等工具，實現了多源數據庫的連接能力。在機器學習與大模型的開發中，該應用還集成了LangChain、BGEM3-Embedding模型等，滿足百萬級向量數據的秒級檢索和RAG外掛知識庫的檢索能力（見圖2）。

該架構下研究團隊的應用有效發揮大模型基座效能，在整合多元數據的基礎上，更高效地服務于審計業務場景。目前已達成知識共享、審計計劃、報告質檢等8個方面的場景落地。

圖2 AI數據分析應用架構

（二）案例運用的效果

依托QwQ-32B基礎模型，選擇“審計計劃”場景進行能力驗證。“審計計劃”應用為非對話式、成果交付類工具，輸出結果為符合公文格式的標準文檔——審計計劃.docx。以下為其中部分分析段落。

1.傭金異常分析。

傭金管理場景中，審計人員需核對傭金調整的準確性，檢查異常調整導致公司或客戶損失的情況。傳統數據分析模式采用規則模型實施異常檢測，通過預設業務規則與風險閾值抓取疑似異常數據。業務人員需基于歷史經驗與風險偏好對初始篩查結果進行二次人工標注與特征補充，形成待核查清單后，再與被審計單位開展多輪溝通確認。

針對傳統模式中人工標注耗時過長的問題，研究團隊建立“規則發現—機器初判一人工校驗一規則迭代”智能化識別流程，通過大模型對規則模型發現的異常數據進行語義解析，引導大模型自動生成區分風險等級的線索清單，產生符合公文文檔規范的報告內容（見圖3）。

通過智能化的異常識別處理，可將人工標注的工作量降低 50% 1 80% ，本測試中的識別準確率超過 95% ，業務決策時間縮短約 60% 。

（一）營運管理

1.傭金設置

該部審計期間有2名客戶存在傭金上調，1名客戶存在類別組別修改未生效，需核對申請表單了解是否存在設置錯誤。另有多名客戶存在“傭金低于萬一”、“最低收費小于1元或存在附加費”及多次傭金調整的情況，結合其余審計認為值得關注的情況，梳理出以下客戶：

圖3 傭金異常分析結果

2.經營指標數據分析結果。

該場景下，審計人員需對被審計單位各年度的經營指標及完成情況進行分析。經營指標數據存在一定的復雜性，因考核標準迭代、指標名稱變更、統計口徑調整及區域差異化指標設置等原因，規則模型在應對此類數據時面臨的挑戰較大，影響了審計人員的效率與分析結論的準確性、全面性。仿真數據見表4。

大模型通過語義對齊的方式實現了跨期或跨區域數據的口徑統一。在數據清洗環節，大模型根據異常數據總結性描述的提示詞，實現不合理數據排除；在數據篩查環節，通過預設閾值紅線對未達標指標加粗高亮警示，顯著提高了數據處理效率與結果可讀性；在深度分析環節，構建了“指標解讀—交叉分析—經營診斷”的智能分析流程，根據數據疑點生成分析性結論。結果見圖4。

3.報銷統計數據分析結果。

表4 經營指標數據

該場景下，審計人員需系統檢查費用支出結構、趨勢及異常波動，解析被審計單位的經營效率、成本控制等管理情況。在審計實踐中，費用情況分析需人工整合多張業務數據表進行交叉驗證，面對復雜業務場景時，審計人員往往需要花費大量時間梳理數據關聯關系。

通過大模型構建的智能分析程序，替代人工實現多表數據的關聯分析，可自動識別費用異常波動、人員異常行為等審計線索。針對基礎模型存在的數據規模處理上限問題，研究團隊采用“規則模型處理 + 大模型分析”的混合架構，保證系統處理效率，提升分析結果的準確性與可解釋性。需要注意的是，因混合架構下原始數據未全部輸人大模型，所以最終生成結論的完整性以及保證性的描述，需要審計人員結合原始數據實施交叉驗證后使用。結果見圖5。

綜合來看，大模型技術在審計計劃場景下的應用已展現出顯著的增效價值，其核心優勢體現在以下三個方面：首先，基于自然語言處理與審計知識庫構建的風險評估模型，能夠動態生成聚焦高風險領域的審計計劃，使審計資源配置精準度有效提升；其次，依托多模態數據處理能力，大模型可自動化完成數據清洗、異常值檢測及多表關聯驗證，將傳統需要3—5天的基礎數據分析工作壓縮到4小時內。同時通過智能算法發現潛在數據質量問題，降低人工核查成本；最后，通過整合審計對象的財務、業務、人員管理等多維度數據，構建畫像體系，輔助審計人員快速形成被審計單位經營情況、合規管理情況等的全景認知，為審計策略制定提供依據。該技術應用革新了傳統審計計劃制訂流程，推動經驗型審計向數據驅動型審計轉型，為提升審計效能與組織風險防控能力提供了新的范式。

四、結論與展望

本文依托已落地的技術應用框架，對基礎模型在審計場景中的性能邊界開展了系統性驗證，構建了契合審計需求的多維評價體系，并為行業提供了可復用的模型選型方法論。通過在審計數據分析場景中應用先進大模型技術，總結可借鑒的內容如下。

1.大模型本地化部署的重要性。

采用本地化部署的QwQ-32B模型，在保證有效達成數據分析目標的同時，兼顧數據隱私與性價比的平衡，確保了審計敏感數據全流程的安全可控，是審計數據分析應用的推薦模型。

2.打造適配審計工作流的結果交付物。

與傳統對話式大模型應用不同，研究團隊將大模型的能力轉化為數據加工能力、邏輯推理能力、觀點輸出能力，以結果交付模式直接生成審計所需的標準化產品，實現了從需求收集、數據處理到成果交付的一站式支持，更加精準匹配審計人員的工作流程。

3.數據分析上下游多技術協同模式。

將審計數據分析任務拆解為“規則模型的結構化處理、機器學習特征工程、指令類模型的標準化輸出、推理類模型的風險深度挖掘”等多個環節，實現上下游協同，最終達成智能審計應用效果最大化目標。

4.大模型技術的應用局限。

受限于基礎模型的上下文長度，大模型并不擅長處理海量原始數據，且大模型技術也有著幻覺這類固有缺陷。因此對于模型生成的結果，尤其在面對定性類、觀點類結論時，審計人員需實施交叉印證，保證輸出結論的可靠性。

在智能化進程中，大模型與審計領域的深度融合仍然面臨諸多挑戰，如行業規范不完善、專業領域智能化團隊人員定位不清晰、基礎模型更新迭代造成應用穩定性不足等。希望通過持續的政策、技術、方法論的創新與優化，內部審計行業能夠在大模型的輔助下，實現審計效率與質量的雙重提升，為組織穩健發展筑牢堅實防線。

（作者單位：國泰海通證券股份有限公司，郵政編碼：200011，電子郵箱：wangxipan@gtht.com）