自2017年谷歌(Goole)推出Transformer架構開始,大語言模型(以下簡稱“大模型”)的參數規模、推理能力發展迅速。2019年,OpenAI推出的通用語言模型生成式預訓練變換器2(Generative Pre-trained Transformer,GPT-2)具備了初步的文本理解和翻譯能力。2020年,OpenAI將GPT-2升級為GPT-3,其參數量已經從原來的15億躍增至1,750億,技術潛力呈現指數級增長[1]。2023年3月,OpenAI又發布了GPT-4,其具備了更高水平的圖像識別和內容生成能力,進一步推動了大模型技術的發展;同年,Meta發布的LLaMA2作為首個開源大模型,將大模型應用推入了“免費時代”。2025年1月,杭州深度求索人工智能基礎技術研究有限公司(DeepSeek)發布了DeepSeek-R1大模型,性能匹敵OpenAI公司的OpenAIo1[2],旋即在國內外掀起了大模型風暴,春節期間更是火遍大江南北。相關軟件在多個移動應用下載量排行榜位居榜首[3],人們對以大模型為代表的人工智能在各行各業的應用充滿了憧憬。
大模型具備快速處理信息、理解情景能力,支持跨學科知識關聯與網絡化分析,甚至具備邏輯推理能力,能夠自動生成報告。因此,大模型在決策咨詢工作中展現了強大的應用潛力[4-5]然而,在實際使用過程中,大模型常常出現虛構參考文獻、曲解研究結論、數據不準確等問題,影響了決策咨詢的可信度。
1大模型在決策咨詢研究工作中的主要問題
首先,大模型在決策咨詢研究工作面臨模型幻覺問題。其本質源于訓練數據噪聲與生成過程的概率性[。基于概率理論的現有大模型普遍采用基于條件概率預測下一個token的模式,要達到無幻覺極度困難,導致輸出信息可能偏離事實或邏輯。舉一個極端的例子,即便是目前最先進的大模型,實際上連1,000個1都數不準確。大模型在文學、藝術等抽象領域表現出非常良好的應用,但在對數字、概念、邏輯等精確度要求較高的工作上,用起來很難令人放心。大模型的權威性表達風格與流暢的敘事邏輯,又使錯誤信息具有極強的迷惑性,特別是在健康、金融領域,或精確性、可靠性要求很高的領域(如航空、航天、兵工、核工業等)決策咨詢應用中,一些信息片段,甚至一個數字往往就是解決決策困擾的核心關鍵。因此,大模型輸出結果的可信程度決定了其在這些領域決策咨詢工作中的價值。
其次,大模型持續學習的問題。目前,大模型都是在實驗室中通過成本極高、極度復雜的訓練過程訓練出來的,一旦發布,大模型的能力就被固定了。而決策咨詢工作的核心是在不斷變化的環境和場景條件下進行決策判斷,其本質是將實時數據、環境感知、專家驗證與動態決策深度融合的一套機制。特別是一些重大事件的到來,比如,2025年,特朗普政府的全球“對等關稅”事件,可能對相關咨詢判斷有著突出的影響。因此,如果沒有持續學習能力,就像失去了語境,難以形成高價值的決策咨詢產品。大模型如何能夠持續學習,特別是在變化無常的咨詢工作中不斷學習增強模型能力的問題無疑更加突出。
再次,多模態模型的輸入輸出融合問題。其本質是現有大模型在多源異構(數據文本、圖像、視頻、傳感器數據)方面對齊與聯合推理方面還存在局限[]。目前,大模型主要是對文本化的自然語言處理體現了較高水平。在決策咨詢工作中,視頻、圖片信息對于應急突發場景任務,或化學化工等工程技術咨詢中顯得尤為重要。目前,大模型處理聲音、文字、圖片和視頻的基礎模型采用了不同的深度學習架構,難以統一整合信息,會導致對事物的認知碎片化,不利于解決決策中信息不完備的問題。須知任何一個人類智能體都能夠同時通過視覺、聽覺、觸覺、嗅覺、味覺來與外界環境互動,并感知外界變化,處理文字、圖片、視頻、聲音等各類輸人,同時也能以多模態的形式進行表達。因此,多源信息是應對當今信息戰、信息迷霧挑戰的關鍵,不同來源的信息可以相互印證,減少單一來源的偏差或錯誤,增強反制能力。
最后,大模型的可解釋性和價值觀對齊問題。大模型動輒包含數千億參數,每個參數表示的含義,及其與模型的“涌現”能力、推理機制的關系并不明確。目前,大模型使用的深度神經網絡,比如,DeepSeek的深度多達61層,每一層網絡的寬度是 4,096[8] 。該網絡主要是由一系列線性變換函數和非線性激活函數組成,和真正的人腦工作機理已基本沒有任何相似性,也就無法再用人腦神經機理進行明確的解釋。這種“黑箱”特性導致決策邏輯難以追溯,影響可信度,特別是在一些產業、貿易等經濟學領域對可解釋性要求比較高的咨詢任務中,會受到極大的制約。由于訓練大模型所需的語料巨大,例如,DeepSeek-V3用于訓練的語料達14.8萬億Tokens[8,因此,如何進行價值觀校準對齊,保證關鍵技術數據、微觀企業數據不泄密,具有一定挑戰性。同時,價值觀往往是多元和動態變化的,這對大模型應用于決策咨詢的合規性與安全性構成重大挑戰。
2大模型使用問題的主要應對思路
第一,構建“知識增強 + 專家驗證”雙重糾偏機制。大模型雖然能夠快速關聯知識,但其邏輯生成依賴專業知識,通過“知識增強 + 專家驗證”可以降低幻覺風險。知識增強的核心是結合領域知識庫與檢索增強生成技術,限制模型自由發揮,優先基于權威數據生成內容。對此,需要決策咨詢機構圍繞自身核心業務建立專業知識庫、模型庫、專題庫,豐富自身的“資源池”,例如,行業語料、專業圖書、研究報告、高質量期刊論文等知識庫,以及世界一流企業、綠色低碳、“一帶一路”倡議等專題庫。同時,針對如虛構專利號、曲解技術指標等高頻問題,通過建立相關信息標識模型、資訊價值評估模型等手段,使模型輸出附帶置信度評分、引用來源如專利號、文獻數字對象標識符(Digital ObjectIdentifier,DOI)等,以便于人工驗證。比如,在黨政智庫中,研究人員須準確掌握各級領導的重要講話以及中央及各級政府部門法規政策,系統就需要建設由各級領導講話原文、各級政府部委的部門規章政策解讀原文等組成的文本向量數據庫,以便實現研究人員既能充分利用大模型的閱讀能力和推理能力,又避免在核心語句方面的幻覺,從而提高研究效率。此外,在咨詢工作中,還可以嵌人專家驗證環節,比如,在初稿生成后,可以通過規則引擎或小模型校驗數據一致性,并結合專家對關鍵技術指標進行二次比對,確保關鍵結論的準確性。
第二,優化“增訓”提升大模型適應能力。大模型增量訓練是指在已有預訓練模型的基礎上,通過引入新數據或調整訓練目標,進一步提升模型適應新任務、新場景的技術[9。對于決策咨詢機構,一方面,要加強“新知識”數據的采集和整理,比如,與目標領域/任務強相關的重要決策案例、重大新聞、行業白皮書、政策法規、專家訪談記錄數據的采集和整理;另一方面,要重視數據中決策事實的完整性,捋清捋齊事實說明所需的基本要素,特別是一些“線索”“信號”,甚至是在部分決策場景中關鍵弱信號信息。這要求咨詢機構平時要針對咨詢場景,圍繞輸入條件、決策過程和結果評估,做好事實整編,比如,做好5W(who、what、where、when、why)的整理。同時,在兼顧質量和多樣性的同時,還要保留部分原始數據以防大模型“遺忘”。
第三,強化“符號邏輯”與大模型的融合。符號邏輯即數理邏輯,實際上第一代人工智能的發展主要是依賴符號邏輯[10],常常被稱為符號主義學派,其和聯接主義學派、行為主義學派共同組成了人工智能領域的“三大流派”[]。近年,由于算力的大幅提升和可利用語料的海量增加,聯結主義學派倡導的深度學習,充分利用規模定律scaling-law“大力出奇跡”,在機器學習領域取得了巨大進展,但其“基于概率模型的預測下一個token”的人工智能生成范式,本質上隱藏著不確定性。符號邏輯遵循精確的邏輯運算,可很好地彌補大模型在邏輯嚴謹性和可解釋性上的不足[12]。通過將大模型的語義理解能力與符號推理引擎結合,生成可追溯可解釋的推理鏈,可以有效提升大模型復雜推理能力。比如,2024年,谷歌公司旗下人工智能研究實驗室DeepMind開發的一款神經一符號混合AI系統AlphaGeometry,結合大語言模型和符號推理引擎來解決幾何問題,研究顯示,其證明了國際數學奧林匹競賽(International Mathematical Olympiad,IMO)IMO-AG-30總共30個問題中的27個,是第一個超越人類IMO金牌選手的AI[13]。
雖然目前符號邏輯的方法對于涉獵廣泛的決策咨詢任務的適用性,受到符號推理引擎泛化能力的限制,但現階段可以從機構自身各自擅長的細分領域入手,增加符號邏輯的融入,這無疑可以優化復雜場景的推理能力,增強模型的可信度、魯棒性。比如,企業微觀數據、行業數據、宏觀經濟數據是產業分析咨詢場景中最常用的數據體系是指導分析的重要黃金指標。因此,針對產業資訊,先利用大模型對相關問題的理解能力,生成對應的標準數據統計指標名稱,再結合大模型和符號邏輯生成查詢語句,執行數據庫查詢,以獲取準確的數據統計指標數據,填充大模型的回答,還可以利用大模型生成表格和對應的柱狀對比分析圖形,最終返回給客戶。
第四,打造全息信息處理管道。多模態信息融合利用將科技文獻、圖像、視頻等不同數據映射到統一語義層的方式,可以提高信息完備程度、增強信息相互驗證能力,從而提升決策咨詢產品效能。在需要結合圖視頻的決策場景中,可以利用視頻截幀、圖像識別等技術,針對圖片、現場視頻提取圖像,進行圖像解析和光學字符識別(opticalcharacterrecognition,OCR),結合新聞報道一同生成輸出結果,并且利用知識校驗模塊對比,進行多模態信息一致性校驗。同時,還可以通過加強特定決策咨詢場景的多模態數據進行模型訓練,比如,生物醫藥領域結合分子結構圖與論文文本,優化專業多模態互補推理能力。
第五,圍繞語料和規則建立約束體系。在決策咨詢工作中,必然會有大量保密性的內參、內部材料應用于大模型的使用之中。這要求在咨詢內容生成時,大模型可以自動規避敏感詞語、保密技術描述等,確保僅輸出公開可驗證的信息。一方面,在語料準備方面,應加強語料庫的分級與安全管理,利用敏感信息識別等語料預處理技術對語料進行篩查,或針對不同級別的數據,采用離線模型微調、禁止云端訓練等方式,防止核心商業策略、未公開財務數據的泄露。另一方面,還應加強領域導向的約束規則的建立。比如,利用包括法律條文、行業規范數據庫、倫理知識圖譜等規則庫,方便在應用大模型生成材料后,使用智能審核技術。同時,在應用語料預處理、規則檢查的同時,決策咨詢機構要加強語義上“可用不可見”的應用力度。由于一些數據可能對決策至關重要,如果未納入模型,可能影響大模型產出的準確性,因此,應加大“語義脫敏”,比如,將“規上企業2025年Q1季度凈利潤增長 25% ,描述為“大型企業第一季度利潤顯著提升”等表示形式,或使用常用數學方法,如使用差分數字替代真實數字保留統計特征等方法。這對于決策咨詢中應用大模型也非常重要。
3結語
總體而言,大模型雖然通過端到端的信息處理能力正在重塑決策咨詢工作流程,但在“工具輔助”向“智能協同”轉型的路上必然要經過一系列挑戰,才能逐步實現從數據到洞察的可靠躍遷,從而在精準性和可靠性方面持續完善,最終形成“人類把控戰略方向,模型執行復雜操作”的新型人機協作范式,以更好地賦能決策咨詢工作。
參考文獻:
[1] OUYANG L,WU J,XU J,et al. Training language modelsto followinstructionswith human feedback[EB/ OL].(2022-03-04) [2025-03-10].https://arxiv.org/ pdf/2203.02155.
[2]DeepSeek-AI. DeepSeek-R1: Incentivizing reasoning capabilityinLLMsviareinforcementlearning[EB/ OL].(2025-01-22) [2025-03-10].https://arxiv.org/ pdf/2501.12948.
[3]觀察者網.DeepSeek在全球140個市場下載量排 名第一,印度新增用戶占比最多[EB/OL].(2025- 02-01)[2025-03-24]. https://www.guancha.cn/industryscience/2025_02_01_763824.shtml.
[4]魏宏程,楊建林.大語言模型 + 檢索增強方法的關鍵 技術及其在情報任務中的應用流程[J].情報理論與實 踐,2025,48(3):178-188,206.
[5]李陽,孫建軍.大模型對情報學發展的影響思考[J].情 報學報,2025,44(2):246-256.
[6] WANG C J, SENNRICH R. On exposure bias, hallucination and domain shift in neural machine translation[C]// Proceedings of the 58th Annual Meeting ofthe Association for Computational Linguistics. Stroudsburg: ACL,2020: 3544-3552.
[7]YU T, ZHANG Y F,FU CY, et al. Aligning multimodal LLMwith human preference:A survey[EB/OL]. (2025- 03-23)[2025-03-27]. https://arxiv.org/pdf/2503.14504.
[8] DeepSeek-AI. DeepSeek-V3 technical report[EB/ OL].(2025-02-18)[2025-03-10].https://arxiv.org/ pdf/2412.19437.
[9]LOSING V, HAMMER B, WERSING H. Incremental online learning:A review and comparison of state of the art algorithms[J].Neurocomputing,2018(275): 1261-1274.
[10]成素梅.人工智能研究的范式轉換及其發展前景[J]. 哲學動態,2017(12):15-21.
[11]王廣贊,易顯飛.人工智能研究的三大流派:比較與啟 示[J].長沙理工大學學報(社會科學版),2018,33(4):1-6.
[12]XUJD,FEIH,PANLM, et al. Faithful logical reasoning via symbolic chain-of-thought[EB/OL]. (2024-06-11) [2025-03-10]. https://arxiv.org/pdf/2405.18357.
[13]SINHAS,PRABHUA,KUMARAGURUP, etal.Wu's method can boost symbolic AI to rival silver medalists and AlphaGeometry to outperform gold medalists at IMO geometry[J]. (2024-04-11) [2025-03-10]. https://arxiv.org/ pdf/2404.06405.
作者貢獻說明:黃吉海:論文設計撰寫;周雷:論文修改;王延飛:論文框架指導。
Abstract: [Purpose/Significance] Large language models havesignificant potential for application in the field of decision consulting work. It is of great importance to analyze the issues of accuracy and reliability they face and propose targeted solutions.[Method/Process] Based on the characteristics of current large language models,the paper analyzes and discusss the problems exposed in their application in decision consulting work, such asmodel hallucinations,insuffcient continuous learningability,difficulties in multimodal input-output fusion, nterpretability,and value alignment. [Result/Conclusion] Inresponse,the paper proposes a five-dimensional response framework, including‘knowledge enhancement + expertverification”,optimizing incremental training,strengthening the integration of symbolic logic and large models,creating a holographic information pipeline, and building a corpus constraint system,to promote the empowerment of large language models in decision consulting work.
Keywords: large language model decision consultationapplication analysismodel halucination continuous learning