
本文聚焦金融領域中大模型的“幻覺”問題,分析其成因、影響與監管治理。文章指出,“幻覺”源于模型機制、數據質量和用戶應用三重因素,可以通過檢索增強生成(RAG)等技術手段加以治理。同時強調,要正確看待大模型“幻覺”,推動金融智能健康發展。
AI倫理與大模型 “幻覺”
隨著人工智能技術的快速發展,AI倫理問題日益凸顯,成為人們廣泛關注的核心議題。AI倫理旨在確保人工智能研究、設計、開發、服務和使用等科技活動符合人類價值觀和行為規范。AI倫理主要包括大模型“幻覺”(Hallucinations)、隱私保護、公平性與非歧視、透明性與可解釋性、責任歸屬、數據治理以及算法安全等方面。其中,“幻覺”問題是當前AI倫理中的關鍵問題之一。“幻覺”不僅可能誤導用戶,造成信息不對稱和決策失誤,還可能帶來安全風險和倫理責任難以界定的問題,因此,治理“幻覺”既是技術優化的突破口,更是踐行AI倫理原則、筑牢AI信任基石的必然要求。
金融領域大模型“幻覺” 的表現與影響
在金融領域中,大模型被廣泛應用于投研分析、智能投顧、風險預警、合規審查等領域,在效率提升、智能化轉型方面釋放出巨大潛能。然而,在要求高度準確性和合規性的金融領域,大模型“幻覺”現象已成為制約其在金融行業落地的障礙。
天模型“幻覺”是指模型生成著似邏輯通順,但缺乏事實依據或完全錯誤的信息。例如虛構歷史事件、編造參考文獻,甚至輸出自相矛盾的內容。與簡單的“錯誤”或“偏見”不同,“幻覺”往往更具欺騙性,因為它模仿了真實信息的結構和語氣,使讀者更容易誤以為是真實內容?!盎糜X”可歸納為四類典型表現。一是事實性“幻覺”,即編造虛假的事實,如虛構金融產品名稱及其功能。二是推理“幻覺”,如在邏輯鏈條中混淆因果關系,得出邏輯不通的結論。三是一致性“幻覺”,表現為模型在同一語境中前后給出自相矛盾的回答。四是知識邊界“幻覺”,即面對未知的答案模型進行“胡編亂造”式回答,輸出虛構但貌似合理的信息,例如生成尚未發布的經濟數據或預測。
在金融領域,“幻覺”問題的危害性被進一步放大。因為金融信息高度依賴事實準確性與邏輯嚴謹性,任何虛構或失實內容都可能對投資者行為、市場穩定乃至金融監管產生實際影響。圖1顯示了在不同金融主題下,ChatGPT-4o與O1-preview產生“幻覺”的概率對比。研究發現,大模型在“金融監管”和“債務”等復雜性較高的領域,“幻覺”問題更為顯著,ChatGPT-4o在各類金融主題下的“幻覺”率普遍高于O1-preview。

不同金融主題下大模型“幻覺”率
天模型“幻覺”對金融行業的負面影響主要體現在市場穩定、法律監管與品牌聲譽三方面。一是市場穩定性風險。2023年2月,AI聊天機器人GoogleBard因錯誤宣稱詹姆斯·韋伯太空望遠鏡首次拍攝了系外行星,引發廣泛轉載并導致市場恐慌,Alphabet市值在短短一天內蒸發逾千億美元,凸顯了AI幻覺對金融市場的即時沖擊。此外,美國一家對沖基金使用大模型解讀美聯儲政策時,也因誤將“暫緩加息”(pause)理解為“即將降息”(cut),導致基金大幅增持債券,結果在美聯儲后續鷹派表態下損失慘重,單周虧損達約4000萬美元,約占基金凈值的 3% 。這一事件反映出大模型對政策語義的敏感度不足,以及訓練數據存在偏差的問題。更令人警惕的是,2024年二十國集團(G20)金融穩定委員會發出警告,指出AI生成并傳播虛假金融信息可能誘發“閃電崩盤”或銀行擠兌。而英國研究組織SayNotoDisinfo的報告則指出,僅須在社交媒體上投人10英鎊放大虛假信息,就可能導致高達100萬英鎊的客戶存款被轉移。上述案例充分說明,大模型“幻覺”在金融場景中不僅可能導致投資判斷失誤,更可能對整個金融系統的穩定構成系統性威脅。
二是法律與監管壓力。2024年1月,《紐約時報》起訴OpenAI的ChatGPT和微軟的BingChat,指控其生成并錯誤歸屬虛假引用內容,涉嫌侵犯知識產權。這一案件揭示出大模型在內容生成準確性與知識產權合規性方面面臨巨大挑戰。
三是品牌與客戶信任危機。2022年,加拿大航空公司(AirCanada)因其AI客服系統錯誤解讀公司折扣政策,誤導乘客,被用戶起訴并廣泛報道,引發公眾對AI客服系統可靠性的強烈質疑。這類事件不僅損害企業形象,也動搖了消費者對金融科技服務的信任基礎。
大模型“幻覺”產生的原因
“幻覺”是當前大語言模型(LargeLanguageModels,LLMs)在應用中廣泛存在的問題,其根本原因在于模型的語言預測機制。大模型本質上是一個語言條件概率模型,它根據前面詞出現的條件,預測下一個最可能出現的詞。這種生成方式追求語言的連貫性與形式合理性,但不一定保證事實準確性。
天模型“幻覺”的產生主要源于模型、數據和應用三個層面的因素:從模型訓練機制來看,“幻覺”現象的產生與過擬合有關。當模型面對海量訓練數據時,不僅會學習其中具有代表性的語言規律,還可能“記住”其中的噪聲、錯誤信息或偶然細節。如果模型對這些非共性特征進行了過度學習,就可能在生成過程中將其當作規律加以復用,進而影響輸出內容的真實性。此外,雖然大模型具備一定的泛化能力,但其缺乏類似人類的推理與事實校驗能力,難以對復雜語義或新情境做出邏輯判斷,這進一步放天了“幻覺”風險。
在數據層面,模型“幻覺”的成因之一是訓練語料的質量問題。當前大語言模型普遍依賴大規模公開數據進行訓練,這些數據中可能夾雜著大量過時信息、錯誤陳述、主觀偏見,甚至存在斷章取義的內容。如果缺乏有效的數據清洗與篩選,模型在學習過程中就可能“繼承”這些問題,進而在生成內容時輸出與事實不符的結果。此外,訓練語料的分布不均衡也是影響模型輸出質量的重要因素。某些領域的數據量可能遠遠超過其他領域,導致模型在這些“強勢領域”表現較好,而在數據稀缺的“弱勢領域”則容易形成知識盲區,在缺乏信息的情況下“憑空編造”答案。
在實際應用中,用戶提示(Prompt)的質量同樣會顯著影響模型的生成結果。如果用戶輸人的問題描述模糊、缺乏上下文或目標不明確,模型在理解任務時可能出現偏差,從而輸出與預期不符甚至錯誤的內容。此外,當用戶的指令過于開放或涉及多義詞、歧義表達時,模型也容易產生語義漂移,生成表面上看似合理、實則與事實不符的回答。
大模型 “幻覺” 的治理
天模型“幻覺”的檢測技術不斷演進,以提升生成內容的真實性與可靠性。當前,天模型“幻覺”問題已成為影響其可信度的重要因素,研究者正積極探索多種檢測技術以識別并緩解非事實性內容。SelfCheckGPT是一種零資源、黑盒的檢測方法,由Manakul與Gales(2023)提出。其核心思想是通過多次采樣模型輸出內容并進行對比,判斷答案的一致性。若模型對某概念擁有真實知識,則多次生成結果趨于一致;反之,虛構信息則易產生分歧,從而暴露潛在“幻覺”。另一項是檢索增強生成(Retrieval-AugmentedGeneration,RAG)。Peng等人(2023)提出的LLM-Augmenter系統引人外部知識庫,對生成內容進行事實校驗。此外,工具輔助檢測系統也在“幻覺”治理中發揮關鍵作用。Chern等人(2023)提出的FacTool框架集成了Google搜索、GoogleScholar、代碼解釋器、Python及LLM本身等多種工具,構建了一個多源融合的事實檢測體系,提升了事實驗證的廣度和深度。
從模型、數據到應用,“幻覺”治理須構建全鏈條、多層次的綜合防控機制。在模型層面,RAG技術被廣泛應用以增強知識可信度。通過外部檢索獲取與問題相關的權威資料,將其作為生成模型的上下文輸人,能夠有效減少模型“幻覺”的概率,提升內容的準確性。例如用戶在使用一些模型進行問答時,可進行聯網搜索,模型可給出引用來源,便于用戶核實。在數據層面,高質量訓練數據是防止“幻覺”的根基。一方面,應優先選取國家統計局、上市公司年報等權威數據源作為訓練語料;另一方面,加強數據清洗與語義標注也至關重要。例如,在財經新聞自動摘要任務中,模型常誤將“公司擬發行債券”解讀為“已完成融資”,從而錯誤判斷為利好消息。為此,在訓練語料中進行語義標注,將“擬”“計劃”“預計”等表達明確標記為非確定性事實,并構建包含事實等級和語氣類別的標注體系。在應用層面,構建人機協同的輸出機制是減少“幻覺”的重要手段。通過專業化提示工程提升模型理解能力,同時引入專家審核機制,確保關鍵輸出內容經過人工驗證與修正。
中國高度重視大模型等人工智能技術的健康發展,尤其關注科技倫理風險。2025年4月,習近平總書記在中共中央政治局第二十次集體學習中明確指出,要堅持自立自強、突出應用導向,推動人工智能健康有序發展。2025年5月,人民銀行科技司司長李偉亦指出,科技倫理隱患是人工智能發展面臨的重要挑戰,模型“幻覺”問題尤為突出,須持續加強金融領域的智能化治理能力建設。在政策層面,中國已出臺一系列與人工智能相關的監管政策,如表1所示。未來,治理模型“幻覺”應在技術演進與監管協同中持續深化,確保人工智能真正服務于經濟社會的高質量發展。
正確看待大模型 “幻覺”
“幻覺”并非絕對負面。大模型的創造力與產生“幻覺”的機制相關,二者均基于概率聯想與模式學習。因此,在需要創造力的應用場景中,如電影劇本創作、營銷文案撰寫等,大模型的“幻覺”往往能夠帶來想象力與新穎性,激發出超出常規的人類表達與構思。若一味追求“零幻覺”,反而可能導致模型生成內容趨于保守、缺乏洞察與創意。
金融場景中,需要正確看待大模型“幻覺”。在金融等對準確性要求極高的場景中,需要對“幻覺”進行嚴格控制。例如在合規報告、交易指令等場景中,必須優先確保內容的真實性與可驗證性,建議通過RAG(檢索增強生成)、多重校驗等技術手段來降低“幻覺”風險。而在探索性或輔助性任務中,如市場情緒分析、研究思路啟發等,則可以容忍一定程度的“模糊”與“推測”。不過,這類內容應明確標注為輔助性生成,并由具備專業判斷能力的人士加以解讀和使用。
結語
天模型“幻覺”,既是當前人工智能技術發展的重要瓶頸,也是AI倫理與風險治理的核心議題。在生成式模型的實際應用中,“幻覺”主要表現為編造虛假信息、邏輯推理錯誤等。尤其在金融領域,這類問題可能引發市場風險、造成金融市場的劇烈波動,甚至帶來法律責任與信任危機。其本質在于大模型基于語言的條件概率進行生成,但概率結果并不等同于客觀事實。為應對這一挑戰,業界正積極探索多種解決路徑,如引人“檢索增強生成(RAG)”技術;同時,結合前沿算法優化模型訓練流程,提升數據質量與語義一致性;此外,還可通過提示工程優化、引入專家人工校驗等手段,有效降低“幻覺”發生率。然而,“幻覺”并非一概為負。在某些創造性任務中,例如金融營銷內容生成、金融產品創意設計等,其可激發新穎想法與表達,具有積極價值。因此,我們應依據不同金融場景對“幻覺”的容忍度差異,合理規劃其使用邊界。未來,在推動AI技術賦能金融創新的過程中,我們要認識“幻覺”的雙面性,通過科學治理與有效監管,破解“幻覺”難題,助力金融智能健康發展。
(張藝偉為清華大學五道口金融學院財富管理研究中心研究專員,張遠遠為清華大學五道口金融學院博士后研究員,張曉燕為清華大學五道口金融學院副院長。責任編輯/王茅)
表1
監管政策
