中圖分類號:TP18 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2025046
AbstractAgainst the backdrop of globalization marked bypolitical and economic turbulence,intensifying climate change,andaccelerated technologicalinnovation,the informationdisseminationecosystem has grown increasinglycomplex.The proliferationofdisinformationhasemergedasanurgentisue threateningsocialtability,publichealth,andpolitical security.Firstofall,This paper focuses onthe innovative applicationof large languagemodel-drivenagents in the fieldof fact-checking toaddressthechalenges of disinformation governance incomplex scenarios.Inthenextplace,it systematically examines thecurrent challenges faced in fact-checkingand demonstrates the potential and advantages of empowering fact-checking work through large language model-drivenmulti-agent.This research designed the theoreticalframeworkofthelarge language model-drivenfact-checking multi-agentsystem,outlinedapractical path forcollaborative work among large language model-driven fact-checking multi-agent through empirical research,and verified the superior performance of the system through comparative experiments.
Key words disinformation; fact-checking; multi-agent; large language model
政治經濟的不穩定、收入不平等的加劇、氣候變化的嚴峻挑戰、全球移民趨勢的涌動,以及科技的迅猛發展,特別是人工智能技術的廣泛應用,共同塑造了一個復雜多變的信息傳播環境,導致虛假信息(Disinformation)和錯誤信息(Misinformation)爆炸式增長,在政治領域[1、健康議題[2以及社會秩序[3]方面造成了威脅,加劇了社會的不確定性和分裂趨勢。2024年世界經濟論壇(World Economic Forum,WEF)發布的《全球風險報告》(2024GlobalRiskRe-port)將虛假信息和錯誤信息列為最緊迫的短期全球風險[4]。應對虛假信息和錯誤信息的挑戰,已成為維護社會穩定和公眾福祉的重要任務。
為解決信息失序(InformationDisorder)問題,事實核查(Fact-Checking)工作應運而生。事實核查指的是“使用基于證據的方法來驗證在公共領域提出的主張的準確性”[5]。事實核查人員通過揭穿假新聞(FakeNews)、澄清謠言(Rumors)和陰謀論(Conspiracy)對信息生態進行治理,進而維持社會穩定。截至2024年12月,杜克記者實驗室年度事實核查普查統計了446個活躍的事實核查項目,致力于核查虛假信息、判定真假。事實核查工作主要依賴于事實核查人員進行人工核查和手動操作,已有研究證明這種方式在減少對錯誤信息的信任上具有持久的效果[]。但是,人工核查的方式需要高度熟練的人力,一位專業的事實核查人員可能會在任何一項聲明上花費數小時甚至數天的時間[8],該點限制了其有效范圍和實際影響的規模[9。鑒于網絡虛假信息數量不斷增加且傳播速度日益加快,僅依靠人工事實核查已遠遠不夠。學者運用規則、自然語言處理、知識圖譜等技術進行內容核查,一定程度上提高了事實核查的效率[10-12]。但仍存在規則覆蓋面有限難以處理復雜信息、處理非結構化數據低效、模型預測缺乏可解釋性等問題。而大模型驅動的智能體因其強大的自然語言處理和推理能力備受囑目,在自動化任務、垂直行業賦能及戰略場景中展現出顯著價值。在事實核查工作上,大模型智能體存在應用的可能性。
基于此,本研究結合當前事實核查領域的實際需求,將“大模型智能體”概念引入事實核查領域,構建基于大模型的事實核查多智能體系統,并基于實證研究驗證其實踐路徑,同時通過對比實驗驗證該系統性能。本研究旨在充分利用大模型智能體技術,解決復雜場景下的事實核查問題,為事實核查各利益相關方提供智能化服務。
1研究現狀
1.1大模型驅動的智能體研究現狀
大模型即大語言模型(LargeLanguageModel,LLM),指基于深度學習技術構建的具有大量參數的自然語言處理模型[13]。其核心優勢在于其強大的語言建模能力,能夠生成連貫的自然語言文本、進行上下文推理,并解決復雜的語言理解任務。典型的大語言模型包括GPT系列、BERT系列、LLaMA等,這些模型通常在海量的文本數據上進行預訓練,學習語言的規律、結構、語法以及語義等,且已在文本生成、文本理解、機器翻譯、情感分析等多任務中展現出強大的能力。智能體(Agents)則是能夠感知環境、進行決策和執行任務的自主系統,可以通過感知輸入信息、推理決策、執行動作等方式與環境進行互動,在一定程度上模擬人類的認知與行為[14]。大模型驅動的智能體(以下簡稱“大模型智能體”則是以大模型為核心計算引擎的復雜人工智能系統,借助大模型思維鏈,提升智能體的智能化水平。相較于傳統的智能體,大模型智能體具備更加豐富的語義理解和推理能力,能夠處理更復雜的任務,并根據外部反饋進行優化。相較于大模型,大模型智能體不僅具有強大的知識表示能力,還能夠通過環境交互進行動態調整,實現更高層次的任務執行和決策支持。當前全球科技企業正加速布局大模型智能體技術,如Ope-nAI依托GPT-4架構構建了BabyAGI等新一代智能體系統,具有自我規劃、任務分解及跨平臺協作能力,實現了在自動化任務、知識工作、代碼生成等復雜場景中的應用。國內頭部企業也同步推進技術落地:字節跳動開發了豆包智能體,通過多模態學習實現跨平臺任務協作與內容創作;科大訊飛基于語音語義技術優勢,推出了訊飛星火智能體,深度賦能教育、醫療、客服等行業; Kimi 則聚焦企業服務場景,構建自動化客服與智能決策系統,顯著提升運營效率。
國內外學者針對大模型智能體進行了廣泛的研究。如Liu等提出了 LLM+P ,利用經典規劃器找到解決方案,并將其翻譯回自然語言,從而提升大模型智能體在復雜任務中的規劃能力[15]; Liu 等提出Agent-Bench,評估LLM作為智能體的推理與決策能力[16];Xiao等提出FlowBench,針對工作流引導規劃的基準,通過形式化工作流知識的不同格式,評估智能體在51種任務中的規劃表現[17]; Yao 等提出了ReAct方法,將推理(Reasoning)和任務特定的動作(Act-ing)交替結合,提升了大模型智能體在語言理解與決策任務上的表現,并在多項基準測試中展示了其在對抗幻覺與錯誤傳播方面的優勢[18];盧宇等提出基于大模型的教學智能體構建框架,支持個性化與動態化的教育交互,探討了教學智能體的未來發展方向與支撐技術[19]
單個大模型智能體能力有限,有學者提出將多個自治的智能體組合,協同解決復雜問題,即大模型多智能體系統(LLM-basedMulti-AgentsSystem,LLM-MAS)。如Das等提出了知識共享與多智能體協同推理框架,通過多智能體系統與現有推理方法相結合,優化了大語言模型在復雜任務中的推理能力,提升了計算效率與動態協作性能20;李嘉暉等提出了大模型驅動的多智能體軍事需求生成框架,通過分布式決策實現群體智能,解決了聯合作戰中需求生成效率低等問題[2;王明程等提出基于大模型智能體的安全風險態勢感知框架,利用多智能體博弈協作與仿真技術,精準感知與評估安全風險態勢,為安全情報領域提供風險監測和預警支持[22]。
綜上所述,大模型智能體已廣泛應用于軍事情報、教育、風險感知等領域,學術研究層面不僅探討單智能體能力強化,還呈現出從單智能體能力突破向多智能體協同創新的演進趨勢。但大模型智能體在事實核查領域的應用仍存在關鍵空白。本研究將著力探索大模型智能體應用于事實核查工作的可能性。
1.2 事實核查研究現狀
傳統的事實核查工作大多依賴于人工,基于特定的事實核查流程開展,雖然有效打擊了虛假信息的傳播擴散,但核查速度慢且成本高,無法抵抗虛假信息的泛濫。為提升事實核查的效率、擴展事實核查的應用邊界,學者們將自動化技術應用于識別、驗證和回應虛假信息,即自動化事實核查。當前主要采取兩大策略:一是側重于通過自動化技術學習虛假信息的特征(如語義特征[23]、情感特征[24]等)來識別虛假信息;二是基于規則的方法,通過詳細比對聲明中的具體事實要素(人物、時間、地點等)來檢驗所述事實的準確性[25]。研究者不僅采納自然語言處理技術對文本信息進行事實核查,還運用多種AI技術,針對圖像及視頻等多模態內容實施事實核查[26-27]。有學者融合知識圖譜技術對信息進行核查[12]。采用自動化事實核查工具,能有效提升虛假信息的處理速度,一定程度上還可規避公眾對于事實核查方存在“偏見”的批評[28]。然而,上述方法仍存在局限性。如融合模型的方法對于事實只進行簡單的判斷,內容豐富度、效率和準確率仍有待提高。基于規則的自動化工具通過預設規則進行核查,簡單可控,但規則覆蓋面有限,難以應對復雜的語境。知識圖譜推理在處理結構化數據時有效,但在面對大規模非結構化數據時效率較低,且對新興領域的適應性差。依賴機器學習模型的自動化事實核查系統面臨模型預測缺乏可解釋性的問題[29]。相比之下,大模型智能體具備強大的自然語言處理和跨領域推理能力,能夠自動處理大量文本數據,提升了準確性和自動化水平。
因此,本研究旨在構建大模型驅動的事實核查多智能體系統,設計不同角色的智能體協同承擔事實核查任務[30]。通過跨領域的知識整合與智能推理,提升核查效率和準確性,從而為快速、精準地識別和驗證信息的真實性提供強有力的技術支持。
2事實核查智能化轉型:面臨的挑戰與大模型 多智能體的賦能
2.1當前事實核查領域面臨的挑戰
2.1.1虛假信息復雜性強
傳統社交媒體平臺中的虛假信息采用虛構事實、移花接木、偽造信源等手法,結合受眾心理特征進行精準傳播[31],增加了識別難度。隨著短視頻平臺和人工智能技術的快速發展,虛假信息逐漸出現新的形態,復雜性大大增強。相較于以往以圖文為主的傳播形態,短視頻形式的虛假信息具有更強的迷惑性和更大的傳播風險。如俄烏沖突期間,將敘利亞戰場畫面配以烏克蘭地名的虛假短視頻大量出現,這種圖文錯位的欺騙穿透力和傳播力更強。多模態虛假信息各模態組合的復雜性使之具備多樣化的造假方式,大大增強了多模態虛假信息核查困難程度。現有檢測工具通常僅針對單模態設計,而多模態虛假信息在時序同步、畫面光影匹配等方面的精細調整,使得單一檢測手段逐漸失效。同時,人工智能生成內容(Artificial Intelligence Generated Content,AIGC)的快速發展也增加了事實核查的難度。各大社交媒體平臺中的AI特效、AI合成工具,降低了用戶使用門檻,造成AIGC虛假信息泛濫。使用AI技術后虛假信息的生成速度和規模遠超人工核查能力,并且生成模型往往具備“黑箱\"特性,導致溯源和驗證困難。
2.1.2事實核查時效性低
在社交媒體與自媒體蓬勃發展的當下,信息過載與傳播速度的指數級增長,使得虛假信息如病毒般迅速擴散。研究顯示,在Twitter上包含虛假信息的推文被1500人看到的速度是真實推文的六倍,獲得轉發的可能性比真實推文高出 70% [32]。公眾對真實信息的需求與事實核查速度和能力的滯后形成尖銳矛盾,尤其是在突發公共事件、熱點話題中,虛假信息可通過“認知搶占\"策略在極短時間內塑造公眾輿論定勢,導致社會認知混亂、信任危機加劇。在AI技術高速發展的當下,大語言模型可短時間內生成海量單詞,加上大模型微調技術,使得虛假信息可定制化生產。如政治團體可使用GPT批量生成抹黑文案同時躲避平臺審核。相較而言,使用傳統人工事實核查方式難以應對海量虛假信息內容。而使用自動化檢測工具對虛假信息生成式內容進行識別還存在誤標記率過高等問題,仍然需要保留人工復查環節,導致事實核查響應延遲,難以在黃金干預窗口期有效反制。
2.1.3非理性核查問題顯著
在全球化語境與社交媒體賦權的雙重作用下,事實核查正遭遇深層的認知倫理困境,即核查主體難以剝離文化預設與價值判斷的隱性干預,導致核查行為本身可能異化為新型認知權力工具。非理性核查的實質并非技術缺陷,而是人類認知框架與信息生態復雜性碰撞的必然產物。這種非理性核查不僅無法有效揭示真相,而且可能加劇社會矛盾和分歧,導致公信力下降。在價值觀多元、利益體并存的情況下,事實核查面臨著如何平衡不同觀點和立場的挑戰。以往研究表明,人類存在超過180種認知偏差,在信息搜索和檢索等多領域中均存在偏差,并且多種偏差會同時發生。事實核查員、專家或眾包工作者都會因為認知的局限性產生認知偏差,如對某一群體或爭論中的一方有強烈的傾向性,不是基于公平的判斷,最終影響事實核查的有效性[33]。
2.2大模型多智能體賦能事實核查工作的優勢
針對當前事實核查領域面臨的實際挑戰,本研究創新性地提出基于大模型的多智能體系統這一解決方案。該方案旨在突破現有自動化核查技術在處理復雜信息時的局限性,同時超越單一大模型智能體在任務協同等方面的不足,進而顯著提升事實核查的效率與準確性。
(1)大模型多智能體系統突破信息處理瓶頸,實現文本、圖像、音視頻等多源異構數據的深度語義融合。系統中大模型智能體能夠動態調度文本解析、圖像識別、音視頻理解等多模態信息分析的專業模型,通過統一接口協議將不同模態數據轉換為可交互的語義表征,實現跨模態語義關聯與推理。基于多智能體框架的任務分工機制,各智能體分別針對事件信息中的多模態特征進行深度解析和驗證,挖掘不同模態間的深層邏輯關聯。當不同智能體針對同一信息給出矛盾判斷時,系統設置沖突解決機制提升了多領域異構知識的整合能力。相比之下,傳統技術依賴單一模態分析路徑,難以建立跨模態證據關聯;單一大模型智能體雖具備多模態處理接口但受限于集中式架構下的推理固化與靜態語義理解。大模型多智能體系統能夠通過精準調用專業多模態模型插件,結合多智能體協同分析機制,實現了異構數據間語義關聯與驗證,能夠顯著提升復雜模態交互場景下的驗證精度,提升了對復雜信息事實核查的可行性。
(2)大模型多智能體系統以工作流為驅動、角色扮演為核心,可以將復雜的事實核查任務分解為多個子任務,每個子任務模塊配置多個大模型智能體進行精準執行。對大模型智能體進行模塊化角色分工(如主持人動態組建專家小隊、垂直領域專家驗證)和信息共享,實現任務專業化分工和動態協同,既可以還原專業核查團隊的協作邏輯,又可以突破單一模型在復雜任務拆解與多源異構數據協同分析上的局限。如Google的SIMA(ScalableInstructableMultiworldAgent)通用智能體,可在多種3D虛擬環境中理解并執行自然語言指令[34]。該架構通過訓練智能體在多個游戲環境中執行任務,展示了其在不同任務中的適應性和泛化能力。Meta開發的Agent-Chat多模態信息交換平臺,支持智能體之間通過文本、圖像等多種模態進行交互。該系統通過優化緩存機制,提高了帶寬利用率,提升了多智能體系統的通信效率[35]。相比傳統技術依賴固定規則模板,無角色分工與流程預設、單一大模型智能體雖具備多模態能力但無專業協作框架,且任務拆解依賴隱式推理,大模型多智能體系統通過預設的標準化工作流和角色化分工,構建了專業化的核查架構,為提升事實核查效率提供更深入的技術支撐。
(3)大模型多智能體系統通過人工干預機制和分級審核與反饋循環機制,提高事實核查結論的可解釋性并增強用戶信任。大模型多智能體系統在技術驗證的基礎上,增加獨立復核和反饋循環,最終由人類專家審核簽發。技術驗證采用多智能體交叉驗證,還單獨設置大模型智能體進行獨立研究,并支持其進行反饋循環,實現了結論的迭代優化。由人類專家簽發可規避黑箱偏見,確保結論權威性與責任制,一定程度上增強結論生成過程的透明化與責任可追溯性。相比之下,傳統技術完全依賴預設規則,缺乏透明性與可解釋性;單一大模型具有黑箱特性,結論生成過程不可追溯、難以驗證且存在自動化偏見風險,大模型多智能體系統將技術智能與人工權威相結合,既保證了核查效率又在一定程度上避免了非理性核查問題,強化了結論的公信力與可控性。
總結而言,相比傳統技術依賴固定規則難以應對復雜語境、單一大模型智能體因集中式架構與推理局限存在動態關聯與跨模態融合瓶頸,大模型多智能體系統在跨模態語義深度融合與動態推理、任務分解與協作及可信結論輸出等方面展現出優勢,為專業核查任務提供了可復用的智能化范式,顯著提升了解決復雜事實核查任務的能力,提高了事實核查的時效性并規避了非理性核查問題。
3大模型驅動的事實核查多智能體系統設計
3.1 系統框架設計
本研究構建大模型驅動的事實核查多智能體系統框架,以事實核查實際工作流程為準,設計多模態數據感知模塊、多智能體中樞模塊和行動響應模塊,各模塊間協同工作(見圖1)。
多模態數據感知模塊通過整合用戶輸入及互聯網多模態信息源,實現對環境全面、實時的感知和數據采集。一方面能夠提供用戶需求輸入接口,支持自然語言交互、多模態指令輸入及個性化需求配置等;另一方面支持互聯網多源數據的在線監測和實時采集,具備文本、圖像、音視頻等多種類型的數據感知能力,為后續多智能體中樞模塊的邏輯推理和群體決策奠定數據基礎。多智能體中樞模塊包含若干大模型驅動的智能體,負責協同完成決策任務。具體而言,大模型智能體通過短期記憶對新信息實現快速響應處理,通過長期記憶存儲歷史數據和歷史決策,實現快速的信息檢索和高效的經驗決策。面對復雜的事實核查業務,大模型智能體運用思維鏈(Chain of Thought,COT)和思維樹(Tree of Thoughts,
TOT)等方式將復雜任務拆分為多個子任務,同時,多個大模型智能體間進行分工協作、討論交流和辯論對抗,最終完成精準化、專業化和智能化的規劃推理任務。行動響應模塊是最后的執行模塊,根據多智能體中樞模塊生成的決策結果,調用工具庫執行任務。具體而言,該模塊對決策結論進行封裝,然后生成事實核查報告。事實核查報告在人工審核后進行發布,同時預留用戶反饋接口。
3.2 功能模塊設計
3.2.1多模態數據感知模塊
互聯網環境中存在大量多模態虛假信息及辟謠信息,事實核查人員需要從中提取關鍵信息。多模態數據感知模塊通過整合在線和本地知識庫等多源信息,實時感知環境中文本、圖像和音視頻等多種模態的動態和靜態信息。在大模型驅動的基礎上,智能體收集的數據范圍更廣,數據樣式更多樣化。該智能體通過集成音視頻等多媒體轉錄工具,將多模態數據轉換為大模型可理解的Token序列,通過大模型對其進行語義理解和融合。同時,大模型智能體自身具備的思維和記憶能力能夠存儲知識,提高對信息推理規劃的效率,為后續的智能推理決策提供強有力的數據支撐。其記憶庫持續積累典型的事實核查案例信息和數據并存儲進知識庫,通過對比長期記憶快速過濾可疑內容。此外,該模塊與多智能體中樞模塊形成協作,多模態數據感知模塊作為信息過濾器,持續輸出結構化的事實要素報告,多智能體中樞模塊則基于事實報告進行邏輯推演和討論決策,并得出最終結論。
3.2.2多智能體中樞模塊
多智能體中樞模塊旨在通過智能體間的任務分配、知識共享與多輪對話,實現從海量信息中精準定位可疑內容,高效識別、驗證并輸出高可信度的事實核查結果。第一,大模型智能體依托自然語言理解與動態學習能力,通過預設規則(公眾情緒、傳播速度、傳播廣度及事件敏感性等)自動鎖定高優先級核查目標主題,并基于實時輿情數據與歷史反饋優化權重模型,確定事實核查的主題。第二,多智能體間開展討論給出事實核查的結論。設置“主持人智能體”把控協同工作的流程,進行任務分解和專家調度。專家智能體依據設定好的規則與流程展開討論,不同領域專家具備對應的領域知識,充分發揮其優勢,如傳媒專家解析輿論傳播路徑,語言學專家識別文本篡改痕跡,工程專家驗證技術可行性等。系統對專家間的意見沖突設計明確的解決規則,通過多輪討論和主持人精準決策,增強嚴謹性。討論結束后給出討論結果,同時引入人工審核機制,以減少核查結果的自動化偏見或系統化誤差。第三,對于業已形成的結論,進行復核審查。大模型智能體通過獨立研究,對結論進行審核校驗與合規審查,檢測行文中的邏輯漏洞,并通過交互式修正機制補充證據等信息,最終輸出經過多重校驗和審查的結構化的結論。
圖1系統框架設計

3.2.3行動響應模塊
行動響應模塊深度整合并調用智能工具,實現事實核查報告的撰寫與發布。模塊可通過大模型智能體靈活調用多模態工具庫,支持多種語言風格、多種格式的事實核查報告輸出。如針對微博輸出短文本摘要形式核查報告、針對微信公眾號撰寫長文解析類型的事實核查報告,將事實核查結論轉化為規范、標準的事實核查報告產品,由人類專家進行發布。模塊設置用戶反饋接口,根據用戶意見進行內容回溯和更新演化等,為后續事實核查報告的精準分發奠定基礎。
3.3多智能體協同機制設計
本研究提出的事實核查多智能體系統,旨在模擬真實世界中專業、嚴謹的事實核查工作流程。為確保多智能體在動態任務中高效協作,本系統設計了一套以工作流為驅動、以角色扮演為核心的多智能體協同機制。該機制借鑒混合專家(Mixed ExpertModels,MoE)思想,將復雜的事實核查工作分解為選題監測、多智能體核查討論、結論審校與核查報告生成三個核心階段。每個階段由具備特定技能的智能體負責,如“輿情專家智能體”負責話題發現,“主持人智能體\"與“專家智能體”負責多輪求證,“審核校驗智能體\"和“核查報告撰寫智能體\"分別負責質量把關和核查報告生成。通過這種結構化的協同方式,確保了事實核查流程的深度、效率與可靠性。
(1)任務分配與通信協議。系統內的任務分配由清晰的工作流和智能體角色驅動。“選題監測”階段工作流的產出(即“事件報告”是后續核查任務的直接輸入和觸發信號。在核心的“多智能體核查討論”模塊,“主持人智能體\"作為任務分配和通信的中樞,它根據當前的任務自行選取并組建專家小隊,并通過下一輪討論重點來動態分配和引導任務。所有參與討論的專家都能看到共享的討論記錄,確保了信息在協作者之間的完全透明。該部分核查得出的結論則會作為任務流轉至“結論審校與核心報告生成\"階段的“審核校驗智能體\"進行進一步的處理,從而構成層級化的通信鏈路。
(2)沖突解決規則。系統為“專家智能體”間的意見沖突設計了明確的解決規則。當分歧出現時,“主持人智能體”會發出任務指令,引導“專家智能體”聚焦于沖突的根源,并要求其提供更具針對性的證據。若沖突無法達成共識,機制的核心原則是在最終結論中客觀、完整地呈現所有未解決的爭議點以及各方論點與論據,實現“承認并呈現分歧”。此外,討論的終止也遵循明確規則,包括達成共識、觀點已充分呈現或討論陷入僵局等。
(3)檢索增強與記憶機制。為確保核查的時效性與深度,系統關聯了長期記憶(事實核查多模態知識庫)與實時信息(搜索引擎)。一方面,系統內置了“事實核查多模態知識庫”作為長期記憶,人工可以進行添加和修改;另一方面,智能體能接入新聞、社交媒體等多個檢索接口,確保所有決策和判斷均基
于最新、最全面的信息
(4)分級審核與反饋循環。機制的獨特之處在于其多層次的反饋與審核循環。核查討論形成的初步報告并不會直接發布,而是先由“審核校驗智能體”進行事實性與倫理性的雙重檢查。如果發現問題,“審核校驗智能體”會生成修改報告并將任務“返回修改”,打回至上一輪的討論環節,形成閉環。最終,經智能體審核后的報告還需經過人類專家的最終簽發,確保了結論的權威性與責任制,避免了技術濫用和自動化偏見等風險。
3.4風險應對機制設計
大模型驅動的多智能體系統在提升事實核查效率與準確性的同時,因涉及多源異構數據處理、自動化決策及人機協同等復雜環節,可能引發多重倫理風險。本研究聚焦隱私泄露、自動化偏見、技術濫用三類關鍵風險,設計風險應對機制。
(1)隱私泄露。事實核查場景常需處理包含敏感信息的多模態數據(如真實人臉、身份證號等),可能導致敏感信息泄露。本系統在輸入大模型的提示詞中嵌入脫敏指令,明確要求模型對特定類型的敏感信息進行自動識別與處理。具體而言,系統中的大模型智能體需要“對身份證號、手機號、家庭住址、人臉、車牌,音視頻中的隱私片段進行模糊化或刪除處理,僅保留與事實核查直接相關的非敏感內容”,并限定模型僅使用脫敏后的數據進行推理分析,細化大模型智能體的提示詞,要求“所有分析過程需基于已脫敏的多模態信息,禁止引用或關聯原始隱私數據”,一定程度上降低隱私泄露風險。
(2)自動化偏見。大模型的訓練數據與算法邏輯可能存在偏向性,這種偏向性會導致核查結論偏離客觀事實。本系統設置獨立的審核監督智能體,對所有參與判斷的智能體輸出進行審查,精準識別是否存在明顯的偏向或遺漏。一旦發現問題,系統會中止當前判斷流程并返回到中立狀態,重新協商判斷路徑。同時,本系統在核查結論生成前設置人工干預機制。由人類專家針對敏感議題的核查結論進行針對性復核,并由人類對最終核查結果承擔審核責任。通過技術系統的自動糾偏與人類專家的價值判斷相結合,確保核查過程在多元價值背景下保
持公平性和可接受性。
(3)技術濫用。大模型驅動的事實核查多智能體技術若缺乏有效約束,極有可能被惡意利用,不僅會嚴重損害事實核查的公信力,更可能引發廣泛的社會信任危機。為規避這一風險,本系統采取了一系列針對性措施。在選題監測階段,于提示詞中嵌入倫理預判要求,明確提示系統“評估是否涉及敏感議題”。一旦識別到敏感議題,立即啟動人工干預機制。同時,系統支持用戶輸入模式,通過該模式對事實核查的主題進行精準控制,從源頭上把控事實核查技術使用的邊界。在多智能體討論環節,借助提示詞引導模型“以客觀呈現事實為核心目標,禁正濫用技術,杜絕利益傾向”。對于核查報告最終版生成、敏感結論發布等關鍵環節,設置嚴格的人工審批流程,避免過度依賴自動化結論,從而有效降低技術濫用的風險。
4大模型驅動的事實核查多智能體系統應用 實踐
為驗證上述理論框架的有效性,本研究使用Coze開發平臺搭建了基于大模型的事實核查多智能體系統并進行實證測試。Coze是字節跳動公司研發的智能體搭建平臺,內置了大模型智能體及其功能插件,可靈活搭建智能體,每個智能體都可以靈活調用技能、輸入提示詞,接人知識庫,實現強大的功能。事實核查多智能體系統的工作流由選題監測、多智能體核查討論、結論審校與核查報告生成三部分組成(見圖2)。
4.1 選題監測
由于事實核查任務需要實時、快速地針對現實問題作出響應,本研究搭建了“FindTopic\"工作流,其作用是監測并搜集可疑的輿情話題信息。支持用戶輸入和自動化監控兩種方式下達任務指令。用戶可以自行輸人想核查的話題信息,也可采用自動化輿論監控,設置定時任務,以不同頻率(如12小時、24小時等)定時監測社會熱點,啟動后無需用戶手動操作。工作流以“輿情專家智能體”為核心節點,部署了Doubao-1.5-256k模型,集成36氪、虎嗅新聞、今日頭條、新浪新聞等多個文本檢索接口,并在此基礎上添加頭條視頻號、抖音熱點、微博熱點等視頻檢索接□,通過視覺語言模型(Vision-LanguageModel,VLM)的輔助理解,將視頻信息和文本信息整理為統一的輸出,最終構建出多模態事件檢索流。基于上述檢索出的可疑選題,本研究采用人工篩選與智能評估相結合的方式確定是否對其進行事實核查。系統會結合公眾情緒、傳播速度、傳播廣度和事件敏感性等決定是否應該對其進行核查。同時,引入人工干預機制,篩選掉觀點類、信仰類及未來預測類等難以核查的內容。最終優先選擇那些涉及公共利益、廣為流傳、危害程度較強且具有可核查性的選題,來確定進行事實核查的話題事件。確定話題后,總結事件的主要內容,包括爭議焦點、不同觀點、持方(多方)觀點的摘要、影響范圍、信源評估(信源鏈接、信息可靠性初步判斷)等,形成待討論的事件報告,以供后續多智能體討論。
4.2 多智能體核查討論
針對上述確定核查的選題和事件報告,需厘清核查點并進行專家討論,最終給出事實核查的結論。本研究構建了“FactCheck”工作流,以“主持人-專家討論\"為核心。主持人智能體部署Doubao-1.5-pro-256k 模型,并接人事實核查多模態知識庫和搜索引擎。主持人智能體擁有準備資料、啟動對話、任命專家、總結觀點、引導問題、中止討論等權利。專家智能體部署Doubao-1.5-pro-32k模型,接入事實核查多模態知識庫,該知識庫基于檢索增強生成技術,接入并整合多源數據,同時引入專家反饋機制,通過專家反饋擴充知識庫,形成人機協同的優化機制。專家智能體分別根據目前討論的進展和主持人智能體授予的任務輪流發言,發言時針對核查點搜集資料和證據,并提供答案和依據。通過多輪討論推進事實核查任務的完成,由主持人智能體給出最終的事實核查結論。
討論前,主持人智能體將針對事實核查的主題和背景信息準備資料,組織開場白啟動對話,同時任命對應專家智能體,對其進行動態角色分配并設置相應的提示詞,引導其針對事實核查的主題參與討論。每個專家智能體均獲得三個字段:Identity,作為專家智能體的標識;Skills,作為專家智能體的技能;Reason,作為專家智能體參加討論的理由。討論過程中,參與每一輪討論的專家智能體都能看到討論的所有記錄,包括各專家智能體的發言、主持人智能體的階段性結論和每一輪討論的重點。若專家智能體認為需要補充其他資料,資料將在下一輪討論中集中補充。若專家智能體討論時存在意見沖突,則根據設定好的沖突解決規則進行處理。在每一輪討論模塊結束后,主持人智能體將根據現有的討論情況,通過一套明確的討論終止規則來判斷討論是否應結束。討論終止主要基于以下三個條件之一:(1)達成共識。各專家智能體已就核心事實的關鍵爭議點達成明確、一致的結論。(2)觀點充分呈現。核心爭議點雖未達成完全共識,但所有相關觀點均已得到充分闡述,論證和證據也已清晰呈現,討論無法提供更多有價值的新信息。(3)陷入僵局或不可核查。討論陷入循環,無法取得進展,或專家智能體一致認為當前議題基于現有信息無法核查。主持人智能體基于上述判斷決定是否結束討論,通過布爾變量Chat_Is_Done控制。若討論未觸發終止條件,則需要開啟新的討論模塊,主持人智能體將輸出本輪討論的階段性結論Interim_Conclusion,以及下一輪討論的重點Next_Key_Points,作為下一輪討論的關鍵議題和信息補充,并且主張參加下一輪討論的專家智能體列表。在這一系列機制下,用戶無需指定討論的輪次、討論的專家智能體,通過主持人智能體的精準決策和人工干預機制的把控,即可獲取到全面和可控的事實核查結論。
圖2大模型驅動的事實核查多智能體系統工作流

4.3結論審校與核查報告生成
在結論審校與核查報告生成階段,本研究構建了“Reviseamp;Report”工作流,對上述多智能體討論結果進行進一步的審校并生成核查報告產品。本研究構建了獨立的、具備雙重職責的審核校驗智能體。該智能體基于Doubao-1.5-pro-256k模型部署,其核心職責是對事實核查報告草稿進行最終把關。首先,它會系統性地檢查內容的準確性、邏輯清晰度和證據完整性。為確保客觀,該智能體將進行一輪獨立的研究,以驗證上一流程中的專家智能體沒有遺漏任何重要的證據或相關背景。如果發現事實或邏輯性問題,它將生成一份包含具體問題、補充證據和修改建議的審核報告,并將問題返回上一輪再次進行交互討論。其次,在完成上述事實性校驗的基礎上,該智能體還將執行倫理與偏見審核的快速掃描,其職責包括:基于預設規則檢查是否存在明顯的歧視性或刻板印象言論,標記出涉及敏感話題、潛在法律風險或爭議性強的表述。最后,引入人工干預機制,由具備相應領域知識和倫理審查資格的人類專家進行進一步審核,識別和糾正由訓練數據或算法邏輯導致的深層次倫理問題,規避“自動化偏見”等風險。
對于最終形成的結構化結論,部署核查報告撰寫智能體,將結論轉化為標準的事實核查報告產品。核查報告撰寫智能體通過調用Json2md插件,將報告生成為Markdown格式,同時支持轉換為Word、LaTeX及PDF等多格式輸出。最終,由人類專家或機構對生成的事實核查報告進行發布,承擔最終責任,確保每一份事實核查報告都經過了嚴格的倫理考量和有效的人類監督,
4.4對比實驗
本研究將構建的事實核查多智能體系統與單一大模型(Doubao、DeepSeek)開展對比實驗,評估其在準確性、可信度、科學性、非幻覺性、非偏見性、非毒性及相關性方面的性能。基于中國互聯網聯合辟謠平臺中的案例構建評測集,涵蓋生活、健康、科技、社會、法律及新聞等多個主題共70條數據。經過測試,得到模型綜合性能雷達圖(見圖3),計算后得出Doubao、DeepSeek以及系統綜合性能平均分,分別為3.90、4.30和4.41。可見,本研究構建的大模型驅動的事實核查多智能體系統性能最優。
進一步分析各模型在不同主題上的表現(見表1)可以發現,本研究構建的系統在健康、新聞、生活和科技議題上表現也為最優。
5結語
隨著以DeepSeek、Yi、Claude等為代表的大模型開源生態加速技術普惠,智能體正步入“爆發元年”。本研究基于當前事實核查工作面臨的挑戰,指出大模型多智能體賦能事實核查工作的優勢點,設計了面向事實核查任務的大模型多智能體系統框架、功能模塊、協同機制及倫理風險應對機制等,并使用Coze開發平臺進行實證測試,通過與單一大模型對比實驗,驗證了系統有效性。實驗結果表明,與單一大模型相比,本研究構建的大模型驅動的事實核查多智能體系統綜合性能最優,并且在健康、新聞、生活和科技議題上表現更突出,表明這一系統在事實核查領域具有巨大潛力。未來研究可對以下幾個方面進行優化:一是擴展事實核查多模態知識庫,提升系統對于解決復雜事實核查問題的能力;二是增加隱私保護,進一步優化敏感議題的隱私控制機制,包括匿名化處理、數據最小化和元數據脫敏等,在保證事實核查效率的同時規避對個人隱私的過度暴露;三是優化人機協同機制,明確系統和人類專家的職責、細化人類專家與系統的協作模式、進一步引入公眾眾包校正模式。基于大模型的事實核查多智能體系統由人類專家團隊承擔價值判斷與倫理規范把控,公眾貢獻反饋與異議證據,驅動技術理性和社會信任協同推進的新范式的形成。
圖3模型綜合性能雷達圖

表1不同主題上各模型性能均值

參考文獻:
[1]BrianEWEmotions,partisanship,andmisperceptions:Howangerandanxietymoderatetheefectofpartisanbiasonsusceptibility to political misinformation[J].The Journal of Communication,2O15,65(4):699-719.
[2]Suarez-LledoV,Alvarez-GalvezJPrevalenceofhealthmisinformationonsocialmedia:SystematicreviewJ].JouralofMedical InternetResearch,2021,23(1):e17187.
[3]WardleC.Misinformationhascreatedanewworlddisorder-scientificamericanEB/OL].2O25-04-27].htps://ww.scientificamerican.com/article/misinformation-has-created-a-new-world-disorder/.
[4]WorldEconmicForum.TheglobalriskreportEB/OL].2025-04-27].tps://ww.weforum.org/publicatios/global-riskeport-2024/.
[5]EuropeanFact-ChectingStandardsNetwork.CodeofstandardsEB/OL].2025-04-27].https:/efcsn.com/code-of-standads/.
[6]Duke Reporters’Lab.Fact-checking[EB/OL].[2025-04-27].htps://eporterslab.org/fact-checking/.
[7]PorterE,WoodT.Teglobal efectivenesoffact-checking:Evidencefromsimultaneous experiments inArgentina,igeria, SouthAfrica,andtheUnitedKingdomJ].ProceedingsoftheNationalAcademyofSiencesoftheUnitedStatesofAmerica, 2021,118(37):e2104235118.
[8]AdairBLiC,YangJ,etalProgresstoward“theholygrail\":Thecontinuedquest toautomatefact-checking[C]//omputation+ Journalism Symposium(September),2017.
[9]ProcterR,CataniaAM,HeYL,etalSomebservationsonfact-checkingwork withimplicationsforcomputationalsupportJ]. arXivpreprintarXiv:2305.02224,2023.
[10]張超.自動化事實核查的算法邏輯、內生性風險及其規避[J].中州學刊,2022(2):166-172.
[11]AlamF,CresciS,Chakraborty,etalAsurveyonmultimodaldisinformationdetectionC]/InProceedingsofthethInter national ConferenceonComputationalLingustics,IterationalCommiteeonomputationalLinguistics,Gyeongju,epublic of Korea,2022:6625-6643.
[12]CiampagliaGL,ShiralkarP,RochaLM,etal.Computationalfactcheckingfromknowledgenetworks[J].PlosOne,2015,10 (10):e0128193.
[13]BrownTB,ManB,RyderN,etal.Language models are few-shot learners[J].Advancesin Neural Information Processing Systems,2020(33):1877-1901.
[14]LeeHHS.Rise of the agentic AI workforce[J].IEEE Micro,2025,45(1):4-5.
[15]Liu B,Jiang Y Q,Zhang X H,et al.LLM + P:Empowering large language models with optimal planning proficiency[EB/ OL].[2025-04-27].https:/doi.org/10.48550/arXiv.2304.11477.
[16]Liu X,Yu H,Zhang H,et al.Agentbench:Evaluatingllms as agents[J].arXiv preprint arXiv:2308.03688,2023.
[17]Xiao R,Ma W,Wang K,etal.Flowbench: Revisiting andbenchmarking workflow-guided plannng forllm-based agents[J]. arXiv preprint arXiv:2406.14884,2024.
[18]YaoS,ZhaoJ,YuD,etalReact:Synergizingreasoningandactinginlanguage models[C/InterationalConferenceonLeaing Representations(ICLR).2023.
[19]盧宇,余京蕾,陳鵬鶴.基于大模型的教學智能體構建與應用研究[J].中國電化教育,2024(7):99-108.
[20]DasA,ChenSC,ShyuML,etal.Enablingsynergsticknowledgesharingandreasonnginlargelanguage modelswithcolborative multi-agents[C]//n2O23IEEE9thInternationalConferenceonCollabrationandInternet Computing,EE,2023.
[21]李嘉暉,張萌萌,陳洪輝.大模型驅動多智能體的軍事需求生成框架[J].計算機科學,2025,52(1):65-71.
[22]王明程,王高開,李勇男.基于大模型智能體的安全風險態勢感知框架構建[J].情報理論與實踐,2024,47(7):190-198.
[23]王昊,龔麗娟,周澤聿,等.融合語義增強的社交媒體虛假信息檢測方法研究[J].數據分析與知識發現,2023,7(2):48-60.
[24]Liu Z,ZhangT,Yang K,etalEmotiondetectionformisinformatio:AreviewJ]InformationFusion,4,:0300.
[25]LiYJ,Lin CY,Yeh CJ,etalCFEVER:AChinesefct extractionandverificationdataset[J]Proeedingsof theAAAIConference onArtificial Intelligence,2024,38(17):18626-18634.
[26]CaoJ,QiP,ShengQ,etalExploring theroleofvisualcontentinfakenewsdetetionJ].Disinformation,Misinforation,nd FakeNews in Social Media,202O:141-161.
[27]Maros A,lmeidaMJ,Vasconcelos M.A studyof misinformationinaudiomeagesshared inWhatsappgroups[J]Disinfor mation in Open Online Media,2021:85-100.
[28]SitmannJ,TompkinsA.Thestrengthsand weaknessesof automatedfact-checking tols[EB/OL].2025-04-27tps:/ www.dw.com/en/the-strengths-and-weaknesses-of-automated-factchecking-tools/a-53956958.
[29]KotonyaN,ToniF.Explainableautomatedfact-checking:AsurveyC]/nProceedingsof the8th InterationalConference on ComputationalLinguistics,Barcelona:International Committ on ComputationalLinguistics,2O20,5430-5443.
[30]Chen W,SuY,ZuoJ,etalAgentverse:Facilitatingmultiagentcollaborationandexploringemergentbehaviors inagents[J]. arXiv preprint arXiv:2308.10848,2023,2(4):6.
[31]付少雄,朱夢蝶,楊海燕,等.楚門的世界:短視頻虛假信息多模態特征及其傳播效果[J/OL].圖書情報知識,1-14 [2025-02-16].http://kns.cnki.net/kcms/detail/42.1085.G2.20240926.1709.008.
[32]LanginK.Fakenewsspreadsfasterthantrue newson twiter-thanks topeople,notbotsEB/OL].2025-04-27].http:/www. sciencemag.org/news/2O18/O3/fake-news-spreads-faster-true-news-twitter-thanks-people-not-bots.
[33]SopranoM,RoiteroK,BarberaDL,etalCognitivebiases infact-checkingandtheircountermeasures:AreviewJ].nfortion Processingamp; Management,2024,61:e103672.
[34]SIMA Team.AgeneralistAIagentfor3Dvirtualenvironments[EB/OL].2025-04-27]htps:/deepmind.google/discover/ blog/sima-generalist-ai-agent-for-3d-virtual-environments/?utm_source=chatgpt.com.
[35]Gao B,HeZMSharmaP.Cost-efcientlarge language modelservingformulti-tunconversations with CachedAttentionEB/ OL].[2025-04-27].https://arxiv.org/html/2403.19708v3?utm_source=chatgpt.com.
作者簡介:朱夢蝶(1998-),女,博士研究生;管振凱(2002-),男,碩士研究生;王藝(2001-),男,博士研究生;楊海平(1967-),男,、教授,博士生導師。