當前,全球網絡信息內容生態治理的棘手問題是假新聞橫行、不實言論混淆視聽。智媒時代虛假內容的生產與傳播也具有“智”的特征:造假手段的智能化(如深度偽造)和傳播擴散的“擬人化”(如機器人賬號)。2020年,全球84個國家有304個事實核查項目,項目數比2019年增加了近100個,但與全球每天產生的海量虛假內容相比遠遠不足。造假技術的智能化迫切需要事實核查的智能化,自動化事實核查(Automated Fact-Checking,簡稱AFC)應運而生。
自動化事實核查用數字工具來識別、驗證和回應誤導性“陳述”(claims)。它的最大優點在于處理速度快,如果用人工閱讀文稿和監測電視尋找事實性“陳述”需要數小時,用自動化事實核查工具ClaimBuster只需要幾秒鐘。自動化事實核查還可以規避某些公眾的“批評”:傳統的人工事實核查被視為有“黨派偏見”。在美國,就有批評者認為,事實核查網站PolitiFact在選擇核查事實上存在黨派偏見,更容易選擇共和黨的失實言論作為核查對象,盡管民主黨人與共和黨人的核查文章總數相當,但出自共和黨人的言論更容易被標注為“失實”或“荒謬”。以“技術中立”面貌出現的自動化事實核查可以賦予事實核查客觀、中立的形象。自動事實核查在核查“陳述”方面有一定的成效。聯合國的研究報告顯示,一些新聞媒體和事實核查機構利用自動化工具,加快了新冠肺炎病毒相關的事實核查速度。
國內學界對事實核查的關注多聚焦于傳統人工事實核查的流程、倫理、效果和個案研究,對自動化事實核查的技術邏輯及其蘊含的風險缺少關照。自動化事實核查的核心是算法驅動,是打擊謊言和假新聞的算法治理(algorithmic governance)手段之一,但核查過程并非人工核查在技術上的“翻版”。從技術邏輯上看,人工事實核查與自動化事實核查并非“等同”關系,人工核查所采用的“匹配”邏輯在自動化事實核查中只是技術方法之一。計算科學家秉持的“算法形式主義”(algorithmic formalism)雖然讓算法解決問題的思路變得清晰,讓復雜的問題易于處理,卻讓自動化事實核查蘊含技術風險。
基于此,本文擬從算法技術的內部視角深入分析自動化事實核查的算法邏輯、內生性風險,并據此提出規避風險的舉措。
算法是為解決一個特定的問題所采取的確定的有限步驟。解決一個問題可以有多個算法設計,算法性能可能存有差異。在自動化事實核查問題的解決上,算法邏輯也各不相同。
1.基于“匹配”的邏輯
自動化事實核查中基于“匹配”的邏輯源于人工事實核查。基于“匹配”的算法邏輯是以特定的語料庫為基礎的,當“陳述”出現時,系統自動將其與語料庫的內容進行對比,如果匹配成功,則完成事實核查。事實核查的對象是“陳述”,而不是觀點。應用這種邏輯的前提是要有一個“比對庫”——基于以往已被驗證事實的數據庫。這是一種典型的將現實思路模擬為技術思路的核查方法。
2020年新冠肺炎疫情期間,“國際事實核查網絡”(International Fact-Checking Network)建立了一個事實核查數據庫,包含超過40種語言的7000多個已核查“陳述”,聊天機器人WhatsApp Chatbot能夠從這個數據庫中找到匹配的“陳述”對用戶提出的關鍵字請求進行核查回應。
人工智能程序Squash可以實時匹配在事實核查系統ClaimReview中已有的事實核查與現場演講者的“陳述”。Squash可以將政客的言論轉錄成可搜索的文本以便查找匹配項,幾秒鐘內將相關的事實核查顯示在觀眾的屏幕上。“匹配”邏輯之所以可行,是因為在各種場合、平臺中的失實或誤導性“陳述”都是重復的說法,而這些“陳述”可能已被事實核查過了。類似的算法系統還有《華盛頓郵報》的“吐真者”(Truthteller)和FullFact的“實時平臺”(Live platform)。

2.基于“信源信度”的邏輯
如果不分析“陳述”內容本身的真假,如何預測“陳述”的真假?基于“信源信度”的邏輯是一種典型的計算思維,它通過對信源可信度的判斷推論出“陳述”的可信與否。



基于“信源信度”的邏輯用整體封鎖信源的方式杜絕假新聞,看似簡單粗暴,但對付自動化的假新聞批量生產確實有效。
3.基于“關系”的邏輯
將“陳述”視為知識,如果為真,則一定有支持它的相關知識,反之則很少或沒有。自動化事實核查的另一個邏輯在于“關系”,即尋找某一“陳述”在知識圖譜中與其他知識的關系。

4.基于“缺陷”的邏輯
人工智能技術的發展讓“深度合成”游走于“合成”和“偽造”的兩端。深度偽造成為事實核查新的核查對象。面對這種新的、足以以假亂真的文本形態,傳統的人工識別難以應對。如果從技術的角度去解決,則有很多突破口。因為無論是合成還是偽造,從數據上看都會有“缺陷”,如果能找出這類視頻在“缺陷”上的數據特征,則可以有效識別真假。


5.基于“區塊鏈”的邏輯
基于“區塊鏈”的邏輯是依靠文本上的“元數據”(如時間、地點、作者以及所有編輯和發布的信息)來判斷文本的來源及其是否被篡改。基于“區塊鏈”的邏輯需要從信息文本(圖片、文章、圖像等)的源頭開始布局,如此才能真正發揮作用。當前,全球部分主流媒體已經開始布局區塊鏈,通過其核查不實信息。


技術風險按生成方式可以分為外生性風險和內生性風險。外生性風險是由技術之外的因素引發的風險。例如,使用者對于技術的誤用、誤解和濫用。內生性風險是與技術設計本身直接相關的各類因素引發的風險。

1.誤解風險
誤解風險是指由于事實核查系統無法準確“理解”人類語言而引發對“陳述”的誤解。誤解風險的產生是人工智能發展的階段性問題。目前還處于弱人工智能階段,算法能夠從事的是簡單的、重復的事實核查,變通性較差。




2.誤判風險
基于“信源信度”的邏輯、基于“關系”的邏輯、基于“缺陷”的邏輯,由于解決問題的思路不直接涉及被核查的內容本身,會產生誤判風險。


在基于“缺陷”的邏輯中,通過尋找視頻在生物特征上的缺陷的模式,只能在一定時期、一定階段有效,因為深度偽造技術正在完善,生物特征測試越來越難以發揮作用。

在弱人工智能時代,自動化事實核查不可避免地存在缺陷。作為一種信息糾錯機制,自動化事實核查內生性風險的最大后果在于損害事實核查與公眾間的信任關系。如何規避內生性風險的產生,不僅是技術問題,還需要多措并舉,在技術、把關、利益相關者和倫理等層面構筑立體的防范體系。
1.技術層面:優化設計,減少源數據的偏差



2.把關層面:“算法+事實核查員”的人機協同模式

3.利益相關者層面:組建事實核查網絡
從全球范圍看,事實核查是一種公益性的新聞事業。在人工事實核查方面,全球范圍有多個項目進行合作。新冠肺炎疫情期間,“國際事實檢查網絡”組織了“新冠肺炎病毒事實聯盟”,這個聯盟匯集了70個國家的100多名事實檢查員來更新關于新冠肺炎疾病的虛假信息的數據庫。法國的CrossCheck與34個新聞機構及新聞專業的學生聯手,對法國總統大選進行報道。2015年成立的“初稿新聞”(First Draft News)是由媒體、大學、平臺和公民組織組成的事實核查協作體,它向記者和公眾免費培訓相關技能。


4.倫理層面:強化透明和更正原則
當算法系統不能保證百分之百正確時,對公眾誠實的態度非常重要。只有這樣,公眾才能給予自動化事實核查容錯的空間。當然,對于系統開發者和使用者來說,也不能以此為借口經常出錯。此外,自動化事實核查還要避免成為某些利益相關者的“工具”,行事實核查之名,做偏見、誤導之事。


自動化事實核查是網絡信息內容生態治理的重要手段,不同的算法邏輯展示了從算法角度進行事實核查的不同路徑。面對“算法形式主義”帶來的技術局限,如何規避風險、提高自動化事實核查的效率和準確性,是用技術治理技術問題的“元命題”。當智媒時代算法被“賦魅”時,利益相關者應當提高算法素養為其“祛魅”,只有辯證、批判地看待算法在自動化事實核查中的邏輯和效用,我們才能讓自動化事實核查為新聞業的事實核查事業“加分”,也才能更好地參與網絡信息內容生態治理。
