□ 王熠 成鵬 劉穎旭
內容提要 媒體智能化發展使得新聞內容核校和核查迎來了新的挑戰和機遇,本文通過分析內容檢校技術發展,結合新華社研發“較真”智能檢校工具的五大工作實踐,探索在人工智能、區塊鏈、大數據發展趨勢之下,新聞內容核校的新模式。
人工智能時代來臨,智能語言處理、視覺識別等技術驅動促進媒體的智能化發展。媒體多元化內容和跨媒體信息給新聞的質量核校和內容核查帶來了新的挑戰和機遇。
新華社技術局積極探索新技術應用,將人工智能深度融合在全媒體采編發的內容核校環節,實現了新華社稿件核校工作從“人工”向“人工智能+”的階段性跨越。基于對新華社百萬級優質稿件進行算法學習,結合業務部門積累總結的權威語料庫,打造出“較真”智能檢校服務。本文結合“較真”的開發與實踐,介紹實現對新聞內容質量和網絡新聞的真實性進行把控,建立更適配“主流媒體”的內容核校機制的體會與認識。
新媒體的新聞借助數字技術、網絡技術,通過多類型移動終端傳遞信息,具有即時性、強擴散性、強互動性等特點。信息傳播速度的提升,促使信息生產加速,事先審查的內容激增、時間縮短、難度加大。高擴散和互動的特性使得信息傳播具有不可預測性,而另一方面,自媒體蓬勃發展,使得大量UGC(用戶產生內容)出現,匿名性、碎片化、娛樂性內容缺乏合理規范約束,使得新聞內容核查技術亟需升級。
借助人工智能技術,國內外機構已經形成了新的核查力量和核校機制。
1.通過人工智能拓展事實發現的渠道和維度。例如,路透社的“路透新聞追蹤器”能夠實時監控推特上的話題,從業者可在此基礎上依據該軟件算法設置的40項評分指標判斷是否繼續進行人工調查。
2.利用人工智能助力事實核查和版權檢驗。例如,杜克大學記者實驗室部署使用的ClaimBuster軟件能夠基于自然語言處理和機器學習技術,區分文本中陳述性的事實和值得核查的觀點性內容。該軟件使用來自直播活動的音頻或視頻并將其轉換為文本,用過濾器識別其中有關事實的語句,然后將這些語句與數據庫進行匹配。
3.使用人工智能改變傳媒內容糾錯的方式。例如,Grammarly為媒體撰稿人提供英語的語法糾錯,標點修改,詞句潤色,句子結構優化等功能。以色列Ginger產品可根據每句話的上下文在MS-Word、Outlook、PowerPoint、IE和Firefox中糾正拼寫和語法錯誤。
隨著互聯網時代的到來,新媒體信息傳播迅捷,新華社發稿需求呈現出“新媒體時代無改稿”的特點,對重要稿件準確及時播發提出更高的要求,新聞內容核校工作面臨更大的挑戰。技術局突破多項技術難點,立足新聞稿件采寫需求,打造出具有高準確率、強政治內核的“較真”智能檢校服務。
1.以新聞場景為導向。“較真”是一款有新聞通訊社特點、具備政治屬性的智能內容檢校服務,不斷推出面向多個媒體場景的檢校能力。針對兩會新聞報道,更新兩會報道規范用語規則,對類似“社會主義核心價值觀”簡稱規范,“大眾創業、萬眾創新”的誤用均進行了語料更新。針對“新中國成立70周年”的18種不規范表達,在國慶報道前增加檢校范圍,對類似情況查漏補缺。針對歷史稿件中曾出現的問題,建立邏輯排序、電頭檢查、敏感詞、人名不一致性檢查算法,將經驗成果不斷積累。比如將臺灣與新加坡不可以并列在一起,“全國人大常委會副委員長”不應該錯為“全國人大副委員長”等問題。

2.以主流規則為約束。新華社是國家通訊社,政治性差錯雖然少見,但是影響面廣、后果嚴重。單純依靠機器學習解決不了政治屬性問題,所以我們增加了大量人工設定的規則作為系統的“定盤星”,將價值取向主觀因素轉換為可量化、可衡量的規則邏輯,把權威的數據變成知識庫,并且通過人機協同的方式不斷更新,從政治固定搭配、習慣語、邏輯規則多方實現對算法的駕馭。
3.以優質稿件為基石。優質的數據是好的決策結果的先決條件,對于高度依賴內容的核校算法而言,優質的文字稿件就是一位優秀的指導老師,為核校算法提供正確的學習方向和知識語料。新華社稿件涵蓋了政治、體育、社會、生活、文化等多種類型,數據規模龐大,目前在數據庫中的稿件總數超過1億條。稿件數據里面蘊含了海量的語言智慧:優質的語言表達、合理的語義結構、完善的知識特征。因此,我們以新華社稿件為學習語料,為后續算法進行知識習得、理解領悟、遷移應用創造了良好的應用基礎和指導內核。
4.以先進算法為手段。在中文語境下,解決內容核校問題是一道超級難題。錯誤類型千奇百怪,有輸入法聯想導致的同音錯,拼音錯誤,形近字錯誤,網絡亂用語錯誤等。而且,漢語表達主觀多樣,分詞斷句需要根據上下文語義進行理解。
項目突破了對上下文語法及搭配錯誤的判別技術難點,以深度學習為基礎,構建基于LSTM、Fasttext、Ngram、Bert多個算法模型,針對詞模型、字模型、概率預測,每個模型都有獨特的理解力,算法將多個模型共同進行融合決策。對于可能出現錯誤的位置進行預判和修正,不斷調試參數,機器逐步形成了對新聞語法的表達概念。再利用強化學習“舉一反三”,通過快速記錄對錯誤的反饋和干預,進行算法自我迭代,將系統調試得日趨精準。
5.以自主研發為保障。新聞內容核校是一個需要長期維護的服務能力,互聯網信息傳播增速導致新詞、新概念、新說法層出不窮,我們依靠強大的自研團隊和維護運維團隊,完成對稿件數據學習、業務驗證、增強數據學習的良性閉環。根據測試數據表明,“較真”智能檢校服務準確性已經超過市面同類廠商。
從2019年1月上線以來,“較真”智能檢校功能服務調用超過55萬余次,隨著服務推廣,每月使用量增長超過30%,編輯部及職能部門用戶認為“該系統算法先進,查錯能力優于傳統檢校軟件”,在多次重大報道發稿核校工作中為編輯記者提供了有力的輔助支撐。
在完善新華社自身對內容核較之外,如何及時發現互聯網上的虛假新聞也是智能核校的發展方向。2018年《科學》指出,美國大選期間平均每人每天要看4篇假新聞。基于人工智能技術的造假能力遠超虛假檢測能力。主動研發針對算法作惡、新聞誤導、機器人偽造等現象的核較能力是國家媒體的社會責任。
1.增強多媒體新聞可信度認證
隨著互聯網傳播形態的變化,媒體開始往圖、文、短視頻的多媒體形式轉變。融媒體內容承載著更加豐富與直觀的信息,因此虛假新聞更傾向于多媒體模式描述新聞事件,使得信息更容易傳播且更具煽動性。因此,針對多媒體內容的檢測是對新聞內容核較的重要挑戰。通過特征、熱門圖片比例、圖片清晰度、壓縮比等方式,可發現新聞內容本身的圖文不符合、圖片篡改等問題。通過判斷配圖是否具有強烈的視覺沖擊以及文字是否會有極端的情感煽動性,可判斷新聞傳播真實性。
2.完善基于大數據的新聞質量核校
為適應新媒體時代新聞生產和傳播的新特點,建立互聯網新聞可信度評估體系,從可讀性、邏輯性、可信度、專業性、交互性、有趣度、動人度、完整性多個維度進行新聞質量評估預測,通過大數據分析形成新聞寫作話術體系,從而為記者編輯撰寫高質量新聞提供大數據的分析支撐和引導。
3.探索基于區塊鏈的新聞可靠性評估
區塊鏈新聞是將所有的新聞生產、制作、傳播等皆在“區塊鏈”場景中產生,所有的過程在區塊鏈程序代碼當中留下標記,具有透明可查且不可篡改等顯著特征,從而創造一種新機制來追蹤和評估新聞的可靠性,這一機制與區塊鏈技術應用的分布式存儲結構、密碼學、智能合約等技術相關。此方法局限性在于只能覆蓋區塊鏈上呈現的范圍,離開這個場域的新聞生產過程依然存在監管死角。