孟雨
IBM最強AI辯手Project Debater代表了當前計算辯論研究的頂點。在充斥著海量信息和誤導文化的當下,我們期待實現完全自主辯論的AI系統能夠促進智能辯論的發展,幫助建立更合理的論點,做出更明智的決策。
對于辯論的研究可以追溯到古希臘,當時古希臘哲學家如蘇格拉底等人在市集上與人們討論政治、辯論真理,辯論內容包羅萬象。
當下人工智能研究的一大挑戰就是如何讓機器理解自然語言辯論中的論點。
近日,IBM研究院研究員、希伯來大學人工智能專家Noam Slonim和團隊公布了相關研究Project Debater的進展,該系統通過掃描儲存了4億篇新聞報道和維基百科頁面的檔案庫,自行組織開場白和反駁論點。
雖然最終仍然輸給了人類辯手,但此次AI辯手的表現提供了一種可能:未來人工智能可以幫助人類制定并理解復雜的論點。
自然語言處理(NLP)算法是指計算機自動理解、解讀和處理人類語言(比如,話語和文本)。NLP是人機互動的關鍵要素,IBM Project Debater團隊積極開展NLP研究也在情理之中。
2018年,IBM研究院在美國舊金山的Watson West,首次展示了人類與智能機器之間的公開現場辯論賽。雙方辯手分別是IBM耗時逾6年研發的,首個能與人類進行復雜辯論的AI系統Project Debater(以下簡稱Debater),以及以色列國際辯論協會主席Dan Zafrir。
該研究強調了在辯論中識別、產生和反駁論點的過程中,將不同組成部分結合起來的強大工程的重要性,每個組成部分處理一個特定的任務。
大概10年前,對人類話語進行分析,以確定引用證據來支持結論的方式———這個過程現在被稱為“論點分析”,這明顯超出了最先進的人工智能的能力范圍。
從那時起,人工智能技術的進步和論證技術工程日益成熟,再加上激烈的商業需求,該領域迅速擴張。全世界現在有超過50個實驗室在研究這個問題,包括大型軟件公司團隊。
這一領域研究激增的原因是人工智能系統的直接應用能夠識別大量文本中語言使用的統計規律,這種應用在人工智能的許多應用中起到了變革性的作用,但在論點挖掘方面還沒有達到這樣的進展。
因為論點結構太多樣化、復雜、微妙和隱晦,不像句子結構那樣容易被識別。
因此,Slonim等人決定發起一項重大挑戰:開發一個完全可以與人類進行現場辯論的自主系統。Project Debater代表了這項工作的頂峰。
Project Debater關鍵技術
立場分類和情緒分析自動辯論系統必須能夠確定論點能否支持或反駁給定的主題。這對人類來說十分簡單,但對機器而言則相當困難,因為它需要能夠敏銳地辨別自然語言豐富的微妙之處和細微差異。
深度神經網絡(DNN)具備提高自動語言理解能力的巨大潛力,但是訓練DNN需要大量人工標記的高質量數據。該團隊開發了多種工具和方法,以弱監督式訓練DNN,來緩解這個瓶頸問題。他們還利用DNN開發Project Debater的聽說技能。
文本轉語音(TTS)系統與個人助手或導航器不同,辯論系統需要能夠持續數分鐘對事先未知的主題作出雄辯,同時與受眾保持互動??蒲袌F隊開發了新的TTS算法,用于為Project Debater提供清晰流利、有說服力的語言表達能力。
Project Debater難以達到人類辯手的連貫性和流暢性
在論證技術的發展以及將論證作為局部現象來處理的過程中,Project Debater是一個關鍵的步驟。它的成功提供了一個新視角,可以了解人工智能系統是如何提出論點來進行工作的。
幾乎所有的人工智能研究都把目標定得很高,但瓶頸在于是否能夠獲取足夠的數據,計算出有效的解決方案來應對既定挑戰。ProjectDebater采用雙管齊下的辦法克服這一障礙,它將重點縮小到100多個辯論專題,從巨量的數據集中收集原始材料。
在2018 - 2019年的一系列比賽中,Project Debater挑戰了多個才華橫溢、備受矚目的人類辯手,比如曾在2016年獲得以色列國家辯論冠軍的以色列大四女生Noa Ovadia,觀眾對其表現進行了非正式的評估。
該系統以其辯論技術為后盾,并以經過處理的數據集為支撐,創建了一個4 min的演講,開啟了一場關于其全部技能中某個主題的辯論,一個人類對手會對此作出回應。然后,它對對手的觀點做出反駁,發表第二次4 min的演講。對方用4min反駁回答,辯論結束時,雙方參與者都做了2 min的閉幕陳述。

Project Debater最薄弱的一點是,它難以模仿人類辯手的連貫性和流暢性,這個問題與其處理能力的最高水平有關,在這個水平上,它可以選擇、抽象和編排論點。然而,這種限制并不是Project Debater所獨有的,盡管進行了兩千年的研究,人們對“論證結構”仍然知之甚少。根據論證研究的重點是否集中在語言使用、認識論、認知過程還是邏輯有效性,人們對于連貫論證和推理模型所提出的關鍵特征各不相同。
所有論證技術系統面臨的最后一個挑戰是,將論證視為受一系列孤立因素影響的本地論述碎片,還是將它們編入更大規模的社會范圍的辯論。在很大程度上,這是設計要解決的問題,而不是設計解決方案。
通過給論證設定先驗界限,理論上的簡化變得可行,從而提供了主要的計算優勢。例如,識別“主要要求”就成為一個明確的任務,機器幾乎可以像人類一樣可靠地完成這項任務。問題在于人類根本不擅長這項任務,恰恰因為它是人工設計的,在公開討論中,一段給定的論述可能是一個上下文中的主張,另一個上下文中的前提。
此外,在現實世界中,沒有明確的界限來劃定一個論點,發生在辯論室之外的話語并不是離散的,而是與交叉引用、類比、例證和概括的網絡相連接。
關于人工智能如何處理這種論證網的想法已經有相關理論在討論,并利用軟件來實現,例如,一個名為DebateGraph的系統是一個互聯網平臺,它提供了計算工具,用于可視化和分享復雜的、相互關聯的思想網絡。
然而,與這些實施相關的理論挑戰是艱巨的技術問題,設計令人信服的方法來吸引大量受眾進入這種系統,與設計簡單明了的機制使他們能夠與這些復雜的辯論網絡互動一樣困難。
在論證技術的發展以及將論證作為局部現象來處理的過程中,ProjectDebater是一個關鍵的步驟,它的成功提供了一個誘人的機會,讓我們了解人工智能系統是如何工作的。
現在假新聞充斥,公眾輿論兩極分化,松散的推理無處不在,這些都掩蓋了人類在創造、處理、導航和分享復雜論點方面的迫切需求,而在這方面人工智能或許能夠提供支持。
因此,Project Debater解決了一個重大的挑戰,代表了人工智能進步,可以促進人類的推理,而且,正如Slonim等人所說,Project Debater拓寬了當前人工智能技術的舒適區,未來將能夠參與更加復雜的人類活動。