



論辯(Argumentation)旨在研究人們在語言、文本中蘊含的邏輯論證過程,是一項涉及語言學、哲學、修辭學、邏輯學等多門交叉學科的研究領域。相關研究工作最早可以追溯到亞里士多德時期。近年來,隨著計算語言學的快速發展,傳統語言學中的論辯相關領域也引起了學者的關注,并催生了一個新的研究方向——計算論辯學(Computational Argumentation)。
計算論辯學試圖將人類關于邏輯論證的認知模型與機器自動化的計算模型結合起來,以賦予人工智能系統理解人類辯論推理過程的能力。此外,近期的許多研究還通過應用自然語言處理相關的技術和資源,在當今的海量信息中對論辯性文本進行分析,反過來對傳統的論辯提供了數據、實例驅動的結論,如對于文本風格、論辯策略等對論辯說服力、論辯質量的具體影響,擴充了論辯學理論的實踐研究。計算論辯學的興起,使得傳統論辯學和計算語言學兩個原本相對割裂的研究領域產生交融,為二者同時注入了新的活力。本文將按照經典論辯理論、獨白式論辯任務、對話式論辯任務和論辯應用這樣的組織結構,為讀者提供一個計算論辯研究的全景綜述。
論辯理論
計算論辯往往從經典的論辯理論出發,研究自動化論辯性文本的深度理解和生成。其中,最被大家認可的研究框架包括圖爾敏框架和事實-政策-價值框架。
圖爾敏框架 圖爾敏框架于1958年由非形式邏輯理論先驅斯蒂芬·圖爾敏(Stephen Toulmin)提出,是最早的論辯分析理論之一,也是目前應用最廣泛的理論框架之一——不僅包括計算論辯,也包括各種專業評論與論文的寫作。這一理論將論辯文本中出現的論辯單元分為六大要素:主干要素包括主張(claim)、事實材料(grounds)、保證(warrant);補充要素包括支援(backing)、模態詞(qualifier)、例外(rebuttal)。主干要素是圖爾敏框架的核心,有了這三類元素就可以組織一篇獨白或一場對話。主張(也可稱為論點)顧名思義是辯方提出并希望論證的觀點,而證據則是支持這一觀點的材料。正當理由(或隱含假設)看起來既像論點也像論據,實際上是用于說明證據和主張之間的關系的,可以看作兩者之間邏輯橋梁的橋墩。作為一種經典的論辯分析方法,圖爾敏框架是基于長篇辯論發展而來的,適用于論文、評論、辯論賽等辯論文體或場景。然而隨著社交網絡和自媒體的快速發展,短篇的來回辯論成為這些場景下論辯文本的主流,此時圖爾敏框架就顯得有些不便。
事實-政策-價值框架 事實-政策-價值框架最早由霍利漢(Hollihan)和巴斯克(Baaske)于2004年提出,是從決策理論中發展得到的論辯分析框架。他們將論辯單元分為事實(fact)、政策(policy)和價值(value)三大要素,近似于圖爾敏框架中的證據、主張和正當理由,但組織方式有所差別,例如事實之間、價值之間可以相互支持。此外,這一框架還將要素之間的關系分為理由(reason)和證據(evidence)兩類,其中理由表示對政策與價值的支持,證據則是對事實的支撐。由于事實-政策-價值框架最初是為了分析單方面決策過程,框架中沒有明確對駁論建模,使得該理論主要應用于單論點論證文本的分析。
獨白式論辯
早期對于計算論辯學的研究主要集中在獨白式論辯方面,研究僅包含單個參與者的辯論性文本,如學生議論文和主題演講等,旨在挖掘參與者文本中各組件(如論點、論據等)之間的組織結構關系。相關的研究包括論元部件檢測、論點邊界預測和議論文自動評分等。進一步的,研究者開始關心論辯性文本的質量評估問題。
論辯挖掘 論辯挖掘的主要目標是自動地從文本中提取論點(argument),以便為論辯和推理引擎的計算模型提供結構化數據。一種典型的論點結構包括兩個主要子部件(前提和主張)和連接子部件的推理規則。論辯挖掘任務的目的則是從輸入文本中找到所有的主張、前提并建立它們之間的邏輯聯系。圖2展示了論辯挖掘的任務流程示意圖。它主要包括兩個子任務,論點部件檢測以及論點結構分析。
當前針對文本分析的主流研究方向是情感分析,關注用戶對于特定事件或目標物體的態度。論辯挖掘則旨在進一步對用戶產生這個想法的原因進行剖析,挖掘用戶的邏輯推導過程,以實現對文本的深度理解。論辯挖掘的相關技術可以為社會、政治和科學領域的決策者以及研究人員提供自動化工具,為企業市場營銷創造新的前景。圖3給出了論辯挖掘的一個應用示例。通過對該評論的分析,我們可以獲得發言人對于某一個特定話題的基本看法,方便我們更快獲得其中的信息。
論辯質量評估 論辯質量反映了一個單元、一個論點或論證有多好。比如,前提是否可接受、語言上是否清楚、是否與討論有關、論證是否有說服力、說服是否有效或論辯是否合理等。在某種意義上,關于論辯質量的問題是論辯挖掘的終極問題,這說明了論辯質量評估的重要性。那么為什么要評估論辯的質量呢?第一,在實踐中我們對論辯挖掘和對論斷的理解還不夠充分;第二,對于成功的論辯,我們需要找出“最佳”的論點;第三,論辯質量評估對任何計算論辯的應用都至關重要。常見的應用如:論點搜索,哪個論點排名最高;寫作支持,一個論辯文本有多好,是否存在什么缺陷;自動決策,哪些論點比其他論點更重要。
論辯質量維度的分類有三個主要的方面,分別是邏輯性、修辭性、辯證性。邏輯性,指的是一個有說服力的論點要具有可接受的、相關的和充分的前提。局部可接受性,給出的前提值得被相信是真實的;局部相關性,該前提與結論相關;局部充分性,有這個前提就足以得出結論了。修辭性,指的是有效的論證,能夠說服目標受眾。包括如下幾點:可信度,使作者值得被信任;情感吸引力,讓聽眾愿意被說服;清晰度,語言上清晰,盡可能簡單;適當性,語言上與聽眾和話題匹配;順序性,以正確的行文順序呈現內容。辯證性,合理的論證,包括可接受的、相關的和充分的。全局可接受性,值得以陳述的方式加以考慮;全局相關性,有助于解決給出的話題或問題;全局充分性,充分地反駁了潛在的反面意見。
對話式論辯
對話式模型最早起源于對上述經典的單篇式模型的改進版本,相關研究主要通過引入一些新組件來捕捉不同參與者論點文本之間的互動性,這一類本質是單篇式論辯和對話式論辯的結合研究。之后隨著研究的不斷深入,一些更加針對對話式論辯領域的模型也相繼問世,包括交互論點對識別和對話式論辯生成等。
交互論點對抽取 在實際生活中,往往有對話就會有論辯對,因此對話式論辯抽取的適用場景非常廣泛,包括但不限于社交媒體論壇、論文同行評議等。所謂交互論點對,是指在對話式論辯的場景中(如辯論賽或在線辯論論壇等),參與的雙方就某一共同話題所產生的邏輯或語義上存在相關的論點對。圖4給出了論壇中的兩條討論帖的示例,其中帖A為該主題下的原始帖,即“樓主”所發。而帖B為帖A的回復帖。這兩篇帖子都旨在討論聯合養老制度的合理性,其中帖A支持聯合養老保險制度,共分為五個論點句,并從三個角度闡述了發帖者所認為的合理性。而帖B反對該制度,也分為五個論點句,并通過舉例的方式論證了自己的核心觀點:“人們退休后的收入需求通常會隨著年齡的增長而下降。”通過分析這兩篇帖子的文本,可以發現B1與A1之間存在直接的反對關系,因而這是一對互動論點對。相似地,B2和A5也共同成為一對互動論點對。自動化完成交互論點對的抽取,可以幫我們快速地在論點交互中挖掘出討論雙方關心的問題。
對話式論辯生成 對話式論辯另一個分支的研究則偏向于提出自動化模型在對話式領域實現對話生成任務。對話生成任務是人機交互中機器實現輸出的一個重要組成部分,如何讓機器按照我們預先設定的范式實現有效輸出是重中之重。具體的,對話生成任務大致可以分為總結性論點生成和目標論點生成兩類。
總結性論點生成:最簡單的對話式論辯生成任務之一是根據給定的觀點或論點文本集合,生成對應的總結性句子,相當于生成了一個特定的論點句。從別人那里收集意見是我們日常活動的一個組成部分。發現別人的想法可以幫助我們在生活的不同方面導航,從日常任務的決定到判斷基本的社會問題和形成個人意識形態。為了有效地吸收大量固執己見的信息,迫切需要自動化系統對一個實體或話題生成簡潔流暢的意見總結。
目標論點生成:針對特定的話題生成支持或反對的高質量論點文本,則是更為實際的論點生成任務。針對生成任務的早期工作通常是先從語料庫中提取文本,然后按特定順序輸出,缺少綜合不同語料內容的能力。產生高質量的論點在決策和推理過程中起著至關重要的作用。許多最終決策都是在爭論或反駁中不斷推進發展的,而當這種爭論來到人機交互場景時,生成高質量論點的重要性就體現出來了。例如:立法機構經常進行辯論,以確保法案獲得足夠的票數通過;網上審議則是另一個常見的場景,它已經成為征求公眾意見的一種流行方式。盡管如此,構建有說服力的論點對人類和計算機來說都是一項艱巨的任務。
論辯應用
計算論辯研究近些年引起越來越多的關注,除了它的學術價值外,也在于它能夠給不同領域的應用帶來新的發展,包括智慧論辯、智慧教育與司法。
智慧辯論 IBM于2019年公開發布了人工智能辯手“辯論者”(Project Debater)。它是全世界首個能與人類進行復雜辯論的自動化論辯系統。該項目由IBM團隊自2012年啟動開發,2021年3月登上了《自然》(Nature)雜志封面。 2019年2月11日辯論者與納塔拉詹(H. Natarajan,世界大學生辯論賽冠軍)圍繞“是否應當補貼學前教育”展開了一場公開辯論,AI辯手持正方,人類辯手持反方。比賽采用簡化后的議會制辯論,含15分鐘持題準備時間,三輪交替發言環節。賽前,79%的聽眾同意學前教育應該得到補貼,13%的人不同意。賽后,62%的人同意,30%的人不同意。最終,人類辯手納塔拉詹獲得勝利。
辯論者系統包含論辯挖掘、論辯知識庫、論點反駁和論辯組織四個模塊。論辯挖掘模塊從大的文本語料庫中找尋到議題相關的論點和駁論點。論辯知識庫包含論點、駁論點以及其他辯題下的相關文本,一旦給定辯題,系統在其中找到最相關的論辯語料。論點反駁模塊將前兩個模塊中潛在的相反論點與實際對手的陳詞做匹配,由此生成可能的回應。最后,論辯組織模塊從其他模塊提供的文本中選擇性地組織出一則連續的發言。
智慧教育 計算論辯的一大應用對象是學生議論文,開始設計如寫作助手、議論文自動評分系統等工具。寫作助手是一種自動分析論辯性文本(如議論文)的技術,以便向作者提供反饋。典型的過程是用戶在系統中輸入一個文本草稿,該系統對草稿進行分析,為用戶提供綜合反饋,用戶修改草稿并重復此過程。它的應用場景包括議論文寫作的教學、文本說服效果的優化、寫作速度的提高等。相關應用程序如下:用于修正拼寫和語法檢查的內置工具(例如微軟的Word里);專業的寫作工具甚至可以分析風格、語氣等(例如Grammarly);增強的寫作工具積極地完成文本草稿(例如textio flow)。所有這些都可以與議論文寫作支持相結合。增強寫作(augmented writing)是一種寫作支持的變體,可以半自動地轉換或完成用戶編寫的文本段,或者它可以建議給定句子或類似句子的替代方案。增強型寫作還可能包括寫作支持的其他典型功能。實現方式是識別并重用以前文本中的類似內容,并根據給定的文本段調整風格和措辭。增強型寫作目前還沒有得到明確的論證研究,但是潛在的用例是明顯的。
議論文寫作是學校教育中針對不同年齡和不同學科的學生的一項標準任務,在數字化和在線教育的時代,自動化變得越來越重要,可能有一天寫作助手會成為標準文本處理工具的一部分。在議論文的計算任務中,論辯挖掘和質量評估為寫作支持奠定了基礎,其他評估和標準文本分析也讓它更加完善。增強寫作可能需要加入論點生成的功能。到目前為止,現有議論文寫作系統的重點是放在論辯挖掘上,論辯質量評估和反饋生成功能還相當初級。如果系統出現錯誤,則它輸出的價值可能會有問題,不過這部分只是一個接口問題,即使存在錯誤的輸出,也可能提供有用的反饋。
司法領域 一個非常富有現實意義的辯論場景是法庭上原告與被告雙方的對簿公堂。在一次庭審中,原告(控方)提出被告(辯方)的過錯并提出相應的要求,而被告則試圖回應或反駁原告的觀點,并提出自己的要求(舉證則視不同案由有不同的規定);如此來回若干回合,最后由法官當庭或擇期給出最終的判決。
目前,法院在分析庭審記錄時,仍然需要依靠法官人工閱讀、整理、分析、歸納雙方陳詞,這往往會耗費法官大量的時間、精力與資源。在庭審記錄或裁判文書中,其中一個需要法官重點關注的是雙方爭議的焦點。這些爭議焦點通常涉及訴訟案件的核心問題,是控辯雙方爭取自身權益的關鍵點,因此往往關系到最終宣判的合法性、公平性與合理性。從計算論辯的角度看,爭議焦點實際上就是雙方論點中存在沖突或部分沖突的論點對,因此爭議焦點識別就可以分解為論點提取與沖突論點對識別兩個任務。
論點提取和沖突論點對識別這兩個任務目前都有了成規模的數據集與性能良好的模型。其中,論點提取是經典的論辯分析任務之一,相關研究已基本成熟,因此本節我們主要介紹沖突論點對識別——這正是中國法律智能技術評測(CAIL)計算論辯賽道的評測任務。CAIL賽事自2018年起舉辦,是國內規模較大、水平較高的司法類智能技術評測競賽。計算論辯賽道自2020年起就一直是CAIL的子賽道之一,可見計算論辯技術在司法領域的確有廣闊的應用前景。
展望
從語言和邏輯的角度分析辯論,一直是人們探尋辯論背后人類智慧規律的重要方法。而計算機、機器學習、人工智能等新技術的不斷發展,無疑讓計算論辯走上了發展的快車道,也讓越來越多的計算論辯成果落地成為可能。同時也涌現出許多新的方向與課題,例如論辯信息的圖譜表示、群體語境下的自主論辯等,它們都有機會在接下來的數年時間里發展為計算論辯的又一個閃光點。無論如何,在如今這個充滿著觀點對立與信息繭房的社交媒體時代,人們已然發展出新的辯論形式,而計算論辯在這個時代迸發的無窮潛力,依然等待著人們的努力挖掘。
本文作者魏忠鈺是復旦大學大數據學院副教授