黃華新,洪崢怡
(浙江大學 邏輯與認知研究所, 浙江 杭州 310028)
《自然語言信息處理的邏輯語義學研究》[1]一書于2018年9月出版,作為國家社會科學基金重大項目“自然語言信息處理的邏輯語義學研究”的部分研究成果,該書對范疇類型邏輯CTL與組合范疇語法CCG進行了系統而深入的研究,并以漢語信息處理為導向,綜合邏輯學、語言學、計算機科學研究成果,為計算機自然語言處理提供了一些新的思路。
自然語言和邏輯有著天然的淵源關系:一方面,邏輯學的研究對象是人類的思維規律以及推理的有效性,而抽象思維首先也主要是通過自然語言表述出來的;另一方面,人可以習得語言,并深入探究語句的形式和意義,證明自然語言不是任意的符號組合,而必須有邏輯作為內在理據與骨架。由此,就誕生了邏輯語義學這門語言學和邏輯學的交叉學科,它依據現代邏輯的思想或采用現代邏輯的工具研究自然語言的句法生成和語義組合規律,揭示和刻畫自然語言生成中的組合特性,并對自然語言句法-語義的組合生成過程給出形式化的解釋。
自20世紀70年代以來,數理邏輯和理論語言學研究的深入推動了邏輯語義學的迅猛發展。蒙太格提出“普遍語法”思想,認為自然語言和形式語言在本質上并無差別,兩者都可以作精確的數學描述[2]264,由此創立了著名的蒙太格語法。此后,這一思路的繼承者又提出了廣義量詞理論、話語表現理論、情境語義學和類型-邏輯語法等一系列理論,構成了內涵豐富的邏輯語義學。這些理論嘗試一方面為解釋語言學問題提供了新思路,另一方面大大推動了當今邏輯科學的發展,隨著計算機科學和人工智能領域的發展,更是引起了自然語言信息處理領域學者的高度重視。在我國,這也是語言邏輯研究的一個重要方向,學者們已對上述理論作了較為充分的介紹,同時開始嘗試解決漢語句法和語義中的一些特殊現象,對漢語信息處理中的疑難問題進行理論探索。
鄒崇理等幾位老師潛心學術,堅持數年,完成了《自然語言信息處理的邏輯語義學研究》一書。該書的作者團隊是國內邏輯語義學研究的主要力量。該書可以視為對國內邏輯語義學方面成果的一次重要整合和拓展。
該書內容分為三編。第一編為總論,介紹了邏輯語義學的學科性質和研究概況。莫特蓋特曾提出著名的口號“認知=計算;語法=邏輯;解析=演繹”[3],以此闡釋邏輯語義學的核心思想。這是因為自然語言和邏輯語言根本的結構機制都是遞歸生成組合機制,句子的語義是其各部分語義的函項。當然,自然語言的豐富性和復雜性使它很難完全符合某一原則,很多情況下句法生成和語義組合難以實現完美的對應,句法、語義、語用等多重機制往往交互作用。也正因為如此,基于組合性原則的自然語言模型論語義學更顯示出自己的獨特的存在價值,它針對不能簡單對應的情況進行深入的探索和方法的更新,主要給出了兩條解決路徑:一是增加規則,二是擴充詞庫。
第二編介紹了范疇類型邏輯CTL。CTL以蘭貝克演算為基礎,主要理論包括非結合的蘭貝克演算(NL)、結合的蘭貝克演算(L)、多模態蘭貝克演算(ML)、對稱范疇語法等。作者梳理了這一發展歷程,對每一種理論給出其公理表述、根岑表述、自然演繹ND表述、樹模式表述4種等價的表述。接著介紹了蘭貝克演算匹配λ詞項的CTL類型語義學,通過λ演算和蘭貝克演算的匹配實現了句法和語義的一一對應。最后,作者在賈戈爾的LLC系統的基礎上進行改造,為漢語反身代詞、空代詞等照應省略現象構造了相應的CTL系統。
第三編介紹了組合范疇語法CCG。理論層面,作者回顧了斯蒂德曼的原生態CCG和鮑德里奇等人的多模態CCG,揭示了CCG“詞匯主義”“實用主義”“面向大規模真實文本”等特征。應用層面則首先討論了漢語中一些特殊句式的處理,包括非連續結構(話題句、兼語句、連動句、復雜謂語并列結構)、特殊句式(把字句、被字句、得字句)、形容詞謂語句、主謂謂語句等。進而,在吸收賓州樹庫轉換為CCG推演樹已取得的成果的基礎上,重點關注漢語樹庫的建設,給出了CCGbank轉換系統的構架與設計,并最終將基于短語結構語法的賓州漢語樹庫轉換為基于組合范疇語法的漢語CCGbank。
全書有著清晰的架構和充實的內容,在以下3個方面體現了鮮明的特色:
1.理論性與應用性結合
在理論梳理方面,該書系統地介紹了范疇類型邏輯和組合范疇語法的基本內容。在這一過程中很好地凸顯了不同理論的自身特色。對于CTL,重視邏輯的系統構建和元理論證明;對于CCG,重視對各種具體的句法語義現象的解釋。更重要的是系統地比較了兩種理論,并將兩者打通[4]79-80。多模態CCG的每條規則都對應于一條范疇類型邏輯的結構公設,這樣便可以使刻畫兼顧貼近自然語言實際和追求邏輯系統性這兩方面的需求。
在應用方面,該研究直接面向自然語言信息處理。研究方法上重視語料庫的建設、計算機程序的解釋和大樣本的數據支持。而其最終成果是構建漢語分析樹庫,這將有效提高大規模文本中漢語語句自動生成理解的效率和準確度。
2.對漢語特殊性的關注
英漢語言在許多方面存在著較大的差異,誕生于討論英語語言現象的邏輯語義學理論并不完全適應對漢語的解釋。該書以漢語信息處理為導向,以現代漢語中一些具有典型性的句法-語義現象為研究素材,列舉了大量的漢語例子來進行詳細刻畫。書中尤其針對漢語照應省略問題進行了深入細致的考察。賈戈爾在其專著《照應與類型邏輯語法》[5]中,通過增加豎線算子構造了一個帶受限縮并規則的蘭貝克演算LLC,用以解決非連續問題。該書中作者針對回指照應的一些特殊情況,通過對LLC系統的擴張,給出前后搜索的LLC——(Bi)LLC。具體做法是,在賈戈爾的豎線算子基礎上,進一步定義了區分方向的向前的豎線算子和向后的豎線算子(解決先行語后置問題),并對用于處理照應關系的下標算子(解決長距離約束、次統領約束、主語傾向性等問題)給出嚴格的定義,使得下標的引入和消去具有邏輯依據。該系統可以有效解決漢語中空代詞的語義生成,同時作者也證明了該系統的可靠性和完全性。
3.多學科交叉融通
該書充分體現了邏輯語義學多學科交叉的屬性:研究對象是自然語言,CCG語料庫的建設面對的是大量的真實語料樣本,其中涉及了大量語言學關注的句法和語義現象;研究工具是現代邏輯,對自然語言采用以函項運算為核心的類型論和范疇語法進行刻畫,給予模型論上的解釋,進而能構造一個邏輯系統并證明其可靠性和完全性;研究的主要目的是服務于計算機科學的自然語言信息處理,樹庫的建設實質是將邏輯系統進一步轉化為算法并進行計算機編程,最終實現機器理解自然語言的效率和準確度。各個板塊因其特性在學科上各有偏重,又在邏輯語義學的總框架下相互交織。
《自然語言信息處理的邏輯語義學研究》一書以CTL和CCG這兩個同源并行的理論串聯匯總了該團隊近年來的研究成果,其突出價值體現在以下方面:
在理論方面,邏輯語義學分支眾多,不同分支之間又存在本質上的聯系,該書對范疇語法這一重要分支的梳理可謂清晰詳細,使讀者對此有一個更完整的認識。邏輯語義學是自然語言信息處理的基礎性先期工作,自然語言體系的復雜性遠遠超出人們最初的想象,如果沒有邏輯語義學對一些特殊語言現象的處理,自然語言處理(如機器翻譯等)只能是以擴充樣本為主的量的提升,而對于無界依存、回指照應、語義歧義等依賴邏輯語義結構的復雜問題依然束手無策。漢語作為一種“意合性”語言,詞序更為靈活,省略更為常見,上下文依賴性也相對更強。該書立足于漢語的獨特性的范疇類型邏輯以及組合范疇語法研究,切實地通過技術手段上的創新實現了對漢語部分句法語義的解釋,這些思路和成果可以推廣,以充實邏輯語義學研究的理論寶庫。
而從應用角度來看,把邏輯語義學對自然語言,尤其是對漢語形式化研究的成果應用到漢語的信息處理領域,將拓寬我國計算機自然語言處理的思路,提高處理的效率。CCG樹庫的建立在提高機器生成和理解自然語言的效率和準確度方面具有重要意義,但此前,漢語CCG庫只有微軟和清華合作的成果,該書在這一方向上有較大的突破。
在學科建設方面,國內邏輯語義學方向的研究比較邊緣,成果也較零散。該書通過對范疇語法的兩個分支的梳理、應用與創新,給出了一條相對清晰的邏輯、語言、計算的跨學科交叉研究的路徑,其研究思路、理念和方法對國內語言邏輯以及相關的跨學科研究有重要的啟發價值和促進作用。
當然,以邏輯語義學為工具對漢語語言現象的研究才剛剛起步,還有巨大的探索空間。尤其CCG面對的是大規模的真實文本,其中涉及的問題更為復雜。目前,利用CCG對漢語特殊句式進行處理時實用色彩過于濃厚,只是針對不同的句式調整了特定成分的句法范疇,顯得比較零散,描述的意味多于理論抽象。由此,也讓人進一步追問,詞匯的范疇是否能夠窮盡?如果不能,則范疇的賦予會始終處于不確定的開放狀態;如果能夠窮盡,機器在選擇時是否將無差別地搜索出一切可匹配的范疇?另外,通過對詞條給出不同的范疇得到不同的組合,或者以不同的順序進行范疇組合,是否會使一個本無歧義的句子生成多種存在差異的語義?類似的問題還有許多,均值得我們下功夫深入探究。