劉 揚,林 子,康司辰
(1.北京大學 計算語言學教育部重點實驗室,北京 100871;2.北京大學 計算語言學研究所,北京100871;3.北京大學 中國語言文學系,北京 100871)
在漢語中,存在著“語素、詞、短語、句子”等由小到大的語言單位和層級結構,而語素構詞更是漢語的特點。作為基礎的符號單位,語素及其意義,以及此上的構詞分析和意義表達,既是漢語語義分析的起點,也是計算機理解詞義的關鍵。
在研究構詞結構時,人們很早就注意到了漢語詞法與句法的平行性,漢語中的由字組詞、由詞造句的過程遵循同一原則。趙元任[1]認為構詞成分之間存在造句關系。此后,陸志韋[2]、朱德熙[3]、王洪君[4]等指出,復合詞內部的結構關系和句法結構是類似的。這在漢語詞的歷時形成過程中亦可找到解釋。董秀芳指出[5],現代漢語中的多字詞多是古漢語單字詞短語詞匯化的產物,一些復合詞的前身即是自由的句法組合。另一方面,考慮構詞結構下的成分與整體,語素義與詞義在某種程度上顯然是關聯的。徐通鏘[6]分析漢語社團的思維方式與編碼機制,強調漢語作為語義型語言,字的表義性是其內在結構基礎。此外,符淮青[7]、周薦[8]等也注意到了漢語詞的意合特征,認為漢語中的語素義和詞義之間具有很強的推導性。這表明,探究漢語的語素構成及其意義系統,以及在此基礎上的語義構詞分析有扎實的理論基礎和潛在的應用價值。
從自然語言處理的實踐看,此前漢語的句法及語義分析一直居于主流地位,但是對語素、詞法和意義的系統化的構建和分析工作還很欠缺。目前,關于語素與構詞分析方面的研發工作主要包括以下幾項:
(1) 清華大學苑春法的“漢語語素數據庫”[9],以語素描寫和構詞分析為核心,覆蓋常見漢字的語素項信息,包括語法類、語素義的刻畫,并對語素項構成的漢語詞進行了結構描述和意義綁定。但不同的語素項之間是彼此孤立的,缺乏面向整個語言系統的意義關聯,只以離散的語素項集合的面貌出現,沒有形成體系結構,無法滿足基于意義比較的計算需求;
(2) 魯東大學亢世勇的“漢字義類信息庫”和“漢語語義構詞信息庫”[10],前者描寫了常見漢字的字位(不妨理解為語素的義項),后者在此基礎上對二字合成詞進行標注,對字位和合成詞均進行了歸類并形成了積極的意義關聯。歸類以此前已有的《同義詞詞林》為標準,存在語素義與詞義的本原、因果參照問題,結構合理性有待商榷。
(3) 臺灣大學周亞民的漢字知識本體(Hantology)[11],分析了許慎《說文解字》中的540個部首漢字所刻畫的基本義符概念,并映射到IEEE SU M O上層共用知識本體上,形成了與世界通用概念(該通用概念由英語詞匯來承擔)對應的層次結構。該本體在分類上同樣存在先天的參照問題,且只考慮少數部首漢字的粗粒度意義,也難以對漢語的語素認知、計算提供足夠的支撐。
(4) 中國科學院董振東的知網(HowNet)[12],認為任何一個概念均能夠分解為一組義原,并以此為基礎來加以定義,并且在不同語言中存在同樣的義原集合。基于對漢字的考察、分析,目前歸納、提取了2 800多個義原,采用人工給定的英—漢詞匯序列表示并在其間形成了層次結構。這些義原均沒有特定的語素載體,定位近于抽象的語素義。知網注意到了漢語的意合特征,為漢語的詞義計算做出了貢獻,但并沒有走語素和構詞分析的路,義原的形成和認定也帶有較強的主觀性。
這些先驅工作開拓了人們的視野,值得思考和借鑒。與此同時,他們在漢語語素及其意義的構建客觀性、數據覆蓋度、結構體系化以及漢語構詞的全局性語義分析、數據挖掘與可視化等方面,還有期待改進的地方。
我們希望在WordNet理論、生成詞庫理論[13]等觀點指導下,以《現代漢語詞典(第5版)》(以下簡稱《現漢》)刻畫的全部漢語語素及語素義為客觀依據,基于語素義的相似度計算形成“同義語素集”,用來表征“語素概念”并建立“語素概念系統”,以描述漢語世界中的語義基元。在此基礎上,進一步描述漢語詞的構詞結構,實現構詞結構下的構詞成分與“語素概念”的嚴格綁定,系統化地揭示漢語的語義構詞現象并做數據挖掘和可視化呈現,推動人文領域和計算應用等相關工作的開展。
語言中的語義基元揭示了人們思維中的核心語義概念,在語言認知與計算等諸多方面扮演著重要角色[14]。20世紀30年代,語言學家們探究了“基本語義單元”的概念,表達了對該類系統的期望[15-16]。到70年代,Wierzbicka等人認為“復合詞的語義能夠被一組意義更簡單、更易理解的詞語來解釋”,并稱其為“語義基元”(semantic primitives)[17],這是重要的思路和提示。然而,在各種語言中,目前還沒有找到表征和生成語義基元的有效方法。
在英語中,語素處于相對弱勢的地位,語言中的概念意義主要由詞來承載和體現,WordNet率先采用“同義詞集”來表征“詞匯概念”。值得注意的是,漢語是一種意合語言,語素作為最小的字符單位具有很強的表義性,對更大單位的詞義的貢獻十分明顯。結合Wierzbicka等人的觀點,并考慮漢語構詞的特點,我們希望以“同義語素集”來表征“語素概念”。一個“語素概念”中包含了語言中大致同義或同類的所有語素,也代表了漢語世界中的一個語義基元。
考慮詞典的權威性和應用的影響力,漢字語素取自《現漢》中的定義。目前,《現漢》只為成詞語素標注了詞類,可視為成詞語素的語素類;對不成詞語素,我們用人工標注的方式補齊了語素類。在8 514個漢字(包括繁體、異體字)的20 855個語素義中,名、動、形語素分別占46.90%、30.59%、11.25%,共計88.74%,構成主體;而副、數、量、代、介、助、連、擬、嘆、綴語素共計11.26%,形成補充。
在此基礎上,我們對上述語素義做釋義文本的提取,并賦予唯一的“語素義編碼”。例如,“材”字有多個語素義,其中的一個釋義文本為“有才能的人”,其“語素義編碼”為“材1_05_04”,依次表明:這是該字在《現漢》中的第一次條目出現,該條目下共有五個語素義,當前為第四個語素義。
為了獲得可靠的“同義語素集”,需要對《現漢》中的不同語素義的釋義文本進行語義相似度計算。

對于特定語素類的任一語素義的釋義文本,按照它與同語素類的其他語素義的語義相似度值降序排列,并按設定閾值將意義相近的語素義推薦給專家。經人工檢驗,每確定一條即對其做語義相似度值的迭代計算,如此反復補充、過濾,形成一個“同義語素集”,亦即一個“語素概念”,或稱一個語義基元。對剩余語素義的釋義文本,重復此過程,直至覆蓋該特定語素類的全部語素義為止。然后,選擇新的語素類,重復以上過程。
在獲得漢語的“語素概念”全集后,需要進一步在這些語義基元之間建立起層次結構,讓離散的概念維持基本的語義關聯,形成義場,以方便認知、推理和計算。
受WordNet啟發,名語素的“語素概念”主要依據上下位關系進行結構化建設,形成同語素類的聚合關系。在跨語素類的語義關聯方面,則借鑒生成詞庫理論,對動語素和形語素分別建立起以名語素結構為中心和參照的對應體系。在該體系中,動語素表達名語素所指事物的事件,或者說,動語素的主體是對應的名語素;形語素表達名語素所指事物的屬性,或者說,形語素修飾的對象是對應的名語素。由此,名、動、形等不同語素類的層次結構是大致同構的,并形成同語素類內的聚合關系以及跨語素類間的組合關系,該體系有利于各類“語素概念”的組織和計算。
基于以上方案,我們對漢語的“語素概念”建立了層次結構,并對內部節點進行了特征描寫和賦值,這也是對漢語世界中的語義基元的系統描述。
對于漢語的構詞結構性質,語言學界一般有語法構詞[1-3]、語義構詞[6,19]等不同觀點。前者強調構詞成分之間的語法關系,如主謂、述賓等語法標簽的認定,而后者強調構詞成分之間的語義關系,如主體、客體等語義標簽的認定。
考慮語言計算、應用的狀況和需求,傅愛平[20]指出:雖然語義構詞在表示詞義時有天然、直觀的優勢,但是其結構產生依據過于復雜,標簽集難以統一,并不利于機器處理。相比之下,語法構詞的結構體系較為簡單,標準統一,且與句法結構有天然的相似性。苑春法[9]的研究也表明,語法構詞與構詞語素類、詞性之間存在一定的相關性,采用語法構詞體系有利于計算的開展。
在借鑒前人觀點的基礎上,我們選擇語法構詞體系以方便工程展開,這也遵循了自然語言處理中從形式到意義的主流路線。值得注意的是,事實上,由于后續環節要求構詞成分對“語素概念”的嚴格綁定,我們獲得的依然是廣義的語義構詞知識。
語法構詞體系,語言學界大多沿用朱德熙[3]的方案。楊梅[21]在借鑒了語法構詞和語義構詞兩派的觀點后,提出了一套以語法標簽為主的構詞體系,并兼顧了語義構詞派的部分觀點。
在楊梅標簽基礎上,我們增加“單純式”標簽,用于表示成分義與詞義之間缺乏關聯,并將“附加式”細分為前附加、后附加。同時,刪除了一些缺乏計算價值或結構類別實例過少的標簽,如截取式、虛配式、指量式、數構式。最終確定的標簽集包括16種標簽,即:主謂式、連謂式、聯合式、述賓式、述補式、定中式、狀中式、介賓式、重疊式、名量式、數量式、方位式、復量式、前附加、后附加、單純式。
構詞結構類型界定后,在義項區分的基礎上,我們為《現漢》中的所有二字詞依規范標注了構詞結構,共計52 108個。
在構詞結構基礎上,對二字詞中的構詞成分,即前后語素,我們繼續標注它們在《現漢》中的語素義。
注意到,一個語素義對應一個“語素義編碼”,并進入一個“同義語素集”,這一過程實際上是將構詞成分與特定“語素概念”建立了綁定關系,并受整個“語素概念體系”意義系統的表達和制約。這樣一來,單一的語素義就攜帶了豐富的、便于計算的內容,包括了其在“語素概念”中的“同伴”信息、在“語素概念體系”中的“位置”信息以及由此取得的基于繼承鏈條的一系列“特征取值”信息。
符淮青[7]等語言學家指出:語素義的組合在一定程度上體現詞義。因此,利用語義構詞知識進行詞義知識表示是一種新的選擇。這種表示具有簡單、直觀的特點,并反映構詞成分對詞義的貢獻。例如,在“選材”中,“選”的語素義為“挑選、選拔”,“材”的語素義為“有才能的人”,其結構關系及成分義較為準確地反映了詞義。
基于上述工作,我們獲得的語義構詞知識涵蓋詞性、構詞結構、前后語素類、前后語素義等廣義知識,其中,前三個屬于語法層,最后一個屬于語義層。例如,“選材”的語義構詞知識如表1所示。需要指出的是,前后語素義的“語素義編碼”已經攜帶了豐富的、便于計算的多項信息。

表1 語義構詞知識示例
依計算結果和工程進展,目前,名、動、形語素分別形成了2 018、1 631、550個“語素概念”,共計4 199個。
表2~4依據 “同義語素集”的大小、多少等信息,分別展示了名、動、形語素“語素概念”覆蓋、分布的一般情況。例如,在名語素“語素概念”中,語素個數為16的“同義語素集”共有7個,占該類“語素概念”總數的比例為0.35%,其中的一個“語素概念”包含了特定語素“匠哲器彥才材杰氏秀英豪賢通驥模尖”(基于可以理解和簡化描述的原因,這里均省略了相應的“語素義編碼”,僅以語素字的形式出現,且不排斥相同字的出現),其概念意義為“有才能的人”。

表2 名語素“語素概念”覆蓋、分布情況

續表

表4 形語素“語素概念”覆蓋、分布情況
很明顯,這些以技術手段初次呈現的語義基元,表現出了確定、離散、可枚舉的特性。例如,在動語素中,對于承載“挑選、選拔”這一概念意義的語義基元,我們有較大信心說有且僅有12個漢語語素,包括“刷掄拔揀擇擇挑擢調選遴銓”等單字可以用于漢語構詞并做現實的表達,在人與機器的認知、理解上都能得到很好的詮釋。
對《現漢》中的全部語素,我們采取既定、明確的表達方式和自底向上的技術路線來指導語義基元的構造,杜絕了以往“拍腦袋”式的主觀性。通過對數據結果的觀察,可以看出,這些“語素概念”相對準確、完整地涵蓋了漢語語素所能表達的概念意義,有較強的數據客觀性、覆蓋度及完備性。進一步,依據生成詞庫理論,我們采取自頂向下的技術路線,為名、動、形語素“語素概念”建立了層次結構,形成了“語素概念體系”,這也是對漢語世界中的語義基元的系統描述。
近年來,深度學習在自然語言處理領域廣泛應用,比如,通過神經概率語言模型學習語義向量表達[22],這種經驗方法取得了不錯的效果。而上述語義基元的提取加工,則是一種理性方法,希望在未來的人文領域和計算應用中做新的結合和嘗試。
與英語不同,漢語中的詞沒有固定的形式標準,語言使用者可以相對自由地造詞,因此,對語義構詞模式的分析尤為重要。一般認為,構詞能產性是語素、構詞過程與規則創造新詞的能力[23],它衡量語素成分現實及潛在的構詞能力,反映出詞匯系統的某些特性。
語素構詞能力也是對外漢語教學等人文領域特別關心的問題,在確定漢語教學基礎漢字時,除了關注字的出現頻率之外,往往需要考慮語素的構詞能力,它影響漢字的認知加工。尹斌庸[24]統計表明,粗略地基于字考慮構詞,可以對漢語構詞能力有初步把握。有專家學者進一步從語素類和構詞規則的角度進行了研究[9],此外,還有一些基于語義構詞的語言學本體研究和個例剖析,不再贅述。
在對漢字的認知加工過程中,語義是十分重要的因素。一字多義、多字一義是漢語的常態。例如,“云侃具敘吭啟咧哨嘮扯拉提擺曰稱聊言講話語……”等單字,它們的某一義項具有相同或相近的意義,被歸并到了“同義語素集”中,屬于表示“言談交流”的“語素概念”。在漢語的意義體系中,它們發揮著十分相近的功能。然而,此前,由于數據匱乏和手段不足等問題,還無法從語義角度對語素構詞能力進行量化描寫和繪制。
我們首次將“語素概念”作為節點,刻畫構詞過程中基本意義單元之間的結合情況。如圖1所示,每一個矩陣節點代表一個“語素概念”,節點的大小代表“語素概念”中的各個語素(已確定了語素義)在構詞過程中貢獻的能產性的加和,而節點之間的邊代表兩個“語素概念”中的某兩個語素依確定的語素義參與了構詞過程,參與次數體現為邊的權重,即邊越粗,表明兩個“語素概念”結合的可能性越大。該圖依據前述4 199個名、動、形語素的“語素概念”和52 108個二字詞的語義構詞知識繪制,客觀、充分地反映了漢語世界中的語義基元的能產性分布狀況。當然,具體、微觀一些,也可以考察這些“語素概念”中的特定語素的能產性和搭配特征。這是以往基于字符、語素類、構詞規則統計或語義構詞個例剖析等不能得到的語言學結論,也顯示了對漢語構詞進行全局性語義挖掘與可視化分析的比較優勢。

圖1 基于“語素概念”的構詞能產性示例
未來,語義構詞模式的分析可以加深對詞的結構和意義的理解,并用于未登錄詞識別和意義判定。在機器學習領域,這也是一項極其重要的特征和任務,基于語義基元的構詞能產性數據給出了語義構詞的轉移概率,能為相關的算法開發提供支持。
綜上所述,我們提出了一種探尋漢語語義基元和分析詞義的新的視角和方法,并表現出明顯的優勢:一、語素及其意義作為抽象概念難以表達、計算,“語素概念”架起了漢語的語素及其意義和構詞分析的天然聯系,契合了漢語的意合特征,這也是對漢語世界中的語義基元的系統描述;二、建立在這些基礎上的漢語構詞分析,在全局性語義分析、數據挖掘等方面也有新的進展;三、從語言知識工程的角度看,面向《現漢》中的全部語素和二字詞,在“語素概念”提取等環節采取人機結合、自底向上的策略,盡量排除主觀因素的干擾,這些做法也保障了研發數據的覆蓋度和完備性,提升了語言資源建設的質量。
這些創新的思路、做法以及獲得的數據成果,在人文領域和計算應用等方面都有潛在的應用價值。前者如詞典編纂與查詢瀏覽、漢語教學、語言本體研究等,對于后者,我們也有初步驗證,在漢語未登錄詞的詞義知識表示與語義預測[25]、漢語詞語語義相似度計算[26]等方面進行了探索和嘗試。
在此前階段,漢語的語義構詞分析主要針對詞的本義,但部分合成詞的詞義存在轉義、隱喻等現象,如何有效表達和處理這類現象,將是后續工作的一項重點。此外,“語素概念”及其體系的考核、優化以及多字詞的詞義知識表示的拓展也在扎實推進中。在此基礎上,我們希望推出包含全集數據和API接口的北京大學《漢語概念詞典》(ChineseObject-OrientedLexicon,COOL)。
[1]趙元任.中國話的文法[M].丁邦新譯.香港:香港中文大學出版社,1980.
[2]陸志韋.漢語的構詞法(修訂本)[M].北京:科學出版社,1964.
[3]朱德熙.語法講義[M].北京:商務印書館,1982.
[4]王洪君.漢語語法的基本單位與研究策略[J].語言教學與研究,2000(2):10-18.
[5]董秀芳.詞匯化:漢語雙音詞的衍生與發展(修訂本)[M].北京:商務印書館,2011.
[6]徐通鏘.核心字和漢語的語義構辭法研究[J].語文研究,1997(3):2-16.
[7]符淮青.詞義和構成詞的語素義的關系[J].辭書研究,1981,01:98-110.
[8]周薦.論詞的構成、結構和地位[J].中國語文,2003,02:148-155,192.
[9]苑春法,黃昌寧.基于語素數據庫的漢語語素及構詞研究[J].世界漢語教學,1998,02:8-13.
[10]亢世勇,李毅,孫道功,等.漢語系統語料庫的建設與詞典編纂[C].2004年辭書與數字化研討論文集.上海辭書學會,2004.
[11]周亞民.漢字知識本體——以字為本的知識結構與其應用示例[D].臺灣:臺灣大學博士學位論文.
[12]董振東,董強,郝長伶.知網的理論發現[J].中文信息學報,2007,21(4):3-9.
[13]Pustejovsky J.The generative lexicon[M].Mass:MIT Press,1995.
[14]Pesina S,Solonchak T.Semantic primitives and conceptual focus[J].Procedia-Social and Behavioral Sciences,2015,192:339-345.
[15]Sapir E,Swadesh M,Morris A V.The expression of the ending-point relation in English,French and German[J].Language,1932,8(1):11-125.
[16]Sapir E.Grading:A study in semantics[J].Philosophy of Science,1944,11:93-116.
[17]Wierzbicka A.Semantic primitives[M].Frankfurt/M.:Athen?umVerlag,1972.
[18]呂叔湘.《現代漢語詞典》編寫細則(修訂稿)[M].《現代漢語詞典》五十年.北京:商務印書館,2004.
[19]劉叔新.漢語描寫詞匯學[M].北京:商務印書館,1990.
[20]傅愛平.漢語信息處理中單字的構詞方式與合成詞的識別與理解[J].語言文字應用,2003,04:25-33.
[21]楊梅.現代漢語合成詞構詞研究[D].南京:南京師范大學博士學位論文,2006.
[22]Yoshua Bengio,Réjean Ducharme,Pascal Vincent,Christian Jauvin.A neural probabilistic language model[J].Journal of Machine Learning Research.2003,03:1137.
[23]Plag I.Word-formation in English[M].Cambridge,UK:Cambridge University Press,2003.
[24]尹斌庸.漢語語素的定量研究[J].中國語文,1984,(5):340.
[25]田元賀,劉揚.漢語未登錄詞的詞義知識表示及語義預測[J].中文信息學報,2016,30(6):26-34.
[26]康司辰,劉揚.基于語義構詞的漢語詞語語義相似度計算[J].中文信息學報,2017,31(1):94-101.

劉揚(1971—),博士,副教授,主要研究領域為語言知識工程、中文信息處理。E-mail:liuyang@pku.edu.cn

林子(1997—),主要研究領域為應用語言學、語言知識工程、中文信息處理。Email:zi.lin@pku.edu.cn

康司辰(1993—),碩士研究生,主要研究領域為語言知識工程、中文信息處理。E-mail:1008_frank@sina.com