孫道功 陳藝瑋
摘 要 《面向應用的漢語語義構詞研究》一書,采用定量統計和定性說明相結合的方法,基于數據庫中5萬多個合成詞對語義構詞規律進行深入探索,歸納得出字義與詞義的關系類型和語義構詞規則。該書分析角度新穎,構思縝密,展示出諸多的新特色,特別是通篇運用了基于數據庫的數量統計方法,提出了語義關系分析描寫的具體路徑,綜合運用多種理論多維深度解釋構詞規則,并嘗試把語義構詞的研究成果直接應用于中文信息處理。
關鍵詞 構詞規則 語義構詞 理論與應用
《面向應用的漢語語義構詞研究》一書,是亢世勇教授等(2020)基于《漢語語義構詞數據庫》,對語義構詞規律進行探索的新成果。該書主體部分基于數據庫歸納得出字義與詞義的關系類型和語義構詞規則。書中對字義與詞義關系的定量分析和類型歸納,既是對傳統詞匯學研究方法的革新,也是對當前漢語字、詞義關系研究的有益補充。眾所周知,現代漢語詞匯系統在不斷擴大,但“漢字”卻沒有增加,這說明新詞語是由舊有構詞材料通過新的組合方式產生的。該書在對常用雙音節合成詞詞義分析的基礎上,通過對三音節合成詞新詞語進行研究,尋求常用漢字的語義構詞規律。這一研究具有重要的實踐意義,特別是對于提高計算機未登錄詞語的識別效率,提高語言信息處理的準確度,都具有很高的實用價值。
《面向應用的漢語語義構詞研究》對語素義和詞義關系的分析細致全面、角度新穎、構思縝密,展示出諸多新特色,體現了作者在詞義關系分析方面的新穎視角和獨特見解。其中有四點特別突出。
一、 通篇運用了基于數據庫的定量統計方法
定量和定性相結合,是當前語言研究的重要趨勢。為了對詞義關系進行量化分析,該書構建了《漢語語義構詞數據庫》,并基于數據庫定量統計,分析歸納了詞義關系及類型。多樣化的數據統計成為該書的一大特色和亮點。
研究過程中,科學精確的數字統計和簡明直觀的圖表運用讓各類詞語的義類構成特點和詞義關系一目了然,也讓傳統詞匯學中的某些模糊表達變得具體直觀。書中對義位義類的主要構成方式、語素義與詞義(義位)的關系分析等方面都有體現。傳統詞匯學對語素義和詞義關系的分析,通常采用“語素義基本反映詞義”“語素義部分地反映詞義”等籠統的說法,該書采用定量統計和定性說明相結合的方法,通過對數據庫中5萬多個合成詞的考察分析,把字義與詞義的關系歸納為八種類型:A+B=A=B(如“哄騙”)、A+B=A(如“人物”)、A+B=B(如“阿哥”)、A+B=C(如“爪牙”)、A+B=A+B(如“陪考”)、A+B=A+B+D(如“冷眼”)、A+B=A+D(如“救星”)、A+B=D+B(如“走運”)。在類型歸納的基礎上,分類并統計出各個類型的所占比例,并對每一類型的義類構成和構詞特點進行解釋描寫。作者基于數據庫考察發現,只有第四種類型(A+B=C)看不出字義與詞義的關系,其他七種字義與詞義都有明顯的關系。但是第四種只占詞語總量的8.02%,而其他七種加起來占91.98%。在這八種類型中,第六種(A+B=A+B+D)所占比例最高,達到44.99%,第五種(A+B=A+B)所占比例次之,占27.60%。定量統計數據表明,漢語詞匯中字義與詞義有密切的關系。由字義可以推知詞義,這是漢語詞匯的重要特點。可以認為,具體直觀的數據和圖表讓讀者對語義構詞規則有了更清楚的了解和把握,特別是用字母標示出字義與詞義的關系模式,便于語義形式化和自然語言處理。
定量研究的主要優勢是“化繁為簡”,將紛繁復雜的語言現象通過必要的裁剪、刪節、修整、簡化,最終轉變成為幾個關鍵的“變量”,并以此來開展研究和定性分析。在對每一類型的構詞規則和特點歸納總結時,先用表格說明義位義類的主要構成方式,再對表格數據進行解釋,不僅簡明易懂,也更具客觀性和說服力。該書善于利用數據表達,將一些復雜繁瑣的籠統說明改為定量統計分析,可以很大程度上增強內容的解釋力。毫無疑問,各種圖表的綜合運用讓內容分析更加成系統、有條理,表達更加直觀、透徹、有序。通篇運用了基于數據庫的定量統計方法,成為該書的一大亮點。
二、 提出了詞義關系分析描寫的具體路徑
國內研究詞匯語義關系的論文或論著頗多,但是其分析大多仍停留在舉例式的分析層面。該書對語義關系的分析全部立足于語義構詞數據庫,同時提出了詞義關系分析描寫的具體路徑。
首先,基于人機兩用的研究理念,設立“字位”作為詞義關系分析和描述的基點。“字位”指一個單音單義的漢字,是最小的語義構詞單位,即每個“字位”包括一形、一音、一義。故一個多音多義的漢字可以形成多個字位。“字位”有點像詞典學中的義項,但又不完全相同。“字位”是針對字而言的,都是單音節的。而義項是對詞而言的,可以是單音節或多音節。以“字位”為描寫單位可以避免描寫結果比較粗疏的問題,使信息描述的顆粒度更小,獲得的信息也更精細化。書中遵循“一字一條、一義一條、意義與語法功能結合”等原則將“國標GB2312”所定義的6763個漢字衍生為17430個字位,按照《同義詞詞林》的三級語義分類體系(大類、中類、小類)給每個字位歸類,錄入數據庫,建成了大型的《漢字義類信息庫》。其次,在字、詞語義分類信息庫的基礎上,通過統計比較說明字、詞語義分布的實際情況以及二者之間的對應關系,為進一步進行語義構詞規則的研究提供基礎。基于信息庫考察,書中提出了字、詞義之間的三個一致性:(1) 字的義類體系和詞的義類體系基本一致;(2) 字、詞在各個義類中的分布比例基本一致;(3) 除個別的類外,字、詞的絕對數量多少一致。可見,漢語中字與詞在義類上有著明確的對應關系。再次,選取定量的雙音合成詞,利用“漢字義類信息庫”對構成雙音合成詞的每個字進行語義標注,建成大型的《漢語語義構詞數據庫》,在此基礎上進行現代漢語語義構詞規則的研究,通過統計歸納得出由字義整合成詞義的具體規則。
基于書中提出的詞義關系分析描寫的具體路徑,作者對現代漢語中的5萬多個雙音合成詞和6830個三音節合成詞新詞語內部的詞義關系進行分析描寫。特別需要注意的是,“字位”的設置以及《漢字義類信息庫》的構建,都是為了描寫詞匯內部的詞義關系服務的。在此基礎上,基于字義和詞義的關系,構建了《漢語語義構詞數據庫》。該庫中合成詞的標注信息非常豐富,涉及合成詞語義類,前字、后字的語義類和釋義,字、詞語義關系類型等,從不同層級明確合成詞的語義構成情況,其建庫方式和標注信息也為之后的詞義關系研究提供了參考模板。
數據庫中語義類標記包括三級,其中大類有12個:A人、B物、C時間與空間、D抽象事物、E特征、F動作、G心理活動、H活動、I現象與狀態、J關聯、K助語、L敬語。各個大類內部按照詞義之間的同義程度分出若干中類,中類包括94個,其標記符號是在大類字母后面添加小寫的a、b、c、d等表示。各個中類內部進一步按照詞義之間的同義程度分出小類,小類包括1428個,其標記符號是在大類、中類字母后面用數字01、02、03、04等表示。樣例如表1:
表1中的標記符號部分說明如下:“聯邦”,合成詞的語義類是Di02,大類D表示抽象事物,中類i表示社會、政法,小類02表示國家。前字符號Ie09,大類I 表示現象與狀態,e 表示事態,小類09表示連接、聯合;后字符號Di02,與“聯邦”的義類符號一致。“字、詞語義關系類型”對應的6表示“聯邦”語義關系類型是“A+B=A+B+D”。再如“聯播”,合成詞的語義類是Hh03,大類H表示活動類,h表示文體活動類,小類03表示傳播。前字Ie09,大類I 表示現象與狀態,e 表示事態,小類09表示連接、聯合;后字Hh03與“聯播”的義類一致,其他不再贅述。
毫無疑問,明確合成詞的各級語義單位,不僅在描寫詞義組成情況時比較方便,而且可以使描寫結果更加系統科學。特別是對詞語義類分類情況的描述和對構詞規則特點的總結,具有明確性和系統性,為現代漢語詞匯語義關系的描寫提供了范式。
此外,在解釋說明語素義和詞義關系時,該書不單純局限于兩個語素的聯系,對構詞語素進行搭配類型、轉指方式的分析,擴大對語素義和詞義關系分析的范圍。不局限于已有的分析方法,不囿于已有的研究視角,而探尋新的分析角度,是該書在詞義關系分析方面特別值得稱贊的地方。唯有如此,才可以更好地將合成詞深層的語義構詞特點揭示出來,也使詞義關系研究突破了傳統分析的局限。
三、 綜合運用多種理論多維深度解析構詞規則
傳統詞義研究中往往存在重描寫輕解釋的現象。該書在分析詞義關系類型時,把分析描寫和理論解釋有機結合起來,特別是對現象的解釋,綜合運用多種理論,有深度且多有創見,超越了當前學界的同類研究。
譬如在分析雙音名詞中無向詞語的語義構詞特點時,基于詞語的物性角色來說明每個語素的隱喻、轉喻或隱轉喻情況;然后在生成詞庫理論的指導下,對同義類語素雙音合成名詞中的無向詞語的語義變化進行了分析。首先根據兩個語素義如何通過轉喻或隱喻變為詞義,將無向詞語分為八類:(1)前項-后項轉喻(包含整體轉喻),如須眉、裙釵、山水等;(2)前項-后項隱喻(包含整體隱喻),如心腹、鴛鴦、樊籠等;(3)前項轉喻-后項隱喻,如肉票;(4)前項隱喻-后項轉喻,如瓊筵;(5)前項隱喻-整體隱喻,如眼線;(6)前項轉喻-整體隱喻,如草包;(7)前項隱喻-整體轉喻,如兔唇;(8)前項轉喻-整體轉喻,如布衣。其中(1)、(2)兩種占比最高,分別達到60.03%和24.80%,其他六種類型僅占15.17%。然后根據物性結構理論,分析每一類中無向詞語的語素義體現了詞義的哪種物性結構。最終得出無向詞語的語素義轉變為詞義的具體途徑。并基于分析歸納得出了22種物性關系,來解釋語素義體現的物性角色類型,以及與詞義是何種關系,是基于相關性發生轉喻還是相似性發生隱喻等。同時,將無向詞語中的物性關系與構詞類型對應起來。無向詞語語素義通常要通過隱喻或轉喻才能變為詞義,因此無向詞語的構詞類型大部分為第四類(A+B=C)或第六類(A+B=A+B+D)。由此可以看出,前項和后項兩個語素更偏向同時進行轉喻或者同時進行隱喻來得到詞義。人們更容易將語素義和詞義聯系到一起,更容易通過語素義理解詞義,這符合人類普遍的認知規律。不難看出,綜合運用概念整合與隱喻、轉喻理論,生成詞庫理論等多種理論,從多個視角來研究詞義與其構成語素義表面上不存在關系的原因,超越了當前此類研究的論文或論著。
為了給構詞規則的理論闡釋提供更豐富的信息,作者在語料庫中標注了豐富的語義信息,如構詞類序、四項規則、轉義作用的對象、轉義的類型、轉義涉及具體要素、釋義、具體闡釋和語義角色框架等八種參數。詞語信息要素齊全,不僅便于對于現代漢語中的構詞類型進行多維細致的考察分析,同時給語料庫的使用帶來極大便利,也為后續語料庫的開發提供了參考。
綜合運用多種理論分析漢語中司空見慣的構詞規則,不僅優于單一理論背景下的構詞規則解釋,同時也富有啟發意義。這啟發我們要深入考慮如何把幾種理論結合起來對某一語言現象進行細致解釋,而不單單停留在表面。例如以隱喻和轉喻理論為主線貫穿整個分析過程,以詞語的物性角色為基礎,將物性角色看作詞語的一部分,用隱喻和轉喻概括與物性角色糅合的合成詞的語義特點等,書中的這些做法都為漢語的詞匯語義研究提供了新的嘗試,帶來了新的思考。
四、 語義構詞的研究成果直接應用于中文信息處理
未登錄詞的識別與處理,一直是中文信息處理的難點。實踐證明,基于大規模語料庫的語義構詞模式的自動分類,可以顯著提高對未登錄詞的識別效率。
該書提出了一種新的基于層次加權圖編輯距離(GED:Graph edit distance)的使用模糊化(Fuzzification)、核技術(Kernel Techniques)和懲罰因子(Penalty factors)的多目標優化分類器(FKP-MCOC)方法,并將其用于漢語語義構詞模式的預測分析。首先計算每個語義構詞圖和原型圖之間的層次加權的GED,然后計算它們之間的相似性度量,經過歸一化的GED被嵌入到一個新的特征向量空間,基于新的特征向量空間,使用FKP-MCOC模型和算法來預測語義構詞模式。在漢語語義構詞模式分析數據集上的實驗結果與支持向量機(SVM:Support Vector Machines)的比較分析表明,書中提出并使用的基于層次加權GED的FKP-MCO分類器方法可以顯著增加不同構詞模式的分離度以及在一個新的復合詞語義模式數據上的預測性能。
書中的實驗結果表明,對于八類不同的漢語語義構詞目標模式的預測平均準確率為88.79%,比支持向量機的性能平均值高出4.85個百分點。可以看出,基于漢語構詞模式形成的FKP-MCOC的預測性能要顯著好于目前通常使用凸二次規劃方法的SVM。FKP-MCOC方法的顯著特征是將每個輸入數據與模糊隸屬度關聯能夠顯著降低數據中噪聲和異常的干擾;同時,語義層次加權核的應用能夠將非線性可分的問題轉化為線性可分的問題。特別是基于語義層次加權核的FKP-MCOC模型能夠有效地用于漢語語義構詞模式的自動分類,以便提高機器對漢語詞語的認知和理解的準確性。
該書把漢語語義構詞的研究成果直接應用于中文信息處理,并取得了很好的測試效果。一方面,說明了書中基于數據庫歸納得出的構詞規則適用性強,可以用于識別未登錄詞。另一方面,也對進一步開展漢語多音節詞以及混合不同音節的詞語的自動識別和預測,提供了基礎和參考。
此外,該書還提出了諸多富有新意的新觀點。譬如漢語合成詞中90%以上字義與詞義有直接或間接的聯系,可以由字義推出詞義,但A+B=C類是例外。這類詞語的語義透明度低,語素組合后產生了新的意義,無法由語素義直接推知詞義。對于這一難題,該書提出了新的解決思路,采用生成詞庫論的物性結構理論分析這類詞轉義產生的途徑,突破“套用句法模式分析構詞法”的傳統方法,很好地解釋了該類詞語素義和詞義之間的關系。同時也證明了物性結構理論在詞義分析方面的強大解釋力,豐富和發展了漢語詞匯語義學理論。在語義類方面,將雙音合成詞的語義類構成特點歸納為四種規則:同類規則、后向型規則、前向型規則和無向型規則。對每一規則的詞義構成特點進行了細致描寫,特別是提出無向型詞語的語素義發生了轉指,語素義義類與詞義不一致,探討這類詞的語義特點更有助于更好地解釋某些語義現象。文中結合隱喻、轉喻理論和生成詞庫理論來說明該類詞轉義產生的具體途徑和方式,為現代漢語詞匯語義研究提供了新角度和新方法。
五、 結語
正如任何事物都不是完美無缺的一樣,該書也存在一些值得商榷之處。如,雖然各項研究都建立在大規模數據庫的基礎上,通過統計比較說明字、詞語義分布的實際情況以及二者之間的對應關系,為進一步進行語義構詞規則研究提供了理論基礎,但是整本書統計數據較多,對現象的解釋相對還較少,尤其是在第二至四章,多是對統計結果的歸納總結,較少對特點進行解釋說明和原因分析。此外,書中將字、詞的語義類分為大類、中類和小類,每一類用相應的字母來標示。這一做法為語義形式化研究提供了基礎和便利,但是也不可避免地降低了內容的可讀性,特別是在閱讀語義構詞規則時,有時候很難直接想到字母所代表的是哪一語義類,往往需要往前翻看對義類分布的相關介紹才能知曉。同時,書中語義構詞的研究成果,雖然在未登錄詞的識別中取得了較好的實驗結果,但是在全面應用于計算機語言信息處理、提升中文信息處理的效度等方面,還有待進一步檢驗。
瑕不掩瑜,《面向應用的漢語語義構詞研究》一書,理論和應用并舉,定量和定性結合,對漢語的語義構詞問題進行了全方位研究,提出了解決問題的新思路和新方法,還為漢語語義構詞研究提供了新范式。理論與應用并舉,是語言學研究的方向。該書作為一部兼顧理論與應用的漢語語義構詞研究的力作,值得讀者仔細研讀。
參考文獻
1. 亢世勇等.語言資源開發與應用.外語教學與研究出版社,2018.
2. 亢世勇等.面向應用的漢語語義構詞研究.中國社會科學出版社,2020.
3. 孫道功.應用與前瞻:現代漢語新詞語計量研究與應用.辭書研究,2010(2).
(責任編輯 劉 博)