摘 要:本文在聯結主義的理論“模型將詞匯的語義知識用分布表征值來表示”的基礎上,選擇了一組漢語復合詞進行語義抽取和計算分析,基于語義距離提出了一個自動評估語義透明度的計算方法。實驗直觀有效地展現了一組多義語素間的同義、近義和同型異義關系,并揭示了語義透明度在多義語素系統中本質上是對某一具體語素義的相對距離。
關鍵詞:語義表示 語義提取 語義聚類 語義距離 語義透明度
一、引言
傳統的語義觀將語義表示為層級關系的范疇節點,其詞匯語義是符號表征;而聯結主義理論則將語義知識看成是分布表征,詞匯語義可以表示為分布表征的多維向量,語義間的差異表現為語義距離。一方面,一個詞語在復雜的語言環境中所表現出來的各種詞匯句法、語用語義,更適合使用分布表征來表示和自動提取,克服了范疇語義表征由于其人工歸納無法保證全面準確真實的缺陷。另一方面,在分布表征基礎下的語義表示方法,也提供了對語義計算和處理的多樣手段。本文使用的語義抽取模型原本用在模擬語言習得過程的研究中用來提取語義作為自組織特征映射(SOM)神經網絡的語義輸入部分。我們稍微調整訓練方法和研究對象,在“語義差異為語義距離”的理論前提下,直接對提取的語義進行一系列的計算分析和假設。我們選取了一組復合詞,提取語義之后利用聚類算法進行網圖(map)表示,使用歐式距離公式直接計算每個詞匯之間的語義距離,在此基礎上提出了語義透明度自動評估的假設。這些有別于范疇語義的計算和處理方法還有一個很重要的特點就是適用于大規模真實文本的處理。
二、模型介紹
本文采用的語義抽取算法模型,是理士滿大學認知實驗室(Farkas,I Li,2001,2002)開發的自組織特征映射(SOM)神經網絡模型中的語義分析模型WCD(a word co-occurrence detector)。該模型能較好地利用真實的語言材料,提取語義表征知識,在和兒童語言習得和雙語模擬(Li Ping,2002、2004)的實驗中均有較好的表現。其基本原理很簡單:計算被考察的詞語O與一組參考詞語[i1,i2,…,iN ]的出現在其左Li=[li1,li2,…,liN ]和右Ri=[r1i,r2i,…,rNi ]的共現概率,將其值映射到多維數組O=[Pli1,Pli2,…,PliN,Pr1i,Pr2i,…,PrNi ]上,這個數組最終就表示該詞語的語義值。
模型主要有三個參數:一是模型所開的窗口數,如果為3,指我們所考察的詞語在訓練文本中的左邊L和右邊R各看三個詞語,如果它們同時又是參考詞語,則計算它們與考察詞語的共現概率(其值由其位置遠近加權調整)。參考詞語我們以下簡稱為“背景詞”,背景詞的數量和內容是模型的第二個參數。第三個參數就是我們需要訓練的詞語,以下簡稱為被試詞。背景詞和被試詞由我們在具體試驗中給出,第一個參數我們默認使用3個窗口。
三、試驗準備
訓練語料:現代漢語語料(北京語言大學開發,已分好詞)。
被試詞的確定以及預處理:首先對含有“花”的詞語進行檢索,語料中含有“花”的詞語有上百個。在這些詞語中確定被試詞:花架子、花、花費、荷花、櫻花、棉花、花生、花兒、花草、花園、雪花、桃花。接下來對語料中823處單獨作詞語使用的“花”進行標注,代表“花兒”意思的標上“花1”(共有330個),代表“花費”意思的標上“花2”(共有493個)。
背景詞的確定:從語料中統計詞頻得出的前500個高頻詞。
四、試驗結果的網圖表示
實驗結果是每個詞語的語義值表示為一千維的數組(向量),每個值在0~1.0范圍之間。下面直接對數據進行計算分析。我們首先采取了多維尺度分析(Multidimensional Scaling,MDS),將1000維的數據降到2維的網圖上,以觀察被試詞匯間的聚類關系。多維尺度分析的基本原理是將評價者對各種事物的相似程度,通過適當的降維方法,將這種相似或不相似距離程度在低維度空間中點與點之間的距離表示出來。其算法描述見參考文獻[1]。
圖1:現代漢語語料語義聚類網圖
圖2:圖1虛框部分放大
從聚類網圖我們可以看出:
(一)“花 1”和“桃花、櫻花、荷花”等聚在一起,而且內部還有一些細微的差異,“棉花”和“雪花”的距離比較遠,“花兒”和“花草”的距離比較近。
(二)“花架子”和“花1”“花2”的距離都很遠。
(三)“花2”和“花費”聚在一起,它們與其他的詞語距離都很遠。總的來說,語義接近的詞語相距很近,語義差別大的詞語相距很遠,說明模型能夠辨別同義、同形關系。最為明顯的是“花1”和“花2”距離很遠,說明模型能夠將這兩個意義絕然不同的“同形詞”區別開。
五、實驗數據分析:歐氏距離(Euclidean distance)評估
從網圖可以很直觀地看出詞語間的相互關系,在把語義看成距離的基礎上,我們在語義表征值上進一步量化分析:采用兩個詞語間歐氏距離來檢驗實驗結果。
兩點間歐氏公式:d=sqrt(∑(xi1-xi2)^ )
我們在這里使用的歐氏距離,是一種廣泛采用的計算多維距離的辦法。兩詞語間語義距離的計算也是我們下一步評估語義透明度的基礎。
表1:現代漢語語義抽取后求解詞語間歐氏距離值
花草桃花櫻花荷花雪花花生花架子花費花2
花10.70530.56301.14760.97481.05910.92871.35281.24151.3376
花21.47951.21761.57561.52551.51241.45471.65940.20250
從表格中的數據可以看出,語素和詞之間、詞與詞之間意義越相近,兩點間歐氏距離(語義距離)就越小;反之越大。
六、透明度自動評估假設
語義透明度(Semantic Transparency):所謂語義透明度是指合成詞的整詞語義可從其成分詞素的語義推知的程度,其操作性定義為整詞與其成分詞素的語義相關程度。Zwitserlood(1994)曾對語義透明度這個問題做過解釋:“Semantic of compounds is defined by the semantic relationship between a compound and its component morphemes”。一般來說,語義透明度均由人工評測確定,如文獻[2]和[3]使用多人評測,然后取其平均值。從研究現狀來看,我們暫未發現透明度的自動評估實驗、研究報告和文獻,因此,無現成的理論支持。基于語義的差異可以量化為語義距離,我們將語義透明度的定義中的“整詞與其成分詞素的語義相關程度”量化為“整詞與其成分詞素的語義相對距離”,從而提出語義透明度假設公式。
假設:首先對詞語相對于某語素的歐氏距離取倒數(基于歐氏距離越小,語義相關越高、透明度越高的假設),然后取平方根(對數值相對差距的一種處理)。
即我們的語義透明度假設公式:透明度= sqrt(1/歐氏距離)
表2:現代漢語語義抽取后,求解詞語間語義透明度值
花草桃花櫻花荷花雪花花生花架子花費
花11.191.330.931.010.971.030.850.89
花20.820.900.790.790.790.820.772.22
(注:“花草”相對于“花1”的透明度為1.19,“花草”相對于“花2”的透明度為0.82。)
我們可以看出:
(一)“桃花”“櫻花”“花草”“梅花”“雪花”相對“花1”的透明度都高于它們相對“花2”的透明度。
(二)“花費”相對于“花2”的透明度高于“花1”的透明度。
(三)不管是相對“花1”還是“花2”,語義透明詞語和不透明詞均可以以0.9左右為界(不透明詞標有下劃線)。
自動評估結果與我們的直覺以及人工評價有一致性(我們也參照文獻[3]做了一組人工評估,見附錄表1,其結果與自動評估數據做了相關分析,得出相關系數值為0.674)。說明了我們的假設有一定的可行性。當然,我們僅對一組復合詞進行了試驗,要真正利用這個方法進行批量的語義透明度評價,還要進一步檢驗和改進。另外,我們得到的語義透明度的數據之間的差異不是很大,與之相對,人工評估數據一般取0-10,設5為透明與不透明的分界值。能否改進公式的計算方法或改進模型的訓練參數,把透明度的值調整到更合理的區間范圍內,值得進一步探索。
同時,我們可以看出,實驗中語義透明度評價是以某一個語素或者詞作為參考,它是一個相對值,如果不考慮這一點,透明度將無法定義。而如果語素是有多義的,則某個詞語的透明度值不是唯一的,例如“花費”相對“花1”的透明度低,相對于“花2”的透明度高。以某個語素或詞的某具體義項作為參照,是語義透明度評價的前提,我們在人工評價語義透明度的時候是否考慮到這些因素?僅僅以熟悉的語素某個義項作為參照是有缺陷的。
如果把詞語間的語義距離看成兩點距離或者絕對距離,語義透明度則是以某些點為參照的相對距離,詞語透明與不透明的分界點恰好是這種相對距離上的某個閾值。
七、結語
實驗在現有理論模型基礎上對一組詞語做了一系列語義分析和計算。提取語義后,語義聚類網圖和語義距離很好地展示了詞語間的同義多義和異義關系,相對語義距離展示了語義透明度自動評估的可行性。這些語言知識,是通過語料無指導學習得到。從本質上講,這些語義知識,融合了詞匯語法,還有語用語義。而且隨著語料的變大和合理的實驗設計,這種值越趨向合理。語義透明度一向是心理學和語言習得界研究的一個很重要的概念,詞語的語義透明度讓語言學習者見詞知義、學習和記憶詞匯有據可依。語義透明度自動評測的探討有望帶來一定的理論價值和實際意義。
(本文受教育部人文社會科學重點研究基地重大項目“留學生漢語詞匯習得的計算機模擬研究[NO.08JJD740063]”資助。)
參考文獻:
[1]甘資先,周方俊,肖奕.多維尺度分析中的算法研究[J].清華大
學學報(自然科學版),1991,(6).
[2]劉偉.語義透明度對留學生雙音節合成詞詞匯通達的影響[D].北
京:北京語言大學碩士論文,2004.
[3]王春茂,彭聃齡.合成詞加工中的詞頻、詞素頻率及語義透明度
[J].心理學報,1999,(3).
[4]邢紅兵.基于聯結主義理論的第二語言詞匯習得研究框架[J].語
言教學與研究,2009,(5).
[5]Cary Libben.Semantic Transparency in the Processing of
Compounds:Consequences for Representation,Processing,and Impairment[J].Brain and Language,1998,(61).
[6]Farkas,I and Li.A self-organizing neural network model
of the acquisition of word meaning[C].E.M.Altamann,A.Cleeremans,C.D.Shunn,and W.D.Gray.Proceedings of the Fouth International Conference on Cognitive Modeling.Mahwah,NJ:Lawrence Erlbaum.2001.
[7]Farkas,I and Li.Modeling the development of the lexicon
with a growing self-organizing map[C].H.J.Caulifield et al.Proceedings of the Sixth Joint Conference on Information Science.Durham,NC:JCIS/Association for Intelligent Machinery,Inc.2002.
[8]Li Ping,Igor Farkas,Brian MacWhinney.Early lexical development
in a self-organizing neural network[J].Neural Networks,2004,(17).
[9]Li,Ping,Farkas,I.A self-organizing connectionist model of
bilingual processing[C].R.Heredia, J.Altarriba Bilingual sentence processing,North-Holland:Elsevier Science,2002.
[10]Zwitserlood,P.Processing and representation of Dutch
compounds:Effects of semantic transparency[J].Language and Cognitive Processes.1994,9,(3).
附錄:
表1:人工評估語義透明度值
花草桃花櫻花荷花雪花花生花架子花費
花18.518.128.218.016.225.512.592.01
花200000009.12
(陳永朝 北京 中國傳媒大學文學院 100024;邢紅兵 北京語言大學漢語水平考試中心 100083)