應曉東
(浙江警官職業學院公共基礎部,浙江杭州,310018)
論詞匯分布作為詞匯復雜度的一個測度
應曉東
(浙江警官職業學院公共基礎部,浙江杭州,310018)
摘要:提出了一種評估非母語英語學習者的詞匯應用能力的方法,用于提高英語為非母語者的自然語音響應自動評分系統的精度.方法根據詞表中每個詞在參照語料庫的出現頻率來估算詞匯復雜度,并評定響應中詞匯的平均難度等級.基于口語響應中的單詞,得出3種特征:相關覆蓋率、平均詞排名及平均詞頻,研究了它們對人工語言能力得分的影響程度.最后,探討了詞匯分布特征對自動語音評分系統的影響,重點在于參照語料庫的文類和詞項類型2個因素的影響.
關鍵詞:詞匯;分布;復雜度;測量
口語評估通常用于測量語言能力的多個維度.目標語言的整體能力可以通過測試流利性、發音、語調、語法、詞匯量、語篇結構等方面的能力進行評估.隨著語言表達能力(口頭和書面)自動評估技術的發展,急需建立評估的量化方法.
大多數自動語音評分研究都集中在流利性、發音和語調上,僅有一些研究探討了與詞匯應用相關的特征,并且僅限于形符類符比(TTR)等相關特征).詞匯用法的語音結構包括2個部分:復雜度和精度,復雜度正是本文中試圖量化的部分,詞匯復雜度的測量措施試圖量化使用者所使用的詞匯多樣性和豐富性.在已有研究結果的基礎上,我們采用基于詞匯分布的方法來評估詞匯復雜度.
詞匯分布,是指從一個涵蓋各種目標語言的參照語料庫中計算出每個詞匯的出現頻率.詞匯復雜度通過詞頻來衡量,低頻詞由于詞頻較低,因此更復雜.本文設計了一些特征量來評估考生的響應文本中詞匯的難度等級,對這些新的特征量和人工評分進行了相關性分析,同時評估了這些新特征量相對于自動評分系統中其他特征量的重要性.本研究的創新之處在于,在自動計分系統中應用詞匯分布來評估詞匯復雜度.
詞匯豐富性測度已經成為L1和L2語言能力評估研究的焦點,這些測度的類型可分為定量和定性測度[1].詞頻分布(lexical frequency profile,LFP)對給定的書面或口語表達使用詞匯分布(VP)計算出不同頻率單詞的使用百分比,比如從1 000個最常用的詞中計算出某一單詞的詞頻,這些詞來自一個預編譯的詞匯表,如學術詞匯表(AWL)與Coxhead在1998年發表的相關詞頻分布.頻率級指將一類單詞(或選擇適當的多詞單位)根據其語料庫中實際使用的頻數分組.P-Lex是另一種使用單詞的頻率級評估詞法豐富性的方法.這些措施均基于詞條的不同頻數,因此依賴于目標語言頻率列表的有效性.
這2種類型的評估措施已用于英語作為第二語言學習者(ESL)的作文分析.Laufer和Nation 1995年的研究表明,LFP與詞匯知識的獨立評估措施相關性良好,可以根據學習者不同的能力水平對學習者進行分類.2004年,Morris和Cobb根據學生的文章研究了學生詞匯量掌握程度與學生成績的關系,結果表明學生擁有的詞匯量與成級顯著相關.另外,VP比口語面試更能評估高水平非母語者的語言能力.
Vermeer 2000年的研究指出,無論如何轉換和修正,定量測度都沒有獲得預期的有效性與可靠性,沒有達到預期的評估性能.本文試圖基于一組參照詞表的VP特征(詞匯復雜度的測度)量化詞匯運用能力.本研究的創新之處在于使用VP(詞匯分布)作為口語評估中詞匯復雜度的的測度,它源于自然語音能力水平的自動評分系統[2].
此外,我們還研究了參照語料庫的文類對這些詞匯測度性能的影響.為此,三種語料庫將用來產生基準頻率級.最后,我們將探討詞項類型如何影響這些測度的性能.
本文采用AEST均衡數據集,它包括6個詞項,考生要求對每個詞項提供45至60秒的表述,所以每個考生需準備時長約5分鐘的表述內容.6個詞項中,2個詞項根據考生的個人經驗或背景知識,獲取考生對同類主題的掌握信息和觀點,這2個詞項構成獨立(IND)詞項組.其余4個詞項用于測試如聽力和閱讀等其他語言技能,構成集成(INT)詞項組,再從這2組詞項提取自然的、不受約束的自然語音.IND詞項組和INT詞項組的主要區別在于,IND僅提供一個提示詞,而INT詞項則提供了提示詞、閱讀文章和聽力刺激.每個數據集的大小、用途以及考生的母語信息總結在表1中,所有詞項用于提取自然的、不受約束的自然語音.

表1 數據集規模及考生的母語信息
每個響應采用4分制,其中1分表示低表達能力,4分表示高表達能力,由訓練有素的人力評價者做出評定.評分準則可參照AEST評估準則.
由于AEST平衡數據集不重復計分,我們通過一大型的雙重評分數據集評估語料庫的評者間一致比,該數據集與AEST平衡數據集采用同樣的計分準則和評分過程.用從AEST數據集采集的41 KB大小的雙重評分響應,計算出與人工評分的皮爾遜相關系數為0.63,這表明兩者在誤差范圍內相符合.該數據集的評分分布見表2.

表2 數據集的能力評分分布
首先開發詞匯分布特征,預先編譯好多組詞表,比如,將參照語料庫中100個最常見的詞列成詞表.接著對每個測試響應使用語音識別器生成轉錄,根據每個參照詞表的響應,計算出詞匯分布特征評分及基本特征形符類符比(TTR)評分.
3.1 生成詞表
本文所使用的3個參照語料庫列于表3,它包含了英文最常用詞匯表(GSL),托福2000學術語言口語、書面語語料庫(T2K-SWAL)和AEST數據集.

表3 本文中使用的3種參照語料庫
T2K-SWAL是在學術中使用的涵蓋多種語言的口語和書面文本集.本研究僅采用了其中的口語文本.口語語料庫包含會議討論、會話、講座等的人工轉錄文本,這些來自授課、學習小組會議、辦公和服務接觸等[3].
T2K-SWAL和AEST的所有人工轉錄都是標準化的,將所有的形符小寫化,并去除除破折號和引號以外的所有非字母、數字字符,詞匯的形態變體作為不同的詞處理.所有的詞根據其在語料庫中的出現頻數進行排序,生成6組詞表:排名前100的詞組成TOP1詞表,排名101至300的詞組成TOP2詞表,排名301至700(TOP3)的詞組成TOP3詞表,排名701至1500的詞組成TOP4詞表,排名1 501至3 000的詞組成TOP5詞表,排名3 000以上的詞組成TOP6詞表.由于GSL只有約2 200個單詞,所以只能生成5組詞表.
3.2 生成評估數據的錄音文本
本文采用隱馬爾可夫模型(HMM)語音識別器對AEST數據集進行訓練,收集了7 872個考生約733 h的非母語語音內容,使用了三音子聲學模型和二元文法、三元文法和四元文法的N元文法語言模型.測試集輸出的詞錯誤率(WER)為27%.語音識別器對評估數據的每個響應通過ASR(自動語音識別技術)將語音轉錄成文本[4].
首先,每個串聯響應基于ASR假設前提生成詞表.IND詞項只提供1個句子提示,而INT詞項提供更多的刺激詞,包括提示詞、一段文章和聽力刺激.為了盡量減小詞匯對考生的影響,我們從詞表中排除了提示詞或刺激詞的語境詞.其次,用3個參照詞表得到5種特征.每個參照詞表最多生成10種特征,特征類型見表4.

表4 特征列表
具體步驟如下:
1)GSL用TOP1至TOP5詞表組創建了5種特征,但并未建立TOP6詞表組.T2K-SWAL和AEST數據集用TOP1至TOP6詞表組分別創建了6種特征.
2)“rank”是詞表中單詞按詞頻降序排列的序號,不存在于參照語料庫的詞默認秩為Ref-MaxRank1.
3)平均詞頻指參照語料庫所有單詞數中不同單詞頻數的總和,參照語料庫不存在的單詞詞頻默認為1.

表5 特征計算示例
根據ASR假設生成第1步的語音文本,第2步生成對應的類符清單,第3步排除與提示詞重疊的單詞“student”和“relax”,得到最終含有9個類符的清單.
如果上述類符清單中的單詞存在于參照語料庫(按詞頻排序的詞表)中,則可獲得相應詞的詞頻、排名和屬于第幾TOP詞組.如果參照語料庫沒該單詞,詞頻默認為1,默認單詞秩為20 000,如表5中的“Xbox”.
4.1 相關性分析
本文分析了所提出的特征和人工評分之間的相關性,以評估其對能力得分預測性能的影響.通過總結構成串聯響應的2個響應的得分,估算了串聯響應的參照能力得分.因此,新的評分范圍為2~8分.表6列出了皮爾遜相關系數r[5].
aFreq特征評估性能最好,其次是TOP1.統計顯示,這2個特征與人工評分有顯著的負相關性.特征TOP6也表現出與人工評分的顯著相關性,但比特征TOP1的相關性低10%~20%.這表明,當響應文本的詞匯不僅僅局限于幾個最頻詞時,人工評估更可能給予高分.然而,難詞(低頻詞)的運用與人工評分也顯示出微弱的相關性.

表6 各特征的評分與人工評分的相關系數
4.2 建立評分模型
為建立自動評分模型,我們采用了詞匯分布與多元線性回歸(MLR)框架下有效的其他特征:
wdpchk(流利性):平均詞塊長度,詞塊是指長時間沉默后的某一片段;
tpsecutt(流利性):每秒生成的單詞類符數;
normAM(發音):語速歸一化的平均聲學模型得分;
phn_shift(發音):母語語音語料庫中歸一化元音持續時間與標準歸一化元音持續時間的平均絕對距離;
stretimdev(韻律):每秒重讀音節之間的平均距離偏差;
lmscore(文法):單詞數歸一化的平均語言模型得分.
首先計算這些特征的評分與人工評分的相關系數,并與評估性能最好的詞匯分布特征進行了比較.表7列出了這些特征的評分與人工評分的皮爾遜相關系數r.

表7 各特征的評分與人工評分的相關系數
對于IND和INT這2個詞項組,代表流利性的特征tpsecutt相關性最好.IND詞項組中,tpsecutt與人工評分的相關系數約為0.66,INT詞項組中相關系數甚至更高為0.73.
五倍模型的平均值列于表8,加權kappa值用以表明自動評分和人工評分的一致性,及其未經四舍五入(un-rnd)和經四舍五入(rnd)的皮爾遜相關系數r的一致性.新的加權kappa值顯示出與人工評分更高的一致性,但對2個詞項類型的改善都不大,僅約1%.皮爾遜相關系數和加權kappa值作為評估性能的測度,以保持與Zechner等在2009年的研究結果一致.此外,我們旨在研究預測分數和實際評分之間的關系,而非預測分數和實際分數之間的差異,相關性度量正合要求[6].

表8 詞項類型的多元線性回歸模型基于評分模型的性能表
4.3 討論
一般情況下,考生在口頭測試時會使用相對少的詞匯量.測試時使用到的IND詞項數平均為87.21,INT詞項數平均為98.52,高頻詞的比例也很高.詞頻排名前100的單詞比例近50%,排名前1 500的單詞(TOP1~TOP4詞組的總和)的比例平均超過89%,意味著這1 500個單詞占了考生自然語音中近90%的主動詞匯.圖1給出了TOP1~TOP6詞組常用詞的平均比例.

INT詞項出現的比例與IND詞項出現的比例差不多,但在TOP3至TOP6詞組中,INT詞項的比例均略高于IND詞項,INT詞項似乎包括更多低頻詞.
該研究中,基于AEST數據的特征的評分性能優于以T2K-SWAL為基礎的特征的性能.雖然評估數據中沒有詞項與AEST數據重疊,考生能力水平和任務類型的相似度使AEST中的詞匯及其分布與AEST平衡數據集更好地匹配,最終基于AEST數據集的特征性能最佳[7].
盡管個別特征(如aFreq)表現出了高相關性,但所有表現最好的特征并沒有相應增加評分模型的評分性能.最可能的原因是訓練數據集的規模比較小,每組只有約380條IND響應和約760條INT響應用于評分模型的訓練[8].另一種可能性是訓練數據集與現有特征重疊,詞匯分布特征用于評分模型的建??赡芤呀洷滑F有特征集一定程度上所涵蓋.今后的研究中,我們將進一步詳細探討詞匯分布特征.
本文提出了衡量英語作為第二語言(ESL)學習者的詞匯使用情況的特征.探討了詞匯分布特征是否適用于測量詞匯的復雜度.計算了3種參照語料庫的詞頻,用于評估考生的詞匯復雜度.3種參照語料庫中,AEST數據庫的特征表現出較好的評估性能.本評估系統共生成29種特征,其中平均詞頻(aFreq)與人工評分的相關性最好.詞匯分布特征的評分性能顯示出與人工評分很強的相關性,但與現有評估語言能力的特征集一起用于自動評分模型時,擴充的特征集并未有多大的改善.
參考文獻:
[1]才讓加.面向自然語言處理的大規模雙語語料庫構建技術研究[J].中文信息學報,2011,8(2):10-13.
[2]俞敬松,王華樹.計算機輔助翻譯碩士專業教學探討[J].中國翻譯,2010,6(4):45-49.
[3]姚敏鋒.基于短語譯文組合的漢英翻譯系統[J].廣東外語外貿大學學報,2010,12(8):98-103.
[4]冀鐵亮,穗志方.語言學與統計方法結合建立漢語動詞SCF類型集[J].中文信息學報,2007,7(5):45-51.
[5]計算語言學與語言科技原文叢書[J].中文信息學報,2010,9(06):44-46.
[6]王厚峰.計算語言學歧義消解研究——兼介紹北京大學計算語言學教育部重點實驗室[J].術語標準化與信息技術,2010,18(12):112-113.
[7]祝清松.我國自然語言處理研究的文獻計量分析[J].情報雜志,2009(S2):44-50.
[8]徐金安.理性主義與經驗主義相結合的機器翻譯研究策略[J].計算機科學,2011(6):122-125.
(責任編輯 莊紅林)
中圖分類號:H003
文獻標志碼:A
文章編號:1672-8513(2014)06-0460-05
收稿日期:2014-06-05.
作者簡介:應曉東(1973-),男,碩士,講師.主要研究方向:英語語言學與計算語言學.
Vocabulary distribution:a measure to words′complexity
YING Xiao-dong
(Department of Basic,Zhejiang Police Vocational Academy,Hangzhou 310018,China)
Abstract:We presents a method that assesses ESL learners′vocabulary usage to improve an automated scoring system of spontaneous speech responses by non-native English speakers.Focusing on vocabulary sophistication,we estimate the difficulty of each word in the vocabulary based on its frequency in a reference corpus and assess the mean difficulty level of the vocabulary usage across the responses(vocabulary profile).Three different classes of features were generated based on the words in a spoken response:coverage-related,average word rank and the average word frequency and the extent to which they influence human-assigned language proficiency scores was studied.Finally,we discussed the influence on the vocabulary features of the automated speech scoring system.
Keywords:vocabulary;distribution;complexity;measurement