999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

華文水平測試詞匯大綱研制的理念與程序①

2020-06-22 07:26:42
華文教學與研究 2020年2期
關鍵詞:詞匯

王 潔

(暨南大學華文學院,廣東,廣州510610)

華文水平測試(簡稱“華測”)是以海外華裔青少年為測試對象的華語文能力標準化考試。華測的配套大綱有:漢字大綱、詞匯大綱、語法大綱、任務大綱、文化大綱。

大綱研制的主要環節是條目收錄、條目定級、條目標注。本文介紹詞匯大綱的研制。

由于漢語字詞的特殊關系,需先明確漢字大綱和詞匯大綱的分工。

1.漢字大綱、詞匯大綱的分工

首先,詞匯大綱中的單字條目不同于漢字大綱中的條目。

漢字大綱中收錄的是漢字,所以都是單字條目。詞匯大綱中收錄的是詞語(包含一些不成詞的單字語素,見下文2.3.1),有單字條目,也有多字條目。漢字大綱需要從認讀字和書寫字的角度對條目進行收錄及定級,詞匯大綱則需要從單字詞或語素的角度對單字條目進行收錄及定級。

其次,無論是單字條目還是多字條目,詞匯大綱對詞語的收錄及定級不受詞語用字難度的影響。比如“西瓜”“香蕉”在詞匯大綱中都是一級,不會因為“香蕉”比較難寫就將其放到較高等級。具體到聽說讀寫考試,“香蕉”是一級,意味著該詞在一級的聽力考試和口語考試中可以考查,一級的閱讀考試和寫作考試能否考查,需要查閱其用字的認讀級別和書寫級別。

2.條目收錄

一個具體的語言片段是否有資格進入詞匯大綱,有兩個判斷標準:首先,是不是詞;其次,是否超出考試的最高難度。前一個標準涉及到漢語中“詞”的界限問題,在2.3討論;后一個標準主要基于詞頻統計數據來掌控,詞匯大綱的研制始于語料的收集和詞頻統計,由此得到一個初始的底表,見2.1。從底表中的詞語到詞匯大綱中的條目,還需經過刪除、補充、修改、合并、拆分等操作,見2.2。

2.1 底表

小學、初中、高中的語料來源見表1。

表1:各學段語料庫

我們對上述三個語料庫分別進行了詞頻統計,并將得到的詞語列表與《現代漢語常用詞表(草案)》(簡稱《常用詞表》)進行了關聯。具體步驟如下:

(1)小學段詞語的觀察范圍:小學庫詞語種數(type)47141,保留頻次大于等于10的共15689,其中《常用詞表》中沒有的共3556,經人工干預,3556中又回收了464,進入小學段觀察范圍的詞語種數為12597(15689-3556+464)。

(2)初中段詞語的觀察范圍:初中庫詞語種數37249,去掉已在小學段觀察范圍內的詞語后剩余26124,保留其中頻次大于等于3且在《常用詞表》中出現的詞語共4916。

(3)高中段詞語的觀察范圍:高中庫詞語種數為36530,去掉已在小學段、初中段觀察范圍內的詞語后剩余21685,保留其中頻次大于等于3且在《常用詞表》中出現的詞語共2356。

(4)三個語料庫的低頻部分回收:小學庫頻次小于10的詞語、初中庫頻次小于3的詞語、高中庫頻次小于3的詞語,三者取并集,去除之前已進入觀察范圍①比如“含蓄”一詞在小學庫的頻次為3,未能進入小學段的觀察范圍,但在初中庫的頻次為5,已經進入了初中段的觀察范圍。的詞語后剩余詞語種數15779。對其通過人工干預進行回收,其中單字詞語、三字及三字以上的詞語逐個干預,決定是否回收;二字詞語由于數量較多(11559),只對《常用詞表》頻序在30000以內的詞語(6540)進行了干預。總共回收4257。

經過以上四步,底表共有詞語種數24126(12597+4916+2356+4257)

2.2 從底表詞語到大綱條目

從底表中的詞語到詞匯大綱中的條目,主要涉及以下幾類操作:刪除、補充、修改、合并、拆分。

2.2.1 刪除

需要刪除的情況主要包括:

(1)更像是詞組的“詞”。語料庫的詞頻統計是基于分詞軟件分詞的,而分詞軟件自帶的詞表往往會包含一些超詞單位,如“剩下”“離家”“多次”“每逢”“無人”“在外”“黑瘦”“是不是”等。

(2)重疊形式。分詞軟件對語料庫中出現的aa、aabb、abab等重疊形式會動態識別,即會把“高高興興”等作為一個切分單位,而這類詞語是受規則控制的,沒必要收入詞匯大綱。但是,有必要保留ab不是詞的aabb式,如“轟轟烈烈”“跌跌撞撞”等。

(3)生僻詞語。包括少見事物、現象等,如“茱萸”“懸梁”。

(4)語料中出現的字串與語文詞典中的詞語用字相同,但實際所指不同。比如“學友”,語料中的“學友”作為一個切分單位,是因為分詞軟件自帶詞表中有“學友”一詞,“學友”確實可算是語文詞典中的一個詞,《現代漢語詞典(第7版)》(簡稱《現漢7》)收為條目“【學友】xuéyǒu名同學:同三五~郊外踏青。”而語料中出現的“學友”是人名。發現這類字串時,會將其刪除。

2.2.2 補充

為了保證系統性,需要補充一些底表中沒有出現的詞語。比如底表中有“厘米”“毫米”,沒有“分米”,就需要將“分米”補充進來。再如有“陽性”,補充“陰性”;有“船長”,補充“機長”。

2.2.3修改

修改操作主要集中在如下情況:

(1)只出現在更大環境的詞語。比如“曇花”幾乎只出現在“曇花一現”中,將“曇花”改為“曇花一現”。再如“系鈴人”改為“解鈴還須系鈴人”,“作痛”改為“隱隱作痛”。

(2)有固定唯一搭配的詞語。比如“遠門”只和動詞“出”搭配,盡管“出遠門”中間可以插入其他成分(“出了一趟遠門”),但搭配很固定,將“遠門”改為“出遠門”,再如“懶覺”改為“睡懶覺”。

(3)簡稱更常用。比如“高速鐵路”改為“高鐵”。

2.2.4 合并

同義且難度無差別的詞語進行合并。如“鞋子”和“鞋”合并為一個條目“鞋子|鞋”,再如“芭蕾舞|芭蕾”“冰淇淋|冰激凌”“電扇|電風扇|風扇”“調換|掉換”“天長地久|地久天長”“百折不撓|百折不回”“媽媽|媽”。同義但難度有差別的詞語不合并,如“狗”和“犬”不合并。

2.2.5 拆分

一些同形詞、多義詞的意義(義項)之間差別較大,不拆分無法分別定級,需要進行拆分。舉例見表2。

表2:拆分后條目舉例

2.3 漢語“詞”的界限問題及大綱收條

詞匯大綱收錄的對象理應是“詞”,但漢語存在“詞”的劃界難題:“詞”和“語素”的界限問題;“詞”和“詞組”的界限問題。

2.3.1 單字語素的去留

語素和詞的界限問題其實是單字語素是否成詞的問題。大綱既收單字詞,也收一些組合能力較強的不夠獨立的單字語素。原因是后者如果不收,會導致偽超綱問題。

理論上,不夠獨立的單字語素不該收入詞匯大綱,但是對于其中那些組合能力較強的,如果大綱不收,實踐中會導致很多包含該類單字的組合超綱,這些字組被大綱拒之門外,既非難度超綱,亦非本身非“詞”(理論上包含不成詞語素的語言片段一定是詞,不可能是詞組)。比如,大綱收了“學校”,又收了包含“校”的一些組合“校長”“校園”“校車”“軍校”“母校”“華校”等,卻沒收“校”及包含“校”的另外一些組合“校門”“校歌”“藝校”等,如此,當試題語料中出現大綱中未收的組合時,如“校門”,無論將其當作一個詞還是兩個詞,都會超綱。解決方法就是將組合能力較強的不夠獨立的語素也收入大綱,如此雖不能徹底解決問題(組合能力弱的語素,其構成的組合往往也不能絕對窮盡,比如“廁”,常見的組合就有“廁所”“公廁”“男廁”“女廁”“廁紙”“潔廁”等),但可以在很大比例上解決問題。

具體做法如下:首先,已收單字條目的用字整理。已拆分的單字條目還原其用字,如“米1”“米2”還原為“米”,已合并的條目中包含單字條目的提取出單字,如“鞋子|鞋”,提取出“鞋”。整理后,已收單字條目的用字為2317個。其次,單字組合能力的統計。以《通用規范漢字表》中的一級3500字為觀察范圍,統計該3500字在《常用詞表》中構二字詞語的數量,作為單字組合能力的指標。再次,將2317字與3500字作比對。3500字中構二字詞數量大于等于30且未在2317字中的,補充進大綱。這樣,又補充了“目”“務”“農”“聯”“程”等25個單字條目。

需要說明兩點:(1)補充數量不多。漢語中有大量不夠獨立但在分詞語料中常常落單的語素,這類語素在詞頻統計結果中作為單字“詞”的頻率不低,已經存在于2.1的底表中了,在2.2.1的刪除操作時,由于語素收錄的理念,對其選擇了保留。(2)語素的組合能力通過漢字來統計還很粗疏,原因是存在一字多義(包括同形和多義)。一字多義的存在,使得很多時候某一漢字的組合能力并不能準確反映某一語素的組合能力。

2.3.2 透明組合的取舍

漢語“詞”和“詞組”的界限問題集中在透明組合上。

關于透明組合,組合成分中至少有一方不獨立的情況,在理論上一定是詞,只是實踐中無法盡收;組合成分皆獨立的情況在理論上有雙重身分(比如把“晴”看成自由語素,“天”看成自由語素,“晴天”在理論上就可以算作詞,而把“晴”看成單純詞,“天”看成單純詞,“晴天”在理論上就可以看作詞組),實踐中同樣無法盡收。為此,我們從“同聚類字組”的多寡來考慮問題。透明組合分三種情況,見表3。這里說的“同聚類字組”是指一方組合成分相同(同用字、同意義、同位置),且組合關系相同。

表3:透明組合情況舉例

各種情況的處理如下:情況a,直接參照《現漢7》的取舍標準;情況b,每個聚類因成員有限而相對封閉,可以做到收錄的系統性,同一聚類的組合收則皆收,棄則皆棄;情況c,每個聚類都是開放集合,意味著不可能做到收錄的系統性,目前的做法是參照頻率信息收錄部分組合。

2.4 進一步補充

2.4.1 相關大綱詞表

條目基本確定后,與相關大綱、詞表進行比較,以進一步補充完善。

相關大綱或詞表有:1992年的《漢語水平詞匯與漢字等級大綱》(8822詞),2010年的《漢語國際教育用音節漢字詞匯等級劃分》(11092詞),2010年的《新漢語水平考試大綱(詞匯)》(5000詞),2015年的《HSK考試大綱(詞匯大綱)》(5000詞),《義務教育常用詞表(草案)》(14323詞)。

初步篩選:《漢語水平詞匯與漢字等級大綱》比較早,且《漢語國際教育用音節漢字詞匯等級劃分》可算是《漢語水平詞匯與漢字等級大綱》的修訂①劉英琳、馬箭飛(2010)指出:研制《漢語國際教育用音節和漢字詞匯等級劃分》不是對1992年《漢語水平詞匯與漢字等級大綱》所作的簡單的、一般性的修訂。,因此直接考慮《漢語國際教育用音節漢字詞匯等級劃分》。《HSK考試大綱(詞匯大綱)》是對《新漢語水平考試大綱(詞匯)》的修訂,直接考慮《HSK考試大綱(詞匯大綱)》。《義務教育常用詞表(草案)》的具體條目未見公布,無法比較,暫不考慮。進一步篩選:《HSK考試大綱(詞匯大綱)》的總詞匯量是“5000及以上”,實際列出的條目是5000,規模太小,也不考慮。因此,只與《漢語國際教育用音節漢字詞匯等級劃分》做比較。

為表述方便,華測的詞匯大綱稱為《華測詞綱》,《漢語國際教育用音節漢字詞匯等級劃分》稱為《等級劃分》。

2.4.2 參照《等級劃分》進一步補充

將《華測詞綱》中的條目(已拆分、合并的條目還原為未拆分、未合并的條目)與《等級劃分》中的條目(也存在一些拆分、合并的條目,前者如“對”有兩個條目,后者如“爸爸|爸”“混濁(渾濁)”等,做類似還原處理)進行比較。《等級劃分》中有而《華測詞綱》里沒有的條目共1539個,從中補充了368個。未補充進《華測詞綱》的詞語主要有以下類型:(1)偏難的詞語。華測的最高級別是高中畢業群體,雖然已接軌成人,但有些詞語離該群體的日常生活還是較遠,如“兜售”“拜會”“隱情”等。(2)比較松散的結構。劉英琳、馬箭飛(2010)指出《等級劃分》中會收一些常見、常用結構,如“打電話、看病”“比如說、是不是”“請問、家里”等。這與《華測詞綱》的收詞理念不一樣。(3)《華測詞綱》“附錄詞語”收錄的詞語。《華測詞綱》分基本詞語和附錄詞語,后者收錄一些特殊類別的詞語,如地名、朝代名、節日等,見下文5。1539個詞語中已出現在《華測詞綱》附錄中的詞語,也不再作為基本詞語補充。比如“中秋節”在《等級劃分》中,不在《華測詞綱》的基本詞語里,但在《華測詞綱》的附錄詞語里,無需補充。

3.條目定級

根據華測的總體設計,共有5個級別:一級(小學二年級)、二級(小學四年級)、三級(小學畢業)、四級(初中畢業)、五級(高中畢業)。

基于作文語料庫(語言輸出性質)、教材語料庫(語言輸入性質),算法加人工干預,經過3次定級完成整個定級工作。

3.1 初次定級

基于作文語料庫(2.1中的小學庫、初中庫、高中庫)的分布信息,進行自動定級。

小學庫中的詞語根據年級分布信息設定算法自動定為一級、二級、三級。初中庫中的詞語初次定為四級,高中庫中的詞語初次定為五級。

小學庫的相關統計數據見表4。除了每個條目在小學庫中的總次數,還按年級(一二年級、三四年級、五六年級)分別統計次數,由于各年級段的語料規模不一致,進而計算頻率(技術上換算為百萬詞頻,即實際頻率統一乘100萬,含義為每100萬詞的語料中會出現多少次),然后根據頻率計算每個條目在各年級段的分布比例,最后按照統一的算法進行定級。具體的算法是:如果“一二年級比例”大于等于30%,級別為“一”;否則如果“一二年級比例”+“三四年級比例”之和大于等于60%,級別為“二”;否則級別為“三”。

表4:初次定級統計數據及條目舉例

3.2 二次定級

人工干預進行二次定級。

首先,對不適合自動定級的詞語,通過人工干預定級。三庫中低頻回收入底表的條目以及補充、修改、拆分、合并的條目,人工干預定級。

其次,對自動定級結果明顯不合理的條目進行人工干預,重新定級。如“娶”的自動定級結果為“一”,人工干預后定級為“三”。

再次,語料分詞錯誤會導致統計偏差,進而影響自動定級結果,也需人工干預來發現并調整級別。如“學會”一條,語料庫中出現了大量的“學會”,其實是“學會做什么”的“學會”,并不是《現漢7》中作為詞的“學會”(【學會】xuéhuì名由研究某一學科的人組成的學術團體,如物理學會、生物學會等。)經過人工干預,保留了“學會”,但將其級別由“一”調整為“五”。

3.3 三次定級

基于教材語料庫,對各條目的級別做進一步調整。

所利用的國內語文教材和國外華文教材及對應級別見表5。有的教材無法收集到從小學一年級一直到高中畢業全套,有的教材本身就不覆蓋全部學段,此外,由于國外的學制與國內學制并不完全一樣,所以國外教材的級別只是做了大致對應。

表5:教材語料庫

底表中各條目在教材庫中的分布信息(在幾套教材中出現),見表6舉例。參照該信息,人工干預進行三次定級。比如“必然”二次定級為“四”,參照教材分布信息,三次定級仍為“四”;“習性”二次定級為“三”,三次定級調整為“四”;“袖子”二次定級為“一”,參照教材分布信息,似乎調整為“三”更合適,但教材的語料規模畢竟有限,僅供參考而已,考慮到“袖子”一詞認知年齡很低且沒有習得難度,仍保留為“一”。

3.4 等級分布

基本詞語等級分布見表7。

表6:教材庫條目分布信息舉例

表7:基本詞語條目等級分布

4.條目標注

大綱中每個條目的標注信息,除了“等級”外,還有“拼音”“詞類”“示例”。

首先,拼音。《現漢7》的拼音標注非常細致,會對輕讀重讀、多字條目中間是否可插入其他成分、多字條目是連寫還是分寫等進行區分,詳見其“凡例3注音”。對詞匯大綱來說,語文詞典式的拼音標注過于繁瑣,因此大綱采用最基本的音節加聲調標注。

其次,詞類。基本采用《現漢7》的標注,詳見其“凡例5詞類標注”。有幾點說明:(1)參照《現漢7》,大綱在詞類標注上也對詞與非詞進行區分,非詞的包括:不夠獨立的單字語素條目給出的標記是“語素”;極少數二字條目(如“但愿”“極了”“沒錯”等10個左右)、一部分三字條目、絕大多數三字以上條目不做標注。(2)《現漢7》的詞類標注是具體到義項的,所以不存在兼類,大綱收錄的多義條目,如果義項間差別不大且不同義項沒有難度差別,就不會拆分為不同條目,因此會有兼類情況。比如“陳設”標注為“動、名”,“韻”標注為“名、語素”。(3)基本參照《現漢7》而沒有完全嚴格按照其標注結果,原因是漢語“詞”的類別問題和“詞”的界限問題一樣存在很多爭議,比如《現漢7》對“海嘯”標注的是名詞,而對“地震”標注的是動詞,我們認為二者從內部結構看,構詞成分同類、組合關系一致,從整體語義看屬于同語義場,因此我們都標注為“名”。

再次,示例。拆分產生的條目,為了區別,會給出“示例”信息,如上文表2所示。其他條目不給出“示例”。

5.附錄詞語

將收錄的條目分為基本詞語和附錄詞語。上文表7的統計數據是基本詞語部分。附錄詞語不分等級。

附錄詞語類別包括:大寫數字、天干、地支、筆畫、朝代、貨幣、節日、民族、行星、星座、姓氏、地名-洲、地名-洲區劃、地名-國家、地名-省中國、地名-城市中國、地名-城市世界、地名-洋、地名-山河江海、化學元素、節氣、標點、字體、軍銜、中國軍隊編制單位。

這些類別有的是封閉集合,有的是半封閉集合,有的是開放集合。每個類別在羅列所包含的詞語時,有的窮舉,有的枚舉,規律性強的給出規律提示。見表8舉例。

6.結語

本文首先明確了華測漢字大綱與詞匯大綱的分工,然后介紹了詞匯大綱條目收錄、定級、標注的具體工作。

表8:附錄詞語類別舉例

大綱收錄的都是現代漢語普通話詞匯,沒有涉及海外華語特色詞,是基于以下兩點考慮:(1)華測是面向海外華裔群體的通用考試,并非針對某個國家地區開發,而華語特色詞具有地域專用性,因此不適合作為通用條目收入大綱。(2)大綱主要服務于輸入性考試(聽力、閱讀)的語料難度控制及考點詞匯選擇,當考生在輸出性考試(口語、寫作)中使用了華語特色詞時,華測采用接受的評判標準。

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 亚洲国产成熟视频在线多多| 亚洲资源站av无码网址| 2024av在线无码中文最新| 久久久久久久蜜桃| 天天躁夜夜躁狠狠躁躁88| 国产第三区| 亚洲综合天堂网| 亚洲aaa视频| 国产欧美在线视频免费| 天天色综合4| 国产一级做美女做受视频| 欧美日韩理论| 欧美精品亚洲二区| 久久精品视频亚洲| 国产丰满成熟女性性满足视频| 成人福利在线视频| 黄色网址免费在线| 亚洲无限乱码一二三四区| 亚洲无码电影| 日韩无码视频专区| 在线一级毛片| 四虎成人精品| 91青青在线视频| 亚洲中文字幕av无码区| 午夜老司机永久免费看片| 91口爆吞精国产对白第三集| 超碰免费91| 国产99精品久久| 无码专区国产精品一区| 在线亚洲天堂| 国产喷水视频| 国产白浆一区二区三区视频在线| 国产精品久久自在自线观看| AⅤ色综合久久天堂AV色综合| 亚洲午夜福利在线| 最新国产在线| 亚洲性视频网站| 午夜激情婷婷| 黄色在线网| 日韩精品一区二区三区视频免费看| 97久久精品人人| 在线观看91精品国产剧情免费| 婷婷亚洲最大| 国产AV毛片| 国产精品白浆无码流出在线看| 黄色福利在线| 无码高潮喷水在线观看| 日本伊人色综合网| 国产成人高清精品免费软件| 国产乱人伦偷精品视频AAA| 亚洲一道AV无码午夜福利| 色AV色 综合网站| 免费看的一级毛片| 99中文字幕亚洲一区二区| 美美女高清毛片视频免费观看| 亚洲第一色网站| 国产一级片网址| 91在线日韩在线播放| 国产人人射| 国产黄网永久免费| 国产成人永久免费视频| 18禁黄无遮挡网站| 日韩高清中文字幕| 亚洲码在线中文在线观看| 亚洲精品欧美重口| 九色视频最新网址 | 国产成人精品一区二区三区| 国产 在线视频无码| 亚洲国产成人久久77| 日韩精品视频久久| 久久精品日日躁夜夜躁欧美| 亚洲精品视频免费观看| 久久久噜噜噜| 欧美啪啪视频免码| 国产精品自在在线午夜区app| 久久婷婷六月| 99久久性生片| 国产黄网站在线观看| 欧美成一级| 青青青视频蜜桃一区二区| 色综合久久88| 国产精品天干天干在线观看 |