基于判別分析的漢語二語口語能力評價(jià)研究

2025-07-30 00:00:00張漫莉于佳慧柴省三

考試研究 2025年4期

[中圖分類號]G424.74[文獻(xiàn)標(biāo)識碼]A [文章編號] 1673—1654（2025）04—011—011

一、引言

命題、施測和評分是口語測試的主要環(huán)節(jié)，其中“評分方法和評分員決定了口語測試的信度，從而對測試的效度具有重要影響\"。隨著人工智能（AI）語言信息加工技術(shù)的日益成熟和大數(shù)據(jù)思維的發(fā)展，二語口語客觀性評價(jià)研究成為學(xué)界研究的熱點(diǎn)[2。選擇合適的指標(biāo)及指標(biāo)組合，并借助恰當(dāng)?shù)亩嘣治瞿Ｐ吞剿骺谡Z評價(jià)的準(zhǔn)確性問題一直是二語者口語水平（OralProficiency）測評研究的核心問題之一。

復(fù)雜度、準(zhǔn)確度與流利度（Complexity，AccuracyandFluency，簡稱CAF）作為測量學(xué)習(xí)者口語表現(xiàn)的三個重要維度，在第二語言習(xí)得與測試研究中已有相當(dāng)長的歷史，但由于研究樣本規(guī)模、指標(biāo)量化標(biāo)準(zhǔn)等方面的分歧，現(xiàn)有研究在指標(biāo)的選擇、界定與量化指標(biāo)體系的構(gòu)建等方面均未達(dá)成共識[4-5]。在研究方法上，國內(nèi)外的學(xué)者們主要采用多元線性回歸（MultipleLinearRegression）方法構(gòu)建評價(jià)模型[6-7]，此方法雖然相對穩(wěn)定，但考慮到口語評價(jià)存在主觀性且測驗(yàn)數(shù)據(jù)規(guī)模大、價(jià)值密度低，與多元線性回歸方法的數(shù)據(jù)要求仍存在適配性問題，嘗試基于大數(shù)據(jù)挖掘的口語評價(jià)方法現(xiàn)已成為研究熱點(diǎn)。作為一種高效的統(tǒng)計(jì)判別和分組技術(shù)，判別分析（DiscriminantAnalysis）在數(shù)據(jù)挖掘領(lǐng)域發(fā)揮著重要作用，在教育評價(jià)、作文評分等領(lǐng)域具有重要的價(jià)值8，同時在二語口語評價(jià)研究中也具有較高的實(shí)踐意義。

鑒于此，本研究基于中國漢語水平考試（HSK[高等]）實(shí)測大數(shù)據(jù)，分別采用復(fù)雜度指標(biāo)（C）、準(zhǔn)確度指標(biāo)（A）、流利度指標(biāo)（F）及上述三類指標(biāo)的二維和三維組合（CA、CF、AF、CAF）等7組指標(biāo)對3個不同容量的樣本進(jìn)行判別分析，依據(jù)判別分析結(jié)果與專家評分的一致性程度篩選指標(biāo)，構(gòu)建出具有較高效度和信度的評價(jià)體系，為漢語二語口語能力評價(jià)模型的構(gòu)建提供新的方法，為漢語口語自動評分系統(tǒng)的開發(fā)提供參考。

二、研究設(shè)計(jì)

（一）研究問題

本研究重點(diǎn)關(guān)注以下三個問題：

1.驗(yàn)證判別分析方法在漢語作為第二語言的口語能力評價(jià)研究中具備可行性

2.在方法可行的基礎(chǔ)上，通過對比C、A、F指標(biāo)

及指標(biāo)間的二維和三維組合在3個不同容量樣本的等級判別結(jié)果與專家評分的一致性，考察各項(xiàng)口語能力評價(jià)指標(biāo)的效度。

3.篩選有效指標(biāo)構(gòu)建口語能力評價(jià)模型，并以HSK（高等）口語考試實(shí)測數(shù)據(jù)對模型的效度進(jìn)行檢驗(yàn)。

（二）研究被試

從參加2010年4月HSK（高等）口語考試的2404名韓國考生中隨機(jī)抽取了300名考生的口語測試錄音作為研究對象，其中男生語料為129份，女生語料為171份。根據(jù)口語考試成績和獲得的口語等級，將考生的口語水平由高到低劃分為A、B、C三個等級，每個等級間隔5分，各等級的考生分布情況如表1所示。

（三）研究材料

中國漢語水平考試（HSK）是為測試母語非漢語者漢語水平而設(shè)計(jì)的大規(guī)模國家級標(biāo)準(zhǔn)化考試[9-10]，考試題目及測驗(yàn)分?jǐn)?shù)均具有較高的信度和效度；HSK口語考試作為大型考試中限時獨(dú)立完成的表達(dá)任務(wù)，能夠有效反映出學(xué)習(xí)者的語言水平，保證了研究的客觀性；口語表達(dá)部分的兩道題目體裁不同（第一題為說明文，第二題為議論文），為了排除體裁變量的影響，保證研究材料的連貫性和主題的一致性，僅采用第一題“請你給中老年人介紹一個保養(yǎng)身體、延年益壽的養(yǎng)生方法”的口語錄音作為研究材料。

（四）研究指標(biāo)

為了使研究結(jié)果更具代表性，基于以往研究對復(fù)雜度、準(zhǔn)確度、流利度的操作性定義及本研究語料的特點(diǎn)，最終確定了11個測量指標(biāo)。

1.口語復(fù)雜度指標(biāo)

復(fù)雜度是“進(jìn)行言語任務(wù)時語言產(chǎn)出的復(fù)雜和多樣化程度\"]，關(guān)于口語復(fù)雜度的評價(jià)主要集中在詞匯復(fù)雜度和句法復(fù)雜度，選取4個典型特征作為初始指標(biāo)體系進(jìn)行相關(guān)研究，具體指標(biāo)及計(jì)算方法見表2。

在詞匯維度上，考慮文本篇幅長短不一，采用Guiraud指標(biāo)來量化詞匯表達(dá)的多樣性，并依照《漢語水平詞匯與漢字等級大綱》以下簡稱“大綱”）將“復(fù)雜詞比例”操作性定義為乙級詞、內(nèi)級詞、丁級詞和超綱詞的使用比例。在句法維度上，遵循Foster（2000）[]提出的劃分原則，AS-unit（AnalysisofSpeechunit，簡稱“AS單位\"）可以清楚地區(qū)分不成功的開始、重復(fù)和自我糾正，在以往研究中使用頻率較高且更適用于口語研究。因此，選取AS單位作為言語劃分單元。因不同水平學(xué)習(xí)者的口語表達(dá)篇幅長短不一，將句法復(fù)雜度指標(biāo)定為每50詞內(nèi)的AS單位數(shù)量，并計(jì)算每個AS單位內(nèi)的詞語數(shù)量①。

2.口語準(zhǔn)確度指標(biāo)

語言準(zhǔn)確度是CAF研究體系中最穩(wěn)定的考察指標(biāo)，其信度、效度得到了研究者們的一致認(rèn)可。依據(jù)語言的構(gòu)成要素，準(zhǔn)確度具體包括語音準(zhǔn)確度、詞匯準(zhǔn)確度和句法準(zhǔn)確度。本研究中對各指標(biāo)的操作性定義如表3所示。

參考陳默[13-14]的研究方法，語音準(zhǔn)確度可以進(jìn)一步細(xì)化為聲母準(zhǔn)確度、韻母準(zhǔn)確度和聲調(diào)準(zhǔn)確度，但因本研究所選取語料數(shù)量較多，標(biāo)注難度較大，最終將其定義為廣義上的語音準(zhǔn)確度，即只要聲母、韻母、聲調(diào)其中之一出現(xiàn)錯誤即標(biāo)注為語音錯誤。詞匯準(zhǔn)確度主要通過詞匯錯誤來測量，包括詞匯搭配錯誤、詞性誤用、詞匯遺漏、詞匯多余、生造詞等，不計(jì)算語料轉(zhuǎn)錄造成的字形錯誤。句法錯誤的類型主要借鑒了漢語中介語語料庫中對句法錯誤的分類方式，口語中不影響文章語義表達(dá)的字詞類的錯誤不再重新計(jì)人句法錯誤。

3.口語流利度指標(biāo)

流利度是衡量第二語言學(xué)習(xí)者口語水平高低的重要維度之一。與復(fù)雜度、準(zhǔn)確度維度不同，學(xué)習(xí)者口語表達(dá)中的停頓、重復(fù)、自我糾正等是口語流利度的重點(diǎn)考察指標(biāo)。通過對口語語料的預(yù)處理，發(fā)現(xiàn)時長約為300毫秒的停頓分布范圍最廣，總次數(shù)相對較多，且在許多漢語口語研究中均采用了這一停頓標(biāo)準(zhǔn)。因此，本研究將停頓界定為時長大于等于300毫秒的無聲停頓及填充停頓，并對相應(yīng)的口語流利度評價(jià)指標(biāo)進(jìn)行了操作性定義，具體內(nèi)容如表4所示。

為便于各項(xiàng)指標(biāo)的標(biāo)注與統(tǒng)計(jì)，對語料進(jìn)行預(yù)處理。首先，借助科大訊飛股份有限公司研發(fā)的“訊飛聽見\"軟件對300份語料進(jìn)行語碼轉(zhuǎn)錄，并人工校對轉(zhuǎn)錄結(jié)果。在此基礎(chǔ)上，根據(jù)各項(xiàng)指標(biāo)的操作性定義，對轉(zhuǎn)錄文本進(jìn)行復(fù)雜度、準(zhǔn)確度指標(biāo)的標(biāo)注和數(shù)據(jù)統(tǒng)計(jì)。利用AdobeAudition音頻編輯軟件標(biāo)注、收集流利度指標(biāo)的數(shù)據(jù)信息。通過上述標(biāo)注方式，共采集了300名被試的11項(xiàng)口語能力評價(jià)指標(biāo)的描

述性統(tǒng)計(jì)數(shù)據(jù)，詳見表5。

表5被試口語復(fù)雜度、準(zhǔn)確度、流利度指標(biāo)的描述性統(tǒng)計(jì)結(jié)果

（五）數(shù)據(jù)預(yù)處理

通過對11項(xiàng)口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)的界定與采集，初步掌握了不同水平的漢語學(xué)習(xí)者在口語能力上的特征表現(xiàn)。但因研究選取的樣本量有限，數(shù)據(jù)量大小和區(qū)別特征的有效性等因素均會導(dǎo)致判別模型的評價(jià)或預(yù)測效果存在差異。為了驗(yàn)證CAF指標(biāo)的口語能力評價(jià)效度及判別分析方法的可行性，需要對數(shù)據(jù)制定不同規(guī)模樣本的抽樣方案，并進(jìn)行判別分析的適用性檢驗(yàn)

1.制定抽樣方案

為了確保研究樣本的代表性，采用分層隨機(jī)抽樣的方法。首先，以HSK（高等）口語考試成績和獲得的口語等級作為專家參照，將300名被試的口語水平由高到低劃分為A、B、C三個等級;接著，為了減少因樣本量分配不均衡對分析結(jié)果的影響，采取等數(shù)分配法確定從各等級中抽取樣本單位的數(shù)量，即每一類都分配同樣的個體數(shù)；最后，采用簡單隨機(jī)抽樣的方法從各等級中抽取樣本。

依據(jù)上述方法，利用SPSS25.0完成了分層隨機(jī)抽樣，共抽取了容量為50、100、150的三個訓(xùn)練樣本，各等級的被試樣本抽樣情況如表6所示。

分析不同樣本量下的判別正確率有助于驗(yàn)證11項(xiàng)口語復(fù)雜度、準(zhǔn)確度、流利度指標(biāo)對口語等級的區(qū)分及預(yù)測效度，完善口語能力評價(jià)體系。

2.判別分析的適用性檢驗(yàn)

在分析11項(xiàng)口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)對口語等級的區(qū)分及預(yù)測效度之前，需要驗(yàn)證判別分析方法對所選取樣本具備可行性，以確保口語能力評價(jià)結(jié)果的可靠性。本研究根據(jù)被試的口語成績與等級將樣本分為A、B、C三個類別，在進(jìn)行判別分析之前首先對11項(xiàng)口語能力判別指標(biāo)在A、B、C三組中的均值是否存在差異進(jìn)行檢驗(yàn)，若某兩個總體的均值檢驗(yàn)結(jié)果不存在顯著差異，則由此建立的判別函數(shù)也是不可靠的。組均值的同等檢驗(yàn)結(jié)果如表7所示。

由表7可知，所選取的11項(xiàng)口語能力評價(jià)指標(biāo)在不同等級的被試樣本間均存在顯著差異（ Δplt;Δ 0.05）。因此，這11項(xiàng)量化指標(biāo)對口語能力等級的判斷均具有一定作用，滿足鑒別變量在各組間存在顯著差異這一前提。

在300份被試語料中隨機(jī)抽取容量為50、100、150的三個樣本，所選樣本均來自同一總體，此時各組樣本的協(xié)方差矩陣應(yīng)具有同質(zhì)性，這時檢驗(yàn)的原假設(shè) （H₀）為：各組因變量的協(xié)方差矩陣不存在顯著差異。對三組樣本總體方差是否具有同質(zhì)性分別進(jìn)行 Box^′M 檢驗(yàn)，樣本容量為50 1=50 時， Box^′M 檢驗(yàn)結(jié)果如表8所示。

樣本容量為100（ N=100 時， Box^′M 檢驗(yàn)結(jié)果如表9所示。

樣本容量為150（ _N=150 ）時， Box^′M 檢驗(yàn)結(jié)果如表10所示。

由檢驗(yàn)結(jié)果可知，三個研究樣本均無法拒絕原假設(shè)（），滿足組間協(xié)方差矩陣相等這一前提。基于此，認(rèn)為樣本數(shù)據(jù)滿足判別分析的適用條件，通過SPSS25.0得到的判別分析結(jié)果是有意義的。

三、研究結(jié)果與分析

驗(yàn)證了判別分析在口語能力評價(jià)研究中具備可行性后，進(jìn)一步對不同判別變量及不同樣本容量下的等級判別結(jié)果與專家評分的一致性進(jìn)行比較和分析，以考察各項(xiàng)口語能力評價(jià)指標(biāo)的效度。

（一）不同樣本容量下的判別分析結(jié)果

1.以單一維度指標(biāo)作為判別變量的判別結(jié)果

以復(fù)雜度（復(fù)雜詞比例、Guiraud指標(biāo)、每50詞AS單位數(shù)量和單元詞語數(shù)量）、準(zhǔn)確度（語音準(zhǔn)確度、詞匯準(zhǔn)確度和句法準(zhǔn)確度）和流利度（語速、發(fā)音時間比、平均語流長度和百音節(jié)更改次數(shù)）指標(biāo)作為判別變量，分別對容量為50、100、150的三組樣本進(jìn)行判別分析，共得到9個分類結(jié)果。為了更加直觀地考察口語復(fù)雜度指標(biāo)在不同樣本量下完成判別分析的效度，將判別結(jié)果進(jìn)行匯總，具體結(jié)果如表11所示。

由表11可知，當(dāng)僅以口語復(fù)雜度指標(biāo)作為判別變量時，判別的總正確率隨著樣本容量的增加呈現(xiàn)出了上升的趨勢，其中A等級和B等級樣本的判別正確率隨著樣本容量的增加而增加，而C等級樣本則完全相反，判別正確率呈現(xiàn)出下降趨勢。在50、100、150三個樣本容量下，只有C等級樣本的判別正確率均達(dá)到了 70% 及以上，判別效果較為理想。當(dāng)僅以口語準(zhǔn)確度指標(biāo)作為判別變量時，判別分析的總正確率及A ?，B，C 三個等級樣本的正確率均隨著樣本容量的增加呈現(xiàn)出先上升后下降的趨勢，在樣本容量為100時正確率最高。只有樣本容量為50、100和150時的C等級樣本，以及樣本容量為100時的A等級樣本的判別正確率達(dá)到了 70% 及以上，其余條件下樣本的判別結(jié)果均不理想。當(dāng)僅以口語流利度指標(biāo)作為判別變量時，判別分析總正確率大多隨著樣本容量的增加呈現(xiàn)出了上升的趨勢，其中A等級和C等級樣本隨著樣本容量的增加其正確率先下降后上升，相較而言，C等級樣本的正確率最高且波動較小，B等級樣本的判別正確率隨著樣本量增加而上升，但其判別效果始終不理想。

可見，以單一維度指標(biāo)作為判別變量時，增加樣本容量并不能有效提升判別分析的正確率。這表明單一維度指標(biāo)對于口語等級的判別雖有一定貢獻(xiàn)，但僅由單一維度指標(biāo)提供的信息無法有效地建立穩(wěn)定的評分（分類）模型。

2.以多維度指標(biāo)作為判別變量的判別結(jié)果

以復(fù)雜度與準(zhǔn)確度（CA），復(fù)雜度與流利度（CF），準(zhǔn)確度與流利度（AF），以及復(fù)雜度、準(zhǔn)確度與流利度（CAF四組指標(biāo)作為判別變量，分別對容量為50、100、150的三組樣本進(jìn)行判別分析，其結(jié)果如表12所示。

可以看出，以CA、CF、AF作為判別變量時，判別的總正確率隨著樣本容量的增加呈現(xiàn)上升的趨勢，在樣本容量為150時判別效果最好。當(dāng)同時以復(fù)雜度和準(zhǔn)確度指標(biāo)作為判別變量時，總正確率最高達(dá)到 76% ，A等級樣本的判別正確率隨著樣本容量的增加呈現(xiàn)出先上升后下降的趨勢，B等級樣本的判別正確率隨著樣本容量的增加而提高，C等級樣本的判別正確率變化則與A等級相反，隨著樣本容量的增加其正確率先下降而后上升。總的來看，C等級和A等級樣本的判別結(jié)果較為理想，而B等級樣本的判別效果仍有提升空間。

當(dāng)同時以口語復(fù)雜度和流利度指標(biāo)作為判別變量時，A等級樣本的判別準(zhǔn)確率隨著樣本容量的增加呈現(xiàn)出下降趨勢，B等級和C等級樣本則隨著樣本容量的增加正確率先上升后下降。相對而言，C等級樣本的判別結(jié)果較為理想，而A等級和B等級樣本的判別正確率仍有待提升。

當(dāng)同時以準(zhǔn)確度和流利度指標(biāo)作為判別變量時，判別的總正確率和各等級樣本的正確率均隨著樣本容量的增加呈現(xiàn)了上升的趨勢，在樣本容量為150時判別效果最好。總的來看，各等級樣本的判別總正確率均高于 50% ，較上述各維度的判別正確率的表現(xiàn)更加穩(wěn)定。

當(dāng)同時以口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)作為判別變量時，判別效果整體較好，三個樣本容量下的總正確率均在 70% 以上，且隨著樣本容量的增加呈現(xiàn)出上升的趨勢，在樣本容量為150時總正確率最高達(dá)到 81.3% 。其中，A等級樣本的判別正確率隨著樣本容量的增加呈現(xiàn)出先下降后上升的趨勢，B等級樣本的判別正確率隨著樣本容量的增加而提高，C等級樣本的判別正確率變化則與A等級相反，隨著樣本容量的增加其正確率先上升而后下降。總體而言，以口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)共同作為判別變量時，判別分析的總正確率和各等級判別正確率表現(xiàn)均比較理想，可以由此構(gòu)建穩(wěn)定的評分（分類）模型。

（二）判別模型的構(gòu)建

根據(jù)上述分析可知，當(dāng)樣本容量為150時由CAF多維度指標(biāo)共同作為判別變量的判別模型效果最好。據(jù)此，可以得到相應(yīng)的判別函數(shù)，用以預(yù)測考生的口語等級。Fisher線性判別分類函數(shù)系數(shù)表如下所示。

依據(jù)此表，由口語準(zhǔn)確度（A1、A2、A3）復(fù)雜度（C1、C2、C3、C4）及流利度（F1、F2、F3、F4）對應(yīng)指標(biāo)，在A、B、C三個口語等級的判別上，分別建立如下三個判別函數(shù)式：

基于上述判別函數(shù)，以每名考生的11項(xiàng)口語復(fù)雜度、準(zhǔn)確度及流利度指標(biāo)的量化數(shù)據(jù)為基礎(chǔ)可獲得相應(yīng)的判別值，其中分值最大的等級即可作為每名考生的口語能力預(yù)測級別。

（三）判別模型的效度檢驗(yàn)

為了驗(yàn)證所獲得的判別模型的預(yù)測效度，在各等級未參與分層隨機(jī)抽樣的語料中分別隨機(jī)抽取了5份語料，以15份語料作為待判樣本組，通過檢驗(yàn)其判別結(jié)果與專家評分之間的一致性，考察以口語復(fù)雜度、準(zhǔn)確度和流利度作為判別變量時對學(xué)生口語成績的預(yù)測表現(xiàn)。在SPSS25.0中運(yùn)行判別分析后得到的判別結(jié)果如表14所示。

表14中第一列為判別分析的預(yù)測結(jié)果，第二列為專家評分結(jié)果，Dis1_1和Dis2_1為Fisher判別（典則判別）函數(shù)值（綜合指標(biāo)），Dis1_2、Dis2_2、Dis3_2為Bayes判別（分類函數(shù)）中屬于各類的后驗(yàn)概率。可以發(fā)現(xiàn)，C等級中有2個樣本被誤判為B等級，B等級樣本中有1個被誤判為A等級，A等級的判別結(jié)果與專家評分一致性均達(dá)到了 100% ，總正確率達(dá)到80% ，判別效果較為理想。這些數(shù)據(jù)說明以口語復(fù)雜度、準(zhǔn)確度和流利度框架下的11項(xiàng)指標(biāo)作為判別變量的判別模型能夠有效區(qū)分被試樣本。

四、綜合討論

選取有效指標(biāo)及最佳組合是實(shí)現(xiàn)口語評分自動化的關(guān)鍵。本研究界定和采集了11項(xiàng)口語復(fù)雜度、準(zhǔn)確度和流利度評價(jià)指標(biāo)，在參加HSK（高等）口語考試的2404名韓國考生中隨機(jī)抽樣得到了50、100、150三個被試樣本，采用判別分析方法，分別在不同樣本量下依次探討了口語復(fù)雜度、準(zhǔn)確度、流利度指標(biāo)及多維度指標(biāo)，對韓國漢語學(xué)習(xí)者口語等級的區(qū)分及預(yù)測效度，在此基礎(chǔ)上建立了韓國學(xué)生口語水平評價(jià)模型，并對模型的效度進(jìn)行了驗(yàn)證。

（一）不同維度判別變量與口語評分的關(guān)系

總的來看，在口語復(fù)雜度、準(zhǔn)確度、流利度和多維度指標(biāo)等4個維度、7組判別變量的判別結(jié)果中，多維度指標(biāo)的判別效果較單一維度指標(biāo)更為理想，判別的總正確率大多在 70% 以上。相比之下，以單一維度作為判別變量時預(yù)測效果均不理想，其中口語流利度指標(biāo)的判別總正確率僅在 46%-58% 。相關(guān)研究表明，評分員在完成口語評價(jià)時更加注重口語交際任務(wù)的完成情況及交際結(jié)果，即注重交際的整體有效性，良好的內(nèi)容質(zhì)量可以在一定程度上彌補(bǔ)語言上的不足[15-16]，這可能是影響流利度判別效果的原因之一。此外，作為口語能力評價(jià)的直觀性指標(biāo)，本研究在初步篩選流利度指標(biāo)時也曾選取了發(fā)音速度、重復(fù)表達(dá)比例、修正表達(dá)比例、正確發(fā)音占比、平均C單位（剔除后）長度等指標(biāo)，但均未通過Box'M檢驗(yàn)，不滿足判別分析的適用條件。推斷在HSK考試評分過程中，評分員基于二語口語能力測驗(yàn)這一主題考慮，可能會在主觀上降低對于語音物理屬性（如語速、語音正確性）的規(guī)范性要求，進(jìn)而對部分指標(biāo)的信度和效度產(chǎn)生了一定影響。

（二）不同樣本容量對判別效果的影響

在構(gòu)建口語能力評價(jià)模型的過程中，隨著樣本量增加，考生的區(qū)別性特征能夠被更加完整地提取，對考生樣本的預(yù)測正確率也能隨之提升，增加訓(xùn)練集的樣本量能夠在一定程度上提高模型的性能。本研究中在同一組判別變量下，隨著樣本容量的不斷增加，判別分析的總正確率總體呈現(xiàn)出上升趨勢，當(dāng)樣本容量為150時總體判別正確率最高。對于各等級樣本而言，樣本容量的增加并未能使得同一組判別變量下各等級樣本的判別正確率逐漸提高，但A、B等級樣本的正確率大體上呈現(xiàn)出波動上升的趨勢，而C等級樣本在不同條件下判別結(jié)果均較為理想，樣本量增加對其判別正確率的影響并不十分明確。原因可能包括兩個方面。一方面可能是由于本研究的樣本量有限，僅選取了50、100和150三個樣本容量，未能詳盡地反映出樣本量增加時不同等級樣本的變化趨勢。另一方面可能與學(xué)習(xí)者本身有關(guān)，由于參加HSK（高等）考試的考生口語平均水平較高，A等級考生與B等級考生之間的差距相較于C等級考生與A、B等級考生之間的差距要小很多，因此C等級樣本的判別正確率相對較好，而本研究選取的C等級被試數(shù)目較少僅有60人，在抽樣中不可避免地重復(fù)出現(xiàn)在不同樣本組中，這就使得增加樣本量對于C等級樣本的作用十分有限，在一定程度上影響了不同樣本容量下C等級樣本的判別正確率變化趨勢。

（三）判別分析在口語評價(jià)研究中的應(yīng)用

根據(jù)7組判別變量的判別情況，同時以口語復(fù)雜度、準(zhǔn)確度及流利度這3個維度的11項(xiàng)指標(biāo)作為判別變量，當(dāng)樣本容量為150時判別函數(shù)的正確率最高達(dá)到 81.3% ，此時A、B、C三個等級樣本的判別正確率均在 70% 以上，判別效果較為理想。相應(yīng)地，由該條件下的分類函數(shù)系數(shù)可以構(gòu)建出韓國學(xué)生口語能力評價(jià)判別模型，經(jīng)HSK（高等）口語考試實(shí)測口語樣本檢驗(yàn)，判別模型的正確率達(dá)到了 80% 。這一結(jié)果表明，復(fù)雜詞比例、Guiraud指標(biāo)、每50詞AS單位數(shù)量、單元詞語數(shù)量、語音準(zhǔn)確度、詞匯準(zhǔn)確度、句法準(zhǔn)確度、語速、發(fā)音時間比、平均語流長度和百音節(jié)更改次數(shù)等11項(xiàng)口語CAF指標(biāo)，對口語等級具有較好的區(qū)分及預(yù)測效度，有助于口語能力評價(jià)體系的建設(shè)與完善。

五、結(jié)語

本研究以韓國漢語學(xué)習(xí)者的HSK（高等）口語考試語料為研究材料，在語料轉(zhuǎn)寫、校對和采集指標(biāo)形成自建數(shù)據(jù)庫的基礎(chǔ)上，進(jìn)行了判別分析。實(shí)證研究得到如下結(jié)論：

（一）在判別分析的過程中，隨著樣本容量的增加，判別的總正確率呈上升趨勢，且以多維度指標(biāo)作為判別變量時的判別效果較單一維度更為理想。這說明判別分析方法在口語能力評價(jià)研究中具備較高的可行性，可以較好地預(yù)測考生的口語水平。

（二）在復(fù)雜度、準(zhǔn)確度和流利度三個維度中，復(fù)雜詞比例、Guiraud指標(biāo)、每50詞AS單位數(shù)量、單元詞語數(shù)量、語音準(zhǔn)確度、詞匯準(zhǔn)確度、句法準(zhǔn)確度、語速、發(fā)音時間比、平均語流長度和百音節(jié)更改次數(shù)等11項(xiàng)指標(biāo)，對考生的口語水平具有較好的區(qū)分及預(yù)測效度。當(dāng)樣本容量為150時，以11項(xiàng)指標(biāo)作為判別變量的判別正確率最高達(dá)到 81.3% ，說明在對韓國高級漢語水平考生的二語口語水平進(jìn)行評價(jià)時，有必要多維度提取特征。

（三）根據(jù)判別結(jié)果，以11項(xiàng)評價(jià)指標(biāo)作為判別變量構(gòu)建了口語能力評價(jià)模型，經(jīng)HSK（高等）實(shí)測數(shù)據(jù)驗(yàn)證，判別模型的預(yù)測準(zhǔn)確率達(dá)到了 80% ，具有良好的預(yù)測效度。

采用判別分析法來擬合口語復(fù)雜度、準(zhǔn)確度及流利度評價(jià)指標(biāo)和專家評分的關(guān)系，從而構(gòu)建的評價(jià)模型，預(yù)測準(zhǔn)確性相對較高，能夠較好地實(shí)現(xiàn)對考生口語等級的分類，在大規(guī)模口語能力評價(jià)中具有較好的應(yīng)用潛力。由于指標(biāo)處理難度較大，本研究選取的樣本量和評價(jià)維度有限，在今后的研究中如果能夠豐富被試的母語背景、擴(kuò)大樣本量、增加指標(biāo)維度及數(shù)量，并嘗試使用更加復(fù)雜精準(zhǔn)的判別分析方法，研究結(jié)果將具有更高的價(jià)值，有助于推進(jìn)口語能力評價(jià)體系的建設(shè)及口語自動評分系統(tǒng)的完善。

參考文獻(xiàn)：

[1]王佶旻.第二語言口語考試評分方法述評[J].華文教學(xué)與研

究，2007，（1）：24-31.

[2]熊敦禮，陳玉紅，劉澤華，等.大學(xué)英語大規(guī)模錄音口語測試

研究[J].外語教學(xué)與研究，2002，（34）：283-287.

[3]Norris JM，Ortega L.Towards an Organic Approach to

Investigating CAF in Instructed SLA：The Case of Complexity [J].

[6]黃志娥，謝佳莉，荀恩東.HSK自動作文評分的特征選取研究[J].計(jì)算機(jī)工程與應(yīng)用，2014，（6）：118-122+126.

[7]湯國春.對外漢語看圖說話題自動評分模型的構(gòu)建研究[D].南京師范大學(xué)碩士學(xué)位論文，2019.

[8]陳偉，夏清泉.判別分析法及其在教育評估中的應(yīng)用[J].研究生教育研究，2010，（5）：65-67+76.

[9]柴省三.漢語水平口試信度的理論與實(shí)證研究[J].語言教學(xué)與研究，2003，（4）：69-77.

[10]柴省三.漢語作為第二語言習(xí)得的關(guān)鍵期假設(shè)研究[J].外語教學(xué)與研究，2013，（5）：692-706+799-800.

[11]Elis，R.Task-based LanguageLearningand Teaching[M].Oxforduniversity press，2003：5-16.

[12]FosterP，Tonkyn A，Wigglesworth G.Measuring SpokenLanguage：A Unit for All Reasons[J].Applied linguistics，20oO，21（3）：354-375.

[13]陳默.漢語作為第二語言的朗讀流利度和準(zhǔn)確度的實(shí)驗(yàn)研究[J].漢語應(yīng)用語言學(xué)研究，2015，（00）：123-138.

[14]陳默.漢語作為第二語言自然口語產(chǎn)出的復(fù)雜度、準(zhǔn)確度和流利度研究[J].語言教學(xué)與研究，2015，（3）：1-10.

[15]吳繼峰，趙曉娜.初中級漢語水平二語者口語產(chǎn)出質(zhì)量評估研究[J].語言文字應(yīng)用，2020，（1）：76-86.

[16]SatoT，McNamara T.WhatCountsin Second Language OralCommunication Ability？ The Perspective of Linguistic Laypersons [J].AppliedLinguistics，2019，40（6）：894-916.

A Study on the Assessment of Second Language Oral Proficiency in Chinese Based on Discriminant Analysis

Zhang Manli' Yu Jiahui2 Chai Xingsan2 1 Party School of Shenyang Municipal Committee，Shenyang，Liaoning，110167 2 Beijing Language and Culture University，Beijing，100083

Abstract：Taking HSK（higher）speaking test recordingsas the object of this study，using the consistency of thegradediscrimination results of seven sets of discriminant variables，including complexity，accuracy，fluency， and two dimensional and three-dimensional combinations of the above three types of indexes，three samples of differentcapacities compared with theratings of theexpertsare examined tosee how thevalidityof each of the speaking proficiency evaluationindicators.The results show that 11indicators，including theproportion of complex words，Guiraud's index，the number of AS units per 5O words，the number of unit words，phonological accuracy，lexical accuracy，syntacticaccuracy，speed of speech，articulation timeratio，average stream length，and the number of hundred-syllable changes，have good discriminating and predictive validity for the candidates‘oral proficiency.Itis necessary to extract features in multiple dimensions and increase the sample size when evaluating the oral proficiency of candidates learning Chinese as second language.

Key Words：Chinese Speaking Assessment，Complexity，Accuracy，F(xiàn)luency，Discriminant Analysis

（責(zé)任編輯：吳茫）