計算機自適應性漢語考試的開發

2017-06-29 11:36:45侯仁鋒今井新悟丸山浩明

海外華文教育 2017年3期

關鍵詞：計算機理論

侯仁鋒今井新悟丸山浩明

（縣立廣島大學，日本廣島7348558；筑波大學，日本茨城3058577）

計算機自適應性漢語考試的開發

侯仁鋒今井新悟丸山浩明

（縣立廣島大學，日本廣島7348558；筑波大學，日本茨城3058577）

我們正在開發一個新型考試，從使用方法和考試形式來說，可稱之基于網絡的計算機自適應性漢語考試（C－CAT：Chinese Computerized Adaptive Test）。C－CAT的最大特點是，基于項目反應理論（IRT：Item Response Theory）開發，試題自身具有絕對的尺度，計算機自動分配給最適應被試能力的試題，考試過程是一個動態性的，能在短時間內更客觀、更準確地測試出被試的能力水平。本文首先根據被試特點，論及了該考試的性格和測試內容框架。之后從理論和實踐上探討了為什么開發，其可能性何在？在此基礎上，考察了IRT和CAT在目前一些大規模漢語考試上的應用。最后，在簡約地介紹了計算機考試發展的來龍去脈的基礎上，闡述了該考試系統設計、特點、C－CAT的構成和優勢所在。

漢語考試；計算機自適應性考試；項目反應理論；研制開發

一、前言

隨著信息時代的到來，語言考試也開始了計算機在線測試，漢語考試也不例外。我們基于項目反應理論（IRT：Item Response Theory）正在研究開發的“漢語計算機自適應性考試”（C－CAT：Chinese Adaptive Test），是一種新型考試，計算機將根據考生水平自動給出適合考生能力的試題，可在短時間，以少量試題準確地測試出考生水平，可大大地提高考試效率。

這一考試系統的構建，需要三個條件，分別是計算機、網絡、以及項目反應理論。前兩者是硬件，后一項屬于理論應用，也可稱為軟件，三者缺一不可。項目反應理論本身已有50多年的歷史，高性能的計算機、高速度的網絡的出現，才使這個考試有了可能。從這個意義上說，計算機自適應性考試的研究開發和構建是時代的產物。

二、考試對象

無論什么考試，在設計之前，必須了解清楚考試對象，即生源狀態。可以說這是設計考試最重要的依據之一，關系到考試的目的。為了把握考生的情況，有必要從量和質（水平）兩方面進行調查。這里，首先我們想規定本考試的主要對象是學習漢語的日本人。當然，因為C－CAT是在線考試，所以也不能排除其他國家的漢語教育機構和漢語學習者個人利用本考試的可能性。盡管如此，我們還是以學習漢語的日本人為本考試的主要對象，是為本考試設計的前提。那么，日本的漢語學習者的現狀如何呢？下面從量和質兩個方面進行討論。

（一）考試對象的量

首先，根據漢語水平考試（HSK）的日本網站（http：／／www．hsk．jp／about／business）顯示，“日本國內學習漢語的人數一直呈上升趨勢，已突破200萬人”。這可以說是近年來漢語學習者的保有量。從這一數據看，日本可以說是世界上公認的漢語學習者最多的國家之一。

此外，根據郭（2014）的論文，“全日本大學漢語專業的學生每年不超過1000人，而選修2外漢語的學生，每年近16萬。可以說是日本學習漢語人數最多的基地。而大部分學生又都是從零基礎開始……”由此可知，日本大學生漢語學習者非常多。

同時，根據《日本新華僑報網絡版》（2015）的報道［1］，“（標題）為何日本人海外留學目的地首選中國？近年來，隨著全球化經濟形勢不斷發展，日本學生對赴海外留學關注度高漲。日本文部科學省日前公布的統計數據顯示，2012年度赴海外留學的日本學生6萬138人，較上一年增加2637人，時隔8年增加。其中，將中國作為留學目的地的日本人數最多，超過2萬1000人。”不難推斷，這些人中，漢語學習者應該不在少數，而且未來將出現高水平的學習者。

（二）考試對象的質

再來看一下漢語檢定考試（中國語検定）考生的情況。根據日本漢語檢定協會在其主頁上公布的數據顯示，5年間（2010—2014）實際考生人數如表1所示。

表1 2010—2014年考生人數

為更直觀地觀察各級別考生人數分布，按級別的累計人數做成了柱狀圖，圖一。準4級水平最低，依次遞進，1級最高。

從圖一可知，參加3級考試的考生最多，其他各級別考生人數的分布一目了然。

圖一考生級別分布

（三）考察

由上表和上圖可知，考試對象有三個特點。第一，日本漢語學習者和考生都很多，而且考生幾乎都是大學生，為該考試提供了開發前提。第二，學習者大部分都為初級或中級入門水平，為該考試系統的定位提供了依據。第三，因此本考試必須反映教學水平，試題庫中應多收納初、中級試題。

三、經典測試理論的局限性

語言測試依據的理論模型主要有兩種，一是“經典測試理論（CTT：Classical Test Theory）”，二是“項目反應理論”。兩種理論模型對現代語言測試的開發，保證質量，保證考試的信度和效度都有重要意義。如前所述，本考試的研究開發依據的是項目反應理論。為了理解項目反應理論的應用，這里有必要首先簡單介紹一下經典測試理論的應用。

目前，絕大多數的一般考試，都是依據經典測試理論設計和開發的。依據經典測試理論設計的考試，其試題的難易度和區分度是根據參加考試的所有考生的答對率算出來的。由此可知，即使是同一份試卷，考生水平高試題就顯得相對容易，而水平低試題就顯得相對難，也就是說試題本身不具有絕對的難易度。例如，100分的試卷，考生考了90分，無法判斷這90分是因為考生水平高所得，還是因為試題過于容易所得。可知，某個考生的水平是一定的，如果考生群體發生變化，該考生的成績（排名）也會隨之改變。即，經典測試理論的得分是考生群體和試題相互依賴的，不會得到一個恒定的成績，所以考試結果缺少信度。這也是經典考試理論被詬病的最大原因。為改善這一問題，便出現了項目反應理論。

四、項目反應理論的應用

相對于經典測試理論的局限性，項目反應理論旨在使考生能力與試題相對獨立，使試題的難易度和區分度等特性與考生群體相對獨立，以使試題具有恒定不變的參數（難易度）。

關于項目反應理論的論文和研究成果有很多，需要詳細參考的可自行查閱。這里，我們僅從在考試中的應用角度，引用今井（2012：157）的研究進行簡單介紹：

“項目反應理論使用的是邏輯回歸得分，從而使經典測試理論不可能做到的試題等化成為了可能。因此，可以對每個人的整體試卷的難易度都會進行自動調節，算出不變的成績（得分）。這樣就消除了考生群體變化所造成的成績變化。此外，根據項目反應理論，能力值在理論上是無限的，但在實際考試中，能力值一般會收斂在某個范圍之內，因此可以將能力值轉換成百分制，便于理解。由此，該考試可以做到無論是誰、在任何時間參加考試，不管考幾次，都會隨機配置一套最適合該考生能力的試題，而得到不會發生變化的分數，保證了得分的可信度，也就是保證了考試的穩定性。因此也就可以做到考生和考生，自己和自己（在一定的間隔時間內）進行比較。”本考試系統也是如此應用項目反應理論進行研究開發和構建。

五、何謂計算機自適應性考試

考試如果按照使用媒介分類，可以分成二大類。一是Pencil＆Paper Test（PPT）式的考試，另一種是使用計算機作為終端的考試。后者又分為Computer Based Testing（CBT）和Computerized Adaptive Test（CAT）兩種方式。最初的計算機考試只是單純地將PPT式考試計算機化，進而發展出只有靠計算機才能實現的命題形式和考試形式。在此基礎上，CBT繼續發展，而出現了Computerized Adaptive Test（CAT）。

計算機測試從CBT發端，通過引入前文所述的IRT，經過預測，事先給試題賦予難易度和區分度等參數成為了可能。在CAT中，將導入試題庫的這種試題，根據考生答題情況，會隨機給出不同難易度的試題。為了更好地理解這個原理，這里我們以所有人都經歷過的視力檢查為例進行說明。視力檢查時，檢查者會給出一個比較大的文字或圓環，詢問被檢查者是否能夠看到文字或圓環缺口，根據被檢查者的回答，檢查者會給出下面的文字或圓環，或大或小。這正與答題情況相仿，答對了會給相對難一些的試題，答錯了會給相對容易一些的試題。CAT的這種測試方式，可大大地縮短考試時間，也能提高考試精度。這里可以看到，雖然每個考生的試題都是動態的，但由于基于項目反應理論對試題的難易度進行了等化，因此保證了得分的不變性和可信性。

六、大型漢語考試概觀

為了了解IRT和CAT在漢語考試中的運用情況，我們對目前現行的幾個大型漢語考試進行了分析，應用情況如下。

目前，在日本舉行的大型漢語考試主要有漢語檢定考試（中國語検定）、漢語交際能力考試檢定（TECC）、漢語水平考試（HSK）、實用漢語等級認定考試（C．TEST）等。前兩個是日本開發的，后兩個是中國開發的。

（一）漢語檢定考試（中國語検定）

該考試是一般財團法人日本漢語檢定協會開發實施的。從考試設計、級別劃分，到使用紙質試卷和原始分等，可以看出是典型的基于經典測試理論開發的考試。

（二）漢語交際能力檢定（TECC：Test of Communicative Chinese）

最佳反應溫度窗口內停留時間指還原劑在爐膛適合溫度區間停留時間。增加停留時間能夠使傳質過程和化學反應比較充分，可以提高NOx的脫除率。

這個考試最大的特點之一，就是如其主頁上公布的“TECC的分數是基于項目反應理論算出的”。可見只是分數計算應用了項目反應理論，但考試本身不是計算機自適應性考試。因為計算機自適應性考試是根據考生對每道試題的回答來決定出下一道試題，紙質試卷無法做到這種動態考試。

（三）漢語水平考試（HSK：hanyushuipingkaoshi）

在數種漢語考試中，HSK是世界漢語教學中知名度最廣的。據其日本實施委員會運營的網站說明，該考試的特征是“聽力、閱讀、寫作分別記分。分數的計算運用了TOEIC等歐美考試廣泛應用的項目反應理論”。可見，這個考試也是基于項目反應理論算出分數的。雖然該考試也有CBT形式，但從考試實施形態看，仍然不是計算機自適應性考試。

（四）實用漢語水平認定考試（C．TEST：Test of Practical Chinese）

C．TEST是北京語言大學漢語考試研究中心開發的一個考試，其目的是供非留學為目的的學習者測試漢語水平。該考試劃分多個等級，報分詳細，考生可以很詳細地了解自己的水平，得分算法是否依據了項目反應理論尚不可知。此外，該考試不是CBT，也不是自適應性考試。

從上述概況可知，漢語考試還沒有一個真正意義上的計算機自適應性考試。但據了解，日本有個別大學開發了這種小規模的考試。鑒于這種現狀，我們正在研究開發可以測試通用漢語水平的CAT考試系統。

七、其它語言測試的開發與實踐

（一）TOEFL

TOEFL是世界上最知名的考試之一，由美國最大的考試實施團隊Educational Testing Service（ETS）開發，該考試曾在一段時間內使用過CAT，但隨著新考試形式TOEFL－iBT的出現而放棄了使用。TOEFL－iBT是CBT而非CAT。此外，使用CAT的英語考試還有“GMAT MBA標準考試”、“CASEC日語母語者英語考試”等。

該考試名稱為“J－CAT（Japanese Computerized Adaptive Test）日語計算機自適應性考試”，是測試非日語母語者日語能力的考試，是在線運行的CAT。經過近10年的運行，系統穩定，考生眾多，與其他考試相關性也很高。因此，我們開發的漢語CAT考試也主要使用了該系統，并作了一些改進。

八、C－CAT概要

C－CAT由系統和試題庫兩大部分組成，系統基本利用了J－CAT系統，在該系統上搭載了漢語試題庫而構成。

（一）采用模型

首先由專家出題，然后進行預測。使用考生答題數據，對每道試題基于項目反應理論計算出難易度參數。項目反應理論有使用一個參數的單參數模型，二個參數的雙參數模型，三個參數的三參數模型，C－CAT采用的是單參數模型（Rasch Model）。這也是歐洲和澳洲標準的參數模型［2］，有很好的實用性［3］。

（二）測試領域和對象

C－CAT是使用計算機，經由網絡，測試漢語熟練程度的考試。只要計算機在線，無論何時何地均能免費參加考試。考試由聽力、詞匯、語法、閱讀4部分組成，答題形式是標準的四選一題型。

C－CAT是測試一般性漢語能力的考試，而非測試特殊目的的漢語能力考試。

考試對象是日本國內外漢語學習者。學習者可以通過個人注冊，參加考試了解自己的漢語水平，過一段時間（推薦6個月以上）再次參加考試，可以確認自身漢語能力提高情況。當然，大學等教育機構、公司等團體也可以像一般考試那樣利用本考試。

聽力、詞匯、語法、閱讀各單元滿分是100分，合計400分。考試結束直接顯示成績。提供成績證書，可下載保存或直接打印。考試不分級別，無論什么水平都能同樣參加考試，因此無需預先決定參加哪一級考試。系統會根據考生漢語水平，自動給出不同的試題。

（三）C－CAT的機制

在線C－CAT系統，首先服務器從試題庫中選出幾道試題，經由網絡發送到考生的計算機終端，考生看著屏幕進行解答。答題結果再經由網絡傳回，服務器基于項目反應理論對考生的解答進行運算，推測出考生的初次能力值。之后，從試題庫中檢索出難易度最符合該能力考生的試題，再次發送到考生終端。如此反復，當能力值誤差收斂到一定范圍內時，考試結束，便確定了其最終能力值。

下面是自適應性考試給出試題和推測能力值變化關系的示意圖。○表示回答正確，×表示回答錯誤。回答正確會再出稍微難一點兒的試題，回答錯誤會出稍微簡單的試題，這樣反復下去，誤差漸漸縮小，難易度的變化也漸漸減小，最終能力值收斂到一定（設定）范圍。

圖二自適應性考試給出試題和能力值收斂關系示意圖（引自今井（2012：8））

當考生作答了相當數量的試題后，因為某種原因而誤差沒有減小到標準值以內，此時，只要回答的試題超過一定（設定）數量，考試也會結束。

以上一系列流程均自動運行，且系統是根據不同考生給出相應的試題，因此被稱為自適應性考試。

九、結語

C－CAT是在線計算機自適應性考試，以漢語學習者為對象，不受時間地點限制，可以隨時參加考試。主要具有以下優點：

（1）考試基于項目反應理論設計，實現了不依賴考生群體的恒定的測試尺度，有較高的信度。

（2）由于使用了計算機開發試題和考試，能命制出紙質考試無法實現的試題以及實現動態性考試，可提高考試的真實性（authenticity）。

（3）系統根據考生答題情況而給出最適合該考生的試題，考試針對性強，能提高考試效率，縮短考試時間，并且能提高考試精度。

（4）考試結束，即時顯示考試成績。

（5）免去使用大量紙張，堪稱環保考試。

注釋：

［1］源自《日本新華僑報網》（網絡版作者：郭桂玲發布時：2015／04／09）http：／／www．jnocnews．jp／news／show．aspx？id＝80632

［2］“為了解決這個問題，丹麥數學家Rasch，G．提出了一個解決模型，這就是將考生能力值和試題難度分別獨立，不相互依賴。其后，以芝加哥大學Wright，B．氏為中心，對該模型進行了研究與普及推廣，在歐洲和澳洲被視為標準的語言測試分析模型。”（李在鎬2015：219）。

［3］“三個模型各有特點：雙參數模型在推算準確性上見長，三參數模型在獲得信息量上見長，而單參數模型則在‘實用性’上見長（大友賢二1991：2）。單參數模型也使用開發者的名字稱為Rasch Model模型，在采樣標本較少（100－200）時可用且有效（大友賢二1991：2），這個模型在選題時必須剔除掉區別度底的試題，才能發揮出其＇實用性＇的優勢。在語言測試研究中，這一參數模型使用的最多。”（石田敏子《日語測試入門》大修館書店1992：216）。

大友賢二：《項目反應理論－TOEFL？TOEIC的機制－》，《電子信息通信學會雜志》，2009年第12期。

今井新悟編著，赤木彌生、中園博美：《J－CAT正式指南計算機自動評分日語考試》，東京：COCO出版，2012年。

菊池賢一、今井新悟、中村洋一、平村健勝：《關于日語計算機自適應性考試J－CAT》，《日本行動計量學會第38屆大會抄錄集》，2010年。

李在鎬：《日語教育用語言測試指南》，東京：kuroshio出版，2015年。

石田敏子：《日語測試入門》，東京：大修館書店，1992年。

小山由紀江：《測試的歷史變遷與計算機自適應性測試的意義》，《New Directions》，2010年。

The Development of Chinese Computerized Adaptive Test

HOU Renfeng＆Imai Shingo＆Maruyama Hiroaki
（Prefectural University of Hiroshima，Hiroshima 7348558 Japan；University of Tuskuba，ibaraki3058577 Japan）

We are developing a new type of test，which is called Chinese Computerized Adaptive Test（C－CAT）due to themethods and forms that it uses．The advantages of C－CAT are distinct and overwhelming．Based on the Item Response Theory（IRT），C－CAT can perform as a perfectmeasure，with computer automatically allocating test itemswhich is in compliance with the examinee’s level．It has a dynamic testing process and can estimate objectively and accurately the ability of the examinee in a short time．This paper discusses features and content framework of the test according to the characteristics of the subject，and then explores，theoretically and practically，the reasons and possibility of the development of C－CAT．On this basis，the survey is carried out on the current application of IRT and CAT in some largescale Chinese tests．Finally，the paper introduces briefly the development of the computer－based test and illustrates the design，characteristics，C－CAT structure and advantages of the test system．

Chinese tests；Computerized Adaptive Test；Item Response Theory；Development

H195

2221-9056（2017）03-0362-07

10．14095／j．cnki．oce．2017．03．009

2017-01-15

侯仁鋒，縣立廣島大學教授，語言學研究生，研究方向為漢語教學、語言測試。Email：hourenfeng＠gmail．com

今井新悟，筑波大學教授，語言學博士，研究方向為日語教育、計算機自適應性考試。Email：imai．shingo＠gmail．com

丸山浩明，縣立廣島大學教授，文學博士，研究方向為漢語教學、明清小說。Email：maruyama＠pu－hiroshima．ac．jp

本文系日本國家科研基金項目，課題：計算機自適應性漢語考試的開發與驗證。該文為研究的部分成果。（本稿は、科學研究助成金基盤研究（B）（研究課題：コンピュ一タ適応型中國語テストの開発と検証、課題番號15H03225）による研究成果の一部である。）

計算機自適應性漢語考試的開發

一、前 言

二、考試對象

三、經典測試理論的局限性

四、項目反應理論的應用

五、何謂計算機自適應性考試

六、大型漢語考試概觀

七、其它語言測試的開發與實踐

八、C－CAT概要

九、結 語

一、前言

九、結語