圖形推理測量指標相關性考察*

2018-08-24 01:22:30杜國平

江淮論壇 2018年4期

關鍵詞：能力

杜國平

（中國社會科學院哲學研究所，北京 100732）

圖形推理在測量學上的理論來源主要是文化公平性的要求。一般的借助特定語言表達的測試，對于不同的測試者而言，以該語言為母語和非母語的測試者由于受不同文化背景的影響，往往不能公平地測試出被試實際的能力水平，尤其是不能準確體現兩者之間實際的能力差異。例如，使用一套英語的GRE測試題來比較中、英學生的一般學業能力，對于漢語考生不夠公平；使用一套日語的寫作試題來比較日、俄學生的語言表達能力，對于俄語考生不夠公平。為了能夠在不同文化間公平地測試被試的能力水平并進行比較研究，人們提出了文化公平測驗的概念，圖形推理是其中一種非常重要的測試形式。圖形推理在測量學上的另一個理論來源是非言語智力測驗，它可以測量有語言障礙的被試的智力水平，并進行相關比較研究。

目前，國際上的文化公平和非言語測驗中使用圖形推理的測驗主要有：（1）瑞文推理測驗；（2）文化公平智力測驗；（3）矩陣類比測驗；（4）古德依諾-哈里斯畫人測驗；（5）納格利爾里非言語能力測驗。

由于圖形推理具有很好的非言語性和文化公平的特點，目前在一般的能力測驗中也被廣泛使用。在我國的公務員招錄考試行政職業能力測驗、事業單位職業能力傾向測驗以及各類企業招聘考試中都安排有圖形推理模塊的測試。隨著圖形推理在各類測驗中的廣泛應用，亟待加強圖形推理測驗科學的研究，以便圖形推理這種測試形式能夠公平、公正、準確地測量出被試的相關推理能力。

本文的核心問題是，在圖形推理測試題的命制過程中如何提高測量的區分度，以達到區別被試的推理能力，從而實現有效選拔的目的。

一、測試及抽樣的基本情況

推理可以分為演繹推理和非演繹推理（主要有歸納推理和類比推理），相應地，推理能力也可以分為演繹推理能力和非演繹推理能力。隨之而來的一個問題就是，試題測量的區分度和試題的類型（演繹推理題型和非演繹推理題型）是否相關？或者說，不同題型之間區分度是否存在差異？另外一個值得探究的問題是：圖形推理測試題的難度和區分度之間是否存在相關性？如果存在相關性，它們是如何相關的？

為此，我們借用了某省行測試題作為3種類型的測試題。一種是演繹推理能力測試題，一種是歸納推理能力測試題，還有一種是綜合推理能力測試題。

演繹推理能力測試題的具體測試形式是：

題型Ⅰ 左邊給定的是紙盒外表面的展開圖，右邊哪一項能由它折疊而成？請把它找出來。

該題型的左邊實際上給定了推理的前提條件，即4個面上的不同圖案和4個面之間的位置關系；題目要求實際上相當于給出了推理的規則，即空間變換的規則；答案實際上是推理的結論。根據推理的前提條件和推理規則，其答案是精確的、唯一確定的。所以，該題型考察的是被試的演繹推理能力。

歸納推理能力測試題的具體測試形式是：

題型Ⅱ 每道題的題干給出一套圖形，其中包括5個圖，這5個圖呈現一定的規律性。選項給出一套圖形，其中有4個圖，請從中選出唯一的一項作為保持題干5個圖規律性的第6個圖。

該題型主要測試的是被試的歸納推理能力。圖形主要是由點、線、面構成的，要求考生通過觀察左邊題干中的圖形在點、線、面等方面的共同性和差異性，探尋其中的規律。該題左邊5個圖形中的封閉區域數分別是 7、6、5、4、3 ，按此規律，第 6 個圖中的封閉區域個數應該是2，答案為C。該題考察的是被試運用共變法探求規律的歸納推理能力。

綜合推理能力測試題的具體測試形式是：

題型Ⅲ 右邊四個圖形中，只有一個是由左邊的四個圖形拼合（只能通過上、下、左、右平移）而成的，請把它找出來。

該題型需要觀察左邊4個圖，特別是其中最大的圖與右邊圖形類比，找出兩者之間的相同之處，涉及類比推理；還需要拼合左邊4個圖，得出和右邊完全一致的圖形，涉及演繹推理。所以，該題考察的是被試的綜合推理能力。

我們共設計了30道圖形推理題，其中題型Ⅰ共15題，題型Ⅱ共9題，題型Ⅲ共6題。為了提高測試精度，獲得盡可能全面的測量數據，我們選取了3個不同文化層次的被試各二千余人。其中第一個層次是優秀的大學本科生，第二個層次是一般的大學本科生，第三個層次是一般的大專生。30道題分為A、B、C三組，每組含題型Ⅰ共5題（第6至10題），題型Ⅱ共3題（第 1至3題），題型Ⅲ共2題（第4、5題）。A組題的被試是優秀的大學本科生，B組題的被試是一般的大學本科生，C組題的被試是一般的大專生。

每組10題作為一個模塊，分別安排進一個能力傾向測試（共120題，包括數學運算、邏輯推理、語言理解與表達）中，測試數據如下：

表1 A組試題的測試數據

表2 B組試題的測試數據

表3 C組試題的測試數據

二、測試數據分析

1.題型與區分度的相關性分析

三組圖形推理共30道題的總體區分度平均是0.261，其中A組題平均為0.253，B組題平均為0.245，C組題平均為0.284，三組之間差異性不大。三種題型中，題型Ⅱ共9題平均區分度為0.234，題型Ⅲ共6題平均區分度為0.245，題型Ⅰ共15題平均區分度為0.283。由此可見，圖形推理中題型Ⅰ平均區分度大于題型Ⅲ，而題型Ⅲ的平均區分度大于題型Ⅱ。這可能與題型Ⅰ、題型Ⅲ答案的確定性、唯一性有關，而題型Ⅱ往往沒有嚴格的唯一確定的答案，其答案具有一定的模糊性。這從一定程度上說明，不同題型之間區分度是存在差異的。

30道題的總體難度是0.544，其中A組題難度為 0.526，B組題難度為 0.497，C組題難度為0.608；題型Ⅱ的9題難度為0.505，題型Ⅲ的6題難度為0.633，題型Ⅰ的15題難度為0.514。

30道題的總體標準差平均是0.577，其中A組平均為0.576，B組平均為0.583，C組平均為0.571；題型Ⅱ的9題平均為0.583，題型Ⅲ的6題平均為0.555，題型Ⅰ的15題平均為0.582。

2.難度與區分度的相關性分析

在選拔性考試中，區分度是衡量一個圖形推理題的重要質量指標。除了題型之間區分度存在差異性之外，區分度還和哪些因素相關？下面以上述三組圖形推理測試數據為根據來分析區分度和難度之間的相關性。相對而言，在實際命題中，難度比區分度容易判斷。

30道題難度和區分度之間的二維散點圖：

通過二階多項式趨勢線可以看出，難度和區分度之間存在如下關系：當難度低的時候區分度也較低，隨著難度的提升其區分度也隨之提高，但是達到一定難度之后，隨著難度的提高，區分度反而會逐漸下降。難度在0.57左右的時候區分度最好。

30道題難度和區分度之間的相關系數r=0.314，相關性并不高。如果以難度 0.57 為界（在上述難度序列中，處于0.568和0.579之間），難度低于0.57的前18道題，其難度和區分度之間的相關系數r=0.738，具有較高的正相關性；難度高于0.57的12道題，其難度和區分度之間的相關系數r=-0.436，具有一定的負相關性。這也進一步驗證了上述對二維散點圖的有關分析。

題型Ⅲ的9道題難度和區分度之間的二維散點圖如下：

通過二階多項式趨勢線可以看出，難度和區分度之間也存在類似的關系。難度在0.59左右的時候區分度最好。

題型Ⅱ的9道題難度和區分度之間的相關系數r=0.496，相關性不高。如果以難度0.59為界（在上述難度序列中，處于0.568和0.594之間），難度低于0.59的前7道題，其難度和區分度之間的相關系數r=0.708，具有較高的正相關性。

題型Ⅰ的15道題難度和區分度之間的二維散點圖如下：

通過二階多項式趨勢線可以看出，難度和區分度之間也存在類似的關系。難度在0.65左右的時候區分度最好。

題型Ⅰ的15道題難度和區分度之間的相關系數r=0.658，有正相關性。如果以難度0.65為界（在上述難度序列中，處于0.651和0.767之間），難度高于0.65的前14道題，其難度和區分度之間的相關系數r=0.888，具有較高的正相關性。

題型Ⅲ的6道題難度和區分度之間的二維散點圖如下：

題型Ⅲ的6道題難度和區分度的相關性存在和上述兩種題型相類似的情況，由于題量較少，不再做進一步分析。

3.難度與標準差的相關性分析

30道圖形推理題難度和標準差之間的二維散點圖如下：

通過二階多項式趨勢線可以看出，難度和標準差之間存在如下關系：當難度低的時候，標準差也較低；隨著難度的提升，標準差也隨之提高；達到一定難度之后，隨著難度的提高，標準差又逐漸下降。難度在0.52左右的時候標準差最大。

30道題難度和標準差之間的相關系數r=-0.371，整體呈現一定程度的負相關性。但是如果我們以難度0.52為界（在上述難度序列中，處于0.512和0.534之間），難度低于0.52的前14道題，難度和區分度之間的相關系數r=0.950，具有很高的正相關性；難度高于0.52的16道題，難度和區分度之間的相關系數r=-0.975，具有很高的負相關性。這也進一步驗證了上述對二維散點圖的有關分析。

三、結論

通過上述分析，可以得出如下幾點啟示：

1.答案唯一確定的圖形推理題型，測試效果較好。這要求在命題中，題目的答案應盡可能精確，無歧義。

2.圖形推理題型的難度和區分度之間存在一定的相關性，不同題型的最大相關點不同。題型Ⅱ的最大相關點在難度0.59左右，題型Ⅰ的最大相關點在難度0.65左右，題型Ⅲ的最大相關點在難度0.60左右。在實際命題中，可以通過控制題目的難度來提高題目的區分度。

3.圖形推理題型的難度和標準差之間存在相關性。以難度0.52為界，當難度低于0.52時，呈現很高的正相關性；當難度高于0.52時，呈現很高的負相關性。

注釋：

（1）之所以3種題型的題量不一樣，是為了兼顧實際測試的需要。但是因為研究所分析的數據是測量的平均指標，所以對研究結論的影響不大。