閱讀測試一直是各級各類語言能力測試的重要組成部分,其一般形式是:受試者在規定的時間內閱讀若干書面文字材料,并完成依據該文字材料編制的若干試題。這就意味著閱讀材料是影響閱讀測試效度的因素之一,閱讀測試題的編制者在選擇閱讀材料時往往會遵循一些基本的原則,以使測試更為有效。本文試從效度這個視角,以中外閱讀測試實踐為例,來對閱讀測試中閱讀材料的選擇問題做一些粗淺的探討。雖然當前學界傾向于將效度作為一個整體概念來認識,但是出于論述的需要,本文還是細分了三類效度:表面效度、內容效度和結構效度。
一、閱讀測試材料與測試的表面效度
“表面效度是指測驗在表面上使被試直覺感到的有效性程度。假如一個測驗使被試從表面上看來,它能夠測量出欲測量的屬性,則認為該測驗具有表面效度。”具體到閱讀測試而言,閱讀材料的長度以及難度常常成為影響表面效度的關鍵因素。
1 閱讀材料的長度問題。閱讀測試要想取得較高的表面效度,閱讀材料的長度應該適中,那些過長的材料會使多數受試者無法完成測試,而過短的材料則讓受試者覺得測試太容易。一般而言,人們認為閱讀能力的高低也決定著閱讀速度的快慢,所以在閱讀測試中,測試的編制者傾向于為高年級的學生選擇更長的閱讀材料。我們知道語文課程標準中對各學段學生的閱讀速度有比較明確的要求,其中對第四學段的要求是“閱讀一般的現代文每分鐘不少于500字”。但是,需要注意的是,閱讀材料的適宜長度并非時間和速度的簡單乘積。因為受試者在閱讀較長的文章時,出于維持整體感和尋找目標信息的需要,其回視的次數也會增加。還有,不同類型的材料,所需要的閱讀時間也是不同的。所以,閱讀材料的長度問題涉及很多因素,并不存在一個嚴格的字數標準。從閱讀測試實踐來看,測試編制者在選擇材料時,會考慮長度問題,但主要的措施是確定一個大致的范圍。相關統計表明:近年來中考語文的閱讀測試,有90%以上的試卷選擇了2篇或者3篇閱讀材料,其中文學類的閱讀材料字數多在1100字左右,而說明、議論類的材料字數多在600~1000之間。美國NAEP(NationalAssessment of Educational Proclress) 對于閱讀材料的長度有比較明確的說明,其中四年級為250~800字,八年級為400~1000字,十二年級則為500~1500字。如果單純從長度方面考慮,中美閱讀測試材料的選擇可以說是大體一致的,這也是多年測試經驗積累的結果,筆者認為可以作為一般的參照標準。
2 閱讀材料的難度問題。與閱讀材料的長短相比,測試的編制者們更為關心的是閱讀材料的難度問題,他們對閱讀材料長度的考慮往往是與難度結合在一起的。這個問題比較復雜,因為有多種因素影響著閱讀材料的難度,而且難度是一個相對的概念。當然,這并不意味著難度是完全無法控制的。
首先,閱讀材料的難度與閱讀材料語言本身的可讀性密切相關。可讀性是指對具有一定技能水平的讀者閱讀一篇論文或文章時困難程度的評價,現在許多國家會采用專業的公式來測量閱讀材料的可讀性,比如在英語國家廣泛采用的Flesh公式。該公式的計算方法是:閱讀難易指數=206.835-(0.864×SYLL/100W)-(1.015×WDS/sEN),其中WDS/SEN是指每句中的平均詞數,SYLL/100W是指每100個詞的平均音節數。此類公式所測出的可讀性,往往作為英語閱讀測試中閱讀材料難度選擇的重要參考標準。雖然現在還沒有衡量漢語閱讀材料可讀性的成熟公式,但是從普遍的經驗來看,國內目前對漢語閱讀材料可讀性的研究,主要關注的也是句子的測度和詞匯的測度。句子的測度主要是測量句子的復雜性,一般認為句子越長,結構越復雜,其可讀性也就越低。詞匯的測度包括詞匯的難度和復雜性,通常用的指標包括材料中常用詞和非常用詞的比例等。正是出于可讀性的考慮,測試的編制者在選擇閱讀材料時,會盡量避免生難的詞匯和繁復的句式對受試者的閱讀造成不必要的障礙。比如,對一些比較重要的生難詞匯,中考閱讀測試中往往會給予注釋,或者使用相對簡單的同義詞匯進行替換。
其次,閱讀材料的難度與文本意義的復雜性,以及讀者相關背景知識的掌握程度也密不可分。有些閱讀材料在詞匯、句式等方面可能并沒有什么難度,但是,如果其內容比較復雜,或者具有濃厚的專業色彩,中學生閱讀起來也會相當困難。在多數情況下,測試的編制者會依靠直覺和經驗來采取一些措施,控制閱讀材料在內容上的難度。常用的策略如下:
一是關注受試者的背景知識。如果在閱讀材料中出現過于深奧的道理或者過多的專業知識,測試的編制者就需要評估這些因素在多大程度上會對受試者的閱讀理解造成干擾。如果有些背景知識很重要。而大多數的受試者卻并不具備,那么該閱讀材料的難度顯然超出了受試者的接受范圍。二是控制所選擇閱讀材料的題材范圍。例如,中考現代文閱讀測試中所選擇的閱讀材料,多數是與中學生的生活環境或者思維特性相關的,比如情感經歷、社會熱點、自然世界等。美國NAEP閱讀測試對選擇閱讀材料的標準有明確的說明,他們不僅強調材料的主題、語言要適合考生,還將考生的興趣及知識背景納入考慮。
值得注意的是,在實際生活中。專門為中學生創作的文章并不多,能切合測試編選標準的更為稀少。所以,測試的編制者往往會面臨強為“無米之炊”的尷尬。比如,中考的說明文往往會涉及生物、醫藥、信息技術等專業領域,其中有些文章包含較多的專業術語和科學原理。這些閱讀材料常常會引起抱怨,考生會認為這些材料的內容過難,似乎不是在考語文,而是在考物理、生物等學科的專業知識。要解決這個問題,除了測試編制者的努力之外,似乎也需要科普作家的參與。除了排除較難的材料之外,控制閱讀材料的難度,實際上也意味著不能出現過于簡單的材料。閱讀材料不應是受試者熟悉的材料,曾經學習過的材料就更不適合了。前些年,中考語文試卷中還會選擇教科書中的文章,這很難說是測試閱讀能力還是記憶能力了。
需要指出的是,無論是閱讀材料的長度還是難度,都是從受試者的角度而言的。這就意味著,要做到使閱讀測試具有表面效度,實際上最基礎的工作是對受試者的閱讀心理和行為特征進行深入研究,其中尤為重要的是對篇章閱讀的研究。在過去,研究者比較強調篇章中的詞匯因素,因而控制詞匯成為控制閱讀難度的主要方法。隨著認知心理學的發展,用圖式理論來說明閱讀理解過程成為研究閱讀理解的主流。圖式理論關于篇章閱讀的一系列觀點,也許可以為我們當前控制閱讀難度提供新的思路。
二、閱讀測試材料與測試的內容效度
“所謂內容效度就是指測驗內容對所要測量的內容的代表性程度。這種代表性表現為測驗的內容范圍、材料與所要測量的內容范圍、教育目標是否相符,測驗中測題所引起的行為是不是所要測量的屬性的明確反應,測驗的結果是不是一個具有代表性的行為樣本,等等。”就閱讀測試而言,測試不可能讓受試者閱讀所有的文本,只能通過選擇一些閱讀材料進行命題,從而對他們整體的閱讀能力進行推斷。所以,較好的效度意味著測試中所選擇的閱讀材料要具有一定的代表性。
閱讀測試材料是否能夠成為代表,首先取決于這些閱讀材料是否具有真實性。所謂真實,是指受試者在測試中的閱讀和實際閱讀情境中的閱讀具有最大程度的相似性,否則閱讀測試就無法反映受試者實際的閱讀能力。也就是說,閱讀測試的編制者在選擇閱讀材料的時候,需要考慮用來測試閱讀能力的這些文本,是不是受試者在真實的閱讀中所遇到的文本形式。從中考閱讀測試來看,閱讀材料多來源于近幾年的報刊。尤其是《讀者》之類的文摘類雜志。還有一些出自作家的作品集。這些材料一般都保持原文面貌,不會做大的改動。同樣,NAEP也強調閱讀材料應該是學生日常所讀的普通文本,只會對其中個別生僻或者復雜的字詞做些改動,不會采用經過簡化、改編或者刪節的材料。
其次,選擇的閱讀材料要多樣化。在真實的閱讀情境中,讀者會遇到各種題材和體裁的文章。在閱讀測試中,閱讀材料不應該只是單一的文本類型。這里討論的多樣性。顯然只能是一個相對的概念,畢竟這些材料是測試編制者主觀選擇的結果,他們會基于測試目的及測量指標的要求,篩選出相應的文本類型。至于文本類型的劃分,可以有不同的維度。比如PISA(Programme for InternationalStudent Assessment)閱讀材料的選擇,考慮了四個題材變量,包括用于私人使用的閱讀活動、用于公眾使用的閱讀活動、用于工作使用的閱讀活動,以及用于教育使用的閱讀活動。NAEP則區分了三種閱讀情境:為了獲取文學體驗、為了獲取信息、為了完成任務。不同閱讀情境對應的文本類型也不同,文學體驗類文本包括小說、故事、詩歌、戲劇、傳記等;信息類文本則是指雜志、報紙、教科書、講演材料等;任務類文本則包括列車時刻表、維修指南、游戲指南、課程表、地圖等。PISA關注被試是否具有基本的閱讀素養,作為將來參與社會生活的基礎,所以其文本類型的劃分考慮到了被試所充當的社會角色;而NAEP更為關注被試作為一個普通讀者在日常閱讀中的能力表現,所以其文本類型的劃分淡化了讀者的社會角色,而采取了閱讀的日常功用這個角度。相形之下,國內中考的現代文閱讀測試更為關注被試在教育領域內的表現,其文本類型重視和實際語文教學的接軌,主要還是基于一般意義上的教學文體劃分標準。雖然各地試卷所選擇的現代文閱讀材料類型不盡相同,但總體來說,散文類或者小說類的文學作品占據了閱讀材料的半壁江山。除此之外,試卷中出現較多的就是說明文以及議論性文章。有統計表明:在2007年的各地中考語文試卷中,文學作品在現代文閱讀材料中所占比例為45.7%,說明文占了31%,議論文占了23.3%。生活中常見的一些文體類型,諸如新聞報道、說明書、會議通知、廣告、地圖、時刻表等,因為不是傳統閱讀教學的主要內容,所以很少作為閱讀測試的材料。
如果從效度的角度看,無論是NAEP還是中考,對內容效度的追求是一致的,因而兩者閱讀材料分類的差異,實質是對測試內容的理解差異。這種差異也體現在學校課程層面,因為閱讀測試無論是要實現診斷功能還是選拔功能,測量內容都必然與閱讀教學實踐相適應。正是基于這個原因,中考閱讀測試對文本類型的區分,基本因襲了傳統語文教學關于文體的認識框架。與此類似的是,上述NAEP所涉及的文本類型,在美國的閱讀教學中也有體現。以俄亥俄州克利夫蘭市的英語課程說明為例,其閱讀教學目標具體分為針對小說或非小說類文章、一般性或功能性文章等不同類型文本的閱讀要求。我們不難在兩者之間看到某種隱含的分類標準:文本的文學體驗價值及功能性。
三、閱讀測試材料與測試的結構效度
“所謂結構效度是指測驗對于人的假設屬性或理論概念測量到的程度。”具體到閱讀測試而言。就是測試項目對編制該測試所依據的閱讀能力理論的各個基本方面的反映程度。結構效度的本質要求是,閱讀測試應該建立在一種明晰的閱讀能力結構理論基礎之上,并以該閱讀能力框架為標準來選擇恰當的閱讀材料。一般的測試研究者更為關注閱讀題目設計與閱讀能力考查之間的關系,而容易忽略這樣一個事實:測試編制者所持有的閱讀能力觀念。實際上對閱讀材料的選擇也具有重要影響。我們都知道閱讀測試的目的是測試語文閱讀能力,可是“閱讀能力”卻并不是個不言自明的概念,一種閱讀測試必然體現了某種對閱讀活動過程以及閱讀能力的特定理解,而這種理解也決定了某些閱讀材料更適合用來進行測試。
當前國內關于閱讀能力結構的觀點有很多,其中大多是對閱讀經驗的系統化解釋,大體都傾向于認為閱讀是“認讀—理解—鑒賞—應用”的過程。比如曾祥芹等人認為,在基礎教育階段,閱讀能力目標可以分為以下五個層級:
①認讀能力:認識漢字、積累詞語、了解文字所表示的意義。
②解讀能力:理解句子、段落的意義和聯系。理解全篇主旨,體會作者感情。
③賞讀能力:欣賞課文優美、精辟的語句,欣賞文章的內容和形式,欣賞文學作品的形象和描寫,鑒賞其語言和技巧。
④評讀能力:對課文的內容、語言和寫法提出自己的看法或疑問,得出自己的見解。
⑤應用能力:在說話或寫作中直接引用讀物的原句,闡述或發揮讀物的觀點,借鑒讀物的形式,或運用讀物的方法解決問題。
如果要有效地考查這些閱讀能力,一般的閱讀測試編制者會對閱讀材料進行精心選擇,也就是看閱讀材料有沒有這些“命題點”或者“考點”。比如,為了考查學生對全篇主旨的理解,就會盡量地選擇那些主旨鮮明的文章;為了考查學生的賞讀能力,就會盡量地選擇那些在寫作技巧方面比較突出的文章。當前中考試題的編制者對閱讀能力的理解,可以說與上述曾氏所分的前四個層級大同小異。以2007年湖北武漢的中考語文試卷為例,該卷現代文閱讀測試包含兩組材料,其中第二段為一篇散文,標題為“海邊荒石”。該段材料設計了四道題:
15 第7段說,離開了海水,“這些石頭分明全死了”,結合文章內容,說說這里的“死了”是什么意思。
16 文章說:“面對傾心或喜愛的東西,我們多么容易犯傻。”這句話表現了“我”什么樣的心情?這種心情是怎樣產生的?
17 這篇文章的主旨(中心思想)是什么?試作簡要概括。
18 作者說,浸潤在海水里的石頭像“散發著靈異之光的寶藏”,離開了海水的石頭“怪模怪樣…‘灰不溜秋”,這是一種什么寫法?文章這樣寫的作用是什么?試從兩個方面作答。
不難看出這四個題目所對應的閱讀能力要求是:理解詞語、體會感情、概括主旨、鑒賞評價寫法。這篇文章是時下典型的抒情散文,題目設計也是典型的考題類型。不過,這種與散文相對應的閱讀能力指標,卻不大容易直接搬用到說明文和議論文中,所以中考說明文和議論文文章的測試題目,大多是結合文體特征來設題,比如考說明方法和議論方法等,所選材料也是典型的具有該文體特征的文章。究其原因,長期以來我們對于閱讀能力的理解,是閱讀經驗的系統化解釋,從而形成了將文本類型與閱讀測試能力指標簡單對應的思路。反過來,這種閱讀能力觀念,也固化了閱讀材料選擇的標準,使得文本的多樣性不夠。
前文所提到的2007年武漢中考試卷中還有一組材料值得注意。這組材料不是我們常見的單篇文章,而是三個語篇,分別是《安妮日記》的節選,奧斯特洛夫斯基《理想與幸福》一文的節選,以及約瑟夫·愛潑斯坦《抱負》一文的節選。其中有這樣一個題目:“[材料二]中奧斯特洛夫斯基在疾病纏身、十分痛苦的情況下,創造了輝煌,獲得了常人難以得到的幸福,靠的是對人生理想的不懈追求。他的經歷證明了[材料三]中哪一句話的觀點?”顯然,測試編制者有意重點考查綜合、比較閱讀的能力,所以采用了這種組合式的材料。我們從中不難看出這種習慣思路:將閱讀測試能力指標和特定的文本類型相對應,實在沒有,就造出來。
盡管NAEP對于閱讀能力的定義也無外乎理解、評價、應用等一些基本要素,但是測試編制者將閱讀能力分為四個方面:整體理解、形成解釋、聯系自身、做出評價。為了使得測試更具有操作性,測試編制者又將各個方面的能力細化為處理問題或任務時的表現,從而形成較為清晰、嚴整的閱讀能力指標體系。從這個意義上來說,NAEP等國外的閱讀測試作為“他山之石”的價值在于:它們是我們映照閱讀能力指標體系的一面鏡子。換句話說,如果要借鑒國外的閱讀測試,由于閱讀能力結構認識以及語文教學實踐的差異,照搬照抄的結果必然是“水土不服”,有效的途徑是通過對閱讀過程的研究,來修正現行測試的閱讀能力指標。反過來說,如果測試所依據的指標比較零散,測量的變量增多,有些能力指標就會與整體結構不相關,結構效度自然大打折扣。而閱讀能力指標的模糊,則可能會產生兩個后果:一個是隨意選擇閱讀材料,有什么材料命什么題;另一個則是選擇特定的某類文章,依據此類文章的命題經驗來避免測試信度和效度的降低。
眾所周知,測試編制者選擇閱讀測試材料的工作是一個復雜的過程,要考慮包括測試效度在內的諸多因素。可是,我們當前對這個問題的認識還主要停留在經驗和直覺的層面,當務之急是在測試學以及閱讀心理學的基礎上,確定閱讀材料選擇的理性原則。唯有如此,閱讀測試才能更為成熟和有效。