摘要:傳統可讀性公式的研制者認為字長、句長是預測詞義、句義難度的最佳變量。本文通過相關性分析和回歸分析論證字長、句長不能預測詞義、句義難度。傳統可讀性不能為人們判定文本難易度提供科學有效的依據。
關鍵詞:可讀性公式 可讀性 易讀度 定性定量分析
引言
可讀性是文本的難易程度??勺x性公式是計算文本難度的方程式。傳統可讀性公式,如Flesch公式、Dale-Chall公式大多誕生于上世紀30至60年代,其共同特點是:用單詞數(或音節數)計算詞義難度,用句子長度計算句法難度。這就是人們對傳統可讀性公式的爭議的焦點:用字長、句長能不能預測出難度。
可讀性公式自誕生起就是語言學界和教育界最受爭議的話題之一。如1981年,國際閱讀協會和美國英語教師協會建議其成員不要濫用可讀性公式評估教學材料。近年來,由于互聯網和字處理軟件提供免費可讀性公式,出現了用可讀性公式評估電子書、網站的新趨勢。
本文從學術交流的角度出發,首先介紹可讀性研究的方法,然后從相關分析和回歸分析論證傳統可讀性公式的不科學性。
1. 可讀性的研究方法
可讀性研究常用方法有相關性分析和回歸分析。相關系數r表示變量或現象的相關程度,如字長和難度的相關程度;回歸分析可從一個或多個變量(自變量)推測另一個變量(因變量)。Klare概括了設計可讀性公式一般步驟:
1)挑選標準文本,測出標準文本的難度值(因變量)。
2)判定影響難度的因素(預測變量)。
3)計算標準文本中難度因素出現的次數,并分析其與難度值的相關性。
4)選取相關系數較高的因素作為自變量。
5)用回歸法,得出可讀性公式。
近年來,出現了以大型數據庫為基礎的新可讀性公式,如Lexile和ATOS,它們仍然使用字長句長來計算文本難度。公式支持者的結論是字長、句長是預測難度的最佳預測變量(Dubay)。他們的主要依據是試驗數據顯示字長、句長和難度的相關系數較高。
2. 相關分析和回歸分析
傳統可讀性公式借助統計學的相關分析和回歸分析來研究語言,但研究者卻沒有按照統計學原理判定影響難度的因素和驗證公式的科學性。以Gray 和 Leary在1935年得到的試驗數據為例(表2)。表2的兩組數據分別為影響難度的17個因素和各因素與難度的相關系數(∣r∣>0.35)。Gray 和 Leary最后選擇了 1(句長)、5(字長)、8(人稱代詞數)、15(不同詞比例)得出了可讀性公式。后人借鑒他們的研究結果,把字長句長定為預測難度的最佳預測變量。

表2:Gray 和 Leary得出的影響難度的主要因素(Dubay)
表面上看,他們的選擇是合理的:字長、句長是與難度相關系數較高的一個。這也符合人們的直覺:長字、長句更難理解。但進一步分析,不難發現這一結論是錯誤的:
2.1相關系數不能證明字長、句長是最佳預測變量
表2中影響閱讀的因素都有一個共同的特點,它們都為各種數字:長度、個數、百分比,而用這些數字計算相關系數的前提是定性分析(張集瓊),即應首先判斷因素和難度是否有聯系,有什么樣的聯系,然后才能計算相關系數。從性質的角度分析,字長、句長和難度沒有直接聯系,它們只是單詞、句子的淺層形式——長度,根本不能完全代表字義、句義。如果用性、量、度來計算難度,長度僅是較次要的一方面,也就是字長、句長不能當作自變量放到回歸公式中了。
其次,從量的角度分析,相關系數也不能證明字長、句長有數的絕對優勢。表2中各個因素相關系數差別很小,而且相關分析只研究變量之間相關的方向和程度,不能推斷變量之間相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化(劉學華)。以人稱代詞為例,它們有時是產生難度的因素,有時又是促進理解的因素。如:
1)Paul told John that he wanted to help him out.
2)Paul told all students that he will help them.
兩個句子中人稱代詞都出現了兩次,但句2由于人稱代詞高密度,遠比句1難理解。如果文章中兩種情況的人稱代詞出現數量不同,會使人稱代詞與難度的相關系數發生高低不同的變化,即人稱代詞和難度的關系圖不是直線,而是不規則的曲線。曲線用相關系數分析已沒有意義。人稱代詞如此,名詞、形容詞也是如此。這種現象在字、詞、句、篇章各個層面上都會發生。
相關系數也不能反映某些出現數量較少的因素的作用。例如,標題在一篇文章中只出現一次,好的標題能夠喚起讀者的背景知識,使難的文章變得更簡單。它與難度的相關系數肯定沒有字長與難度的相關系數高,因為次數這個計量單位不足以顯示其重要性。
從以上不難得出,缺少定性分析,僅憑相關系數就判定難度要素的錯誤,這就好像是讓兒童與成人的賽跑,兒童肯定會輸的,因為他們就不在同一級別上。
2.2 字長、句長和難度不是因果關系
用回歸法得到的可讀性公式中字長、句長和難度應是因果關系,才能進行回歸分析。在字長、句長和難度是不是因果關系上,傳統公式的研制者一直避而不談。的確,現代統計學和傳統統計學對此也有分歧。傳統統計學注重定性分析,而現代統計學注重定量分析。但我們還應該從可讀性公式的性質和用途來具體分析??勺x性公式已不再是個人預測難度的研究手段,它已經被當成測試工具應用到教育、出版等各個領域。個人研究可以僅從數量關系上研究數量變化規律,而不考慮研究對象的性質,而作為劃分閱讀材料等級的工具就應該是科學而嚴謹的。因此我們還是使用嚴格的統計學定義:相關分析中,變量之間可以不一定是因果關系,而回歸分析中,變量之間應該是因果關系,即因為詞長、句子長,所以文章難。
因為詞長、句子長,所以文章難,只是人們的直覺。文章難的真正原因是作者要表達的思想深,作者使用的結構復雜。長度和難度不是因果關系,而是相伴關系。使用非因果關系的字長和句長替換真正的原因來預測難度必須滿足以下條件:所有的長詞、長句都難,即長度和難度成線性關系。這個條件很難滿足,因為英語中有很多長詞、長句比較簡單,很多短詞、短句卻很難。作者在寫作時考慮的主要是內容,而不是字詞句的長短。最好的例子就是愛因斯坦的相對論,用某可讀性公式計算,它只有五年級的水平。
使用非因果關系的字長、句長作為自變量會得到一個虛假回歸,因為回歸分析只是從一個變量的變化來推測另一個變量的變化情況的定量分析方法,非因果因素,甚至毫不相關的因素都可以推出個結果。如英語中最常用的字母e,其出現頻率為八分之一,用字母e也可以設計一個可讀性公式。這樣的回歸模型已經沒有什么預測價值和分析價值。至于傳統可讀性公式預測到的是什么,已經沒有統計學原理可以解釋。
結語
綜上所述,傳統可讀性公式研究者借助統計學的相關分析和回歸分析來研究語言,卻沒有嚴格按照統計學原理尋找影響難易的因素和驗證公式的科學性。沒有通過定性分析和因果分析的字長、句長不能當成變量進入可讀性公式,它們更不是最佳變量。傳統公式的錯誤根源在于脫離語言環境,僅憑高度概括的數字尋找產生難度的“共力”。雖然傳統可讀性公式是一種簡單方便地判定文本難易度的工具,它對人類語言難度研究做出了很大的貢獻,但這并不能掩蓋其不科學性,傳統可讀性公式不能為人們判定文本難易度提供科學有效的依據。
參考文獻:
[1] William H. DuBay. The Principles of Readability[M]. Impact Information, 2004.
[2] Klare G.R.. Readability Handbook of reading research[M]. New York Longman, 1984.704.
[3] 張集瓊. 統計學原理[M].科學技術文獻出版社,2001.
[4] 劉學華. 統計學原理[M].立信會計出版社,2003.