張慶翔,張 瑩
(上海大學 文學院,上海 200436)
文本可讀性,也稱為“易讀性”,一般是指文本易于閱讀和理解的程度或性質。王蕾把國際中文教育領域的可讀性定義為:漢語閱讀材料的難易度,是否適合某種水平的某一類漢語第二語言學習者的閱讀[1]。文本可讀性既要對閱讀材料的難度或可讀性進行測評,也要對讀者的閱讀能力進行測評。因此,在研究國際中文教育領域的可讀性問題時,不僅要考慮到閱讀者的水平,還要考慮到他們的語言文化背景,如是否為漢字文化圈國家、是否為華僑等因素。
可讀性研究起源于美國,國內最早應用于英語教學領域。文本可讀性的研究思路是對閱讀材料的難度進行客觀評價,通過建立一套實用、易操作的文本可讀性評估體系,以實現在教學中幫助選取與學習者水平相適應的語料以及預測語料難度的目的,并可直接作用于建立分級閱讀標準或分級閱讀系統。
在國際中文教育領域中,張寧志最早嘗試運用量化方法來衡量教材難易度,作者定量分析了29 部國際中文教育教材語料的平均句長,研究發現,句長和非常用詞比率都是影響漢語文本閱讀難度的重要因素[2]。這是國際中文教育領域最早的關于可讀性的相關研究。王蕾則構擬了第一個文本可讀性公式[3],并引起了一些學者對文本可讀性研究的關注,由此產生了一些根據差異性文本來構建適用于不同范圍的可讀性公式的成果。隨著研究方法的更新和交叉學科成果的介入,一些學者突破了國際中文教育領域可讀性研究的范式,創造性地采用樸素貝葉斯和支持向量機等學習算法,通過建立數學模型來評價文本可讀性,為國際中文教育領域的文本可讀性研究提供了新的思路和方法。可以說,通過梳理國際中文教育文本可讀性的相關研究成果,不僅能夠了解文本可讀性的研究脈絡、研究方法,而且有助于開辟新的研究思路。
國際中文教育領域的文本可讀性研究主要集中在三個方面:歸納影響難度的文本特征因素、測定特征因素對難度的影響力、依據設定的標準定量考察語料文本難度。其中,定量分析將模糊的因素用具體的數據來表示,從而達到分析比較的目的,它成為研究文本難度的必要手段,可讀性公式則是定量研究語料文本難度的最直接形式。
文本可讀性研究的重點是選擇文本特征,按照選定的參考標準統計影響文本難度的特征變量是建立可讀性公式的關鍵。按照文本特征因素在研究階段中所起的作用,可以將其分為三類:預測特征變量、有效預測特征變量和結果特征變量。在研究初始階段,系統性預設的文本特征因素即為預測變量。在調查實驗過程中,能夠賦值或者對研究目的起作用的變量即為有效預測變量。有效預測變量經過賦值和回歸分析后,剔除對文本可讀性不產生影響或影響極小的成分,在可讀性公式中保留下來,影響閱讀難度的有效預測變量即為結果變量。
基于回歸分析的可讀性公式研究中的文本特征,主要涉及字、詞、句、語法和篇章層面。由于各種可讀性公式在研究目的、研究對象、分析手段或研究者知識背景等方面會有所不同,因此,在文本特征的選擇和排除上也存在一定差異。對可讀性公式研究中所涉及的文本因素進行統計,與字相關的文本特征有總字數、非重復字數、字種數、簡單字數(甲級字數)、字均筆畫數、非重復字均筆畫數、字頻、漢字部件數、丙級/丁級/超綱字數等;與詞相關的文本特征有總詞數(固定詞組數)、非重復詞數(相異詞比)、簡單詞數(甲級詞數)、詞頻、平均詞長、難詞比(丙級/丁級/超綱詞占總詞比)、實虛詞比、實詞密度、虛詞數、丙級/丁級/超綱詞數等,這些特征因素體現了詞的數量、類別、難度和差異性;與句相關的文本特征有句子數、句均字數、句均詞數、分句數、分句均字數、分句均詞數、語法點難度、平均句長、篇長、名詞短語比率。在選取字和詞層面的文本特征時,所依據的標準一般是2001 年發布的《漢語水平詞匯與漢字等級大綱(修訂本)》。由于項目統計復雜,語法和篇章層面的文本特征較少被提及,與語法相關的文本特征只出現丙級以上語法項目1 項,主要是根據《對外漢語教學初級階段教學大綱》確定其難度,依據《漢語水平等級標準與語法等級大綱》確定其項目等級;與篇章相關的文本特征有標志詞數(關聯詞)和人稱代詞數兩項,以《實用現代漢語語法》為選取標準。2021 年,《國際中文教育中文水平等級標準》頒布,將會對今后研究中文本特征的選用和分析產生一定影響。
文本特征對可讀性的影響具有不同的權重,在以往的研究中,對文本可讀性產生影響的特征主要集中在字、詞和句層面,語法和篇章的層面的影響因素相對較少。鄒紅建、楊爾弘考察了《新編漢語報刊閱讀教程》的難易度,認為通用詞覆蓋率、文本長度值對文本難易度產生了重要影響[4](P378)。李燕、張英偉對《博雅漢語(中級沖刺篇Ⅰ)》的語料難度進行了定量分析,研究顯示,平均句長、每百字含非常用字數和文學性修辭表達手法,是影響教材語料可讀性的重要變量[5]。郭望皓、宿飛鴻通過問卷調查的方式,根據不同級別學習者的回答,加權得出了影響漢語文本難度因素的權重系數矩陣[6]。王鴻濱對漢語可讀性公式進行了對比研究,認為產生影響的文本特征主要為漢字難度、詞匯難度和句子難度,其中,詞匯難度多基于大綱對詞匯等級的劃分,句子難度多以句長為依據[7]。張寧志認為,句子數、平均句長和甲乙兩級以外的非常用詞,是影響語料可讀性的重要變量[2]。吳佩考察了影響漢語句子復雜性的通用句法特征,為文本可讀性研究在句法層面上的指標選擇提供了依據[8]。可見,文本特征的選用和測定是可讀性公式研究的重點和難點。目前,這方面仍然存在需要改進之處,牛士偉曾指出了其中的一些問題,如同一語言層面特征不同、相同特征的統計方法不一、某些層面上的特征可以合并等[9]。
可讀性公式是針對某種閱讀文本,將所有影響閱讀難度的、可量化的文本特征因素綜合起來,所制定的一個評價文本難易程度的公式,它能夠直觀地定量分析文本難度。基于文本特征的可讀性公式研究的典型范式,是通過選取相關文本特征作為變量,采用完型填空、回答問題等被試參與的實驗方法,或者對教材中的相關文本特征變量進行直接量化,通過采用多元線性回歸公式的擬測算法,構建出多種表征閱讀文本難度的多元線性公式。選取不同的文本特征變量會造成公式表達的差異,根據不同特征變量的組合情況,需要從幾個公式中選取擬合優度最高的一個公式,并將它確定為最終衡量文本難度的可讀性公式。有些公式計算的是文本可讀性,有些公式則統計可讀性的難度,這是兩個相反的指標,但都反映了文本語料的復雜程度。國際中文教育領域產生了一批較有影響力的可讀性公式的研究成果,通過梳理、分析這些成果,可以管窺文本可讀性公式研究的思路和方法。
王蕾以初中級日韓留學生記敘性漢語文本語料難度為研究對象,以《漢語水平詞匯與漢字等級大綱(修訂本)》為標準,進行字、詞等層面的文本特征劃分與統計。該文以《對外漢語教學初級階段教學大綱》為依據來確定句子層面的文本特征,以《實用現代漢語語法》為依據來確定篇章層面的文本特征,在這一基礎上,考察了《標準漢語教程》《新世紀漢語》的語料難度與文本可讀性。在作者所設置的涉及字、詞、句和篇章層面的16 項文本特征因素中,字層面的特征有總字數、非重復字數、非重復字均筆畫數和簡單字數,詞層面的特征有總詞數、非重復詞數、簡單詞數和虛詞數,句層面的特征包括句子數、句均字數、句均詞數、分句數、分句均字數、分句均詞數和語法點難度(后3 項只見于該研究),篇章層面的特征僅有標志詞數(關聯詞)1 項。具有有效性的特征因素共有9 項,它們分別是:非重復字數、非重復字均筆畫數、總詞數、簡單詞數、虛詞數、句子數、分句數、語法點難度、標志詞數,其中,有4 項對文本可讀性產生了影響,分別是詞層面的總詞數、簡單詞數、虛詞數與句層面的分句數。其可讀性公式為:Y=72.749-0.462X3+0.802X4-7.515X5+2.446X7,其中,Y為可讀性分數,X3為總詞數,X4為簡單詞數,X5為虛詞數,X7為分句數。該公式的擬合優度檢驗值是0.803,簡單詞數和分句數與可讀性正相關,總詞數和虛詞數與可讀性負相關,虛詞數X5相對影響較大[3]。
楊金余以高級漢語精讀教材《現代漢語高級教程》《漢語精讀課本》《博雅漢語(高級飛翔篇Ⅰ)》為研究對象,以《漢語水平詞匯與漢字等級大綱》為依據,確定漢字的使用頻率、固定詞組數和丙級/丁級/超綱詞語數;以《漢語水平等級標準與語法等級大綱》為標準,確定語法項目等級,構擬出具有5 項特征的可讀性公式。與其他研究有所不同,該研究的預測變量、有效變量和結果變量具有一致性,預測變量全部成為影響可讀性的因素。其特征變量包括字層面的丙級/丁級/超綱字數、詞層面的總詞數和丙級/丁級/超綱詞數,句層面的平均句長與語法層面的丙級以上語法項目,其中,丙級/丁級/超綱字數、丙級/丁級/超綱詞數和丙級以上語法項目作為影響可讀性的變量,只在該研究中使用過。作者所構擬的可讀性難度公式為:Y =0.95X1+0.975(X2+X3)+X4+X5,其中,Y 為難度系數,X1為平均每百字丙級/丁級/超綱字數,X2為平均每百字丙級/丁級/超綱詞數,X3為平均每百字固定詞組數,X4為平均句長,X5為平均每百字丙級以上語法項目數。所有變量均與可讀性難度成正相關,并且影響程度大致相同[10]。
郭望皓從《博雅漢語》中選取28 篇課文作為語料,以《漢語水平詞匯與漢字等級大綱(修訂本)》為難度劃分的標準,將字、詞、句等層面的8 項特征設置為預測變量。其中,字層面的預測特征變量是字種數、字均筆畫數和字頻,詞層面的預測特征變量是詞頻、平均詞長和實虛詞比,句層面的預測特征變量是平均句長和篇長,篇章層面的預測特征變量僅有標志詞數(關聯詞)1 項。值得注意的是,字頻、詞頻、實虛詞比和篇長4 項變量只見于該研究。8 項預測變量經分析后產生有效性的是字種數、實虛詞比和平均句長,它們都影響了文本難度,進入公式成為結果變量。作者所構擬的可讀性公式為:Y =-11.946 +0.123X1+0.198X2+0.811X3,其中,Y 為文本可讀性難度,X1是平均句長,X2是表漢字難度的字種數,X3是表詞匯難度的實虛詞比。該公式的擬合優度檢驗值調整后為0.906,3 項特征變量均與可讀難度成正相關,實虛詞比的影響力略大[11]。
左虹、朱勇以中級歐美留學生漢語教材《新實用漢語課本》為研究對象,以《漢語水平詞匯與漢字等級大綱(修訂本)》為標準,考察字頻、甲級字數、甲級詞數和難詞比。在對教師問卷調查和對歐美學生完形填空測試的基礎上,設置了9 項預測特征變量。其中,字層面的預測特征變量有簡單字數、字均筆畫數和漢字部件數,詞層面的預測特征變量有簡單詞數、平均詞長、難詞比和虛詞數,句層面的預測特征變量有句均字數和平均詞數。這些預測特征變量經分析后,除了漢字部件數外都是有效變量,能夠在回歸方程中影響文本可讀性的特征變量則只有字層面的簡單字數(甲級字數)和詞層面的難詞比、虛詞數3項。經過多元線性回歸分析,作者建立了一個針對中級歐美留學生的可讀性公式:Y =23.646 +0.485X2-125.931X3-0.647X1,其中,Y 為文本可讀性分數,X1為虛詞數,X2為甲級字數,X3為難詞比。該公式的擬合優度檢驗值為0.795。在3 項特征變量中,甲級字數與可讀性成正相關,虛詞數、難詞比與可讀性成負相關;甲級字數和虛詞數對可讀性的影響極小,難詞比對可讀性的影響極大[12]。
龍李琴以初中級泰越留學生漢語閱讀為研究對象,從《成功之路》系列教材中隨機選取了16 段語料,以《漢語水平詞匯與漢字等級大綱(修訂本)》為字、詞層面的劃分與統計標準,根據不同文本特征變量的組合情況,設置了涉及字、詞和句的11 項預測特征變量。字層面的預測特征變量包括總字數、非復現字數、非復現字均筆畫數和簡單字數,詞層面的預測特征變量包括簡單詞數、難詞比和虛詞數,句層面的預測特征變量包括句子數、句均字數、句均詞數和分句數。排除非復現字數、簡單詞數、句子數和句均字數4 項后得出有效預測特征,其中,總字數、非復現字均筆畫數和句均詞數3 項影響了文本難度,選取擬合優度最高的一個公式作為衡量文本難度的可讀性成果,從而構建出可讀性公式:Y =11.343 +0.052X1-1.313X2-0.216X3,其中,Y 為可讀性分數,X1為漢字總數,X2為非復現字平均筆畫數,X3為句平均詞數。該公式的擬合優度檢驗值為0.689,漢字總數與文本可讀性正相關,非復現字平均筆畫數、句平均詞數與可讀性負相關,其中,非復現字平均筆畫數這一特征對可讀性的影響最大[13]。
江新等學者以HSK高級閱讀測試材料為研究對象,以《漢語水平詞匯與漢字等級大綱(修訂本)》為統計標準,設置了涉及字、詞、句和篇章層面的14 項預測特征變量。字層面的預測特征變量有總字數、非重復字數、簡單字數和字均筆畫數,詞層面的預測特征變量有總詞數、非重復詞數、難詞比、實詞密度和虛詞數,句層面的預測特征變量有句子數、句均詞數和名詞短語比率,篇章層面的預測特征變量是標志詞數(關聯詞)和人稱代詞數。值得注意的是,人稱代詞數只在該研究中被作為預測變量進行考察。排除總字數、非重復字數、總詞數、實詞密度和句子數5 項后,剩余9 項均是有效變量,其中,只有相異詞比和虛詞數2 項在回歸分析中影響了文本難度。作者所構擬的可讀性公式為:Y =178.261-134.363X1-0.515X2,其中,Y 為可讀性分數,X1為不重復的相異詞比率,X2為虛詞數。該公式的擬合優度檢驗值為0.806,都與文本可讀性成負相關,相異詞比對文本可讀性影響極大,虛詞數則對可讀性影響極小[14]。
從上述研究可以看出,對影響可讀性的文本特征的劃分及統計,大都是以《漢語水平詞匯與漢字等級大綱》《漢語水平等級標準與語法等級大綱》等為參考依據。字層面表征漢字數量和難度的特征基本都影響可讀性,其中,總字數、字種數、非重復字均筆畫數、簡單字數和丙級/丁級/超綱字數都在不同研究中成為影響可讀性的結果變量。詞層面的總詞數、非重復詞數、簡單詞數、難詞比、實虛詞比、虛詞數和丙級/丁級/超綱詞數,均是能夠影響可讀性的文本特征。句層面特征與句子的結構和組成部分有關,其中,分句數、分句均字數、篇長和名詞短語比率與可讀性有關。語法和篇章層面主要涉及到丙級以上語法項目、標志詞數(關聯詞)和人稱代詞數3 項特征,其中,楊金余考察了語法層面中的丙級以上語法項目,并認為它對文本可讀性產生影響;王蕾、江新等則著重分析了篇章層面的標志詞數量和人稱代詞數量,并在驗證后否定了這些變量對可讀性的影響作用。
文本可讀性研究量化分析的早期成果主要集中于公式的構建,隨著研究方法的變化和研究手段的更新,基于分類模型的文本可讀性研究成為新的熱點。分類是數據分析和機器學習領域的一個基本問題,文本分類已廣泛應用于網絡信息過濾、信息檢索和信息推薦等多個方面。可以說,特征結合機器學習的可讀性評估方法是建立在文本分類的基礎上的,對數據計算技術要求較高,需要相關的學科專業給予技術支持。
機器學習法將文本的復雜特征表征為有關數據,對各種與文本可讀性相關的指標進行計算,然后運用機器學習中的分類方法訓練得到可讀性分類器,再應用分類器來判定文本所屬的可讀性級別。數據驅動分類器學習的方法有很多,主要包括神經網絡、決策樹、支持向量機、樸素貝葉斯等,分類模型對于文本可讀性的預測效果要明顯好于傳統的公式方法。其中,支持向量機(SVM)和樸素貝葉斯(NB)是目前在可讀性預測領域中應用比較廣泛的分類方法。支持向量機是按照監督學習方式對相關數據進行二元分類的廣義線性分類器,其模式識別可應用于人像識別、文本分類和手寫字符識別等領域。樸素貝葉斯分類法在文字識別方面起著較為重要的作用,它建立在所有特征均相互獨立、互不影響的假設基礎上,對文本進行特征選擇,并將未知的文字根據已有的規則予以分類。也就是說,該分類法屬于一種利用先驗概率計算后驗概率的學習算法。因此,不需通讀整篇文本,僅僅根據一些代表詞就能確定文章的主題。這種直觀的文本分類算法能夠達到較高的分類效率,并具有很好的可解釋性。
基于分類的使用特征、結合機器學習的文本可讀性評估,突破了國際中文教育領域可讀性研究的范式,創造性地采用學習算法,通過建立數學模型來評價文本可讀性,為該研究提供了新的思路和方法。目前的相關研究成果較少,并且研究者相對集中。楊純莉以《(新編)讀報紙,學中文——漢語報刊閱讀》初級、中級、準高級和高級四個難度等級的262 篇教材文本為語料樣本,以《現代漢語語料庫詞頻表》《現代漢語常用詞用法詞典(最新版)》《現代漢語新詞語詞典》《現代常用文言書面語》為考察標準,從中篩選出8 個影響顯著的詞匯因素,然后采用樸素貝葉斯和支持向量機算法建立數學模型,對文本可讀性進行了預測與驗證[15]。孫未未以《HSK 詞匯等級標準大綱》①原文如此。這里的《HSK 詞匯等級標準大綱》即《漢語水平詞匯與漢字等級大綱》。下同。為詞語維度的評判標準,利用SVM 算法,對6 套國際中文教育教材的語料分別進行分類和回歸建模,研究顯示,分類模型更適合對閱讀材料的可讀性進行評估[16]。孫未未、夏菁、曾致中還運用特征結合機器學習的方法,將《HSK詞匯等級標準大綱》和《HSK 詞性表》作為詞語等級評判的標準,利用SVM 算法進行分類和回歸建模,構建了一個適用于小數據量對外漢語閱讀材料的可讀性評估模型[17]。楊文娣、曾致中提出了一種基于隨機森林算法的對外漢語文本可讀性自動評估方法,利用NLPIR 漢語分詞系統所提供的《計算所漢語詞性標記集》來提取詞性特征,依照《國際漢語教學通用課程大綱(2013 年修訂版)》中的《常用漢字表(一~六級)》《常用漢語詞語表(一~六級)》來提取等級特征,最終得出了精度為65.51%、相鄰準確度為92.52%的對外漢語文本可讀性評估模型[18]。夏菁、孫未未先將文本進行自然語言處理,依循《HSK 詞匯等級標準大綱》劃定6 套教材中不同等級的詞語及難易度,再經過詞頻統計提取出每個特征的數量值并將其標準化,結合SVM 算法和特征選擇技術,分別構建和驗證了詞語、語義、篇章和整體等不同向度特征的可讀性評估模型[19]。
就依據標準而言,上述學者在提取詞匯層面的文本特征時,大多依據的是《漢語水平詞匯與漢字等級大綱》,在《國際中文教育中文水平等級標準》這一新標準頒布后,文本特征的提取和學習也會發生相應改變。就研究材料而言,除楊純莉以《(新編)讀報紙,學中文——漢語報刊閱讀》為研究樣本外,孫未未等、楊文娣與曾致中、夏菁與孫未未所選取的研究材料《大學漢語精讀》《漢語閱讀教程》《實踐漢語》《感悟漢語》《漢語閱讀與寫作教程》《發展漢語》和《成功之路》漢語系列等,均為漢語中高級教材,其語料具有高度的一致性,未涉及其他國際中文教育教材。
總之,基于特征結合機器學習的研究方法,主要是通過對標注等級的語料庫進行文本特征的學習來構建分類模型。該研究的有效性取決于語料標注的精度,難度等級納入的特征越多,則模型的預測效度越好,其研究的難點在于語料庫難度標注的構建是一個相對復雜的工作。就目前的研究來看,基于特征分類結合機器學習評估文本難度的方法,所選取的材料重合率較高,未能涵蓋大部分的國際中文教育教材,是否有必要擴大研究材料的范圍,是否能夠將其研究成果應用于各種語料難度的評估,還需要進一步的探討。
綜上所述,國際中文教育領域可讀性研究一般應用于對漢語文本難度進行定量分析,目前的研究方法主要是基于文本特征的可讀性公式研究和基于分類模型的機器結合學習研究。
文本可讀性研究初步階段的成果集中于公式法,可讀性公式的構建首先需要針對特定閱讀人群或文本語料,選取與可讀性密切相關的文本特征因素,然后建立各特征因素與可讀性級別之間的函數關系,通過量化手段客觀地評估文本閱讀難度。可讀性公式可以快速、直觀地獲得文本難度的分析結果,具有客觀性、簡便性和經濟性等優點,不僅為文本語料的難度測定提供了便利,也為教材編寫和教學設計提供了參考。可讀性公式的構建既是傳統性公式的重要內容,也為后來的可讀性研究奠定了基礎。隨著研究的不斷深入,近些年來又出現了基于分類模型的文本可讀性研究方法。它通常采用支持向量機和樸素貝葉斯等方法進行模型的構建,能夠涵蓋較多的文本因素,同時,對可讀性的預測效果要優于公式法。不過,其構建過程相對繁瑣復雜,一般需要交叉學科或者跨領域的合作,研究者既要對本體知識有較好的掌握,還需要具備較強的邏輯分析和編程能力,在操作層面具有一定的難度。在確定可讀性難度方面,分類模型體現出構建難度大和分析準確性高的特點,具有較強的深入研究的可能性。
文本特征因素的選取和測定是可讀性研究的重點和難點,字、詞、句層面的文本特征是影響可讀性的重要因素,字和詞特征的影響體現在數量、難度上,句子特征的影響以句長為主。不同的研究者在選擇和分析文本特征時會各有側重,文本語料類型、研究目的或者學者背景的差異等,是造成特征選用多樣性的主要原因。無論是公式法還是分類法,在提取文本特征時都需要依據一定的標準對研究對象進行數據處理,現有的研究基本上是將《漢語水平詞匯與漢字等級大綱》《漢語水平等級標準與語法等級大綱》等作為特征選取的主要依據。2021 年7 月起頒布實施的《國際中文教育中文水平等級標準》,是新時代的國家級標準和語言文字規范,是國際中文教育領域學習、教學、測試與評估的重要依據,依托新標準的可讀性研究,在文本特征因素的選擇和分析上必然會發生較大變化。
就現有的研究成果而言,可讀性研究也存在著一定的局限性。首先是研究對象同質化嚴重,研究材料以漢語教材為主,缺少對其他文本語料的評估分析,今后的研究可以將報刊資料、網頁信息、考試文本等語料納入研究對象,研究范圍需要橫向拓展,研究層次需要縱向延伸。其次,大部分研究立足于自建的語料庫,在文本特征和標準的選取上缺乏統一性、規范性,不易推廣,有待于建立基于統一標準的研究規范。再次,研究方法較為單一,可讀性公式均采用多元線性回歸的方法,往往只考慮有限的可計量的文本特征,回歸方程所涉及的特征因素大都小于5 個,無法涵蓋所有影響文本可讀性的特征變量。也就是說,簡單地使用幾個文本因素進行預測,在有效性、適用性和可信度方面,可能會存在一定偏差。最后,可讀性公式中選取的文本特征因素多為字、詞或句子層面,由于歸類和分析的復雜性,大部分研究都不考慮語法、語義、篇章等變量,缺乏對語法、語篇等因素的深度挖掘。同時,特征因素的選取具有一定的隨意性,缺乏統一的標準。針對這些問題,學界應采取切實可行的解決方案。比如,依托新標準,將文本語料的詞匯等級信息及平均句長、平均每百字句數等多種信息加以整合和量化,盡可能涵蓋更多的文本因素,并形成詞匯難度、句子難度、語法難度、語篇難度等穩定的數據集。再如,關注閱讀主體的心理因素測查,對漢語教師和漢語學習者進行問卷調查,考察影響漢語文本可讀性的各因素的比重,按照影響程度重新確定加權系數,進而形成最終的可讀性評估模型,以拓展研究的廣度、挖掘研究的深度。總之,可讀性研究已取得豐碩的成果,隨著研究方法的更新、研究內容的深入,必將會出現評估結果更為精確、使用范圍更為廣泛、也更適合漢語文本的新的自動評估方法。