黃 偉, 李珺婷
(1.北京語言大學 漢語國際教育研究院/語言科學院計量語言學研究中心,北京 100083;
20世紀80年代,中介語理論被引入漢語作為第二語言教學與習得研究領域。到20世紀90年代中期,基于中介語理論的偏誤分析成為研究熱點(1)徐子亮.對外漢語學習理論研究二十年[J].世界漢語教學,2004,(4).,相關研究成果涵蓋了語音、詞匯、語法、語用等多個方面。(2)施家煒.國內漢語第二語言習得研究二十年[J].語言教學與研究,2006,(1).21世紀以來,漢語二語習得研究走過“理論引介與經驗式研究期”“進入實證研究深水區,并將持續深入”(3)畢晉,肖奚強,程仕儀.新世紀以來漢語作為第二語言習得研究成果分析——基于四份CSSCI中國語言學來源期刊文獻的統計[J].語言與翻譯,2017,(4).,偏誤分析仍是研究熱點之一。
偏誤分析持續二三十年的熱潮對相關專業研究生學位論文選題產生了重要影響。國內二語漢語偏誤分析研究中,“碩博論文是主力”。(4)童琴,徐婷.基于CNKI近三十年我國對外漢語偏誤研究的文獻計量分析[J].云南師范大學學報(對外漢語教學與研究版),2018,(5).與學術學位碩士相比,偏誤分析更受專業學位研究生青睞。(5)劉弘,楊喆.漢語國際教育學術型碩士與專業型碩士學位論文選題之比較研究[J].海外華文教育,2013,(3).這里的專業學位主要是指漢語國際教育專業碩士。漢語國際教育專業碩士是漢語二語教學實踐與研究陣營的重要組成部分,有效地“推動了漢語教學在世界范圍內的快速發展”。(6)丁安琪.漢語國際教育碩士:專業發展十一年[J].國際漢語教育(中英文),2018,(4).統計分析2015~2016年4014篇該專業學位論文發現,偏誤分析是該專業論文選題的重中之重。(7)周紅.從學位論文選題看漢語國際教育專業碩士人才培養[J].國際漢語教育(中英文),2019,(2).針對5所高校的研究發現,偏誤分析在該專業學位論文選題中所占比例僅次于教學方法與教學模式。(8)李寶貴,曹儒,李澍慧.遼寧省五所高校MTCSOL論文選題分析與建議[J].渤海大學學報(哲學社會科學版),2017,(1).統計分析16000余篇該專業學位論文數據發現,偏誤分析是近十年來該專業學位論文最主要的研究熱點。(9)黃偉,李珺婷.漢語國際教育專業碩士學位論文的文獻計量分析[A].北京語言大學漢語國際教育研究院編·漢語應用語言學研究(第8輯)[C].北京:商務印書館,2019:101~114.
偏誤分析是發現二語學習者發生偏誤規律的過程(10)魯健驥.偏誤分析與對外漢語教學[J].語言文字應用,1992,(1).,涉及不同學習者與不同語言知識或語言技能。分析規模龐大的偏誤分析碩士論文涉及了哪些語言知識、語言技能與學習者對象,采用了什么方法,存在什么問題等,對于掌握漢語二語偏誤分析研究現狀,了解相關專業研究生學位論文選題,提升漢語二語偏誤分析研究水平而言,都具有一定參考價值。
為了回答這些問題,需要對這一領域的研究主題進行分析。主題分析屬于信息情報研究。信息情報工作能夠為決策者、教學與研究人員的工作提供幫助,有利于了解全局、制定政策、選擇研究課題。(11)崔希亮.對外漢語教學的基礎研究與應用研究[A].對外漢語教學的全方位探索——對外漢語研究學術討論會論文集[C].北京:商務印書館,2005.文獻計量學方法可用于描述、評價和預測科學技術的現狀與發展趨勢。(12)鄭文暉.文獻計量法與內容分析法的比較研究[J].情報雜志,2006,(5).目前,已有學者(13)童琴,徐婷.基于CNKI近三十年我國對外漢語偏誤研究的文獻計量分析[J].云南師范大學學報(對外漢語教學與研究版),2018,(5).對1987~2017年間國內的漢語二語偏誤分析研究文獻進行過統計分析。其數據來源既包括CNKI中的碩博學位論文,也包括期刊論文、會議論文與報紙文章,經人工清理后剩余有效文獻7364篇。該研究發現,偏誤分析研究數量呈螺旋式上升,語料來源從單一向多元化發展,研究熱點為詞匯偏誤。而基于4本核心期刊的數據分析結果(14)畢晉,肖奚強,程仕儀.新世紀以來漢語作為第二語言習得研究成果分析——基于四份CSSCI中國語言學來源期刊文獻的統計[J].語言與翻譯,2017,(4).認為,偏誤分析(與習得研究)側重語法。另有研究指出了漢語二語偏誤分析碩士論文存在的不足主要表現在創新性、語料來源豐富性、語料與研究對象的對應等方面。(15)田潤潤.漢碩學位論文“偏誤研究”類選題分析——以黑龍江大學2009~2015級學生為例[D].黑龍江大學碩士學位論文,2017.然而,這些研究探討的問題雖有相近之處,但數據基礎與時間范圍均不相同;且有的研究數據規模較小,樣本代表性不強,因而所得結論有所不同,也尚未能較好地回答前文提出的問題。
為了進一步深入了解漢語二語偏誤分析碩士學位論文究竟研究了什么、是如何開展研究的,本文收集整理了20年(2001~2020)的論文數據,采用文獻計量學與知識圖譜可視化方法與工具進行計量分析,擬回答的3個具體問題是:(1)漢語二語偏誤分析碩士論文的研究主題是什么?(2)該類論文研究熱點的演化路徑(或發展趨勢)有什么特點?(3)這些研究的語料來源情況如何?本文第二部分介紹研究方法與使用的數據,第三部分依次呈現3個問題的分析結果并展開討論,第四部分總結主要發現、不足與有待進一步探討的問題。
針對上文提出的前兩個問題,采用文獻計量學與知識圖譜可視化方法進行研究。一方面,以文獻信息中的知識單元為研究對象,采用統計方法考察文獻的外部特征,從而描述、評價研究現狀與發展趨勢;另一方面,以文獻集合形成的知識網絡為對象,通過復雜網絡方法探索學科領域的網絡結構特點、繪制可視化圖譜并進行分析。使用的文獻計量研究工具是引文可視化分析軟件CiteSpace與相似性可視化分析工具VOSviewer。這兩個工具用于繪制關鍵詞共現圖譜與關鍵詞時序圖譜,探索偏誤分析碩士論文的研究熱點與演進過程。
對于第3個問題,由于語言研究的基本方法是收集真實語境中的語言材料,并將它們作為素材來解釋語言現象,或者發現新的語言規律(16)盧偉.語料庫在對外漢語教學中的應用[J].廈門大學學報(哲學社會科學版),1999,(4).,偏誤分析必須使用中介語語料。中介語語料可分為自然語料和非自然語料。自然語料可以通過檢索語料庫得到,非自然語料可通過問卷調查或實驗收集。(17)肖奚強.漢語中介語研究論略[J].語言文字應用,2011,(2).既可以從論文、對話中收集語料,也可以通過測試、問卷調查、訪談、課堂教學積累語料。(18)周小兵.漢語國際教育專業碩士畢業論文的研究設計與寫作(上)[J].國際漢語教育,2017,(1).在分析收集到的學位論文數據、參考中介語研究方法的分類(19)肖奚強.漢語中介語研究論略[J].語言文字應用,2011,(2).并略做調整后,采取自動分類與人工校驗相結合的方法,將收集到的學位論文按語料獲取途徑分為4類:檢索已有的漢語中介語語料庫,設計并實施問卷調查(及訪談),設計并開展實驗,其他途徑(包括在教學過程中收集到的作業和試卷、文獻或教材中的語料、與學生交流或從社交平臺中獲得的語料等)。在此基礎上統計分析不同類別的論文數量及隨時間的變化情況。
本文分別從CNKI“中國優秀碩士學位論文全文數據庫”(以下簡稱CNKI)與萬方數據的“中國學位論文全文數據庫”(以下簡稱“萬方”)中檢索漢語二語偏誤分析碩士論文數據。這兩個數據庫收錄的論文雖然有重合的部分,但是差異更大。組合使用兩部分數據能夠更全面地探討本文提出的問題。在CNKI中將“學位授予年度”限制為2001~2020年,以“主題=(對外漢語+漢語國際教育+國際中文教育)*偏誤分析”作為檢索表達式進行高級檢索(檢索日期為2021年10月25日,下同),得到碩士學位論文數據3870條。在“萬方”中將“發表時間”限制為2001~2020年,以“[主題:(對外漢語教學) 或主題:(漢語國際教育) 或主題:(國際中文教育)] 和主題:(偏誤分析)”作為檢索表達式進行專業檢索,在檢索結果中篩選出“授予學位”為“碩士”的數據共4529條。編寫程序將這兩部分數據合并、去重,共得到有效數據6699條。其中,CNKI獨有數據2170條,“萬方”獨有數據2829條,二者共有數據1700條。經初步統計,這6699篇碩士學位論文來自全國144所高校。這些論文的發文量隨時間變化的趨勢如圖1所示。其中的“對外漢語”相關論文數據是分別從CNKI中以檢索表達式“主題=(對外漢語+漢語國際教育+國際中文教育)”進行高級檢索和從“萬方”中以檢索表達式“主題:(對外漢語教學)或主題:(漢語國際教育) 或主題:(國際中文教育)”進行專業檢索得到的。
從圖1中可以看到,無論在CNKI還是在“萬方”的數據庫中,前10年(2001~2011)的偏誤分析論文數量都不多,呈緩慢增長態勢;后10年偏誤分析論文數量維持在了一個比較高的水平。(20)2020年數量有明顯下降,可能的原因,一是數據庫收錄滯后;二是受新冠肺炎疫情影響留學生畢業人數減少。偏誤分析研究的材料是二語學習者的語言產出,研究規模自然受學習者數量影響。前10年偏誤分析論文的增長速度比較緩慢。這一增長態勢與“來華留學生數量增長曲線”(21)崔希亮.對外漢語教學與國際漢語教育的發展與展望[J].語言文字應用,2010,(2).基本一致。除了來華留學生,與偏誤分析研究數量相關的因素還包括海外開展的漢語二語教學活動。2004年我國第一所孔子學院在韓國首爾正式成立,同年國家漢辦派出第一批國際漢語教師志愿者。隨著孔子學院數量增長,越來越多的在讀研究生成為志愿者。他們在工作中收集學習者偏誤語料進行分析研究具有便捷的條件,也與實際教學需求相契合。很多承擔海外實習的志愿者與國內教學實踐的學生在完成學業時將與教學相結合的偏誤分析作為畢業論文選題。因此,從2007年起,偏誤分析碩士論文數量開始增長。到了2010~2011年,此類論文數量上升到一個新臺階。與此同時,對外漢語相關論文的發文量增長更為明顯。這與漢語國際教育專業學位碩士的培養規模增長密切相關。2007年3月底,國務院學位委員會頒布《漢語國際教育碩士專業學位設置方案》;同年5月底,國務院學位辦批準首批24所高校開展漢語國際教育碩士專業學位的招生培養工作;2009年,另有39所高校成為該專業學位人才培養單位。(22)李向農,賈益民.對外漢語與漢語國際教育:專業與學科之辨[J].湖北大學學報(哲學社會科學版),2011,(4).截止到2021年10月,中國研究生招生信息網專業目錄查詢系統(23)https://yz.chsi.com.cn/zsml/zyfx_search.jsp.顯示,該專業學位的培養單位至少有149個。該專業學制通常為2~3年,自2007年首批大規模招生算起,2009~2010年恰好是這批學生的畢業時間;而2011~2012年恰好是2009年擴招學生畢業時間。這些時間點恰好與偏誤分析論文及對外漢語相關論文的增長階段吻合,也與此前的研究結果(24)黃偉,李珺婷.漢語國際教育專業碩士學位論文的文獻計量分析[A].北京語言大學漢語國際教育研究院編,漢語應用語言學研究(第8輯)[C].北京:商務印書館,2019:101~114.一致。此外,偏誤分析論文在全部對外漢語相關主題的學位論文中的占比,自2007~2008年起就維持在一個較穩定的水平。在CNKI中占比接近20%,在“萬方”中的占比在20%~30%間波動。近20年總體占比分別為17.08%(CNKI)與27.42%(“萬方”),年平均占比分別為15.96%與22.88%。絕對數量和相對占比數據說明,近20年“偏誤分析”在對外漢語教學相關專業的碩士學位論文選題中一直備受青睞,是主要選題之一。
論文的關鍵詞是為了標引文獻,從論文中選取出來用以表示全文主題內容信息的術語,能夠幫助讀者迅速抓住文章的信息焦點。我們統計分析了6699篇論文的6069個關鍵詞詞頻(共計29447詞次),過濾掉“對外漢語”“漢語教學”“對外漢語教學”“漢語國際教育”“偏誤”與“偏誤分析”等關鍵詞后,前30個高頻關鍵詞如表1所示。這30個關鍵詞的累積頻率超過了1/4(26.17%)。
關鍵詞詞頻能夠反映文獻集合聚焦主題的集中程度。觀察表1可以發現,這些論文主要針對“留學生”在學習掌握“趨向補語”“能愿動詞”“程度副詞”“離合詞”“句法結構”等各種語言要素與“語用功能”等語言技能過程中的“習得順序”與“習得偏誤”,分析“偏誤類型”與“偏誤原因”,探討“教學模式”與“教學方法”,提出“教學策略”與“教學對策”,給出“教學建議”、優化“教學設計”。研究的學習者群體主要是“泰國學生”“韓國學生”“越南學生”與“日本學生”等。

表1 漢語二語偏誤分析碩士論文的30個高頻關鍵詞
從高頻關鍵詞得出的上述對研究主題的描述還比較粗獷,但是它沒能全面地反映這個領域的研究熱點,特別是基于離散的詞頻數據難以發現關鍵詞之間的聯系。為此,我們繪制了關鍵詞共現網絡圖譜(圖2)。與此同時,上述關鍵詞詞頻分析中,例如“韓國學生”與“韓國留學生”兩個詞條,在很大程度上代表的是同一類學習者。關鍵詞標引不一致使得上述統計結果略顯粗糙。在構建關鍵詞共現網絡的過程中,我們合并了同義關鍵詞解決了此類問題。
圖2呈現了漢語二語偏誤分析碩士論文的高頻關鍵詞共現網絡,由頻次大于或等于10的202個關鍵詞組成(隱藏了“對外漢語”“對外漢語教學”“漢語國際教育”“偏誤”“偏誤分析”“漢語”“現代漢語”等無助于發現研究主題特點的少量關鍵詞)。圖中節點代表關鍵詞,節點大小代表關鍵詞頻次多少,節點間的連線代表兩個關鍵詞之間有共現關系(即在同一篇論文中出現)。節點顏色深淺代表了出現的年份,顏色越淺代表出現的平均時間距現在越近。這202個關鍵詞約占全部關鍵詞的3.33%,其累積頻率達到55.52%,即超過半數。關鍵詞的頻次分布符合冪律,分布曲線的尾部是大量頻次較低的罕見關鍵詞。因此,累積頻率超過半數的這202個關鍵詞能夠比較充分地反映這些論文的研究主題。結合圖2與表1可以發現,這些論文的研究主題有以下5個方面的特點。
第一,從選題方向看,高頻關鍵詞(比如“教學策略”“教學建議”“教學設計”等)反映出這些研究與教學實踐結合緊密。這與《漢語國際教育碩士專業學位論文撰寫指導意見》中對論文寫作的總體要求相符。該《意見》要求,“本專業論文應緊密結合漢語國際教育實踐進行選題,須具有明確的漢語國際教育背景和應用價值,體現研究生綜合運用科學理論、方法和技術解決實際問題的能力”。雖然本文考察的全部論文的作者不都是漢語國際教育專業碩士,但是占比達到45.77%。實際上,有2191篇論文的題錄數據中缺少專業信息,如果僅統計專業信息完備的4508篇論文數據可以發現,漢語國際教育專業碩士論文共有3066篇,占比接近七成(68.01%)。對于漢語國際教育專業碩士而言,教學實踐對學位論文選題與撰寫均具有促進作用。(25)李寶貴,李慧.漢語國際教育碩士專業研究生海外頂崗實習的問題與對策[J].云南師范大學學報(對外漢語教學與研究版),2019,(3).這些論文分析二語者習得某項語言要素或技能過程中的偏誤現象與規律,提出具有針對性的教學建議,是對教學活動的反思與總結,體現了選題緊密結合教育實踐的特點。
第二,在研究內容方面,語音(聲母、韻母、聲調)、詞匯(成語、慣用語、副詞、介詞、量詞、語氣詞等)、語法(可能補語、結果補語、動詞重疊、“把”字句、“被”字句、“是”字句、比較句等)、語用(篇章、寫作、語篇銜接、語用功能)、漢字(書寫)、標點符號與漢語拼音等語言要素或語言技能均有涉及。其中,趨向補語、能愿動詞、程度副詞、離合詞等教學難點,以及在世界文字體系中具有顯著特點的漢字,均備受關注。語法偏誤研究數量最多,這與基于2015~2016年的學位論文的統計結果(26)周紅.從學位論文選題看漢語國際教育專業碩士人才培養[J].國際漢語教育(中英文),2019,(2).一致。這些研究有效地推動著語言要素教學,但是相較于語音、詞匯、語法等方面的語言知識,篇章與語用方面的研究尚不充分。30年前魯健驥就已經指出了這一點(27)魯健驥.偏誤分析與對外漢語教學[J].語言文字應用,1992,(1).,但從本文的統計結果看,這個問題在碩士論文選題中沒有得到充分重視。
第三,從研究對象看,根據分層級教學的現實情況主要開展了針對“初級”學習者的偏誤研究,“中高級”的相對較少。這與基于期刊論文的研究結果不同。趙春利回顧20年的偏誤分析研究發現,針對中級漢語水平學習者的研究多于針對初級水平。(28)趙春利.對外漢語偏誤分析二十年研究回顧[J].云南師范大學學報(對外漢語教學與研究版),2005,(2).究其原因,主要是碩士學位論文的作者參與的教學實踐活動大多數是面向初級學習者的,研究對象的選擇受限于教學實踐,以初級水平學習者為主。這些研究中,以泰國、越南、韓國、日本、俄羅斯、蒙古、印度尼西亞等鄰近國家的學習者為研究對象的情況較多,針對歐美國家或地區的學習者研究較少。從對外漢語教學到漢語國際教育的發展過程中,國別化教學與研究已經形成一種趨勢(29)李如龍.論漢語國際教育的國別化[J].語言教學與研究,2012,(5).,而研究涉及的國家或區域又與其漢語學習者數量密切相關。本文的統計結果說明,國別化研究已經成為偏誤分析碩士論文的主要類型之一。這也在一定程度上說明,這些研究在“重視偏誤分析,缺乏表現分析;注重個性分析,缺少共性分析”(30)張寶林.外國人漢語句式習得研究的方法論思考[J].華文教學與研究,2011,(2).方面較為突出。
第四,在研究方法上,主要采用“對比”分析方法分析漢語“中介語”的“偏誤類型”“偏誤原因”“習得順序”等。偏誤原因中只有“母語遷移”突顯,這與研究方法密切相關:即對偏誤現象的分析往往從學習者的母語與漢語的對比中尋找(如“漢英對比”“漢韓對比”等),幾乎全部歸因于“母語負遷移”。(31)張寶林.外國人漢語句式習得研究的方法論思考[J].華文教學與研究,2011,(2).篇章與語用方面的偏誤現象有很多是文化差異原因造成的。但是由于此類研究較少,“文化差異”在圖2中只是一個較小的節點,與其他節點的聯系也不夠廣泛。學習者對目的語語言規則的過度泛化、自身的學習策略以及教學失誤等偏誤原因在現有研究中極少出現。張寶林指出,漢語二語習得研究中對偏誤產生原因(以及偏誤類型)的分析存在嚴重的“套路”化、“對號入座”現象,將“母語負遷移”視為解釋各種語言偏誤現象的“首要法寶”,“千篇一律”,缺乏具有針對性和個性化的研究(32)張寶林.漢語習得研究的兩個問題[J].國際中文教育(中英文),2021,(3).。從本文的統計結果看,這種現象在碩士論文中尤其嚴重。
第五,“HSK動態作文語料庫”“問卷調查”等節點及其在網絡中的位置與作用表明了偏誤分析論文的主要語料來源。其中,與“HSK動態作文語料庫”節點相連接的、能夠表明研究對象國別的主要是泰國、韓國和日本,而與“問卷調查”聯系緊密的主要學習者來自韓國與俄羅斯。這是否能夠在一定程度上說明,目前的漢語中介語語料庫尚不能充分滿足國別化研究需求呢?我們將在本節第三部分進一步討論這個問題。
在得到研究主題的上述特征后,隨之而來的一個問題是,20年來這些研究主題是如何發展變化的。隨著時間的推移,科學文獻在發表后,其內容會逐漸陳舊過時;而隨著新文獻的發表,新內容會層出不窮。這種推陳出新可以通過反映主題的關鍵詞的頻次變化表現出來。為了探究研究主題的變化情況,我們繪制了關鍵詞時序圖譜(圖3)。在繪制過程中,將2001~2020年按每5年一個階段劃分為4個時段,每個時段選取前10%高頻關鍵詞(且不超過100個)。圖中關鍵詞節點所在的時區為其首次出現的時段,節點大小代表關鍵詞在全部時區出現頻次的多少,節點間的連線代表關鍵詞間的共現關系。圖3顯示了頻次大于等于30的部分高頻關鍵詞(過濾了“偏誤”“對外漢語教學”等關鍵詞)。由于關鍵詞在共現網絡時區圖中的分布是按照首次出現的年份定位的,圖中能夠清楚地看出研究主題隨時間推移的“增量”,但在描述各階段研究主題的“存量”方面不夠充分。為此,我們統計分析了各階段的高頻關鍵詞(33)為了提高準確性和方便處理,這部分關鍵詞頻次分析沒有采用關鍵詞共現網絡圖譜中的數據,而是從原始數據中單獨計算的,因此表2與圖4中部分關鍵詞不完全對應。,如表2所示。結合圖3與表2可以看出,這些論文的研究主題的演進具有以下4個方面的特點。
第一,圖3顯示各階段“涌現”出的研究主題在數量上非常不均衡。第一階段研究主題較少,第二階段出現了爆發式地增長,第三階段急劇回落,第四階段相對地幾乎沒有新研究主題出現。這說明前兩個階段的研究基本奠定了這些論文的主題范圍,后10年沒有太大變化。這與前文關于發文量的變化趨勢形成了鮮明對比。前10年的發文量較少(706篇),不足后10年(5993篇)的1/8。但是這些相對較少的研究幾乎涵蓋了該領域的絕大部分主題。表2中大部分用星號標示的高頻關鍵詞在不同階段重復出現,也說明了這一點。那么,后10年的這些研究真的是在重復前10年的研究嗎?偏誤分析研究具有相對成熟的經典研究范式(即描寫偏誤、總結規律、分析成因、提出對策(34)畢晉,肖奚強,程仕儀.新世紀以來漢語作為第二語言習得研究成果分析——基于四份CSSCI中國語言學來源期刊文獻的統計[J].語言與翻譯,2017,(4).)。為了深入探究這個問題,還需要從研究內容(與方法)、對象與目的等角度進一步分析研究主題的具體演進情況。

表2 偏誤分析碩士論文的30個高頻關鍵詞(分階段)
第二,從研究內容與方法看,這些論文在第一、第二階段就已經較多地關注了語音、詞匯、語義、語法、語用、漢字等方面的偏誤現象。第一階段主要研究介詞、副詞、比較句、趨向補語等。隨著研究數量的增長,第二階段的研究主題逐漸豐富起來,如量詞、語氣詞、離合詞、形容詞、趨向補語、結果補語。這一階段研究的語言現象也進一步精細化,“關注點越來越深入,越來越細小化,由整體到局部”。(35)童琴,徐婷.基于CNKI近三十年我國對外漢語偏誤研究的文獻計量分析[J].云南師范大學學報(對外漢語教學與研究版),2018,(5).例如關注到了量詞中的名量詞,副詞中的程度副詞、時間副詞,動詞中的能愿動詞等。與此同時,語音(如聲調)與漢字方面的偏誤現象也更多地進入研究視野。研究主題的范圍在這一階段得到了充分的擴展。進入到第三階段后,句式結構受到更多關注,語音與漢字方面的偏誤分析也進一步加強。語音方面的研究多采用實驗手段(詳見下文)。這一階段的漢字偏誤研究較多地關注了“漢字書寫”,這也需要記錄與分析書寫字跡的技術手段。“HSK動態作文語料庫”等數據資源從這一階段開始被大量使用。因此,雖然第三階段在研究范圍上沒有太多變化,但開始在研究方法(主要是語料收集與分析手段)上有所突破。這與下文關于研究使用的數據來源的分析結果一致,基于實驗、問卷與語料庫的研究在第三、第四階段逐漸增多。
第三,從研究對象看,第一階段的研究數量不多,大多以泛化的“留學生”整體或“韓國留學生”“越南留學生”兩個學習者群體作為研究對象;第二階段開始,以越南、韓國、泰國、日本以及中亞等鄰近國家與地區的學習者為主;第三、四階段主要增加了蒙古、俄羅斯、印度尼西亞等國家的學習者。研究對象的變化體現了漢語二語學習者主要群體的變化,同時也說明國別化研究一直受重視,是漢語二語偏誤分析碩士論文的主要研究類型之一。
第四,偏誤分析研究的目的是尋找學習者的二語習得規律,從而幫助改進教學與學習。由此來看,第一階段除了聚焦于“教學策略”“教學對策”,也關注了“學習策略”。第二階段從“教學模式”“教學方法”等角度對“課堂教學”提出“教學建議”,第三階段進而注重具體的“教學設計”。這一過程體現了研究目的逐步細化,針對性越來越強,將偏誤分析與教學實踐緊密聯系起來,將研究成果盡可能地應用到教學中去。除此以外,“教材編寫”幾乎一直是重點討論的話題之一,說明有很多研究注意到了將偏誤現象與習得規律的研究發現應用于為教材編寫服務。
在了解了研究主題及其演化路徑后,另一個值得關注的問題是,這些研究是如何開展的。偏誤分析是一種實證性研究,語料是描寫中介語偏誤現象的基礎。如果語料不完整,那么在此基礎上描寫的中介語就不可靠。(36)孫德坤.中介語理論與漢語習得研究[J].語言文字應用,1993,(4).如前文所述,本文將這些研究的語料獲取途徑分為4類。按照Widdowson(37)Widdowson,H.G.On the limitation of linguistics applied[J].Applied Linguistics,2000,(1).的觀點,通過問卷調查與開展實驗得到的數據屬于誘導性的“第二人稱數據”,而檢索語料庫數據及部分其他類數據是相對客觀的觀察,稱為“第三人稱數據”。漢語二語偏誤分析碩士論文極少使用靠內省產生的“第一人稱數據”,主要使用第二人稱數據與第三人稱數據。圖4是全部論文語料數據來源情況的統計結果。其中柱狀圖反映4種來源在各年度論文中的絕對數量,折線圖表示四類數據的年度占比與變化。2007年以前的數據量較小,此后的數據能夠更好地說明四類語料來源在這些論文中的使用及變化情況。
從圖4可以看出,語料來源類型在全部研究中的分布不均衡。以實驗獲取語料數據的論文數量最少,這類研究通常是以實驗手段開展的語音偏誤研究。“其他”類語料雖然獲取途徑較多,但是可以收集到的語料數量有限,難以對漢語中介語中的某個具體問題進行較為全面的描寫與研究。基于小規模調查數據的研究結論具有局限性(38)張寶林.漢語習得研究的兩個問題[J].國際中文教育(中英文),2021,(3).,因此有逐漸減少的趨勢。“問卷調查”類的數量與占比逐年緩慢上升,一直以來都是獲得偏誤語料數據的重要手段。使用中介語語料庫獲取數據的論文數量與占比在四類來源當中最高。隨著語料庫技術的成熟,漢語中介語語料庫的建立在論文選題與語料收集方面產生了較大影響,不但為研究者探索漢語語言現象提供了更多語料資源,也極大地提高了漢語二語教學研究的水平。(39)崔希亮,張寶林.全球漢語學習者語料庫建設方案[J].語言文字應用,2011,(2).使用中介語語料庫的研究數量逐年增加,反映了該研究領域在語料收集與研究方法上的進步。
然而,我們發現大多數留學生撰寫的論文更傾向于使用教學活動中積累的語料或問卷調查(合計占比56%),使用中介語語料庫的約占1/3。一方面,這些留學生的論文往往聚焦于自己國家或母語的二語學習者群體的語言偏誤問題。這說明現有的漢語中介語語料庫還不能完全滿足國別化的偏誤研究需要;另一方面,留學生使用漢語中介語語料庫比例不高是否能夠說明,在中介語語料庫的易用性與宣傳推廣方面,針對非漢語母語者是不是還有一些工作要做呢?這是一個有待考證的問題。
由于基于中介語語料庫開展的研究最多,我們進一步分析了這些論文的數據,發現其中討論語法相關問題的最多(1184篇),然后依次是詞匯(646篇)、語篇(96篇)、語音(72篇)、標點符號(56篇)、漢字書寫(46篇)等。這與基于CSSCI核心期刊論文數據的研究結果基本一致,即“偏誤分析和習得研究側重語法”“語法偏誤分析占比57.1%”“漢字和詞匯偏誤分析最少”。(40)畢晉,肖奚強,程仕儀.新世紀以來漢語作為第二語言習得研究成果分析——基于四份CSSCI中國語言學來源期刊文獻的統計[J].語言與翻譯,2017,(4).本文僅統計基于中介語語料庫的語法偏誤分析研究占比也達到了45.65%,詞匯偏誤分析占比達到了9.64%,漢字偏誤分析占比最少(不足0.7%)。由于口語語料庫較少,借助中介語語料庫開展語音偏誤研究的論文非常少。這些研究中使用的主要有“北京語言大學中介語口語語料庫”和“南京大學海外教育學院全球口語語料庫”。當前語音偏誤研究主要采用問卷調查(195篇)與語音實驗(219篇)等方法獲取數據。這說明公開、可靠、易用的漢語中介語語音語料庫的缺失與漢語二語語音偏誤研究需求之間的供需矛盾是客觀存在的。
不僅如此,漢語中介語語料庫建設方面的不足還體現在學習者母語背景的分布上。分析這些基于中介語語料庫開展的研究涉及的對象國別(區域)與母語背景,可以發現,雖然這些研究已經涉及90多個國家(地區)、22種不同母語背景的漢語學習者,但是研究對象的分布極不均衡。其中韓國(578篇)、泰國(540篇)、越南(185篇)、蒙古(154篇)、日本(153篇)、俄羅斯(132篇)、美國(51篇)、柬埔寨(48篇)、馬達加斯加(42篇)、菲律賓(39篇)、西班牙(33篇)等國家,中亞(72篇)、西亞(27篇)、非洲(12篇)、南亞(11篇)等地區,以及母語為英語(236篇)、俄語(38篇)、日語(26篇)、泰語(25篇)、阿拉伯語(21篇)、法語(21篇)的學習者是主要的研究對象。這與前文基于關鍵詞分析研究主題的結果一致,即研究對象主要分布在我國周邊國家和地區,針對歐美學習者的研究相對較少。這也印證了漢語二語習得研究中,“區分母語背景以及按照其他標準劃分研究對象的差異性研究占多數”(41)畢晉,肖奚強,程仕儀.新世紀以來漢語作為第二語言習得研究成果分析——基于四份CSSCI中國語言學來源期刊文獻的統計[J].語言與翻譯,2017,(4).的看法。
偏誤分析研究能夠在二語學習者的語言產出中發現規律,進而提出具有針對性的教學建議與學習策略,幫助改進教學與學習,因此在二語習得領域備受重視,也是相關專業碩士論文選題的熱點。本文盡可能地收集整理了較大規模的近20年漢語二語偏誤分析碩士學位論文數據,采用文獻計量學與知識圖譜可視化方法,統計分析了21世紀以來此類論文在研究主題及其演化路徑與研究使用的數據來源等方面的特點。研究發現,漢語二語偏誤分析碩士論文大多緊密結合教學實踐,能夠比較全面地關注不同層面的偏誤現象與不同國別或母語背景的初級漢語學習者群體。近20年來的研究在研究對象方面不斷擴展,研究方法的科學性隨著中介語語料庫技術與實驗分析手段的成熟與普及有所提升,在語言要素或語言技能方面逐漸深入和細化,但是在偏誤類型與偏誤原因的分析方面囿于成說、千篇一律,缺乏具體問題具體分析的科學性與合理性。
雖然本文盡可能地收集整理了不同來源的數據,但是由于部分高校的學位論文數據未公開,所得結論仍具有一定局限性。同時,由于學位論文數據庫缺少引文數據,我們無法從引文空間探索這些研究的知識基礎與知識流動,而只能將研究停留在上述結果的范圍內。
在研究過程中,我們也發現了一些值得進一步探索的問題。一些學位論文在關鍵詞的選擇和使用方面不規范,有些關鍵詞過于寬泛,起不到標引主題的作用;部分中介語語料庫未公開共享;CNKI與“萬方”的部分畢業論文數據不完整;學位論文研究使用的數據規模相差較大,特別是部分問卷調查與實驗研究的樣本量與抽樣原則的科學性有待提高。這些問題均會影響科學研究的良性發展,值得進一步探討。