關于建立小型維吾爾族學生漢語口語語料庫的設想

2012-04-29 00:00:00鄧雪琴于麗

青年文學家 2012年32期

基金項目：教育部人文社會科學研究青年基金項目（項目編號12XJJC740002）；教育部人文社會科學研究項目（項目編號10XJJA740002）

摘要：論文首先對建立小型維吾爾族學生漢語口語語料庫的背景做了簡單的介紹，在此基礎上，分析了小型維吾爾族學生漢語口語語料庫建設的意義并提出了建設方法。

關鍵詞：小型；維吾爾族；漢語口語；語料庫

作者簡介：鄧雪琴（1977-），女，新疆醫科大學語言文化學院講師，碩士，研究方向：第二語言教學。

[中圖分類號]：H1 [文獻標識碼]：A

[文章編號]：1002-2139（2012）-23--01

一、背景

口語語料庫屬于學習者語料庫，學習者語料庫作為一種專用語料庫，在語料庫的多元發展中可謂異軍突起，是近十幾年才發展起來的一股新生力量。它是通過收集語言學習者各種書面語和口語的自然材料建立的一種專用語料庫。學習者語料庫的優勢在于它能夠提供有關學習者語言發展的全面信息。利用學習者語料庫我們可以研究學習者語料的詞匯、語法和篇章方面的問題。世界上最早的學習者語料庫是20世紀80年代末建立起來的朗曼學習者語料庫。國內對外漢語教學界最早建立的漢語學習者語料庫是北京語言大學1995年發布的中國大陸留學生中介語語料庫——漢語中介語語庫系統。此后10年間，國內加工建設了一批中介語語料庫，例如南京師范大學的外國學生漢語中介語偏誤信息語料庫，來源于作文和練習，80萬字；暨南大學的華文學生中介語語料庫，來源于作文，300萬字；北京語言大學的HSK動態作文語料庫，來源于HSK高等作文試卷，400萬字；國立臺灣師范大學的華語病句語料庫，來自于課堂對話，字數不詳；新疆大學的維漢中介語語料庫，來源于作文和練習，字數不詳（崔新丹，2008）。

當然，也有其他語料庫屬于內部自建語料庫而無法查實。根據調查可以發現主要的學習者語料庫建設有如下特征：1、如今的中介語語料庫數量少，僅限于幾所高校和研究所。2、類型單一，大部分屬于書面語語料庫，口語語料庫則幾乎無人問津，因為學習者口語語料庫建設難度大、耗時、費力。3、數據庫資源的利用限制大，除了HSK作文語料庫以外，大部分數據庫不實行對外開放，對從事第二語言教學和科研造成了極大的制約。

就一般語言理論的研究而言，學習者口語語料是研究人類認知、習得和使用語言的重要資源；即使是中介語錯誤，也不再被視為偏離常規的變異形式，而被看做是學習者對第二語言系統積極假設并檢驗假設的嘗試性結果；特征性錯誤往往揭示語言系統發展的階段與規律。就第二語言習得與外語教學研究而言，學習者口語語料庫的建設不僅必要，而且迫切。（乃衛興，2007）

二、小型維吾爾族學生漢語口語語料庫的建設

（一）建立大型語料庫的局限性

大型語料庫公認的優點在于語料數量龐大、語料樣品多、產出數據復雜而且代表性強，

然而在可及性和數據產出以及資源享用上仍然存在問題。

1、大型漢語語料庫過于龐大，數據輸出冗余，往往可及性較低。由于大型語料庫包含的語料來源廣，類型多，因此在進行語料搜索的時候容易產生大量沒有進行整理的紛繁復雜的數據，需要研究者自行分類。如上文所述的國內漢語中介語語料庫，語料大都在百萬條左右，對于現實的課堂教學來說過于龐大。

2、語料庫資源的享用不開放。由于版權、價格等各種原因，目前國內的漢語中介語語料庫大部分不實行對外開放。如：新疆大學的維漢中介語語料庫，因為這個語料庫不能供公眾免費使用，所以廣大從事維吾爾族漢語教學研究的工作者基本上仍然使用傳統的資料統計方法。

3、語料庫的針對性不強。雖然北京語言大學的HSK作文語料庫已實行對外開放，但對國內從事少數民族漢語教學的教師來說，這個語料庫的語料來源于HSK高等作文試卷，不能反映少數民族學生的語言學習情況和特點。對從事維吾爾族漢語教學研究的工作者來說缺乏針對性。

由于大型漢語語料庫在數據輸出、針對性和可及性上存在問題，而小型語料庫由于樣品少、產出數據較單一、可及性比較高，因此，建設小型維吾爾族學生漢語口語語料庫顯得極為必要。

（二）小型維吾爾族學生漢語口語語料庫的建設

建立小型維吾爾族學生漢語口語語料庫，一般包括語料采集和轉寫、標注和賦碼、檢索和統計三個過程。

1、語料采集和轉寫

筆者采集語料的途徑有兩種：一是學生在漢語學習階段口語考試時的錄音。二是為了保證學生話語的自然性。在學生不知道被錄音的情況下與老師之間進行的談話。為了確保語料庫中數據的準確可靠，語料的選擇一定要考慮周全，抽樣時要分層抽樣和隨機抽樣相結合。

教師先將采集到的語料以數字化的聲音文件加以保存，然后再全部轉寫成文字。口語語料庫建設最關鍵、也最耗時、耗力的工作是語料的轉寫與標注。為了保證文本語料能客觀地反映有聲語料的真實面貌，轉寫時應該采用不作任何主觀干預的自然描寫方法。對有聲語料中的口誤、脫落、贅述、重復等現象不做任何修改，照原樣轉寫。

2、語料標注和賦碼

以上述方式獲得的語料是未經計算機處理的語料，可以稱為生文本。存檔之后，應對生文本進行加工，使它具備更多的信息。首先應加注篇頭或文本頭。文本頭應提供這篇語料的相關基本信息，例如姓名、班級、性別、年齡、漢語水平、文本字數等。信息越多，對以后的研究更有用。

文本頭標注之后，就應對文本進行標注。標注是一項非常細致的工作，可借鑒北京語言文化大學HSK作文語料庫的標注方法。教師可以根據自己的需要對其中的錯誤進行標注。如果教師希望對學生的某一錯誤了解得更細的話，可以將錯誤進一步分類。

3、檢索和統計

標注完成之后，就可以利用檢索軟件對標注的語料庫進行檢索，若要做進一步的統計分析，還需要利用 SPSS等數據統計軟件。

上述工作完成之后，我們應將這些庫文件統一命名保存，方便語料的維護與應用。語料庫的建設也就基本結束。這樣建成的語料庫是開放的，教師可以在今后的教學過程中不斷添加新的語料，使語料庫發揮更大的作用。

參考文獻：

[1]、崔新丹. 基于新疆少數民族習得漢語語料庫中離合詞的研究價值[J].和田師范專科學校學報（漢文綜合版），2008（6）：66-68.

[2]、儲誠志，陳小荷.建立“漢語中介語語料庫系統”的基本設想[J].世界漢語教學， 1993（3）：41-47.

[3]、賈雯.國內語料庫語言學研究述評[J].阜陽師范學院學報（社會科學版），2006（5）：65-66.

[4]、馬躍.學生語料庫與第二語言習得研究[J].暨南學報（哲學社會科學），2003（5）：87-92.

青年文學家2012年32期

青年文學家的其它文章: 淺談高校離退休人才資源的開發; 漢水上游羌族民居建筑之淺談; 淺議尼爾·波茲曼媒介理論中的信息性質; 淺析傳媒輿論監督與司法的博弈“囧”態; 淺析運動賽事的試聽作品創作; 跨文化交際中文化間性意識的生成