摘 要: 本文通過介紹語料庫語言學的發展與應用,指出了建設壯語語料庫的意義,闡述了建設壯語語料庫的建議,以及壯語語料庫的附碼標注,包括標注應遵循的原則,可參考的標注模式和可標注類型,旨在促進壯語語料庫的研究與發展。
關鍵詞: 語料庫語言學 壯語語料庫 建設
語料庫語言學是對以語篇語料為基礎的語言進行研究的一門學科,也是一種研究方法。四十多年來,語料庫語言學不斷擴大研究范圍,取得了豐碩成果,鞏固并提高了自己在語言學界的地位。尤其是運用不斷更新的計算機技術建立的語料庫,規模大、功能多、檢索方便,使語言研究的手段和方法發生了巨大變化,對語言學理論探索也產生深遠的影響。近年來在語言學界和言語工程界的共同努力下,我國在漢語語料庫和中文信息處理技術方面取得了令人矚目的進步。我國少數民族語料庫和信息技術方面也有了一部分成果。1991年國內出現了“現代蒙古語文數據庫”和蒙古文語料庫的詞類標注系統——AYIMAG。中國社會科學院民族研究所完成了1994年立項的社科基金項目——中國少數民族語言文字多媒體數據庫。另外藏文、朝鮮文、壯文、滿文等也在操作系統、電子出版系統、數據庫建設等方面有了比較大的發展。而在壯語語料庫的建設方面,我認為還可以有更好的發展。
一、語料庫語言學的發展
語料庫語言學在其發展初期并沒有引起太大的共鳴。計算機的發展促進語料庫建設手段不斷實現現代化和自動化,語料庫在語言教學和研究中所能發揮的作用越來越大,從語言研究、語言教學、語言測試、詞典編纂到人工智能等領域都開始應用語料庫。現代語料庫語言學開始得到越來越多人的重視。由于語料庫搜集了大量的人們實際使用的語言,而且可根據各種研究需要通過計算機快速加以處理,故語料庫為語言研究開辟了廣闊的研究領域。
語料庫語言學開始是以英語作為研究對象的,現在已發展到英、法、德、西、日、漢、蒙語等20多個語種。語料庫語言學的發展可分為兩大時期:計算機化以前的語料庫和計算機化的語料庫。計算機化之前的語料庫主要有為詞典編纂,語法研究收集的引語庫,為教學目的收集的文章庫,為語言調查收集的方言庫。計算機化的語料庫可分為三個層次:未加標注的語料庫,標有詞類附碼的語料庫,標有句法附碼的語料庫和標有語音韻律的語料庫。
二、語料庫語言學的實際應用
語料庫語言學的實際應用主要有四個方面。
第一,詞典編撰方面。大型語料庫對詞典編撰極有用處,如《科林斯—科貝爾特英語詞典》有自己的大型語料庫,《朗文英語詞典》所依據的朗文語料庫網包含三個子語料庫:一是朗文—蘭卡斯特語料庫,含英美語各種類型的書面語3000萬字;二是朗文學生語料庫,含世界上唯一的各國英語學習者書面英語語料庫;三是英語口語語料庫,含第一個日常英語會話語料庫。第二,語料庫的檢索功能和統計手段給句法研究、語篇分析、會話分析和語音研究提供了方便。互聯網上現代英語國際電腦文檔(I-CAME)介紹了許多近年來以語料庫為基礎的語言研究項目,說明語料庫對于語言研究的重大意義。語料庫語言學可以處理一定范圍內的語料,揭示語言在某一歷史階段中的情況。第三,語料庫語言學對語言教學與外語教學產生了直接的影響。語料庫作為大量真實語言資料的來源,近年來在教學中得到越來越廣泛的應用。母語習得和外語學習都離不開語料研究。語料庫對新聞語言、科技文本等特殊用途語言的教學與研究也起了很大作用。第四,翻譯研究語料庫翻譯研究是20世紀90年代才興起的一種全新的翻譯研究模式。適用于翻譯研究的語料庫主要是平行語料庫和可比語料庫。語料庫翻譯研究取得的較突出的成就是對翻譯普遍性的研究。關于譯文中存在的簡略化,明確化和規范化的普遍特征的假設在語料庫翻譯研究中得到了一定程度的驗證。
由于語料庫在數據統計等方面的強大功能,它也被廣泛應用在其他領域,如基于口語語料庫數據對口語和書面語進行對比研究,對口語詞匯、口語語法和會話中的詞塊使用特征、話語結構特征的描述,利用平行語料庫研究英漢互譯和語言測試問題,等等。
三、建設壯語語料庫的意義
從語料庫語言學的發展和語料庫的應用中,我們看到少數民族語言的語料庫的建設對于少數民族的語言研究是有意義而且必要的。近年來國內專家學者對壯語的研究取得了進展。為了使壯語研究者更加方便地進HbLt/r3a9+PJNrQhuXaquA==行壯語語言的描寫,方言比較研究和壯語和其他語言的歷史比較研究,以及壯語詞典的編撰、壯語語料庫的建設是非常有必要的,其重要意義可歸為以下幾點。
第一,語料庫可以廣泛地集錄語言資料,最大限度地保存、保護語言資料,保存具有社會歷史價值的語言文化遺產。在社會文化生活發生巨大變化的今天,不少語言日漸衰微,乃至面臨消亡的危險,沒有被很好地記錄。盡管壯語沒有面臨瀕危境地,但存在漢化現象,因此壯語語料庫的建立是必要的。
第二,可以大大改進壯語研究手段。就目前語料庫語言學經驗來看,語料庫可以有效幫助詞語形式、詞義、用法的研究,進行壯語單或多方言詞匯、語法的分析比較。在語料庫語言學中,語義韻律或語義協調研究是吸引人的閃光點,可發掘出語言單位間微妙的語義聯系,值得關注。
第三,對語言學習具有重要作用。如果根據壯語語料庫和普通話語料庫這種“雙語”語料庫進行教學,通過檢索功能詞,可以使學習者自己發現語法規則;通過檢索同義詞組,可以幫助學習者區分其用法,從而產生積極的效果。這種“雙語”語料庫進行教學的方法也可以用在英語教學方面。比如說壯語的一些人在學英語的時候,可以用壯語語料庫與英語語料庫進行語音上的對比。如,有些壯語方言中的發音/p/、/b/、/t/、/d/與英語中的發音不同,有利于該壯語方言區的人糾正他們所講的英語中的相應發音。又如,有學者研究壯語的中動語態與英語中動語態的不同就可以運用壯語語料庫作為語料來源。
第四,可以大大提高壯語詞典的編纂水平。國外已經有了多種根據語料庫編纂的詞典。根據語料庫編纂的詞典,在收詞、釋義及詞語的用法說明方面都會大大不同于用傳統方法編纂的詞典。至今廣西壯族自治區少數民族語言文字工作委員會編撰了兩部較重要的壯語詞典:《壯漢詞匯》(1984)和《壯漢英詞典》(2005),材料都是在自己的壯語語料來源或語料庫的基礎上的。
四、壯語語料庫的建設
1.建設壯語語料庫的設想
首先,搜集、記錄大量原始語料是建設有價值的語料庫的基礎。搜集壯語語料比一般的語料如普通話語料要艱難很多倍。各種語體、文體的普通話料在因特網上大量存在,但是各種壯語資料則散見于少量的文獻中,大多沒有以電子文本形式存在的成品。沒有足夠的資料,研究將會受到很大限制,建庫也會成為問題。所以應盡可能多地收集資料,以電子文本形式保存,建成電子文本集。有了大量原始文本,才可以根據不同的目的、不同的需要把原始文本輸入不同類型的語料數據庫。對于口語作品,要進行錄音,把錄音資料轉寫成文字。
其次,以書面語料為主,其他形式的語料為輔。壯語書面語常見于壯語出版物,如《三月三》期刊和一些壯語教材。口語則應以武鳴壯語為準,主要搜集該地區的壯語語音材料。
再次,要注意語體、文體差別。語言的語音、詞匯、語法、修辭在不同的語體、文體中會有不同的表現,因而在建庫時可以根據一定的語體或文體構建不同的語料庫,這樣才便于發現語言運用的規律性問題。從現在的一些研究看,一些學者開始注意到運用不同語體的文獻進行以語料庫語言學理論為基本指導思想的漢語言研究,這是一個可喜的變化。如果可以,我們也可以根據一定的語體或文體構建不同的壯語語料庫,如壯語方言語料庫,壯語新聞用語語料庫等。
最后,壯語的各方言語料庫要求能統籌兼顧,最后能夠嫁接在一起方便使用。建設壯語方言語料庫,“小作坊”式的語料庫容易造成重復建設,浪費大量的人力、物力和財力,也不利于語料庫的建設和使用。壯語方言語料庫應該是一種公益性的成果,應成為語言工作者無償獻給社會的公共財產。不僅語言工作者可以方便使用,社會各界、中外語言學習者都可以從中受益。這樣,語料庫才能夠發揮其應有的作用,收到深遠的社會效益。
2.壯語語料庫的附碼標注
語料標注可實現語料機讀化,可提高語料的利用價值。標注就是對語料庫中的原始語料進行加工,把各種表示語言特征的附碼標注在相應的語言成分上,以便于計算機的識讀。語料庫的附碼標注要遵循一定的原則,有可參考的標注模式。
(1)壯語語料庫可遵循的附碼標注原則
英國著名語言學家Leech是當今語料庫語言學的代表人物之一,他(1993)認為語料的標注應該遵循以下幾個基本原則。
第一,標注附碼可刪除,可恢復到原始語料。語料的標注總是帶有一定的目的性,語料庫用于不同目的,可能就需要采取不同的標注方法。可刪除標注附碼的語料若用于其他用途時,可重新進行標注。
第二,標注可以單獨抽出,另外儲存。這一原則實際上與第一條原則基本一致,目的是讓語料庫中語料的標注能夠最大限度地增強語料使用的靈活性。
第三,語料的最終使用者應該清楚標注的原則和附碼的意義。
第四,在語料的使用和說明文件中,應說明標注者和標注所使用的方法。
第五,應向用戶表明語料的標注并非完美無缺,它只是一種可能有用的工具。
第六,標注應該采用綜合的使用范圍廣泛的語法理論以方便語料庫的使用,而不是按照使用范圍狹窄的某一特定的語法理論。
第七,任何標注模式都不能作為第一標準。在標注模式的確定過程中,目前比較理想的做法是,綜合考察已有的各種標注模式,分析各種模式的長處與短處,結合自己語料庫的實際應用,建立一種折中的標注模式。
以上七個原則,中心意思也就是最大可能地方便標注者和使用者,并被廣泛認可。壯語語料庫的駙碼標注可參考Leech提出的這些原則。
(2)壯語語料庫可參考的語料標注模式
自語料庫誕生以來,人們采用了各種各樣的標注模式。目前,語料庫語言學領域內的許多研究者正在致力于建立一種國際統一的標準標注模式,可作為壯語語料庫的參考模式。
COCOA參考系統是一種很早出現的用于從機讀語篇中提取詞匯索引的計算機系統,它的一些標注的格式已經被OCP(Oxford Concordance Program)所采用,而且被“朗文—蘭卡斯特語料庫”(Longman-Lancaster corpus)、“赫爾辛基語料庫”等應用于語料的標注之中。TEI(Text Encoding Initiative)被認為(McEnery、Wilson,1996)最能反映當前語料庫語言學家致力于建立更具形式化的機讀語篇信息編碼國際標準的動向。它采用SGML(Standard Generalized Markup Language)詞性標記附碼,在此基礎上又制訂了一套詳細的規則。TEI標注模式已經為詩歌、書信、戲劇等基本文體制訂了一套標注的標準。一個語篇的總體情況可以用文件類型描述(DTD,document type description)標出。DTD提供關于語篇所包含的語言單位、語言單位的組合形式,以及標注附碼的含義等信息。
(3)壯語語料庫可標注的類型
有一定規模的語料庫的語料標注類型主要包括語篇背景信息、詞性、詞形、句法分析、語義、語篇結構等。這些內容也是壯語語料庫應包含的類型。
語篇背景信息可以小部分通過文件名反映出來。語篇背景包括標題、作者(包括年齡、性別、國籍等)、語篇的寫作時間、書面語還是口語、何種變體的語言、內容類別、語料來源等各種信息。這些信息對語料的分類與索引是非常重要的。
詞性標注有時也被稱為語法標注,目的是標明語料中各單詞的詞性,例如單數普通名詞、形容詞的比較級、過去分詞等。詞性標注是整個標注過程的最基礎階段,為進一步的句法分析和語義標注奠定了基礎。
詞形標注是指把單詞的原形標注出來,是整個標注過程的重要步驟,因為這些信息對于詞匯研究和詞典編纂XNYi3+Hm2ueeJrWEkfCfyJ6Ok0ZwNxNk7NYhFBiRLR8=尤為重要。通過詞形標注,我們可以非常方便地統計詞匯的使用頻率,提取單詞的各種變化形式和統計它們的分布情況。
句法分析是把句子的各種組成成分用各種表示句法特征的附碼標注出來。句法分析在目前一般根據語料庫的目的等因素而采用不同的語法理論,而對于句法結構標注方法,不同的語料庫采用的方法也不同。
語義標注主要包括語言單位的語義特征和語言單位之間的語義關系。由于語義標注的歷史不長,人們目前對于標注的內容還沒有一致的看法。現在一些語料庫研究者正在致力于設計一些語義分析系統,以便于進行語義標注。
語篇結構的標注在目前各種語料庫的實際情況中進行得還不太普遍。Stenstrom(1984)采用語篇附碼對“倫敦—隆德英語口語語料庫”(London-Lund Corpus of Spoken English)進行語篇標注。
有些語料庫要進行語音標注,但是由于語音標注完全需要人工完成,而且要求標注者具有相當高的語音聽辨能力和語音學水平,因此,除非特殊需要,目前進行語音標注的很少。
五、結語
國內語料庫語言學通過多年的發展,無論是在語料庫的利用上還是在研究方法上都取得了長足的進步,但同時我們也應看到存在的一些問題。如各研究領域發展欠平衡,有些語料庫的選取不夠恰當,采取的統計方法不夠嚴謹,等等。我們應該充分認識到語料庫研究對我國語言研究的重要意義,密切注意國外語料庫語言學發展的最新動態,充分利用一切語料庫資源和語料庫研究成果,并結合我國的語言教學和研究現狀,進行更深入的語言研究和語言應用研究。少數民族語言語料庫建設是很有發展前途的研究領域。目前國內已有研究單位和學者著手或者開始建立壯語語料庫,希望我國的研究者能夠在國外研究的基礎上,根據我國壯語的實際需要,建立一套適合壯語實際情況的語料標注系統。這無疑是對我國的少數民族語言研究作出重要貢獻,尤其是對壯語的研究有極大的意義,將促進壯語語料庫的研究與發展。
參考文獻:
[1]畢麗克孜.語料庫語言學的應用和維吾爾語語料庫詞頻統計的意義[J].新疆師范大學學報(哲學社會科學版),2005,(6).
[2]崔剛,盛永梅.語料庫中語料的標注[J].清華大學學報(哲學社會科學),2000(1).
[3]何安平.教育中的應用——理論與實踐[M].廣州:廣東高等教育出版社,2004.
[4]劉巖.關于中國少數民族瀕危語言語音語料庫的設計[J].中央民族大學學報(哲學社會科學版),2006,(4).
[5]羅起君.談壯語的可利用價[J].河池師專學報(社會科學版),2002,(9).
[6]潘永梁.語料庫語言學的目的和方法[J].解放軍外國語學院學報,2001,(3).
[7]王建新.我國在語料庫語言學研究方面的部分進展(概述)[J].外語與外語教學(大連外國語學院學報),1999,(3).
[8]王澤鵬.發展方言語料庫 提高研究水平——兼談粵方言語料庫的建設[J].煙臺師范學院學報(哲學社會科學版),2003,(3).
[9]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.
[10]周亞娟.語料庫語言學的應用及其在中國的發展趨勢[J].齊齊哈爾大學學報(哲學社會科學版),2007,(5).