梁迪 梁爽
摘 要:本文以2年以來基于語料庫的現代漢語研究的文獻為依托,從基于標記語料庫、靜態語料庫、自建語料庫三方面的研究,分析了現代漢語研究借助的語料庫類型,并據此分析了目前該研究方法存在的問題。
關鍵詞:語料庫;現代漢語;研究方法;問題
作者簡介:梁迪,1995年10月生,女,漢族,河北省廊坊市永清縣人,本科在讀,研究方向為漢語言文學專業;梁爽,1992年9月生,女,漢族,河北省廊坊市永清縣人,研究生在讀,研究方向為藝術設計。
[中圖分類號]:H109 [文獻標識碼]:A
[文章編號]:1002-2139(2016)-12--01
一、緒論
正如Sinclair所言:“語料庫所提供的海量語料使研究者系統地對大量文本語料進行審視,使我們有可能發現一些新的未發現的語言事實”。語料庫在語言研究中能提供空前廣泛的語言資料,使得對語言多方面、多層次的研究成為可能。本文以2000年以來基于語料庫的現代漢語研究的文獻為依托,深入分析文獻中基于語料庫的研究方法,并從借助的語料庫類型進行具體綜述,據此對研究中存在的問題進行了分析。
二、借助的語料庫類型
“語料庫為語言描述提供了豐富的數據資源,在基于語料庫的語言研究中,語言學家利用機儲數據庫去描寫語言的詞匯和語法”。基于語料庫的研究方法,方便研究者統計數據,并在已有成果基礎上,深化對某一類詞群的研究。
然而,語料庫種類眾多,現代漢語研究方向也是多方面的,選擇與研究內容相適應的語料庫類型才能更好地提高研究效率,取得更佳的研究成果。筆者通過歸納2000年以來基于語料庫的現代漢語研究的文獻,總結以下幾種常用的語料庫類型。
(一)基于標注語料庫的研究
標注就是使語料的某些單位(詞、句、段等)和表示對這些單位的某種層次的“理解”的知識信息(標記符)相關聯。標記語料庫即含有這些加工者添加其對語料的理解信息的語料庫。這樣的語料庫可以作為句法規律研究的重要參考。
孫建功等,基于標記語料庫對單句句型句模對應關系進行研究,歸納總結出現代漢語單句句型和句模對應關系的主要特點。杜婷借助《國家語委現代漢語通用平衡語料庫》的“標注語料庫”(在線提供免費檢索的語料約2000萬字),對現代漢語中小類詞口部動詞的頻度進行了統計,進而發現其語法語用規律。
對語料庫的標注工作,既是語料庫建設中的一個重要環節,也豐富了語料庫的利用價值,使其在句型、詞匯等方面的研究中可以發揮出更大的作用。
(二)基于靜態語料庫的研究
靜態語料庫是收集某一固定時期的共時語言使用樣本構成的語料庫,屬于共時語料庫的一種。現有的許多類型的詞典,被眾多語言研究者運用到語言學研究中,形成基于靜態語料庫的現代漢語研究范式。
亢世勇在進行現代漢語謂賓動詞分類統計研究時,即利用《現代漢語詞典》等靜態語料庫作為語料源,利用計算機進行窮盡性檢索,根據動詞所帶賓語類型對動詞分類。針對外來詞的研究,駱牛牛在《漢語經濟外來詞研究》中,以多部具有代表性的外來詞詞典為語料庫,從中窮盡性檢索出符合條件的經濟類詞條作為研究對象,以對其進行分析、總結規律。
基于以詞典為主的靜態語料庫的研究,有利于更好地把握現代漢語發展演變過程中某一時段的共時特征,對歷時發展規律的研究有很好的基礎性作用。
(三)基于自建語料庫的研究
現代漢語中的詞匯也是在人際接觸交往中不斷更新的。漢語詞匯的日漸豐富,使得語料庫的發展速度達不到詞匯發展要求,因而出現研究者根據真實文本資料自建語料庫,用于自己的研究,也為后來的研究者提供借鑒意義。
薛松蕙人,通過在《現代漢語詞典》和《新華新詞語詞典》等辭書中檢索對應詞條,建立了一個舊詞新義詞語語料庫來佐證自己的研究,為舊詞新義語料庫補充了新語料。盧海濱、王曉娟等分別自建了外來詞語料庫和派生詞語料庫,為他們的對比和實證研究提供重要參考依據。
這些自建的語料庫一方面可以方便研究者開展自己的研究論題,另一方面,它們也是已有的靜態語料庫的動態補充。研究者在自建語料庫的過程中提出的全新的建庫標準原則,為以后語料庫的豐富完善提供了指導性意義。
三、研究中存在的問題
基于語料庫的現代漢語研究雖已得到進一步發展,研究方法也在逐步完善并廣泛應用于各個方向的研究。然而,基于語料庫的研究方法在運用時候仍然存在著一些問題:
(一)規模不夠大
我國現已建成的語料庫數目較多,涉及到的類型也較為豐富,但在規模上并不占優勢。我國的大規模語料庫雖已存在破億的語料庫,國家語委現代漢語通用平衡語料庫全庫約為1億字符,但這樣大規模的語料庫也只是少數,和國外的語料庫規模相比仍存在差距,需要進一步擴大規模。
(二)研究方向不全面
基于語料庫的現代漢語研究涉及到的領域很多,然而主要集中于詞匯,語法,語義等方面的研究,且利用的標注語料庫、靜態語料庫、自建語料庫等,都是書面語語料庫,基于口語語料庫的研究甚少。因此,我國基于語料庫的研究并不全面,有很多研究角度有待開發。在跨學科研究領域仍有很長的路要去探索。
四、結論
2000年以來的基于語料庫的現代漢語研究方法,對于現代漢語有著較為全面廣泛的研究,在歸納分析現代漢語的詞匯、語法等方面的發展演變規律發揮著重要作用,進而推動了現代漢語的發展。同時,這一方法在現代漢語研究中的廣泛應用,對于完善現代漢語語料庫的建設也有著重要意義。但是,這一研究方法也存在著語料庫規模不夠大,技術不成熟,研究方向不全面等問題。因此,擴大語料庫規模,完善研究技術,拓寬研究領域,是推進我國語料庫發展的重要方向。
參考文獻:
[1]黃昌寧,李涓子.語料庫語言學[M].商務印書館,2002.
[2]亢世勇.現代漢語謂賓動詞分類統計研究[J].遼寧師范大學學報(社科版),2000(1).