張瑞國 萬 禮
(青島農(nóng)業(yè)大學(xué),山東 青島 266109)
自20世紀(jì)70年代美國制作了Brown Corpus以來,世界各國都開始研制語料庫,種類和規(guī)模越來越大。現(xiàn)在語料庫的制作不再限于國家研究項目或是某個大學(xué)的研究項目,個人只要有足夠資金和時間,也可以制作出相當(dāng)規(guī)模的語料庫。特別是針對于日語專業(yè)在校學(xué)生,針對于課堂使用教材,由學(xué)生動手制作適合學(xué)生自己的中日對譯語料庫,可以更有效地學(xué)習(xí)日語并且能夠綜合地運用日語。中日對譯語料庫即為儲存各類日語文章的大型文字倉庫,旨在根據(jù)各種需要對語料庫內(nèi)儲存的語言信息進行檢索,抽取所需信息。是外語學(xué)習(xí)中必不可少的一項學(xué)習(xí)工具,具備省時、易得等特點。
該研究主要針對不同階段的日語學(xué)習(xí)者在日常學(xué)習(xí)中,對于生僻復(fù)雜語言現(xiàn)象難以根據(jù)自己以往的知識積累加以判斷解決的狀況,需要借助既定語境下大量語料數(shù)據(jù)進行學(xué)習(xí)分析的需求,進行了中日對譯語料庫的研究與開發(fā)。在以我校各語言學(xué)習(xí)階段學(xué)生為調(diào)查對象,對于其需求獲得大量反饋之后,開始了語料庫的開發(fā)工作。
該語料庫主要面向初中級學(xué)習(xí)者的語料學(xué)習(xí)工具,因此在內(nèi)容上我們以教材中的重點文章、日語新聞板塊(天聲人語等)、日本文學(xué)名著等為主要內(nèi)容。學(xué)習(xí)者在遇到生僻復(fù)雜語言現(xiàn)象時可借助語料庫中的語料內(nèi)容進行搜索,通過對比、分析、判斷破除所遇到的復(fù)雜生僻語言瓶頸,滿足了學(xué)習(xí)者需要借助既定語境下大量語料數(shù)據(jù)進行學(xué)習(xí)分析的需求。
具體內(nèi)容包括將單詞模塊化、文章化并挑選出經(jīng)典日語文章,經(jīng)典日語例句,讓每一個初學(xué)者使用者都可以輕松查詢到單詞相關(guān)聯(lián)的例句、文章。通過單詞理解記憶文章和例句,通過文章例句反饋學(xué)習(xí)單詞,加深理解,并有助于區(qū)分意義相近的重難點詞匯,使用者在使用的過程中改變以往一成不變的死記硬背的單詞學(xué)習(xí)方式,在閱讀、理解中記憶單詞,用單詞記句子、文章。語料全部實現(xiàn)了句段對齊和詞性標(biāo)注,全部摘錄于著名作品的經(jīng)典語句。本語料庫可以提供一般日語學(xué)習(xí)、語言及翻譯研究等多種目的的應(yīng)用。
在制作方法上我們參考于康(2013),首先針對我們的設(shè)定用戶,選取了相應(yīng)能力階段所需要的日語文獻資料進行篩選,確定為初期語料。之后對篩選后的語料進行掃描,將掃描后的PDF格式文件轉(zhuǎn)化為文字,通過日語文字編輯處理軟件秀丸進行文字整理。之后建立并調(diào)試Java運行環(huán)境,將整理好的語料通過Edamame軟件進行轉(zhuǎn)換建庫,最后通過語言檢索軟件Himawari進行檢索,并調(diào)試運行,之后進行制作標(biāo)簽,標(biāo)簽分類等進一步細化功能的開發(fā),梳理和完善。在初期完善之后我們將軟件投放給學(xué)生進行試用,對于學(xué)生提出的重復(fù)句,語料轉(zhuǎn)換過程中出現(xiàn)的亂碼錯別字,空格等問題進行了修改,并根據(jù)同學(xué)不斷增長的日語學(xué)習(xí)需求進行了新語料的收集生成,并成立語料發(fā)展小組,貼合同學(xué)的需求不斷增加新語料的開發(fā),建立語料開發(fā)長效機制,及時淘汰模糊、曖昧語料。讓語料庫不斷開源,繼續(xù)長流,不斷為同學(xué)的日語學(xué)習(xí)服務(wù)。
經(jīng)過一年的研究開發(fā),最終開發(fā)出能為日語專業(yè)學(xué)習(xí)者所實用的語料庫,彌補了大語料庫費用門檻高小語料庫不能完全滿足需要以及錯誤較多的短板。從本校日語學(xué)習(xí)者的實際需要出發(fā),建立和不斷豐富語料素材。經(jīng)過研究發(fā)現(xiàn)并非只有少納言等大型語料庫,學(xué)習(xí)者可根據(jù)自己需要建立屬于自己的語料庫,使外語學(xué)習(xí)者根據(jù)自己的需要和學(xué)習(xí)方向擁有自己“專向?qū)S谩钡恼Z料庫成為可能。
參考文獻:
[1]戴寶玉.基于語料庫的日語研究[M].上海學(xué)林出版社,2012.
[2]徐一平,曹大峰.中日對譯語料庫的研制與應(yīng)用論文集[M].北京外語教學(xué)與研究出版社,2002.
[3]于康.語料庫的制作與日語研究[M].浙江工商大學(xué)出版社,2013.