999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語料庫詞典學的最新發展和未來趨勢(上)

2009-07-31 08:52:18MichaelRundell夏立新
辭書研究 2009年3期
關鍵詞:語言

Michael?。遥酰睿洌澹欤臁∠牧⑿?/p>

摘要本文首先回顧了詞典編纂中語料庫(包括學習者語料庫)的使用現狀,指出除了少數詞典以外,大多數詞典對語料庫數據的使用都是隱性的,而非顯性的。在此基礎上分析和總結了語料庫數據顯性應用的可能方式和途徑,如詞頻、搭配等語料庫數據在詞典中的新應用。最后,預測了語料庫在詞典學領域的應用和發展趨勢。

關鍵詞語料庫詞典學學習者語料庫語料庫顯性應用詞典學

一、引言

詞典編纂是一個復雜的過程,但從本質上看該過程可分為四階段:

(1)決定詞典的目標用戶與詞典的使用方式;

(2)收集語料;

(3)分析語料;

(4)根據上述三個階段的研究結果,編寫詞典文本。

第一個階段至關重要,但是相對來說比較容易做。然而,剩下的三個階段一直以來都是一塊非常難啃的硬骨頭,使得詞典編纂成為一項耗資巨大的苦差事。出于多種原因,近來第二和第三兩個階段變得容易了許多。計算機技術的發展、語言工程界的最新研究,以及詞典編纂者與計算語言學家的密切合作為詞典語料的收集和詞典編纂帶來了一場革命。如今,我們可以在很短的時間內、用較少的資金建成大型的語言數據庫,并可以用非常先進的方法對數據庫中的數據進行有效的分析。

讓我們先來看一下詞典語料的收集。在過去幾百年間,這項工作意味著要通過艱苦的“閱讀與標記”過程從文本中收集引例。例如,《牛津英語詞典》(Ox ford English Dictionary)的第一版和第二版(1928年版和1989年版)就是根據幾百萬張語料卡片上所記錄的引例編纂而成的,每張卡片上都有一段簡短的引文,標示語詞的使用情況。這些引例是大批志愿讀者從19世紀60年代開始用幾十年的時間收集起來的,它們具有極大的語言學價值。然而,其中大部分工作如今都可以用計算機來完成,需要人工做的部分已經很少。到20世紀末,這種收集語料的方法已經在很大程度上被電子語料庫——一種存儲在計算機中的文本集所取代。但是,這是一個漸進的過程。從第一個英語語料庫

20世紀60年代建立的擁有一百萬詞的布朗語料庫到約翰·辛克萊(John Sinclair)在伯明翰建立的大型語料庫之間相隔了二十年。只要讀一讀早期語料庫建設者的記述(Kuecera and Francis 1967,Renouf 1987),我們就知道這需要怎樣艱辛的努力。即使是像BNC(英國國家語料庫)這樣比較“成熟”的語料庫,也花了三年多的時間才建成。該語料庫建于上世紀90年代初,由多家詞典出版社和學術機構合作建設,耗資達數百萬英鎊。

如今,情況已大不相同。因特網的出現以及網頁文本定位、提取和處理等軟件工具的開發給語料庫帶來了第二次革命。這些技術使我們能夠用較少的投資快速地建設比“傳統”方式所能收集到的任何語料集都大得多的語料庫。英國的詞典編纂者通??墒褂檬赵~達20億的各種英語語料庫(Baroni et al.2006,Sharoff 2006),不僅如此,他們還擁有現成的或正在開發的漢語、日語、阿拉伯語、大部分歐洲語言語料庫和其他類似的資源。擁有了龐大的語料庫資源后,我們就可以輕松地、準確地確定語詞的使用頻率或語言特征。相比之下,讓齊普夫(G.K.Zipf)得出其著名齊普夫定律的詞頻表,則是他經過多年艱辛的收集才編輯而成的。

詞典編纂過程的第三個階段——分析語言數據的工作也經歷了類似的變化。傳統的做法是,詞典編纂者將在第二階段所收集的引例卡片進行分類、比較和反復推敲,直到從中得出語詞意義和用法的明顯證據。詹姆斯·默里(James Murray)的孫女在其著述(Murray 1977:chapter X)中給我們生動地描繪了這一艱辛的工作需要怎樣巨大的耐心和韌性。在前計算機時代,語文學者可以利用的另外一個工具是“語詞索引表”?!罢Z詞索引表”原先是文本中每個語詞的索引(尤其是宗教典籍或經典文獻),表中給出所有語詞每次在文本中出現的位置。想到過去建成這類資源要投入數年的辛勤勞作,而如今同樣的工作只需短短幾秒鐘就能完成,真令人感慨不已。過去與現在相比,的確有天壤之別:在收集詞條的語料時,如今的詞典編纂者能夠在幾秒鐘之內在幾十億詞的語料庫中進行各種復雜的檢索。

雖然近年來語言數據的收集和分析變容易了許多,但是,詞典編纂過程的最后一個階段一一編寫準確反映可觀察的語言行為和適應目標用戶需求的詞典文本——仍然是一項需要大量(人工)編輯工作的艱巨任務。這就引發了下面的問題:語言科技到底能帶我們走多遠?既然如今已經不會發生語料不足的情況,并且語言分析的過程也簡約高效,那么,詞典學界和語言工程界的合作能使我們距離在某種程度上自動生成詞典這個目標越來越近了嗎?早在1987年,約翰·辛克萊就預見到計算能力和計算技術可能的發展軌道。他甚至還說過“一種完全自動生成的詞典正處于設計階段”。然而,二十年后,這個自動生成詞典的夢想仍沒有實現——但是,它當然也沒有從議事日程中去掉。在下文介紹上述變化對教學型詞典產生影響的各種方式時,它將是其中所討論的問題之一。

二、語料庫的影響

1980年可視為語料庫詞典學的“零年”,這一點顯而易見(并且相當準確)。正是在這一年COBUILD項目正式啟動,由此所編纂出的詞典——第一部以語料庫為基礎的英語詞典于1987年問世。這給全球英語詞典的編纂帶來了根本性的變革。短短十年之內,所有主要的英語學習詞典出版社都把語料庫作為其首要的語料來源。雙語詞典[例如《牛津一阿歇特英法詞典》(Ox ford-Hachette English—French Dictionary)]和以本族語者為目標用戶的單語詞典(例如《牛津英語詞典》)都很快跟進,因此,現在在編寫英語詞典(或者在英國出版雙語詞典)時幾乎沒有不利用語料庫的。

使用語料庫編纂詞典的好處已有多篇文獻做過記述(Sinclair 1987,Rundell 1998),但是直到近年來,詞典呈現從語料庫中所獲得信息的方式大多數都是隱性的,而非顯性的?!半[性”呈現方式是指,對語料庫數據的分析將幫助詞典編纂者對一些編纂問題做出決策,如詞義(某一語詞有多少義項)、片語(哪些短語或搭配值得凸顯)、句法特征(哪些句法結構需要收入詞典中)等等。同樣,從語料庫中所獲得的詞頻信息為詞典編纂者決定選詞立目和義項排序(例如,哪個義項該排在前面)等決策提供了依據。最后,對學習者語料庫的分析使我們在詞典中凸顯學習者可能感到困難的某些用法,或者用用法說明來解釋學習者時常混淆的語詞差異。例如,我們從學習者語料庫數據中得知information一詞經常用作可數名詞,于是,在詞典中就給出一個類似下面《劍橋高階學習詞典》(Cambridge Advanced Learners Dictionary)中的警示說明,以幫助學習者糾正

這一錯誤印象。

但是,在上面所有這些隱性呈現方式中,只有詞典編纂者能夠看到從語料庫中所獲得的信息,最終的詞典使用者卻無法看到。在這種呈現方式下,詞典編纂者的任務就是以簡潔有效的方式為詞典使用者呈現一系列有關語詞特征的信息,而這些信息就是通過對語料庫中的數據進行大量分析后得出的。實際上,詞典使用者在詞典中看見的不過是二手數據,是巨大冰山的一角??偟膩碚f,這是一個理智的做法:普通的詞典使用者——他們一般是為某個語言問題快速尋求一個答案——既沒有時間也不愿意(通常也沒有必要的技能)費力在一堆原始語言數據中尋求答案。但是新科技給詞典編纂者提供了讓詞典使用者直接使用語料庫信息的機會。

最能證明這一點的就是例證的呈現方式。在早期的學習詞典里,例證都是詞典編纂者自己杜撰的,為了在一句話里闡釋幾個不同的語言點,他們常常要精心編造例證。語料庫的出現使詞典編纂者直接使用語料庫中的真實句子作為例證成為可能。第一部COBUILD詞典開創了這方面的先河,它大膽地采用從語料庫中選取的、未經過任何修改的句子作為例證來闡示語詞的用法——這可能是首部向詞典使用者提供顯性語料庫信息的詞典。COBUILD詞典的做法并沒有獲得一致認可(Haussman&Gorbahn 1989),后來,詞典學界還對使用未加修改的真實例證的優點(和缺點)進行了一場激烈的辯論?,F在,雖然仍然可以聽到不同的意見,但大家已理智地達成共識:如果例證不通俗易懂,那就不能起到有效的示例作用;此外,直接選自語料庫的未加修改的例證并不總能(甚至經常不能)滿足普通詞典使用者的需求。然而,我們稍后會了解到,實際上我們完全可以做到魚和熊掌兼得:既能提供以教學為目的、充分反映語料庫中語詞用法的例證,同時又能讓詞典使用者直接接觸到大量未經修改的語料庫中的原句。

然而,在這場關于例證來源和真實性的辯論中,我們很容易忽視語料庫對詞典學發展最為重要的貢獻。雖然對詞典編纂者來說,例證是他們可以使用的、看得見的語料庫數據,但是,語料庫的真正價值在于它為詞典編纂者分析語詞意義與用法提供了不可或缺的原始數據。這一點表現在兩個層面:具體層面和系統層面。

在具體層面上,即單個詞條層面,我們如今能夠非常精確地描述語詞的意義,如果沒有大量的語言數據支持,這是完全不可能的。像《朗文英語聯想活用詞典》(Longman Language Activator)(1993)這類以辨析近義詞為主要目標的詞典在前語料庫時代是根本不可能做到的。例如,該詞典的動詞bump off詞條就清楚地給出了該詞的語義和文體特征,這些特征把它和其他動詞,例如murder和do away with區別開來:

bump off an informal word meaning to kill someone or arrange for them to be killed, especially because they know about things you have donewrong,or are dangerous to you殺死,謀殺:殺死某人或預謀讓某人被殺的非正式詞匯,尤其是因為他們知道你所做的錯事或對你構成危險。早期的詞典是不會詳細到這個地步的,就像該詞條在《牛津高階學習詞典》(Ox ford Advanced Learner's Dictionary)(1989)第四版中所示的那樣:

bump oFf(sl)kill or murder sb(俚)殺死某人;謀殺某人

在系統層面,語料庫的影響更為深遠:它讓我們重新認識語言使用的規律。根據我們對語言使用進行考察后所獲得的發現,許多構成傳統詞典學基石的觀點都得重新評估。例如,傳統詞典學認為,單個語詞是意義的自主載體;語詞可以擁有一定數量的、相互排斥的獨立“義項”。但在大量的語言證據面前,這些觀點看起來越來越不合情理。不斷出現的語言使用模式(約翰·辛克萊首先對此進行了研究,并稱其為“習語性原則”)促使我們重新去思考詞典描述語言的方式。正如帕特里克·漢克斯(Patrick Hanks)所指出的那樣:“約翰·辛克萊并不僅僅是一位詞典學家……他還深入研究語詞的使用,以便闡明語言使用的規律?!毙量巳R和其他語料庫語言學家的新見解給我們展示了意義和使用之間的密切聯系。這導致詞典的組織方式發生了巨大的變化,詞典更加重視片語和詞匯單位的處理,而不是單個的語詞。舉一個簡單的例子,讓我們想一想詞典是如何幫助使用者理解“I said 1 would have a think about it and give my decision tomorrow.”這句話的。在傳統詞典中,我們將發現以下解釋:

think2noun [singular]an act of thinking[單數]想;思考;思想接著,詞典編纂者希望讀者用詞典所給的釋義替換原句中的詞目詞,并成功地理解這句話的意義。但是,所有的數據都顯示,無論用“名詞”這一術語的哪個意義來解釋上句中的“think”,它都不是通常意義上的名詞,相反,它總是出現在固定表達式“have a think about”中。因此,基于語料庫的詞典將不收錄或解釋那些罕見的、邊緣的用法,而著重解釋反復出現的多詞單位。語料庫數據不僅使詞典編纂者能夠在許多方面比以前做得更好,而且促使我們重新思索詞典編纂的本質。我們目前也許只是初步利用了語料庫發展所帶來的那些附帶成果,因此,羅斯蒙德·穆恩(Rosamund Moon)預測將來會出現“一種新型的詞典,在這種詞典中,正字單詞不過是檢索途徑而已,同時,詞典將給出上下文,以便確定其意義”。

(未完待續)

猜你喜歡
語言
詩之新,以語言創造為基
中華詩詞(2023年8期)2023-02-06 08:51:28
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
多向度交往對語言磨蝕的補正之道
累積動態分析下的同聲傳譯語言壓縮
日常語言與播音語言
新聞傳播(2016年10期)2016-09-26 12:15:04
語言技能退化與語言瀕危
我有我語言
論語言的“得體”
語文知識(2014年10期)2014-02-28 22:00:56
Only Words慎用你的語言
主站蜘蛛池模板: 国产福利一区在线| 国产成人高精品免费视频| 制服丝袜亚洲| 欧美在线国产| 欧美亚洲另类在线观看| 国产白浆在线| 777午夜精品电影免费看| 久久久噜噜噜| 亚洲专区一区二区在线观看| 色噜噜久久| 成人午夜久久| 超清无码一区二区三区| 久久久久青草线综合超碰| 欧美日本在线观看| 免费A∨中文乱码专区| 精品超清无码视频在线观看| 片在线无码观看| 中文无码精品A∨在线观看不卡| 最新加勒比隔壁人妻| 亚洲一道AV无码午夜福利| yy6080理论大片一级久久| 美女视频黄频a免费高清不卡| 在线看免费无码av天堂的| 久青草免费视频| 国产在线精品99一区不卡| 免费jizz在线播放| 制服丝袜国产精品| 91成人精品视频| 日韩成人在线一区二区| 久久精品视频一| 国产在线精品人成导航| aaa国产一级毛片| 一本色道久久88亚洲综合| 精品无码一区二区在线观看| 热久久这里是精品6免费观看| 亚洲国产综合自在线另类| 国产第一页免费浮力影院| 久久这里只精品国产99热8| 国产96在线 | 亚洲一区无码在线| 午夜小视频在线| 亚洲精品成人片在线播放| 国产特级毛片aaaaaaa高清| 亚洲人妖在线| 国产高清在线观看| 亚洲精品手机在线| 人妻丰满熟妇av五码区| 性视频久久| 亚洲天堂免费| 免费毛片视频| 人妻21p大胆| 在线中文字幕网| 不卡视频国产| 国产99视频精品免费视频7| 老色鬼久久亚洲AV综合| 日韩在线播放中文字幕| 亚洲国产中文精品va在线播放| a毛片在线| 亚洲精品在线影院| 亚洲人成网站18禁动漫无码| 国产人成在线视频| 婷婷激情五月网| 日韩成人在线一区二区| 亚洲成人在线免费观看| 精品伊人久久久大香线蕉欧美| 日韩欧美国产成人| 日韩无码一二三区| 国产免费久久精品99re丫丫一| 国产亚洲欧美在线专区| 在线观看91精品国产剧情免费| 久久一本精品久久久ー99| 九九热精品视频在线| 欧美一级特黄aaaaaa在线看片| 国产91精品久久| 免费在线观看av| 在线综合亚洲欧美网站| 国产精品国产三级国产专业不| 高清久久精品亚洲日韩Av| 秘书高跟黑色丝袜国产91在线 | 人妻丰满熟妇av五码区| 亚洲欧洲日产国码无码av喷潮| 中国成人在线视频|