999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語料庫自動提取詞匯信息技術研究

2023-01-11 15:24:48呂劍濤姚銀燕
現代計算機 2022年20期
關鍵詞:英語詞匯語義詞匯

呂劍濤,姚銀燕

(廣東外語外貿大學英語教育學院,廣州 510006)

0 引言

語料庫包含大量詞匯在自然語境中的真實使用記錄,其應用價值從上世紀初就受到了學界的關注[2]。就詞匯教學而論,語料庫蘊含兩方面的重要信息:需要學習的詞匯和詞匯在各種語境下的使用方法。語料庫中的文本不是人為創造,乃是日常生活的各種真實交際需求產出的自然話語,與傳統詞典刻板的注釋相比,更容易啟發學習者掌握詞義和配搭[3],使學習者從被動記憶詞匯信息轉化為主動揣摩詞匯的含義,以及在真實語境下的各種使用方式[4-5]。

現有文獻大多通過語料庫軟件搜索和詞頻統計功能得到服務于英語詞匯教學的信息。依靠這種人工搜索統計的方式耗時耗力,且人工方式往往未能窮盡語料庫中的所有學習者信息,一定程度局限了語料庫在英語詞匯教學中的效力。使用自然語言處理技術中的文本對比技術可以解決以上兩點不足。由計算機自動找出學習者語料庫和本族語者語料庫中類似的文本,就可以直接當作詞匯教學學習資料,讓學習者不但可以結合自然話語的上下文學習生詞,且可以比較二語學習者文本和本族語者文本間的語篇、句法、詞匯差異,教師也可以幫助學習者分析兩種文本間的語言差異,并鼓勵學習者按照本族語者文本的語言使用策略習慣對二語學習者文本進行改編改寫,以此引導學習者嘗試就所學詞匯作即時產出。

此外,現有文獻大多通過詞頻和共現規律抽取出需掌握的詞匯[6-7],或直接從語料庫中搜索出已有詞匯出現過的文本[8-9],甚少研究能夠以各種不同英語交際能力為出發點抽取出相關的詞匯。中國英語能力等級量表(China’s Stan?dards of English language ability,CSE)全面地描述了各種語言交際能力。以CSE為出發點搜索語料庫中每種能力對應的詞匯,能避免以統計為導向學習詞匯帶來的盲目性,使所學詞匯與某一交際能力對應,加強學習詞匯的動力,使詞匯學習真正滿足各種日常生活工作的交際需求。

本文提出使用文本對比技術和中國英語能力等級量表發掘語料庫中的詞匯信息,減少教師使用語料庫時人工搜索、文本分析的工作量,同時使基于語料庫的詞匯教學更系統化,實現詞匯學習以提升語言交際能力為導向。

1 語料庫對英語詞匯教學的潛在價值

語料庫(corpus)是將一定量的真實話語(書面或口語)收集起來的語言文本數據集[10]。語料庫的應用價值在于其可借鑒性,為各種學習自然語言為目的的活動提供客觀真實的語言使用情況統計數據。

在英語詞匯的教學中,教師一般靠經驗教授詞匯的相關知識,教師對詞匯的掌握熟練運用程度往往不如母語說話者。同時,無論是中國教師或學生,都或多或少受到母語負遷移的影響,將母語(中文)的詞匯使用習慣帶到英語詞匯教學中,很難將注意力放到學習非母語習慣的詞匯和用法上。這造成了中國英語學習者經常需要問母語說話者:“這個意思你們一般會怎么表達?”或者母語對話人有時聽懂了英語學習者想表達的內容后,會用更地道的語言說出同一內容,并會解釋到,他們一般不會用某個詞匯,或該詞匯一般不會在這種情況使用等。

可見,進行詞匯學習一個較理想的條件是,英語學習者即使在沒有母語說話人詢問的情況下仍能了解到詞匯兩方面的重要信息:第一,在某一交際需求下應該使用哪些特定詞匯?第二,這些詞匯具體是怎么使用的,如何與其它詞匯配搭使用?在何種語法結構中使用?雖然現有英語教材一般已給出以上兩方面詞匯信息,但大多不夠系統,且一般依靠教材編寫人的經驗給出,非語料庫驅動。語料庫中包含豐富的以上兩種詞匯信息,對詞匯教學有絕對的參考指導作用。

2 使用文本對比技術讓學習者向目標詞匯遷移

雖然語料庫包含豐富的、有教學價值的詞匯信息,但語料庫本身只是大量真實語料的聚積,一般并未預先加工處理提取出任何詞匯信息,需要借助語料庫分析軟件進行人工分析和歸納,某種程度上制約了語料庫大范圍應用到英語詞匯教學中。如語料庫的詞匯信息挖掘能實現智能化、自動化,就可以極大降低提取詞匯信息所需的時間和勞動力成本。

文本對比就是比較兩個文本的相似度,廣泛應用于文本信息檢索領域[11]。文本對比技術就“查重”這一目的大致可分為語句重復和內容重復兩類。語句重復就是比較兩個文本間的句子中重復使用的單詞和按同一順序重復出現的單詞的數量,數量越高表示文本相似度越高。然而,語句重復對比技術太過注重語言的形式,忽略了語言中裝載的內容:兩個文本可以在用詞完全不相同的情況下表達類似的內容,文本間從內容上看相似度依然極高。

內容重復檢索更適用于語料庫詞匯信息篩選。如上所說,中國英語學習者受母語負遷移的影響,英語詞匯的使用習慣與英語作為母語的說話人有較大區別。尤其是已習得一定詞匯量的學習者,困難之處并不是表達出某一內容,而是用較地道的詞匯表達出同一內容。因此,如果對比英語學習者語料庫和母語說話人語料庫間同一話題的語料,就可發現兩者想表達的內容是類似的,只是用詞有所區別。使用內容重復檢索技術即可自動檢測出分別來自兩個語料庫的相似度較高的文本,并將其作為教學資料。兩個文本間相似的詞匯也可以自動標注出來,幫助教師和學習者將注意力放到中英詞匯使用習慣差異上。

較接近內容重復檢索性質的文本對比技術是語義相似度計算。其主要思想是通過語義建立起詞匯間的遠近親疏關系,作為計算文本相似度的依據。常用語義詞典有WordNet、FrameNet和MindNet。WordNet的語義關系比較適合用來辨認學習者和母語說話人表達同一語義時詞匯使用習慣差異,而FrameNet和MindNet的優勢在于能通過詞語使用搭配識別出內容相似的文本,從而為學習者提供表達類似語義更為地道的詞語組合。下面簡單介紹一下這三個語義詞典的語義關系建構方式。

2.1 WordNet的語義關系建構

WordNet主要將同一詞類(parts of speech)的詞匯建立語義鏈接[12]。如名詞標注頻率最高的是層級關系(super-subordinate relation)。層級自上而下為比上一層級更進一步細化的名詞,如bed為furniture的下一層級,bunkbed為bed的下一層級。反過來,bunkbed和bed是furniture這一名詞大類的組成部分。同一層級內的詞匯(syn?sets)之間是同義詞關系(synonymy),如car和au?tomobile。對動詞也同樣建立層級結構的語義關系,這些層級由動作不同的方面或組成部分決定,如talk的一個特點是聲量,所以其下一層級的單詞為whisper,同時talk作為communicate語義的一部分,上一層級的單詞為communicate。

WordNet建立詞匯語義關系的方法對搜索比對語料庫相似內容文本,以及標注出相似內容文本間語義關系接近詞匯,作為英語詞匯教學資料都有極高的實用價值,因為英語學習者往往不會交替使用同一層級的詞匯,或者不會使用下一層級的詞匯。

2.2 FrameNet的語義關系建構

FrameNet通過框架語義學理論進行語義關系建構[13]。一個語義框架描述的是某種事件、關系、實體和參與者。比如,烹飪這一概念常包含某人、食物、餐具和廚具等要素。在FrameNet中,烹飪這個概念就作為一個框架,其要素就是該框架的元素(frame elements)。能激活框架的單詞稱作詞匯單元(lexical units)??蚣芘c框架之間再通過繼承、使用、部分、視覺等層級關系連接。借助建立框架,詞匯被框架以及框架間的關系連接。

英語學習者和母語說話人使用詞匯的差異也體現在框架的差異上,有些是同一框架內要素使用的差異,有些則是框架間層級關系的差異,如英語學習者表達類似內容可能使用了母框架要素中的單詞,而母語說話人則使用了子框架要素中的單詞,或者相反。這些信息對詞匯學習十分有意義,是通過簡單的單詞共現統計而得到的詞匯搭配信息所不能比擬的。

2.3 MindNet的語義關系建構

MindNet是通過邏輯結構(logical form)分析得到兩個單詞間的語義關系[14]。邏輯結構分析由語法分析器(parser)執行,執行對象是詞典、百科全書和自由文本中用來注釋詞匯的句子。MindNet的邏輯結構分析是自動進行的,得到這些邏輯結構后,將其匯聚成一個更大的邏輯結構,并根據各個邏輯結構在語料庫中出現的頻率給其賦予概率化的權重。

由于MindNet是基于詞典中的語句建構語義關系,其應用到自然話語內容對比判別的適用性受到了一定的局限。

3 使用中國英語能力等級量表系統挖掘學習者詞匯信息

中國英語學習者往往喜歡脫離語境,單純透過記憶中文解釋去學習詞匯。語料庫為學習者提供了豐富的詞匯固定搭配、常用語法方面的信息。與普通詞典相比,這些信息不是直接用文字呈現給讀者,而是隱含在大量的真實話語中,從而為學習者自主總結詞匯使用規律提供條件,使學習者從過去將詞匯當作知識去記憶變成透過觀察掌握詞匯的使用方法,這種以使用為目的的詞匯學習行為更符合語言學習的規律。許多研究已表明,使用語料庫進行詞匯教學的效果比傳統詞匯知識灌輸更理想,且提高了學習者的自主學習能力[5,15]。

然而,要進一步提高學習詞匯的動力,必須將詞匯學習和語言交際能力提高聯系起來。也就是說,詞匯學習應該是以提高交際能力為目的。實施某種交際能力到底有可能要使用哪些詞匯?在開展詞匯教學前必須向學習者交待清楚,才能明確目標,有的放矢。這里涉及兩個問題:第一,中國英語學習者需掌握的語言交際能力有哪些?第二,如何就某一語言交際能力在語料庫中搜索出與該能力對應的詞匯信息?第一個問題可以參照中國英語能力等級量表[1]解決。第二個問題的解決可以通過自然語言處理技術中的文本關鍵詞提取技術。先提取出語料庫中文本的關鍵詞,然后與能力量表的描述語進行匹配[16],就可找到與某一能力描述語對應的文本,作為提高該交際能力的詞匯學習資料。

4 融入能力量表和文本對比技術的英語詞匯教學資料生成框架

融入兩個部件后的英語詞匯教學資料生成步驟如圖1所示。首先,先分別提取出學習者語料庫和母語說話者語料庫中文本的關鍵詞,作為選取文本的依據;然后,將兩個語料庫中文本關鍵詞與英語量表描述語進行匹配,選中匹配成功的文本組成與特定描述語對應的對比語料庫;接著,使用文本對比技術將對比語料庫中類似的文本抽出,作為詞匯教學資料,將兩個類似文本中語義相近的詞匯自動標注,母語說話人產出的文本中被標注出來的單詞就是學習者改變原來詞匯使用習慣需要學習使用的詞匯。

圖1 英語詞匯教學資料生成步驟

5 結語

本文在探討語料庫在英語詞匯教學中優勢的基礎上,進一步提出了拓寬語料庫應用前景要融入的兩個語言學和人工智能部件,即中國英語能力等級量表和文本對比技術。這兩個部件可以免去許多手動分析語料庫工作量的同時,進一步使詞匯教學向交際能力為導向的方向發展。

猜你喜歡
英語詞匯語義詞匯
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
高中英語詞匯學習之我見
認知范疇模糊與語義模糊
擴大英語詞匯量的實踐
散文百家(2014年11期)2014-08-21 07:16:56
本刊一些常用詞匯可直接用縮寫
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 免费在线播放毛片| 成人午夜网址| 夜精品a一区二区三区| 久久久四虎成人永久免费网站| 永久免费精品视频| 老司国产精品视频91| 黄色成年视频| 国产午夜人做人免费视频中文| 91精品国产一区| 亚瑟天堂久久一区二区影院| 国产在线观看第二页| 真实国产精品vr专区| 久久这里只有精品2| 真实国产精品vr专区| 在线一级毛片| 国产成人亚洲无吗淙合青草| 91网站国产| 久久精品最新免费国产成人| 91美女视频在线| 国产男人天堂| 亚洲综合一区国产精品| 一级毛片高清| 国产免费羞羞视频| 国产小视频免费观看| 91尤物国产尤物福利在线| 精品成人一区二区三区电影 | 午夜国产大片免费观看| 亚洲AV无码久久精品色欲 | 成人亚洲视频| 久久精品这里只有精99品| 国产精品99久久久久久董美香| 国产成人三级| 国产网友愉拍精品| 大乳丰满人妻中文字幕日本| 午夜欧美理论2019理论| 国产91蝌蚪窝| 狠狠色狠狠综合久久| 免费A级毛片无码免费视频| 国产精品久线在线观看| 精品久久久无码专区中文字幕| 欧美日韩va| 香蕉国产精品视频| 欧美笫一页| 91口爆吞精国产对白第三集| 国产日韩欧美黄色片免费观看| 亚洲资源站av无码网址| 欧美啪啪一区| 欧美劲爆第一页| 亚洲嫩模喷白浆| 三级毛片在线播放| 亚洲精品天堂在线观看| 亚洲国产成人精品无码区性色| 欧美日韩动态图| 狠狠色香婷婷久久亚洲精品| 91精品视频在线播放| 欧美区一区二区三| 又粗又大又爽又紧免费视频| 亚洲欧洲日产国产无码AV| 日韩美一区二区| 欧美激情综合| a级毛片在线免费| 人妻精品全国免费视频| 亚洲成年网站在线观看| 57pao国产成视频免费播放 | 国产精品污污在线观看网站| 国产欧美高清| 亚洲精品视频网| 亚洲精品视频免费观看| 中文无码精品A∨在线观看不卡| 国产拍揄自揄精品视频网站| 亚洲国产日韩在线成人蜜芽| 人妻精品久久无码区| 欧美一级视频免费| 456亚洲人成高清在线| 青青青视频蜜桃一区二区| 亚洲大学生视频在线播放| 中国一级特黄视频| 婷婷色狠狠干| 日本成人福利视频| 久久综合色天堂av| 综合久久五月天| 国产精品丝袜在线|