999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于計(jì)算機(jī)的法語(yǔ)語(yǔ)料庫(kù)構(gòu)建及其語(yǔ)言評(píng)估研究

2021-06-27 03:25:54宋元元
電子設(shè)計(jì)工程 2021年12期

宋元元

(西安翻譯學(xué)院,陜西西安 710105)

隨著計(jì)算機(jī)信息技術(shù)水平的不斷提升,處于計(jì)算機(jī)時(shí)代背景下,計(jì)算機(jī)系統(tǒng)也已經(jīng)不單純應(yīng)用于專(zhuān)業(yè)學(xué)術(shù)場(chǎng)合,而是逐步滲透到社會(huì)工作、生活的各領(lǐng)域。但是,在普及應(yīng)用計(jì)算機(jī)的過(guò)程中,如何更好掌握計(jì)算機(jī)用語(yǔ)對(duì)于人們的語(yǔ)言學(xué)習(xí)至關(guān)重要[1]。在計(jì)算機(jī)技術(shù)領(lǐng)域中,不規(guī)范語(yǔ)言翻譯表現(xiàn)方式導(dǎo)致計(jì)算機(jī)無(wú)法實(shí)現(xiàn)統(tǒng)一翻譯,導(dǎo)致閱讀理解困難。以及計(jì)算機(jī)用語(yǔ)過(guò)于生活化,也衍生了大量多義詞和新詞語(yǔ),再加上網(wǎng)絡(luò)用語(yǔ)過(guò)于泛濫,很多時(shí)候人們會(huì)不知所云。計(jì)算機(jī)系統(tǒng)語(yǔ)料庫(kù)源于拉丁語(yǔ),同源法語(yǔ)單詞“Corps”[2]。語(yǔ)料庫(kù)在語(yǔ)言上表示對(duì)于某類(lèi)語(yǔ)言情況所匯集的有限話語(yǔ)集合。而法語(yǔ)教學(xué)中也經(jīng)常會(huì)聽(tīng)到學(xué)生抱怨,聽(tīng)不懂表達(dá)詞語(yǔ),也找不到合適的詞匯[3]。而這些都是由于學(xué)生未能充分掌握法語(yǔ)詞匯及運(yùn)用技巧,所以提出基于計(jì)算機(jī)的法語(yǔ)語(yǔ)料庫(kù),并運(yùn)用于學(xué)生的語(yǔ)言評(píng)估,旨在能夠建立計(jì)算機(jī)領(lǐng)域內(nèi)的法語(yǔ)語(yǔ)料庫(kù),并搭設(shè)學(xué)生可以在計(jì)算機(jī)平臺(tái)實(shí)現(xiàn)法語(yǔ)自學(xué)的平臺(tái)。

1 法語(yǔ)語(yǔ)料庫(kù)的構(gòu)建原則

1.1 采集代表性法語(yǔ)語(yǔ)料

在建立法語(yǔ)語(yǔ)料庫(kù)時(shí),第一步就是需要采集語(yǔ)料,并且保證語(yǔ)料庫(kù)的語(yǔ)料具有代表性。選定明確的抽樣范圍并進(jìn)行分層抽樣、等距離抽樣方式,保證可以選取具有代表性的語(yǔ)料[4]。

1.2 定期更新語(yǔ)料庫(kù)

新聞作為具備一定時(shí)效性的語(yǔ)言,每年都會(huì)出現(xiàn)諸多實(shí)時(shí)新詞。所以在構(gòu)建法語(yǔ)語(yǔ)料庫(kù)時(shí),也需要確保可以不斷更新語(yǔ)料庫(kù),將原本已經(jīng)失去存在活力的語(yǔ)言刪除,才能夠真正保障語(yǔ)料庫(kù)具備使用意義[5]。

1.3 運(yùn)用新型軟件分析數(shù)據(jù)

通過(guò)運(yùn)用AntConc3.3.4w 等多種統(tǒng)計(jì)分析軟件,目前,該軟件作為廣泛應(yīng)用的一種數(shù)據(jù)分析軟件,對(duì)法語(yǔ)語(yǔ)料庫(kù)構(gòu)建來(lái)講尤為適用[6]。經(jīng)過(guò)運(yùn)用該軟件統(tǒng)計(jì)小型法語(yǔ)語(yǔ)料庫(kù),并對(duì)新聞中所發(fā)生的常用詞匯和具體習(xí)慣進(jìn)行總結(jié),從而形成新型詞匯表,并劃分不同難易程度的四類(lèi)詞匯等級(jí),如圖1 所示。

圖1 語(yǔ)料庫(kù)分析軟件

2 關(guān)鍵技術(shù)

2.1 語(yǔ)料存儲(chǔ)

在計(jì)算機(jī)系統(tǒng)中,建立法語(yǔ)語(yǔ)料庫(kù)需要建立XML 文件存儲(chǔ)格式標(biāo)注。一般情況下完成存儲(chǔ)式XML 標(biāo)注,作為能夠運(yùn)用字節(jié)偏移量加以表示的對(duì)齊位置關(guān)系,XML 文檔可以基于各關(guān)鍵詞領(lǐng)域,標(biāo)識(shí)對(duì)應(yīng)位置,并明確標(biāo)注的章、節(jié)、段、句、詞等主體信息。需要分開(kāi)存儲(chǔ)生語(yǔ)料及XML 標(biāo)注,以便后續(xù)對(duì)計(jì)算機(jī)法語(yǔ)語(yǔ)料庫(kù)進(jìn)行系統(tǒng)擴(kuò)充,也會(huì)出現(xiàn)同一語(yǔ)料庫(kù)作為多個(gè)XML 的文檔標(biāo)注,但是不同XML 文檔卻實(shí)現(xiàn)了差異化功能[7]。譬如a.xml 標(biāo)注表示雙語(yǔ)對(duì)齊,b.xml 表示句法,c.xml 表示數(shù)據(jù)挖掘,這樣不僅可以有效節(jié)省存儲(chǔ)空間,與此同時(shí)也可以最大化保護(hù)文檔產(chǎn)權(quán)。對(duì)于XML 標(biāo)注集可以劃分為篇章、段落、句子、詞語(yǔ),如圖2所示。

圖2 語(yǔ)料存儲(chǔ)標(biāo)注功能

2.2 雙語(yǔ)詞典

建立計(jì)算機(jī)法語(yǔ)語(yǔ)料庫(kù)平臺(tái),主要包括通用型、領(lǐng)域內(nèi)兩類(lèi)詞典,在程序編寫(xiě)中參照權(quán)威語(yǔ)言詞典用書(shū),作為通用型機(jī)型詞典,而領(lǐng)域內(nèi)則采用國(guó)外經(jīng)典文書(shū)索引校對(duì)文本。在計(jì)算機(jī)雙語(yǔ)詞典的平臺(tái)存儲(chǔ)格式方面,運(yùn)用XML 格式能夠?qū)崿F(xiàn)快速查找。

2.3 特征語(yǔ)塊

特征語(yǔ)塊定義包括:1)字符串內(nèi)的句號(hào);2)表現(xiàn)文本中的均勻分布文段內(nèi),突然存在的特殊句段以及具體的標(biāo)記特點(diǎn);3)字符串內(nèi)的換行符結(jié)束段落;4)特征及多個(gè)段落、句子集合特征語(yǔ)塊;5)細(xì)化特征語(yǔ)塊,確保可以縮小語(yǔ)塊操作范圍;6)對(duì)分句處理協(xié)調(diào)過(guò)程中,能夠自動(dòng)更正誤差并保證語(yǔ)塊對(duì)齊[8]。

3 法語(yǔ)語(yǔ)料庫(kù)構(gòu)建實(shí)現(xiàn)

3.1 建設(shè)目標(biāo)

在建設(shè)法語(yǔ)語(yǔ)料庫(kù)平臺(tái)時(shí),為了保證語(yǔ)料可以在計(jì)算機(jī)各方面全面覆蓋,并且對(duì)各類(lèi)翻譯風(fēng)格充分體現(xiàn),定位原始語(yǔ)料作為計(jì)算機(jī)詞典、工具書(shū)、計(jì)算機(jī)軟件、法語(yǔ)對(duì)照和網(wǎng)絡(luò)用語(yǔ)。

為了能夠?qū)R篇章、句子和段落,實(shí)現(xiàn)自動(dòng)對(duì)齊語(yǔ)句,保證達(dá)到90%左右的對(duì)齊率,運(yùn)用可拓展語(yǔ)料參數(shù)標(biāo)記,便于自動(dòng)式檢索語(yǔ)句[9]。

3.2 平臺(tái)建設(shè)方案

在建設(shè)該平臺(tái)時(shí),設(shè)計(jì)的平臺(tái)結(jié)構(gòu)組成包括降噪處理、提取特征語(yǔ)塊、提取目錄樹(shù)、標(biāo)注關(guān)鍵詞和分詞、統(tǒng)計(jì)詞頻信息并編撰詞典、對(duì)齊分段、及時(shí)過(guò)濾停用詞,如圖3 所示。

圖3 法語(yǔ)語(yǔ)料庫(kù)平臺(tái)建構(gòu)方案

3.2.1 降噪處理

由于平臺(tái)在加工語(yǔ)料處理時(shí),通常會(huì)不同程度地產(chǎn)生一定噪音,譬如漏掉標(biāo)點(diǎn)符號(hào)或產(chǎn)生不必要的換行符,以及不可識(shí)別字符。

3.2.2 提取特征語(yǔ)塊

在法語(yǔ)語(yǔ)料平臺(tái)中,標(biāo)記提取特征語(yǔ)塊,主要是實(shí)現(xiàn)文章結(jié)構(gòu)的大致標(biāo)記,為該類(lèi)特征結(jié)構(gòu)提供了分段便利性,并且準(zhǔn)確對(duì)齊分句的關(guān)鍵前提就是能夠提取特征語(yǔ)塊。一般情況下,在互譯文章中可以選擇特殊標(biāo)記,譬如章標(biāo)題或范例,并運(yùn)用已知資源獲得相應(yīng)的特征詞塊位置。

3.2.3 提取目錄樹(shù)

如今在建設(shè)法語(yǔ)語(yǔ)料庫(kù)時(shí),作為基本電子化書(shū),詳細(xì)目錄是為了對(duì)所處位置信息能夠快速查看,并且可以有效改善用戶(hù)在使用過(guò)程中的自主感官,提取目錄樹(shù)可以為用戶(hù)應(yīng)用該語(yǔ)料庫(kù),形成更高層次的視角提供方便。目錄樹(shù)能夠提供法語(yǔ)、漢語(yǔ)相對(duì)應(yīng)的查找功能,并且以各個(gè)章節(jié)標(biāo)點(diǎn)為依據(jù),譬如章、節(jié)等字符標(biāo)識(shí)。但同樣也需要注意該步驟需要做好XML 標(biāo)記,標(biāo)記語(yǔ)料所在位置,才能保證不會(huì)在日后處理過(guò)程中發(fā)生遺漏。

3.2.4 標(biāo)注關(guān)鍵詞和分詞

經(jīng)過(guò)完成領(lǐng)域內(nèi)法語(yǔ)詞典查找,并運(yùn)用最優(yōu)化匹配模式,完成對(duì)應(yīng)中文和法語(yǔ)的領(lǐng)域詞匯,及時(shí)做好相應(yīng)標(biāo)記,確保法語(yǔ)、中文兩大標(biāo)記文檔,均能夠成功識(shí)別相應(yīng)的領(lǐng)域詞所在具體位置,并根據(jù)對(duì)應(yīng)信息及時(shí)完成統(tǒng)計(jì)領(lǐng)域主要詞頻[10]。

3.2.5 統(tǒng)計(jì)詞頻信息并編撰詞典

對(duì)于通常是原文的法語(yǔ)文本,經(jīng)譯文翻譯形成的中文文本,統(tǒng)計(jì)通篇詞頻的過(guò)程中,成功將停用詞過(guò)濾掉。統(tǒng)計(jì)詞頻后,一旦發(fā)現(xiàn)兩類(lèi)接近的中文和法語(yǔ)詞頻,同時(shí)又無(wú)法找到詞典中對(duì)應(yīng)翻譯的情況下,則可以運(yùn)用計(jì)算機(jī)之間存在的兩個(gè)向量間的相似性計(jì)算方法,并確認(rèn)是否作為互譯詞對(duì)[11-12]。

3.2.6 對(duì)齊分段

與詞頻相結(jié)合可以滿(mǎn)足既定范圍中的單詞詞頻差值和閾值,成功標(biāo)記相應(yīng)錨點(diǎn)從而成功對(duì)齊相應(yīng)分段。分段代碼示例如下[13]:

3.2.7 及時(shí)過(guò)濾停用詞

停用詞指輔助類(lèi)功能詞句,譬如漢語(yǔ)里的的、得、地、是等,通常會(huì)高頻率地出現(xiàn)在部分文章中,甚至可能占據(jù)較大占比,對(duì)于語(yǔ)料庫(kù)的對(duì)齊、查找速率造成嚴(yán)重影響,也增加了對(duì)齊噪音,所以統(tǒng)計(jì)詞頻時(shí)就需要進(jìn)行提前過(guò)濾處理[14]。

4 法語(yǔ)語(yǔ)料庫(kù)語(yǔ)言評(píng)估實(shí)現(xiàn)

構(gòu)建法語(yǔ)語(yǔ)料庫(kù)在應(yīng)用于語(yǔ)言評(píng)估過(guò)程中,具體的分析內(nèi)容及研究的語(yǔ)言學(xué)內(nèi)容之間存在較大相關(guān)性,通過(guò)定量分析語(yǔ)料庫(kù)數(shù)據(jù),可以保證用戶(hù)在應(yīng)用中,更針對(duì)性地選定語(yǔ)料庫(kù)的具體范圍、內(nèi)容、程度以及具體數(shù)量,并對(duì)關(guān)系用詞的容許性、區(qū)分關(guān)鍵語(yǔ)義名詞作合理解釋[15-18];也可以建立法語(yǔ)語(yǔ)料庫(kù),準(zhǔn)確定位法語(yǔ)學(xué)習(xí)者在學(xué)習(xí)過(guò)程中的相關(guān)語(yǔ)言問(wèn)題,如圖4 所示。

圖4 語(yǔ)料庫(kù)語(yǔ)言評(píng)估架構(gòu)

1)在法語(yǔ)語(yǔ)料庫(kù)的詞匯量方面,詞匯量密切相關(guān)語(yǔ)言能力,越是豐富的詞匯量也就形成越強(qiáng)的語(yǔ)言學(xué)習(xí)及運(yùn)用能力,同時(shí)還要注意詞匯量達(dá)到的可信度及應(yīng)用過(guò)程中的題材因素。

2)詞匯詞級(jí)具體分布情況很大程度上反映了將用戶(hù)具備的詞匯掌握及運(yùn)用能力,能夠運(yùn)用高級(jí)詞匯的用戶(hù)自然也掌握了更豐富的詞匯。

3)法語(yǔ)語(yǔ)料庫(kù)能夠?yàn)槭褂谜咛峁┍憬莸牟僮魇侄危⒍ㄆ跈z測(cè)和評(píng)估法語(yǔ)語(yǔ)言學(xué)習(xí)的掌握度。

5 結(jié)束語(yǔ)

建構(gòu)法語(yǔ)語(yǔ)料庫(kù)已經(jīng)成為目前法語(yǔ)學(xué)習(xí)中的關(guān)鍵組成。基于計(jì)算機(jī)程序,構(gòu)建法語(yǔ)語(yǔ)料庫(kù),實(shí)現(xiàn)橫縱不同組合,對(duì)不同個(gè)體或群體學(xué)生的法語(yǔ)詞匯掌握能力進(jìn)行語(yǔ)言評(píng)估,發(fā)現(xiàn)該法語(yǔ)語(yǔ)料庫(kù)的構(gòu)建能夠有效提高學(xué)生對(duì)法語(yǔ)詞匯的掌握及運(yùn)用能力。

主站蜘蛛池模板: 国产在线观看91精品| www.youjizz.com久久| 黄色网址免费在线| 久久99热这里只有精品免费看| 一级看片免费视频| 欧美曰批视频免费播放免费| 免费一级α片在线观看| 91在线播放免费不卡无毒| 国产国产人成免费视频77777| 日本www色视频| 亚洲日本中文综合在线| 欧美日韩精品一区二区在线线| 亚洲人成人伊人成综合网无码| 老色鬼欧美精品| 欧美中出一区二区| 强奷白丝美女在线观看| 国语少妇高潮| 精品国产自| 国产免费自拍视频| 欧美人在线一区二区三区| 精品自窥自偷在线看| 久久国产成人精品国产成人亚洲| 亚洲视频在线青青| 中文字幕首页系列人妻| 久久99久久无码毛片一区二区| 亚洲人成电影在线播放| 小说 亚洲 无码 精品| 国产人前露出系列视频| 精品伊人久久久久7777人| 操美女免费网站| 亚洲美女一区二区三区| 性色在线视频精品| 欧洲成人在线观看| 亚洲精品福利网站| 精品第一国产综合精品Aⅴ| 久久国产亚洲欧美日韩精品| 国产一区二区三区免费观看| 欧美精品不卡| аⅴ资源中文在线天堂| 亚洲欧美激情小说另类| 亚洲最新地址| 高清不卡一区二区三区香蕉| 欧美国产日韩在线| 国产乱人伦偷精品视频AAA| 色老二精品视频在线观看| 第九色区aⅴ天堂久久香| 久久精品最新免费国产成人| 国产精品一区二区久久精品无码| 国产乱子伦精品视频| 99ri国产在线| 国产91成人| 国语少妇高潮| 欧美色图久久| h视频在线观看网站| 国产在线观看一区精品| 在线看AV天堂| 久久人搡人人玩人妻精品| 免费国产福利| 精品国产福利在线| 华人在线亚洲欧美精品| 成人精品区| 亚洲成人精品在线| 国产无套粉嫩白浆| 国产极品粉嫩小泬免费看| 狠狠做深爱婷婷综合一区| www.狠狠| 伊人成人在线视频| 一本二本三本不卡无码| 国产在线视频自拍| 日本午夜影院| 9cao视频精品| 又黄又爽视频好爽视频| 男女男精品视频| 日本少妇又色又爽又高潮| 又黄又爽视频好爽视频| 特黄日韩免费一区二区三区| 国产肉感大码AV无码| 久久免费观看视频| 国产高清不卡| 久久久久亚洲精品成人网 | 国产亚洲高清在线精品99| 2020精品极品国产色在线观看 |