999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

影視對白平行文本語料庫建設(shè)

2018-01-08 06:51:24劉瑞
河南科技 2017年21期
關(guān)鍵詞:文本信息

劉瑞

(鄭州工程技術(shù)學(xué)院,河南 鄭州 450004)

影視對白平行文本語料庫建設(shè)

劉瑞

(鄭州工程技術(shù)學(xué)院,河南 鄭州 450004)

與大型或?qū)iT用途的平行語料庫相比,利用影視對白字幕文本及文本中的相關(guān)信息建設(shè)平行語料庫,不僅能精確定位對白在影視中出現(xiàn)的位置,而且能通過字幕中的句子對齊實(shí)現(xiàn)對平行文本的檢索。本文就如何建立影視對白平行文本語料庫進(jìn)行討論分析,為語言教學(xué)與研究提供一個(gè)新的平臺和窗口。

影視對白;平行語料庫;XML標(biāo)注

1 平行語料庫的研究現(xiàn)狀

平行語料庫在國外創(chuàng)建已有二十余年,其在國內(nèi)的創(chuàng)建剛剛起步。世界上第一個(gè)翻譯語料庫(Translational English Corpus,TEC)是英國曼徹斯特大學(xué)科技學(xué)院(UMIST)翻譯研究中心于1995年創(chuàng)建的。國外有英國的“德-英文學(xué)文本平行語料庫”、加拿大的“Hansard英法雙語語料庫”、挪威奧斯陸大學(xué)的“英挪雙語語料庫”、英國蘭卡斯特大學(xué)的“ITU英法西對應(yīng)語料庫”和美國馬里蘭大學(xué)的“圣經(jīng)九國語言對應(yīng)語料庫”等。國內(nèi)有北京外國語大學(xué)的“中國英漢平行語料庫”、上海交通大學(xué)的“莎士比亞戲劇英漢平行語料庫”、燕山大學(xué)的“《紅樓夢》中英文平行語料庫”、紹興文理學(xué)院的“中國法律法規(guī)漢英平行語料庫”、香港科技大學(xué)的“HKUST中英對應(yīng)語料庫”、香港理工大學(xué)的“中英雙語旅游語料庫”和臺灣的“Sinorama中英對應(yīng)語料庫”等[1]。

平行語料庫的種類越來越多,已廣泛應(yīng)用于語言學(xué)研究、翻譯研究與教學(xué)、雙語對比、雙語詞典編纂、雙語術(shù)語提取、機(jī)器翻譯等[2]。但目前,面世的平行語料庫由于受建庫目的、選材局限、技術(shù)限制、最終用戶類型等因素的影響,難以大規(guī)模地為廣大研究者所使用[3]。目前,平行語料庫無法實(shí)現(xiàn)文本句子級自動對齊,為相關(guān)研究帶來了諸多困難。影視中的語言是現(xiàn)實(shí)中語言的真實(shí)再現(xiàn),為英語教學(xué)提供了地道的語言素材。本文試圖探討利用影視字幕對白建立影視對白平行語料庫,以解決上述實(shí)際難題。

依靠多媒體和語料庫技術(shù)建立影視對白平行語料庫既能克服目前平行語料庫受眾小的不足,也能為英語教學(xué)和語料庫研究提供新的研究途徑。

2 建庫的技術(shù)途徑及語料標(biāo)注

2.1 建庫分析

在選擇影視對白語料時(shí),要遵循以下幾條原則:①選擇優(yōu)秀有代表性的電影;②各種類別的影視都涉及到,保持均衡;③在數(shù)量上,初步建立一個(gè)包含50部影視的語料庫,并不斷擴(kuò)充;④影視的翻譯字幕文件盡量選擇官方、權(quán)威的版本。相關(guān)建庫原則和技術(shù)標(biāo)準(zhǔn)參照Wynne,文本分類標(biāo)準(zhǔn)參照EAGLES。

DVD格式的影視都有獨(dú)立的字幕文件,其格式分為圖形格式和文本格式兩大類。其中,srt文本字幕最為常見。其中包含的信息有:每段對白的順序編號、插入時(shí)間及對白文本。這種文本格式內(nèi)容規(guī)整,直接使用記事本即可打開。

2.2 字幕文件處理及標(biāo)注

收集到語料后,需要進(jìn)行兩步預(yù)處理:①文本凈化處理,即通過PowerGrep軟件批量消除文本的嘈雜信息和標(biāo)注對白;②為文本添加元信息,元信息經(jīng)過編碼后,應(yīng)用XML標(biāo)記語言標(biāo)注原文件。XML標(biāo)記語言即可擴(kuò)展式標(biāo)記語言(Extensible Markup Language),其特點(diǎn)是結(jié)構(gòu)簡單、描述性強(qiáng)、功能強(qiáng)大、可檢索性強(qiáng)。考慮到在以后的處理中要對齊多語種的文本庫,文本編碼采用UTF-8編碼格式。為了便于講解,本文以英漢字幕文本處理為例。

鑒于程序開發(fā)的需求及檢索的快捷性,把所有影視信息(頭部信息)、字幕文件以“路徑+文件名”的格式放置在一個(gè)索引文件index.xml中,標(biāo)注后的字幕文件單獨(dú)放置在另外設(shè)定的文件夾中。

2.2.1 文本凈化處理。文本中的“1、2、3…”為字幕對白序號;“00:03:13,143-->00:03:17,706”為該行字幕在電影播放中出現(xiàn)的起始時(shí)間和終止時(shí)間(時(shí):分:秒:毫秒);“{fnTahomafs13}”為控制字體顯示效果的代碼;中間為字幕對白的文本內(nèi)容。

雖然字幕文件格式規(guī)整簡潔,但仍要標(biāo)注出來。仔細(xì)觀察可知“時(shí):分:秒”中英文一一對照,對于“毫秒”誤差,需要把不必要的信息刪除。字幕順序編號和控制字體顯示效果的代碼“{fnTahomafs13}”是沒有意義的,必須把這些垃圾碼剔除。一部電影有幾千句對白,完全通過手工來完成是不可能的。

正是由于字幕文件的格式規(guī)整,使用正則表達(dá)式的模式匹配可以輕松完成。支持正則表達(dá)式的軟件很多,在此使用PowerGrep。

首先刪除垃圾碼“{fnTahomafs13}”。在查找框中輸入正則表達(dá)式“{[^}]+}”(即查找大括號內(nèi)所有內(nèi)容),替換框中什么都不填,即替換為空。個(gè)別影視字幕中可能還有一些其他形式的垃圾碼,查找規(guī)律,批量處理。

2.2.2 XML標(biāo)注。對白用XML標(biāo)注,根標(biāo)記設(shè)置為<text></text>,對白文本用<dialogue></dialogue>標(biāo)記,其中時(shí)間作為<dialogue>標(biāo)記的屬性(序號id讀取原文件對白的開始時(shí)間),用作每段對白在整個(gè)文本中唯一的標(biāo)識符,用于句子對齊;時(shí)間可分為“開始時(shí)間”(start_time)和“結(jié)束時(shí)間”(close_time),分別讀取原文件中的時(shí)間信息,用于表示對白顯示時(shí)間,這些信息在以后都非常有用。

信息標(biāo)注、刪除順序編號和毫秒數(shù)字同時(shí)進(jìn)行。在正則表達(dá)式中,“d”表示0-9十個(gè)數(shù)字;“^”和“ ”(或“$”)分別表示行開始和行結(jié)束;另外使用“()”可以進(jìn)行字符分組,在后面的正則表達(dá)式中使用反斜杠加數(shù)字的形式“1”、“2”分別引用前面的第一個(gè)、第二個(gè)括號中的內(nèi)容等,這些正則表達(dá)式的使用,讀者可參考其他資料,此處不再詳述。

表1 為文件添加頭部信息

使用PowerGrep,首先通過查找文件開頭和結(jié)束的錨點(diǎn),用正則表達(dá)式批量處理文本,把對白顯示的開始時(shí)間作為每段對白標(biāo)識符“id”的值,以便以后的句子對齊;把對白時(shí)間分別標(biāo)識為“開始時(shí)間(start_time)”和“結(jié)束時(shí)間(close_time),以便以后利用該信息。最后保存文件為.xml格式,采用UTF-8編碼。

2.3 影視元信息標(biāo)注

在文件的頭部,可添加影視相關(guān)分類信息及描述信息,這些元信息可以到網(wǎng)上查詢(IMDB網(wǎng)站),信息標(biāo)注如下。

①媒體分類(multimedia):電影(movie_info)、電視劇(telefilm_info)、紀(jì)錄片(newsreel_info)。為減少分類的層級,不同種類的媒體可分放在獨(dú)立的文件夾中,本文元信息標(biāo)注以電影為例。

②名稱:英語名(name_en)、漢語名(name_ch)。

③拍攝時(shí)間(time):yyyy年。

④劇情時(shí)間(movieage):古代近代現(xiàn)代未來。

⑤國家(country):中國美國英國等。

⑥分類(type):動作片、喜劇片、愛情片、倫理片、戰(zhàn)爭片、恐怖片、科幻片、動畫片、災(zāi)難片等。

⑦語言(language):影視所使用的原語言。

⑧級別(classification):標(biāo)注該影視在該國官方指定級別。

⑨獲獎(award):注明該影視獲獎情況。

⑩導(dǎo)演(director):該影視導(dǎo)演。

?主演(actor):影視主演演員。

?時(shí)長(runtime):影視播放時(shí)間長。

?備注(remark):一些說明性信息,例如,該影視改編自哪部文學(xué)作品、收視率票房、社會影響和評論等。

以上信息通過XML編碼,添加在文件頭部,以便檢索,具體如表1所示。

字幕文件和元信息文件分開放置便于管理和檢索。如果一部電影對白被分割成多個(gè)字幕文件,通過<dia?logue no=”1”>的屬性no來標(biāo)識;字幕文件被標(biāo)注在<dia?logue_en>(英語字幕)、<dialogue_ch>(漢語字幕)、<dia?logue_jp>(日語字幕)中,若還有其他語種,再增加標(biāo)簽;屬性version來表示其是原文(version="0")或譯文(ver?sion="1")。

3 文本對齊及檢索應(yīng)用

把編碼文本導(dǎo)入平行語料庫軟件paracon中,復(fù)選編碼格式(UTF-8),對齊格式(align format)選擇“start/stop”標(biāo)簽,輸入對白標(biāo)簽。Paracon軟件根據(jù)對白標(biāo)簽的id屬性值,自動對齊對白中每一段對話,如圖1所示。

之后,可以對雙語文本進(jìn)行檢索,既可以檢索單詞,也可以檢索多詞序列。檢索結(jié)果在兩個(gè)窗口以索引行形式呈現(xiàn),自動跟隨所選對話,如檢索英文文本“Gump”,得到索引行。這種索引方式為教師和翻譯研究者提供了一個(gè)深度分析電影對白翻譯的數(shù)據(jù)界面。對外語教師而言,通過對白文本檢索,可以查找典型的對話和場景,分析其語用特征,制作成視聽課的互動練習(xí)和輔助材料。對翻譯研究者而言,可以查找和分析同一詞語的不同翻譯,而這種翻譯的差異往往是由于電影語境限制了詞語的語用意義。

圖1 句子對齊后的文本

經(jīng)過XML標(biāo)記的文本不受平臺限制,呈現(xiàn)出標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu),可以被各種數(shù)據(jù)庫編程直接應(yīng)用。目前,大多數(shù)主流瀏覽器支持XML文件顯示,在今后的開發(fā)中,可以基于瀏覽器創(chuàng)建影視對白平行語料庫索引界面,輕松實(shí)現(xiàn)雙語檢索和對齊。在文本檢索中,可以利用文件的頭部信息進(jìn)行條件查詢,即用戶先設(shè)定條件,劃定范圍,在范圍內(nèi)進(jìn)行語料檢索。檢索的結(jié)果能呈現(xiàn)檢索詞所在的句子、前后語境、對應(yīng)的漢/英句子、所屬電影信息等。

4 結(jié)語

目前,平行語料庫是語料庫語言學(xué)、自然語言處理、機(jī)器翻譯等領(lǐng)域的重要發(fā)展方向。與國外相比,在語料庫的質(zhì)量、容量、種類、數(shù)量和基于語料庫的研究與軟件開發(fā)方面,目前國內(nèi)研究有些滯后。沒有語料庫,不可能開展基于語料庫的信息研究。影視對白平行文本語料庫在很大程度上克服了平行語料庫建庫中的取材難和對齊難的問題,為基于平行語料庫的研究提供了一個(gè)新的契機(jī),能更好地服務(wù)于語言教學(xué)與研究,具有廣闊的使用前景和潛在的開發(fā)價(jià)值。

[1] 熊兵.基于英漢雙語平行語料庫的翻譯教學(xué)模式研究[J].外語界,2015(4):1-10.

[2] 陳國華,王立欣,梁茂成,等.英漢/漢英對譯語料庫對應(yīng)詞檢索器[J].外語電化教學(xué),2006(6):11-16.

[3] 王克非.雙語平行語料庫在翻譯教學(xué)上的用途[J].外語電化教學(xué),2004(6),27-32.

Construction of Movie Caption Parallel Corpus

Liu Rui
(Zhengzhou Institute of Technology,Zhengzhou Henan 450004)

Comparing with specialized parallel corpus,the construction of movie caption parallel corpus not only precisely locates the parallel movie caption texts but also easily aligns and retrieves the parallel texts at the sentence level.In the paper,the author discussed the construction of movie caption parallel corpus and tried to provide a new perspective for foreign language teaching and research.

movie caption;parallel corpus;XML

TP393.092

A

1003-5168(2017)11-0031-03

2017-10-09

劉瑞(1982-),女,碩士,講師,研究方向:應(yīng)用語言學(xué)、語料庫與外語教學(xué)。

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲成aⅴ人在线观看| 久久久噜噜噜久久中文字幕色伊伊| av在线无码浏览| 精品久久国产综合精麻豆| 午夜电影在线观看国产1区| 亚洲男人的天堂久久香蕉| 在线色综合| 全色黄大色大片免费久久老太| 亚洲天堂精品在线| 黄色网在线| 欧美日韩免费在线视频| 久久免费精品琪琪| 欧美α片免费观看| 在线欧美日韩| 亚洲无码91视频| 无码av免费不卡在线观看| 天天干天天色综合网| 中日无码在线观看| 亚洲视频一区在线| 真人高潮娇喘嗯啊在线观看| 欧美另类第一页| 国产一级妓女av网站| 无码丝袜人妻| 国产一级α片| 波多野结衣在线一区二区| 免费看久久精品99| 亚洲伊人天堂| 久久精品66| 极品私人尤物在线精品首页| 毛片在线区| 国产国拍精品视频免费看 | 91小视频在线| 9966国产精品视频| 深夜福利视频一区二区| 99人妻碰碰碰久久久久禁片| 国产精品福利一区二区久久| 激情無極限的亚洲一区免费| 久久国产成人精品国产成人亚洲| 国产av无码日韩av无码网站| 欧美一级大片在线观看| 一区二区理伦视频| 久草视频一区| 色噜噜狠狠色综合网图区| 四虎精品国产永久在线观看| 女人18毛片水真多国产| 毛片一级在线| 国产精品大白天新婚身材| 老司机午夜精品视频你懂的| 国产第一页亚洲| 高清码无在线看| 国产亚卅精品无码| 99re视频在线| 免费一级无码在线网站| 无码啪啪精品天堂浪潮av| 欧美成人精品高清在线下载| 精品91在线| 亚洲综合中文字幕国产精品欧美| 国产精品va| 人妻无码中文字幕一区二区三区| 91精品久久久久久无码人妻| 夜夜操狠狠操| 色天天综合| 亚洲天堂久久久| 国产在线观看高清不卡| 日韩av在线直播| 亚洲免费毛片| 手机精品福利在线观看| www.亚洲天堂| 欧美一区中文字幕| 亚洲欧美日韩成人高清在线一区| 在线另类稀缺国产呦| 日韩毛片免费| 亚洲综合狠狠| 91网红精品在线观看| 国产毛片基地| 福利视频一区| 深夜福利视频一区二区| 亚洲水蜜桃久久综合网站| 亚洲天堂.com| 最新日韩AV网址在线观看| 婷婷六月综合网| 色综合久久久久8天国|