999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的中英政治語料構建

2021-07-16 10:15:40劉蜜蜜
讀書文摘(下半月) 2021年4期
關鍵詞:翻譯

劉蜜蜜

[摘? 要:隨著中國在國際舞臺上影響力的提升,中國的對外宣傳也愈加重要。政治文本要求翻譯忠實、準確,切合時政熱點,這也要求翻譯工作中大量參考已有翻譯。本文重點介紹如何利用Python中的Requests庫進行文本的抓取,以及通過在線語料對齊平臺進行語料對齊,從而利用網頁上的文本信息構建可以為我們所用的語料信息。

關鍵詞:Python;政治文本;翻譯;語料庫]

“一帶一路”倡議之后,國內外關于中國政治的研究越來越多,政治文本翻譯也成為了一個強需求。面對如此海量的政治文本,語料庫和翻譯技術成為一個重要工具。

1政治文本的特點

政務文本主要有兩個特點:一是準確性,二是實時性。政治文本直接牽涉到政治立場和觀點,所以翻譯此類文本應用詞準確,避免引起不必要的誤解,外宣翻譯傾向于完全“忠實”于原文。最行之有效的方式就是找已有的官方譯文進行借鑒。除了對于準確性的要求,政治文本的內容往往具有很強的實時性,往往需要結合時事熱點,例如,2019年之后外宣文本中出現“綠水青山就是金山銀山”的表述,是近些年才被熱議的話題。

2信息時代翻譯的特點

當今的翻譯工作越來越多的受到科技發展的驅使,人工智能、大數據、云的發展,都極大地改變了人們的工作方式和狀態。此外,在全球化與本地化加速發展的現在,翻譯的需求量加大 ,翻譯效率也成為了重中之重。這種情況下,計算機技術也就成為了我們的必然選擇。

譯員對于信息化的需求主要有3個層面:首先,譯員之間需要橫向合作,需要翻譯協作和大型翻譯項目管理軟件。其次,還需要借助眾多譯員的長期雙語語料積累,譯者之前翻譯和求證過的翻譯也是重要參考。最后,不同的譯員之間需要語料共享。

3利用Python抓取政治文本語料

利用Python手段抓取政治文本語料的過程主要分為4步:

3.1確定目標.由于政治文本對于實時熱點的要求比較高,此次任務中選擇英語點津網站的新聞播報欄目的內容進行抓取。在爬蟲之前,其robots協議(反爬蟲規則)顯示英語點津網站是沒有robots文件的,也就是說不對爬蟲加以限制;

3.2頁面分析。下一步我們調出開發者工具進行頁面分析。從代碼中,我們可以看到我們可以知道,版面目錄存放在一個 class = “gy_box” 的 div 標簽下,每一個 div 表示一個版面,而版面的鏈接就在 target = “_blank”, class=”gy_box_img”, shape=”rect” 的 a 標簽中;

3.3利用requests庫獲取文本。

3.3.1安裝requests庫

Requests庫是一個Python第三方庫,處理URL資源特別方便。在Pycharm中的安裝方式是打開 PyCharm,單擊“File”(文件)菜單,選擇“Setting for New Projects...”命令,選擇“Project Interpreter”(項目編譯器)命令,確認當前選擇的編譯器,然后單擊右上角的加號,添加Requests庫。如果使用Python自帶的編輯器,只需要在命令提示符中輸入:

pip install requests

3.3.2 用get獲取信息

使用Python第三方庫requests的get (URL) 方法獲取網頁信息。

import requests

r=requests.get(“https://language.chinadaily.com.cn/a/202003/03/WS5e5e5121a31012821727c044.html”)

r.status_code

r.text[:100]

得到源文本的代碼之后,還需要用正則表達式或者lxml去除網頁內容中的特殊字符,得到只有中英文字符的新聞原文。

3.3.3將文本信息存儲

使用with open (‘文件名, 方式) as變量名, 對獲取的網頁文本信息存儲到本地txt文件。

3.3.4利用語料商城進行語料對齊

我們還需要將得到的語料制作成符合CAT軟件要求的格式。可以利用tmxmall的在線對齊功能進行調整,選擇“單語文檔對齊”即可很快捷地完成對齊。

4小結

翻譯過程中,譯員們常常尋求專業網站支持,但是這種簡單的搜索還存在著問題。首先,站內搜索效率不高,網頁加載對網速有要求,同時打開網頁太多也會給電腦帶來壓力。其次,政治文本的查詢需要參考來自多個平臺的內容,多次搜索的動作,比較費時費力。

而這種基于Python的方式就可以很好的解決這兩個問題,避免了打開多個網頁的繁雜的查詢過程,可以同時爬取多個頁面,提高了查詢的效率。此外,這種爬取的方式靈活方便,可以即時添加新的語料信息,保證了語料的實時性。

參考文獻

[1]趙振國.基于Python的網絡語料獲取和文本提取方法探索[J].教育現代化,2019,6(14):188-190.

[2]楊麗,孫昂,劉俐.論個人翻譯語料庫的建立和使用[J].企業家天地下半月刊(理論版),2007(11):200-201.

[3]庚庚911. python基礎-文件讀寫with open as語句[EB/OL].https://blog.csdn.net/yetugeng/article/details/83870197?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source= distribute.pc_relevant.none- task. 2018-11-08.

浙江大學? 浙江? 杭州? 310058

猜你喜歡
翻譯
本科英語專業翻譯教學改革與實用型翻譯人才的培養
淺析跨文化交際
人間(2016年26期)2016-11-03 18:34:20
以《我是貓》為例談日語被動式表達
商務英語翻譯在國際貿易中的重要性及其應用
小議翻譯活動中的等值理論
考試周刊(2016年77期)2016-10-09 10:36:47
主站蜘蛛池模板: 精品成人一区二区三区电影| 成人免费网站久久久| 欧美成人午夜视频| 亚洲黄色片免费看| 91国内视频在线观看| 午夜人性色福利无码视频在线观看| 久久精品亚洲专区| 国产一区二区精品高清在线观看| 天天色天天综合| 成AV人片一区二区三区久久| 欧美亚洲国产精品第一页| 免费中文字幕一级毛片| 亚洲三级视频在线观看| 精品福利视频网| 中文字幕不卡免费高清视频| 2018日日摸夜夜添狠狠躁| 亚洲浓毛av| 久久这里只有精品2| 免费无码在线观看| 久久人妻xunleige无码| 国产欧美精品一区aⅴ影院| 亚洲一区二区三区国产精品| 91久久国产成人免费观看| 亚洲精品国产综合99| 欧美日韩第二页| 亚洲爱婷婷色69堂| 69av免费视频| 日韩二区三区无| 亚洲精品第1页| 九九九国产| 人禽伦免费交视频网页播放| 国产一级片网址| 成人在线观看不卡| 国产浮力第一页永久地址 | 特级精品毛片免费观看| 日韩国产一区二区三区无码| 69国产精品视频免费| 国产在线视频欧美亚综合| 三上悠亚精品二区在线观看| 国产va在线观看免费| 国产一级毛片在线| 免费A级毛片无码免费视频| 国产精品第一区| 国产精品爽爽va在线无码观看| 亚洲精品第五页| 国模视频一区二区| 视频二区国产精品职场同事| 欧美亚洲网| 女人18毛片一级毛片在线 | 国产成人高清在线精品| 欧洲欧美人成免费全部视频| 任我操在线视频| 人人爱天天做夜夜爽| 亚洲人免费视频| 国产精品永久不卡免费视频| 国产二级毛片| 色网站免费在线观看| 日韩免费毛片| 国产亚洲一区二区三区在线| 国产经典免费播放视频| 无码aaa视频| 成人免费视频一区| 国产欧美日韩另类精彩视频| 亚洲狠狠婷婷综合久久久久| 视频一区视频二区日韩专区| 色视频国产| 国产女同自拍视频| 国产成人喷潮在线观看| 婷婷六月综合| 国内a级毛片| 精品无码视频在线观看| 激情无码字幕综合| 91小视频在线观看免费版高清| 亚洲无限乱码| 在线免费观看a视频| 国产成人一级| 久操线在视频在线观看| 成年人国产网站| 亚洲精品国偷自产在线91正片| 老司机精品一区在线视频| 国产丝袜丝视频在线观看| 无码不卡的中文字幕视频|