999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自建小型語料庫石油鉆井詞匯特征分析

2023-03-27 04:45:48王喜艷
現(xiàn)代商貿(mào)工業(yè) 2023年5期
關(guān)鍵詞:詞匯文本英語

王喜艷

摘?要:本文在遵循語料庫建庫的權(quán)威性、真實(shí)性、隨機(jī)性、代表性的原則上,用Teleport?ultra從美國專利商標(biāo)局聚類抽樣了156篇與之相關(guān)的文本,建成了一個(gè)小型石油鉆井英語語料庫,然后以COCA語料庫為參照,借助Wordsmith分析了石油鉆井英語的詞匯密度、詞長、詞頻,用直觀的數(shù)據(jù)探討了石油鉆井英語的高頻詞、用詞傾向等方面的特點(diǎn),這對石油鉆井英語詞匯特點(diǎn)的認(rèn)知具有重要的指導(dǎo)意義。

關(guān)鍵詞:石油鉆井英語;自建石油鉆井英語語料庫;Teleportultra;COCA語料庫;Wordsmith

中圖分類號:F74?????文獻(xiàn)標(biāo)識碼:A??????doi:10.19311/j.cnki.16723198.2023.05.021

0?引言

對石油鉆井英語詞匯特征的把握有助于準(zhǔn)確地進(jìn)行翻譯,從而為專業(yè)技術(shù)人員提供更加先進(jìn)的鉆井技術(shù)以及設(shè)備和管理經(jīng)驗(yàn)等。本文由四章組成。第一章介紹了理論背景。第二章介紹了自建石油鉆井英語語料庫的具體操作。第三章對石油鉆井英語的詞匯特征分析和總結(jié)。第四章介紹了本研究的成果和意義。

1?理論背景

1.1?語料庫

語料庫源于拉丁詞“corpus”,在1828年拜占庭帝國所編纂的民法法典Body?of?Civil?Law中提到了“corpus”這個(gè)詞,指的是關(guān)于法律法規(guī)的集合,到現(xiàn)在為止,語料庫也一直沿用的這個(gè)集合的概念,語料庫概念的源流大概分為四個(gè)階段,第一階段是表示文本的匯集。第二階段表示作為研究材料的文本匯集。第三階段表示作為語言學(xué)研究資料的文本匯集。20世紀(jì)四五十年代在美國結(jié)構(gòu)主義語言學(xué)文獻(xiàn)中,開始出現(xiàn)“corpus”單獨(dú)使用表示語言研究素材庫的含義。第四階段表示作為語言學(xué)研究資料的電子文本匯集。20世紀(jì)60年代后,以布朗語料庫為代表,逐漸確立了按一定取樣方案采集、服務(wù)于語言研究目的的電子文本文庫這一概念。現(xiàn)在對語料庫的具有代表性的定義是,“語料庫是指在隨機(jī)采樣的基礎(chǔ)上收集的有代表性的真實(shí)語言材料的集合,是語言運(yùn)用的樣本(楊惠中,2002)。”

1.2?語料庫語言學(xué)

語料庫語言學(xué)最早源自20世紀(jì)初至五六十年代的美國結(jié)構(gòu)主義,它的代表人物有Boas,?Sapir和Bloomfileld,它的核心任務(wù)是基于真實(shí)語料的語言描寫。語料庫語言學(xué)也非常注重語境,最早以Firth為代表的倫敦學(xué)派提出了對語境考察的概念。之后在Malinowski和Firth的“語境語義觀”的指導(dǎo)下,語料庫語言學(xué)主張基于語料庫,通過詞語搭配、詞類聯(lián)接、語義傾向和評價(jià)特征,尋求對語義生成機(jī)制的解釋。

1.3?基于語料庫的詞匯研究

基于語料庫的詞匯研究既深化了以往的研究,又拓寬了詞匯研究的領(lǐng)域。本部分詳述了基于語料庫的詞匯研究的各個(gè)方面,并根據(jù)研究內(nèi)容將其分為三大類:詞典編纂、關(guān)鍵詞研究與形態(tài)學(xué)和構(gòu)詞法。

(1)詞典編纂。正如Kennedy(1998)所說:“語料庫在詞匯描寫方面最明顯的作用是在詞典編纂方面。”計(jì)算機(jī)技術(shù)的進(jìn)步使基于語料庫的詞典學(xué)研究更進(jìn)一步。詞典編纂者可以利用計(jì)算機(jī)從現(xiàn)有的或自建的語料庫中快速、詳盡地獲取某個(gè)詞或短語在上下文中的用法和說明。

(2)關(guān)鍵詞研究。通過語料庫研究關(guān)鍵詞可以用來分析詞匯與文本主題之間的關(guān)系,也可以用來分析詞與詞之間的搭配。關(guān)鍵詞一般指的是相較于參照語料庫,某一特定文本語料庫出現(xiàn)的高頻詞,其與文本的主題聯(lián)系非常緊密。

(3)形態(tài)學(xué)和構(gòu)詞法。基于語料庫的詞匯研究也有助于研究詞匯的形態(tài)學(xué)和構(gòu)詞法。有些詞典可以為研究詞匯形態(tài)或構(gòu)詞法提供一些信息,通過語料庫來研究不同形態(tài)詞匯的頻率也很重要。

2?自建小型石油鉆井英語語料庫

2.1?語料庫設(shè)計(jì)

(1)參照語料庫。本文將美國當(dāng)代英語語料庫(COCA)作為參照語料庫。從COCA官網(wǎng)對每種類型的語料隨機(jī)抽樣,共抽取16萬字的語料作為參照語料,并進(jìn)行了清洗和分詞處理。

(2)自建語料庫設(shè)計(jì)。設(shè)計(jì)語料庫要考慮是否具有代表性、權(quán)威性、可及性等。本研究用Teleport?ultra從美國專利商標(biāo)局抽樣156篇與石油鉆井英語相關(guān)的專利文本,并對這些語料進(jìn)行加工處理,自建語料庫的規(guī)模定在了15萬字左右。

2.2?語料收集

在USPTO輸入oil?drilling,完成檢索后用Teleport?Ultra抓取語料,抓取設(shè)置為僅抓取文本,原始語料為html格式。如圖1所示。

2.3?語料加工處理

(1)語料預(yù)處理。

完成抓取后,需要將文本的html格式轉(zhuǎn)換為txt格式,用textforever工具進(jìn)行格式轉(zhuǎn)換,如圖2所示:

轉(zhuǎn)換為txt格式后,用文本整理器對txt文本整理,如圖3所示。

(2)語料分詞。

將處理后的文本通過tree?tagger進(jìn)行分詞,如圖4所示。

3?石油鉆井英語詞匯特征分析

3.1?數(shù)據(jù)分析

(1)詞匯長度。

一般來說,詞匯越長,文本就越復(fù)雜,也就越正式。詞匯長度通常可以用字母的數(shù)量與詞匯的數(shù)量的比來計(jì)算。通過在wordlist中生成詞表,自建的ODEC與COCA的平均詞長和標(biāo)準(zhǔn)詞長對比如下表1所示。

從表1可以看出,?ODEC的平均詞長和標(biāo)準(zhǔn)詞長都要高于COCA。因此,ODEC的復(fù)雜程度要高于COCA。

(2)詞匯密度。詞匯密度可以用來判斷文本的難易程度和文本的信息量。Halliday(1985)提出了詞匯密度的計(jì)算公式,也就是TTR的值,TTR的計(jì)算公式如下:

TTR=(type/token)*100

Type指的是類符,是指在語料中不重復(fù)計(jì)算的形符數(shù)。Token指的是形符,是一個(gè)語言單位。類符與形符的比就是詞匯密度。但用這種方法來計(jì)算長度不同的文本是不合理的,因此又引入了STTR,STTR可以用來比較不同長度的文本的詞匯密度。通過wordsmith得出了ODEC和COCA的TTR和STTR,結(jié)果如下表2所示。

從以上表2可以看出,ODEC形符和類符的數(shù)量都低于COCA,但是TTR和STTR值都高于COCA。因此,自建的ODEC的詞匯密度高于COCA。也就是說,石油鉆井英語的文本是比通用英語要更為復(fù)雜,更難理解。

(3)詞頻。

詞頻表是做語料庫研究的一個(gè)基本的數(shù)據(jù)分析手段。通常來說,出現(xiàn)頻率最高的詞大多數(shù)都是功能詞。ODEC?與COCA詞頻對比如下表3所示。

從上表3可以看出,ODEC詞頻排名前15的都是功能詞,COCA排名前15的大多數(shù)都是功能詞,但是COCA還出現(xiàn)了諸如“I;?he;?you”的人稱代詞。因此可以得出結(jié)論,石油鉆井英語注重客觀表達(dá),較少使用人稱代詞。

此外,應(yīng)用wordsmith也做了ODEC和COCA的實(shí)詞的詞頻對比。結(jié)果如下表4和表5所示。

從以上表4和5可以看出,ODEC的高頻實(shí)詞都是鉆井,鉆頭,油井;井眼;修井;鉆井液以及鉆井工具組合,這些高頻詞由名詞以及動名詞組成,這表明名詞在ODEC中扮演著重要的角色。而作為參照語料庫的COCA的高頻實(shí)詞基本都是動詞,因此通用語料庫的動詞比較常見。

4?結(jié)語

本文基于自建的小型石油鉆井英語語料庫,應(yīng)用wordsmith研究石油鉆井英語的詞匯特征,分別從詞匯長度、詞匯密度和詞頻三方面對自建的語料庫和參照的語料庫進(jìn)行了對比,得出了石油鉆井英語通常詞匯密度大、文本較為復(fù)雜、詞長長、功能詞較多、注重表達(dá)客觀性、很少用人稱代詞以及多用名詞的結(jié)論,本研究對石油鉆井英語詞匯的學(xué)習(xí)、寫作以及翻譯具有重要的指導(dǎo)意義。

參考文獻(xiàn)

[1?]Halliday.Spoken?and?Written?Language?[M?].Australia:?Deakin?University,1985.

[2?]Kennedy.An?Introduction?to?Corpus?Linguistics?[M?].?Foreign?Language?Teaching?and?Research?Press,1998.

[3?]梁茂成,李文中,許家金.語料庫應(yīng)用教程?[M?].外語教學(xué)與研究出版社,2010.

[4?]王立非,梁茂成.wordsmith方法在外語教學(xué)研究中的應(yīng)用?[J?].外語電化教學(xué),2007.

[5?]楊慧中.語言學(xué)導(dǎo)論?[M?].上海外語教育出版社,2002.

猜你喜歡
詞匯文本英語
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讀英語
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
酷酷英語林
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 强奷白丝美女在线观看| 亚洲一区免费看| a级毛片网| 日韩精品亚洲人旧成在线| 亚洲欧美另类色图| 国产高清自拍视频| 久久a毛片| 国产视频自拍一区| 日韩激情成人| 亚洲人网站| 无码专区在线观看| 国产午夜小视频| 色噜噜狠狠色综合网图区| 成年女人18毛片毛片免费| 一级毛片在线播放免费观看| 欧美亚洲欧美| 精品天海翼一区二区| 久久精品一卡日本电影| 伊人久久综在合线亚洲2019| 扒开粉嫩的小缝隙喷白浆视频| 成人福利在线视频| 国产人前露出系列视频| 亚洲第一区精品日韩在线播放| 国产精品青青| 99视频精品全国免费品| 亚洲人成亚洲精品| 91在线高清视频| 日韩精品少妇无码受不了| 国产亚洲精品97AA片在线播放| 久久香蕉国产线看观| 欧美激情视频一区| 国产美女自慰在线观看| 国产真实二区一区在线亚洲| 幺女国产一级毛片| 久久国产V一级毛多内射| 国产成人AV男人的天堂| 国产精品久线在线观看| 成人字幕网视频在线观看| 国产一区二区三区在线观看免费| 国产精品亚洲αv天堂无码| 99视频国产精品| 国产精品毛片一区视频播| 婷婷色婷婷| 一级黄色片网| 91麻豆精品视频| 蝌蚪国产精品视频第一页| 国产浮力第一页永久地址| 青青青国产视频| 亚洲中文字幕在线观看| 综合网天天| 日韩色图在线观看| 国产精品无码在线看| 国产伦片中文免费观看| 色婷婷成人网| 狼友av永久网站免费观看| 国产在线98福利播放视频免费| 久久综合AV免费观看| 久久综合九九亚洲一区 | 免费人成网站在线高清| 欧美伊人色综合久久天天| 91精品国产丝袜| 日韩精品高清自在线| 欧洲成人在线观看| 久久综合久久鬼| 国产欧美日本在线观看| 亚洲日本中文字幕天堂网| 国产综合精品日本亚洲777| 国产视频资源在线观看| 波多野吉衣一区二区三区av| 国产美女无遮挡免费视频网站| 成人综合在线观看| 美女毛片在线| 国产一区自拍视频| 在线免费观看a视频| 久久中文字幕不卡一二区| 啪啪国产视频| 专干老肥熟女视频网站| 国产亚洲精品无码专| 人妻无码一区二区视频| 亚洲色精品国产一区二区三区| 国产精品久久久精品三级| 一区二区日韩国产精久久|