999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存句法分析的術語提取方法與傳統方法的實證對比

2025-01-10 00:00:00郝韻涵李華東王朝瑩張嘉
中國科技術語 2025年1期

摘 要:文章討論了基于依存句法分析的術語提取方法,以英文海事文本為語料,對比了該方法與傳統的n元模式和基于主題性的提取方法的提取效果,以探索可供非專業術語提取者利用的綜合效果最佳的術語提取方法或方法組合。研究結果表明,三種術語提取方法可互為補充,基于依存句法分析的術語提取效果最佳。對于非專業術語提取者而言,基于依存句法與基于主題性的術語抽取方法相結合,能在術語提取的效率、范圍和準確性三者間取得最佳平衡。

關鍵詞:依存句法分析;術語提取;英文海事文本

中圖分類號:H083;U675.87" DOI:10.12339/j.issn.1673-8578.2025.01.016

Empirical Comparison of Term Extraction Methods Based on Dependency Syntactic Analysis with Traditional Methods//HAO Yunhan, LI Huadong, WANG Zhaoying, ZHANG Jia

Abstract: This paper introduces a terminology extraction method based on dependency parsing. An empirical study was conducted by using an English maritime text to compare this method with two traditional methods, namely the n-gram pattern method and the keyness analysis method. Our aim is to explore the most useful term extraction method or combination thereof for non-expert term extractors. The results indicate that the three methods complement each other, with the dependency parsing method showing the best performance. For non-expert term extractors, a combination of dependency parsing and keyness analysis achieves the optimal balance between efficiency, scope, and accuracy.

Keywords: dependency parsing; terminology extraction; English maritime texts

收稿日期:2024-02-02" 修回日期:2024-04-15

基金項目:2017年國家社會科學基金一般項目“基于語料庫的大學英語教材與學術詞匯覆蓋率研究”(17BYY103)階段性成果;2021年國家社會科學基金一般項目“海洋強國視域下海事語言標準化及國際海事話語研究”(21BYY017)階段性成果;2023年國家建設高水平大學公派研究生項目(202308310262)階段性成果

作者簡介:郝韻涵(1998—),女,上海海事大學外國語學院在讀博士研究生。研究方向為海事語言及應用,專門用途英語。通信方式:202240810001@stu.shmtu.edu.cn。*通迅作者:李華東(1970—),男,上海海事大學外國語學院教授,博士生導師。現任中國邏輯學會文體學專業委員會常務理事。研究方向為海事語言及應用、教材開發、語言測試、語用學等。通信方式:hdli@shmtu.edu.cn。

在專業領域,術語的使用非常頻繁。術語是專業文本中結構化的知識單元,承載了文本的核心信息[1]。識別和收集這些術語可以幫助相關從業人員更好地理解和應用相關知識,提高工作效率與質量。英語是國際海事領域的通用語言[2-3],英文海事術語的提取可以規范和促進國際海事交流與合作。

傳統上,術語的提取、收集和整理工作主要依靠相關領域的專家進行,這種工作方式可以保證較高的術語提取質量,但其缺點也很明顯,成本高,速度慢[4]。在當今科技高速發展、新術語不斷涌現的背景下,僅靠人工進行術語提取不切實際,必須借助基于計算機語言處理技術的提取方法[5]

近年來涌現出大量的術語提取方法,在準確性和效率兩個維度都取得了一定的成績[6]。目前,術語提取方法可分為兩大類:無監督方法和有監督方法。無監督方法通常將語言學與統計學相結合。該方法具有人工干預少、適用性和一致性強的優點。但其缺點在于術語提取的準確率和召回率較低。有監督方法則使用機器學習技術,通過學習訓練文本的特征來實現術語提取[7]。相較于無監督方法,有監督方法術語提取的準確率和召回率較高,但該方法存在兩方面的問題:一是需要大量已標記的訓練數據,這在某些ESP領域如海事英語領域較難獲取;二是時間和經濟成本高昂,進行大規模的人工語料標注耗時費力。

除了全國科學技術名詞審定委員會等權威術語機構有專業的術語工作者從事術語提取外,海事文本的翻譯人員、海事教材的開發人員、有閱讀和處理海事語料需求的學生等非專業英文海事術語的開發和使用人員同樣具有提取術語并構建術語庫的需求。針對后者,在缺乏大規模人工標注語料且需快速處理指定的海事文本的情況下,由于無監督方法的操作較為簡單高效,還能縮減進行大規模海事語料標注所需的時間和經濟成本,因此這種方法可能是更好的選擇。本文主要關注如何利用無監督方法進行英文海事術語提取。

在利用無監督方法進行術語提取的研究中,Andersen[8]將基于單語海事文獻的術語提取方法分為四種,分別是基于n元模式(n-gram)、主題性(keyness)、搭配(collocation)和詞表(word list)的術語提取方法。俞琰等[7]在進行中文專利文獻的術語提取時指出,較為常見的術語提取方法可分為n元模式、名詞短語分塊(NP-chunking)和詞性模式匹配(POS tag pattern)。

上述學者提出的幾種術語提取方法具體操作流程可以簡述如下:n元模式的術語提取操作通常是先去除停用詞、語義信息較少的詞(如助詞、語氣詞等),或人工選擇構詞能力較差的詞,得到文本串片段,然后進行遍歷①得到所有n元連續詞語序列,按照一定規則選出符合要求的多元詞組,如保留詞頻高的詞語[7]。名詞短語分塊的術語提取方法通常采用模式匹配結合句法規則來識別由名詞短語構成的術語。詞性模式匹配術語提取的基本思想與名詞短語分塊相同,但其匹配模式一般更為復雜。主題性的術語提取方法需要依托主題詞(key word)展開。主題詞定義為在給定文本中頻率不同尋常的詞。該詞不一定是高頻詞,而是與某參考語料庫的同一詞相比,其出現的頻率顯著凸顯[9]

以上幾種術語提取方法雖然應用廣泛,但都存在固有缺陷。n元模式雖然可以較為靈活地設置術語長度,但常常會引入大量非術語詞串。名詞短語分塊和詞性模式匹配的缺陷與n元模式類似,提取的術語往往不夠準確,后期需要進行大量的人工篩選。而基于主題性的術語提取方法僅能提取出由單個單詞構成的術語,這就限制了提取出的術語數量和范圍。綜上可見,目前的幾種術語提取方法均存在一定缺陷,尤其是在精準識別術語方面需要進行提升。因此,本文考慮引入一種新的術語提取方法,即基于依存句法分析的術語提取方法,并探索這種新方法是否可以彌補現有術語提取方法的缺陷。

基于依存句法分析的術語提取可通過語句單位內詞語間的依存句法分析揭示詞語間的語義修飾關系,進而實現對語義的理解,可以較為有效地彌補單純依靠詞性手段難以觸及深層語義關系的不足[7,10]。近年來涌現出一些利用依存句法分析進行術語提取的相關研究,如俞琰等[7,10]就利用依存語法分析成功提取了中文專利文獻和網絡招聘文本中的中文術語,并證明了該種術語提取方法的優越性,即與現有以n元模式和名詞短語分塊為主的術語提取方法相比,利用依存句法分析進行術語提取具有更高的術語提取準確率。回顧以上文獻,可以發現雖然利用依存句法分析進行術語提取已經得到了實際運用,但已有研究主要將這種方法應用于提取中文術語,對英文術語提取少有涉獵。Lei等人[11]構建了由4182篇國際期刊英語論文摘要構成的語料庫,運用依存句法分析提取該語料庫中的名詞短語,根據高頻名詞短語梳理出會計學熱門研究話題,但該文并未將術語提取作為研究目的。本文受其啟發,擬借鑒Lei等用依存句法分析提取熱門研究話題的有益嘗試,把該方法轉移到英文海事術語提取上,并同其他常見的無監督術語提取方法進行對比,以探索基于依存句法分析的術語提取方法是否具有優越性。

下文將首先介紹基于依存句法分析的術語提取方法的基本原理和算法。然后通過實驗,對比傳統方法和基于依存句法分析的方法進行術語提取的準確率,以確定基于依存句法分析的術語提取是否具有優越性,并為未來術語提取軟件的規則編寫與功能優化提供參考,也為術語提取技術的發展提供借鑒。

1" 實驗過程

1.1 語料

選取合適的書面語料是進行術語提取的重要環節。本文擬以英文海事文本為例進行術語提取對比實驗。首先需要對典型英文海事文本進行界定。

海事英語(Maritime English,ME)是一個傘式術語(umbrella term),也可稱作一個術語集。Zhang和Cole[2]認為,海事英語是國際海事群體用于海上貿易和航行安全的語言。Andersen[8]未將海事英語局限于與海運貿易和航行安全的相關語言表達,而是進一步擴展了Zhang和Cole[2]的概念,他認為海事領域包括海面以上及以下的所有與海相關的文化及生物概念,包括海洋生物、自然資源、地形地貌、基礎設施、航道等。用以闡述這些內容的英文文本就是英文海事文本。

因此,本文在Andersen[8]定義的基礎上,對海事英語的分類進行進一步闡述,如圖1所示。即海事英語由圓心向外擴展可分為四個圈層。其中,海事英語最為核心的部分就是船舶內部、船與船、船與岸、岸與船之間的語言交際,這一圈層以口語交際為主。其次,圍繞船舶航行這一主題,與貨物、貨物處理、船舶、海事安全、海上環境、海上氣象相關的英語表達也是海事英語的重要組成部分;同心圓再向外拓展,則會涉及與航運貿易、造船、航運企業、海事法律、海事組織等相關的英文表達,這些內容也屬于海事英語的范疇;同心圓最外層則是海洋歷史、海上旅游、物理海洋學、化學海洋學、海洋生物學等與海洋相關的英語表達,雖然這些內容看起來與處于核心圈層的海事英語聯系并不密切,但也屬于海事英語。海事英語從中心開始向外擴展,其所涵蓋的內容逐漸變得廣泛,但這些內容與海事英語聯系的緊密程度逐漸減弱。

本文將由上海海事局(Shanghai Maritime Safety Administration)于2022年12月26日發布的題為Notice of Shanghai Maritime Safety Administration on Further Strengthening Vessel Traffic Management in Changjiangkou and its Adjacent Waters的通告作為案例文本進行術語提取。該文本是上海海事局向長江口及附近水域船舶發布的交通管理通告,所有位于長江口及附近水域的船舶以及相關的船舶管理機構等都需要閱讀并充分理解該通告的內容,以便對自身航行計劃及船舶管理計劃等進行相應調整。該文本是典型的英文海事文本。該文本若放置于圖1同心圓中屬于最接近核心圈層的第二層位置。由于核心圈層以口語為主,所以該文本屬于最為典型的海事英語書面文本。

為避免出現后續的標注和檢索錯誤,需要對文本進行清洗和降噪,以獲得可靠統計結果[12]。對文本進行預處理之后,表1列出了文本的相關數據。我們選取小而具有代表性的文本作為驗證性研究的對象,以評估多種術語提取方法的準確性。選取小規模語料庫是為了使研究者能夠更專注于對比和分析各種方法的表現,從而更深入地理解其優劣所在,以避免處理大規模語料可能帶來的噪聲和復雜性干擾。值得一提的是,即便在這樣一個小規模的語料庫中,也成功提取出了近千個術語候選詞。

1.2 術語提取方法

本文選取了兩種傳統的術語提取方法與基于依存句法分析的術語提取方法進行對比。這兩種傳統方法均以“詞”為核心進行術語提取,分別是基于n元模式和基于主題性的術語提取方法。而基于依存句法分析的術語提取方法則突破了這一局限,更注重語句的句法特征和語義關系。依存句法結構的本質在于描述詞之間的依存關系,其中一個詞可能支配另一個詞,這種支配關系被稱為依存關系;根據依存句法假設,在語句中,核心動詞是支配其他詞匯的中心成分,而核心動詞本身卻不受其他詞匯的支配,所有的受支配詞語都以某種依存關系從屬于支配詞[7]。根據依存句法分析,句中的所有語義聯系相互交織,形成了一種基于詞語之間語義修飾關系的依存樹結構。這種結構并不受詞語在句子中的物理位置影響,能夠更準確地反映句子中的語義信息[7]。本文將以案例文本中的句子“Vessels shall make the voyage plan according to the navigation environment and hydro-meteorological conditions”為例,展示基于依存句法分析的劃分情況,具體如圖2所示。

通過依存關系的句法分析,可以發現構成術語候選詞的依存關系主要包括amod(形容詞修飾語)、nn(名詞復合修飾語)和poss(占有修飾語)這三種結構。具體解釋如下:

(1)amod,即形容詞修飾語,是指用來修飾名詞短語的形容詞短語[13]。以“Sam took out an unsecured loan”為例,其中的unsecured為loan的形容詞修飾語。

(2)nn,即名詞復合修飾語。一個名詞短語的名詞復合修飾語是指任何用來修飾核心名詞(head noun)的名詞,通常在句子中呈現“名詞+名詞”的搭配結構[13]。例如在“Oil price futures”這個短語中,oil同price、price同futures都可以構成nn的依存關系。

(3)poss,即占有修飾語,存在于名詞短語的中心名詞與其所有格限定詞或所有格補語之間。以Bill’s clothes為例,Bill就是clothes的占有修飾語[13]

根據圖2的依存關系劃分,可以發現“voyage plan”“hydro-meteorological conditions”這兩個詞可以構成術語候選詞。“voyage plan”更傾向于構成nn的依存關系,而“hydro-meteorological conditions”則更符合amod的依存關系②。

本文利用Stanford Parser工具對案例文本進行基于依存句法分析的術語提取。為了與此方法進行對比,本文還利用語料庫工具AntConc進行傳統的術語提取,主要基于兩種傳統方法:即基于n元模式的術語提取和基于主題性的術語提取。在用這兩種傳統方法進行術語提取過程中,需要準備詞元列表(Lemma List)和停用詞表(Stoplist),以防止同一單詞的不同詞形和常用功能詞對結果產生干擾。為了實現基于主題性的術語提取,需要選擇一個參照語料庫。本文選用英國國家語料庫(British National Corpus,BNC)③作為參照語料庫,它由多個權威機構共同創建,是目前全球最大的現代英語語料庫之一。

1.3 術語的篩選、認定和評估標準

完成術語候選詞的提取后,需要對其進行人工篩選和認定,這涉及術語審定工作。官方對術語的審定是一個嚴格且漫長的過程。根據《全國科學技術名詞審定委員會科學技術名詞審定原則及方法(修訂稿)》,科技名詞的審定工作首先需要確定學科,組建分委員會,進行三輪審定工作并多次召開審定工作會議之后才能進入批準預公布階段。在經過1年的預公布期后,科技術語才能夠被批準正式公布。

通常,官方認定的科技術語數量相對有限,且術語的產生和更新速度相對較慢。然而,每天都有大量的英文海事文本涌現,非專業術語開發和使用人員經常會遇到官方公布的科技術語表之外的術語候選詞。因此,他們需要快速篩選和認定大量新術語。如果完全按照官方的術語審定流程確定術語并構建術語庫,將導致他們的工作難以順利進行。

針對上述問題,非專業術語開發和使用人員可以采用Andersen[8]提出的術語篩選和認定方法,將術語候選詞分為三類:有效術語(Valid,簡稱V)、部分有效術語(Partially Valid,簡稱P)和非術語(Discarded,簡稱D)。石立堅[14]認為,術語可以分為一般術語和專業術語;一般術語適用于多個專業領域,而專業術語則主要適用于某一特定專業領域。專業術語在該特定專業領域的文本中通常具有較高的出現頻率,而在其他領域文本中則較少出現[4]。在此背景下,本文中的有效術語相當于石立堅所指的專業術語,即明顯屬于海事領域的術語,如“vessels”“navigation”“sailing”等;部分有效術語相當于一般術語,這類術語不僅適用于海事領域,也適用于其他多個專業領域,如“traffic”“overall efficiency”等;而非術語則是指不具備術語性質的單詞、短語或詞串,如“on”“or the”“the tianjin”等。通過這種方式,非專業術語開發和使用人員能夠更高效地進行術語篩選和認定工作。

本文將使用嚴格的術語準確率(strict accuracy,As)和寬松的術語準確率(lenient accuracy,Al)兩種計算方法來評估各術語提取方法的準確率。

As=VV+P+D×100%""" (1)

Al=V+PV+P+D×100%""" (2)

2 實驗結果與討論

2.1 基于n元模式的術語提取

實驗使用AntConc軟件中的“n-gram”功能進行術語提取,并將n的取值范圍設定為1~4[15-16]。由于基于n元模式的術語提取方法會產生大量術語候選詞,為了提高篩選效率,實驗規定術語候選詞的出現頻率需至少達到2次。表2為部分術語候選詞列表及其標注情況(節選)

基于n元模式的術語提取方法,共提取出272個術語候選詞。經過篩選和認定,其中35個為有效術語,61個為部分有效術語,而176個被判定為非術語。根據這些數據,嚴格術語準確率為12.9%,而寬松術語準確率為35.3%。

2.2 基于主題性的術語提取

實驗采用AntConc軟件中的“Keyword List”功能進行術語提取,并上傳了參考語料庫BNC的詞表,其中包含了各單詞在BNC中的出現頻率。以下是術語候選詞列表及其標注情況(節選),具體內容如表3所示。

主題值帶“+”符號,是因為與BNC參考語料庫相比,這些術語候選詞在案例文本中的出現頻率明顯較高,因此主題值為正值。

在表3中,出現了一些地名,如“changjiang-kou”“tianjin”“guangzhou”。對于這些地名,本文將其認定為部分有效術語。原因在于,“changjiang-kou(長江口)”作為長江黃金水道的咽喉,對長江中上游航運發展具有直接影響,因此與航運產業緊密相關,可視為部分有效術語。而“tianjin(天津)”“guangzhou(廣州)”雖然是城市名,但天津和廣州作為重要的港口城市,其港口與航運產業有著密切聯系。天津港和廣州港分別是京津冀地區和粵港澳大灣區的綜合航運樞紐,是我國南北運輸大通道的重要物流節點。因此,“tianjin”“guangzhou”也可視為部分有效術語。

基于主題性的術語提取方法共提取出45個術語候選詞。其中,有效術語16個,部分有效術語27個,非術語2個。根據這些數據,嚴格術語準確率為35.6%,而寬松術語準確率達95.6%。

2.3 基于依存句法分析的術語提取

實驗使用Stanford Parser工具對案例文本進行依存句法分析,并提取了標記為amod、compound和poss這三類依存關系的術語候選詞。以下是術語候選詞列表及其部分標注情況(見表4)。

表4中可以看到“Precautionary A”,實際上在基于依存句法分析的術語提取完整列表中,還存在“Precautionary B”。這兩個短語分別代表長江口的A警戒區和B警戒區。判定這兩個短語是不是術語,需要了解術語和名稱的區別。名稱是繼術語之后劃分出來的一類專業詞匯,它包括自然科學名稱、技術產品名稱以及商業名稱,其中的自然科學名稱就相當于術語[17]。列福爾馬茨基[18]明確指出,術語與特定的科學概念系統緊密相關,而名稱僅僅是為客體賦予標簽。按一定順序排列的一串字母(如維生素A、維生素B、維生素C等)或數字(如МАГ-5、МАГ-8等)以及其他隨意規定的符號都屬于名稱,它們并不反映科學概念系統。在此背景下,案例文本中的“Precautionary A”“Precautionary B”更接近于名稱概念,而非術語,因此在本文中這兩個短語被認定為非術語。

與此相關,本案例中還出現了短語“Precautionary Areas(警戒區)”,它是不是有效術語呢?根據國際海事組織(IMO)[19]的解釋,“Precautionary Areas”是指船舶在特定區域內航行時需要特別謹慎,并且建議按照推薦的交通流向行駛的區域。“Precautionary Areas”具有明顯的海事專業特征,因此在本文中被認定為有效術語。

基于依存句法分析的方法共提取出90個術語候選詞,其中有效術語28個,部分有效術語36個,非術語26個。根據這些數據,嚴格術語準確率為31.1%,而寬松術語準確率則為71.1%。

表5列出了三種術語提取方法準確率的對比。

就準確率而言,基于主題的術語提取方法在三種方法中表現最為出色,其次是基于依存句法分析的術語提取方法,最后是基于n元模式的術語提取方法。

然而,這并不意味著基于主題性的術語提取方法是最佳選擇。雖然該方法提取出的術語準確性較高,但這些術語都由單個單詞構成,導致大量由兩個或多個單詞構成的術語被排除在外,這不僅限制了術語提取范圍,也大大限制了術語提取數量。由表5可見,這種方法提取到的有效術語和部分有效術語的數量都是最少的。

基于n元模式的術語提取方法存在明顯的缺陷。該模式會提取出大量的非術語詞串,導致術語提取準確率較低。在后續的術語篩選和術語表編制等工作中,需要大量人工介入。但該模式的優點在于可以通過調整n值靈活地提取出由單個、兩個或多個單詞構成的術語,這是基于主題性和基于依存句法分析的術語提取方法無法實現的。

基于依存句法分析的術語提取方法在準確率方面表現良好,遠超基于n元模式的方法,較為接近基于主題性的方法。在術語提取范圍方面,該方法提取出的術語主要以兩個單詞構成的術語為主。

表6展示了使用三種術語提取方法提取出的術語候選詞中,由單個單詞和兩個單詞所構成術語的準確率情況。根據Justeson和Katz[20]的研究,英文術語普遍由兩個單詞構成,很少出現由單個單詞構成的術語,因為這樣的術語容易造成語義模糊。兩個及以上單詞構成的術語,往往語義更為明確,這樣就可以確保每個術語只有一個明確的含義。從表6的數據可以看出,基于依存句法分析的術語提取方式在提取兩個單詞構成的術語時準確性最高,這說明基于依存句法分析的術語提取方法與另外兩種方法相比具有明顯的優越性,即符合普遍英文術語的雙詞構成模式,所提取的術語語義更為明確,有效術語更多[20]

綜上所述,基于主題性的術語提取方法將術語以詞表形式展示,基于依存句法分析的術語提取方法主要提取出由兩個單詞構成的術語,而基于n元模式的方法則可以提取出由三個或更多單詞構成的術語。如果目標是編制術語表或構建術語庫,這三種術語提取方法可以相互補充,以滿足不同的需求。

然而,需要注意的是,基于主題性的術語提取方法僅能提取出由單個單詞構成的術語,這可能導致語義模糊。同樣,基于n元模式的方法在提取術語時的準確率較低。相比之下,基于依存句法分析的術語提取方法在準確率、術語范圍和數量方面的表現均較為出色。該方法提取出的術語符合普遍的英文術語構成模式,其含義和語義都較為明確。因此,基于依存句法分析的術語提取方法具有一定的優越性。

對于非專業的英文術語開發與使用者而言,將基于依存句法分析的方法與基于主題性的方法相結合進行術語抽取是一種比較可靠的方法。該方法既能保證較高的準確率,同時又能涵蓋由單個單詞和兩個單詞構成的術語范圍,從而實現術語提取效率、范圍和準確性三者之間的最大平衡。

3 結論

本文利用AntConc和Stanford Parser軟件,以上海海事局發布的長江口及其附近水域船舶交通管理通告的英文文本作為語料進行了三種術語提取方法的實踐,并對這三種方法的提取效果進行了對比。研究發現,三種方法可以互為補充,而基于依存句法分析的術語提取效果更佳。對于非專業的英文海事術語開發及使用人員來說,將基于依存句法分析的方法與基于主題性的方法結合起來進行術語抽取是一種相對可靠的策略。

雖然之前已有研究者利用依存句法分析在中文術語和英文研究熱點話題提取方面取得了一些成果,但本文首次將依存句法分析應用于術語提取。通過對比實驗發現,基于依存句法分析的術語提取方法在效果上優于一些傳統的無監督方法。這一發現不僅為術語提取軟件的規則編寫和功能優化提供了指導,同時也為術語提取技術的進一步發展提供了啟示。

在后續研究中,建議使用更多無監督方法,針對更大規模、更多語類的語料進行實驗,以評估這些無監督術語提取方法在更復雜、更多樣場景下的表現。通過更加客觀、全面的對比,可以較為準確地了解基于依存句法分析的術語提取方法是否具有優越性。

注釋

① 遍歷是指按照一定的規則和順序訪問一個數據結構中的所有元素。具體來說,使用n元方法進行術語提取時,遍歷指的是對文本中的每個可能的n元組合進行逐個檢查,以確定它們是否構成術語。

② 值得注意的是,上述示例對依存關系的劃分存在一定的爭議。例如“voyage plan”應被界定為nn還是amod的依存關系尚無定論。但無論界定為何種依存關系,都不影響術語提取的準確性。

③ 英國國家語料庫由英國牛津出版社﹑朗文出版公司﹑牛津大學計算機服務中心﹑蘭卡斯特大學英語計算機中心以及大英圖書館等聯合開發建立,于1994年完成。BNC是目前網絡可直接使用的最大的語料庫之一,也是目前世界上最具代表性的當代英語語料庫之一。

④ 由于完整的列表較長,表2、3、4僅展示部分容易引起爭議的術語候選詞。

⑤ tss(Traffic Separation Scheme)的中文名稱為分道通航制,是由國際海事組織(IMO)所設置的海上交通管理路線系統。該系統用分隔帶、分隔線、天然障礙物或明顯的地理物標等將航道分隔成左右兩個通航分道,實行單向通航。

參考文獻

[1] 趙志剛. 英語海事公文的語言特點及翻譯[J]. 上海海事大學學報, 2014, 35(2): 89-94.

[2] ZHANG Y, COLE C. Maritime English as a code-tailored ESP[J]. Ibérica, 2018, 35: 145-170.

[3] 李天嬌,尚新.中國海事英語研究的知識圖譜分析[J].上海海事大學學報, 2019, 40(4):118-124.

[4] 常寶寶.科技術語自動提取技術: 現狀與思考[J].中國科技術語, 2022, 24(1):3-13.

[5] 卡拉·沃伯頓,宋楠楠,朱波. 面向翻譯管道的術語加工[J]. 中國科技術語, 2019, 21(5):16-21, 27.

[6] 張雪,孫宏宇,辛東興,等.自動術語抽取研究綜述[J]. 軟件學報, 2020, 31(7): 2062-2094.

[7] 俞琰,陳磊,姜金德,等.基于依存句法分析的中文專利候選術語選取研究[J]. 圖書情報工作, 2019, 63(18):109-118.

[8] ANDERSEN G. Utilising heterogeneous language resources for term extraction in maritime domains[J]. Terminology, 2022, 28(1): 1-36.

[9] SCOTT M. PC analysis of key words: and key key words[J]. System, 1997, 25(2): 233-245.

[10] 俞琰, 陳磊, 姜金德, 等. 網絡招聘文本技能信息自動抽取研究[J]. 圖書情報工作, 2019, 63(13): 105-113.

[11] LEI L, DENG Y, LIU D. Examining research topics with a dependency-based noun phrase extraction method: a case in accounting[J]. Library hi tech, 2023, 41(2): 570-582.

[12] 盧一鑫. 基于語料庫的對外漢語教學領域術語提取[J].中國科技術語, 2024, 26(1):11-18.

[13] DE MARNEFFE M C, MANNING C D. Stanford typed dependencies manual [R]. Technical report, Stanford University, 2008.

[14] 石立堅. 有關術語的幾個問題[J]. 自然科學術語研究, 1988(2): 26-34.

[15] SINCLAIR J, JONES S, DALEY R. English Collocation Studies: The OSTI Report [M]. London: Continuum, 2004.

[16] STUBBS M. Words and phrases: Corpus studies of lexical semantics [M]. Oxford: Blackwell publishers, 2001.

[17] 曲唱,孫寰. 基于《冰區船舶快速性》文本的俄漢雙語術語庫建設研究: 以創建“海冰”主題術語表為例[J]. 中國科技術語, 2022, 24(2):55-64.

[18] 列福爾馬茨基А A. 什么是術語和術語集[J]. 葉其松, 譯. 俄語語言文學研究, 2011, 34(4): 65-70.

[19] International Maritime Organization (IMO). Ships’ routeing [EB/OL]. [2024-01-06]. https://www.imo.org/en/OurWork/Safety/Pages/ShipsRouteing.aspx.

[20] JUSTESON J S, KATZ S M. Technical terminology: some linguistic properties and an algorithm for identification in text[J]. Natural Language Engineering, 1995, 1(1): 9-27.

主站蜘蛛池模板: 中文字幕无线码一区| 日韩成人午夜| 免费一级成人毛片| 99久久国产综合精品2020| 国产精品夜夜嗨视频免费视频| 国产永久免费视频m3u8| 精久久久久无码区中文字幕| 免费毛片全部不收费的| 日本黄色不卡视频| 她的性爱视频| 无码AV动漫| 国产无码网站在线观看| 午夜福利网址| 欧美激情成人网| 亚洲成人77777| 国产在线日本| 婷婷成人综合| 999福利激情视频| 日韩欧美国产另类| 69综合网| 中文字幕天无码久久精品视频免费| 国产精品区视频中文字幕 | 99九九成人免费视频精品| 在线免费看片a| lhav亚洲精品| 欧美中日韩在线| аv天堂最新中文在线| 国产欧美日韩视频怡春院| 久久香蕉国产线看观看精品蕉| 欧美午夜在线观看| 欧美日韩激情在线| 国产熟女一级毛片| 欧美不卡在线视频| 日韩午夜片| 欧美不卡视频在线观看| 无遮挡国产高潮视频免费观看| 91福利一区二区三区| 精品夜恋影院亚洲欧洲| 久久精品aⅴ无码中文字幕 | 在线另类稀缺国产呦| 久久久久国产一级毛片高清板| 99无码中文字幕视频| 亚洲Va中文字幕久久一区| 日韩免费无码人妻系列| 中文一级毛片| 亚洲最大福利网站| Aⅴ无码专区在线观看| 亚洲第一黄片大全| 精品天海翼一区二区| 欧美三級片黃色三級片黃色1| 一级全黄毛片| 日本尹人综合香蕉在线观看| 亚洲国产精品美女| 尤物视频一区| 91年精品国产福利线观看久久 | 色欲色欲久久综合网| 日本免费新一区视频| 老司机久久99久久精品播放| 亚洲精品卡2卡3卡4卡5卡区| 久久久久青草线综合超碰| 97久久免费视频| 99精品福利视频| 国产精品一区二区不卡的视频| 国产浮力第一页永久地址| 久久精品国产精品一区二区| 谁有在线观看日韩亚洲最新视频| 91亚瑟视频| 夜色爽爽影院18禁妓女影院| 青青青草国产| 日韩午夜福利在线观看| 亚洲av无码久久无遮挡| 久久毛片网| 精品伊人久久久大香线蕉欧美| 国产午夜一级毛片| 伊人久久久久久久| 黄网站欧美内射| 日本一本正道综合久久dvd| 国产精品无码AV片在线观看播放| 99热6这里只有精品| 国产高潮流白浆视频| a天堂视频在线| 91精品啪在线观看国产|