999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英文武器裝備名的構成類型與構造模式研究

2019-02-22 07:54:30雷樹杰邢富坤
中國科技術語 2019年1期
關鍵詞:自動識別英文分類

雷樹杰 邢富坤

(1.戰略支援部隊信息工程大學洛陽校區,河南洛陽 471003;2.青島大學外語學院,山東青島 266000)

引 言

命名實體(named entity, NE)主要包括時間表達式(temporal expression)、數字短語、人名、地名、機構名等的表達形式,是承載信息的重要語言形式,是理解文本內容的關鍵環節。在軍事領域中,英文武器裝備名是構成軍事文本的重要命名實體,承載著重要軍事信息,是軍事信息挖掘和情報分析整理工作的重要對象。作為特定表達形式,英文武器裝備名也是軍事外語教學與學習的重要內容,對提高軍事外語專業化水平也發揮著重要作用。

目前,英文武器裝備名自動識別的研究在公開文獻中還處于空白階段,而英文人名、地名、機構名等普通命名實體及自動識別研究則較為普遍。早期的命名實體識別方法大都基于規則,20世紀90年代以后,基于大規模語料庫的統計方法逐漸成為命名實體識別的主流方法。這方面具有代表性的工作有奧利弗·本德(Oliver Bender)[1]在2003年采用人工標注語料訓練最大熵模型(maximum entropy model),對英文與德文中的人名、地名、機構名以及其他實體名進行識別并取得不錯的效果;Liao[2]等在2009年提出了一種簡單的半監督學習算法,該方法通過有效利用大規模已有的未標注語料和條件隨機場(conditional random field)模型,從而實現對多領域命名實體的識別;美國麻省理工學院阿姆斯特分校也開發出一款綜合了隱馬爾科夫模型、最大熵模型和條件隨機場模型的自然語言處理開源軟件包MALLET[3],對命名實體有著較好的識別效果?,F階段,這方面的代表工作主要有S.米什拉(S. Mishra)[4]等在2016年用來自推特的2394條推文訓練線性鏈條件隨機場模型,通過上采樣(up-sampling)和添加一些未監督的特征來提高模型對噪聲文本中命名實體的識別率。紀堯姆·朗普勒(Guillaume Lample)[5]等在2016年通過采用雙向長短記憶網絡(bidirectional long-short term memory)進行命名實體識別,在四種語言的命名實體評測中都取得了非常好的效果。綜合以上研究,本文認為,特定領域中的命名實體有著獨特的領域特征,而無論是基于規則的自動識別方法還是基于統計的自動識別方法都需要特征集的有效支持。因此,本文對英文武器裝備名這個特定領域實體的領域特征進行了調查總結,以更好地支持對武器裝備名的自動識別。

一 武器裝備名概述

武器裝備是武裝力量用于實施和保障戰斗行動的武器、武器系統和軍事技術器材的統稱,通常分為戰斗裝備和保障裝備。戰斗裝備是指在軍事行動中直接殺傷敵人有生力量和破壞敵方各種設施的技術手段,如槍械、火炮、坦克以及其他裝甲戰斗車輛、作戰飛機、戰斗艦艇、彈藥、導彈、水雷等。保障裝備是為了有效使用戰斗裝備所必需的軍事技術器材,如雷達、聲吶、通信指揮器材、軍用測繪器材、野戰工程機械、軍用車輛、保障艦船、輔助飛機、情報處理裝備、電子對抗裝備等。武器裝備名包括類名和具體名,類名是指某一類武器裝備名的統稱,例如“fighter”“tank”“warship”等。具體名是指明確給出武器裝備名具體描述信息或專指某一款武器裝備的名稱,例如“F-22”“M61 Vulcan”“J-10”等。從軍事領域信息處理需求來看,無論是武器裝備的類名還是具體名都是重要的領域專有信息,都應作為武器裝備名稱予以分析研究。而武器裝備的類名大都是單個詞,構成比較簡單,數量較為有限,因此,本文主要調查研究具體武器裝備名稱。

武器裝備名稱是一個開放集合,武器裝備名稱會隨著武器裝備的發展而不斷地擴充,處于動態變化當中。但從構成上講,英文武器裝備名的構成要素類型以及具體要素則較為有限且相對穩定,其組合具有規律性、模式性,這為自動識別提供了可能條件。例如,武器裝備名稱 “Mowag 4x4 armored reconnaissance vehicle”,其中的“armored”“reconnaissance”是武器裝備名中特有常用詞, “Mowag”是一個公司名,“4x4”是武器的規格屬性,這些元素的組合又具有模式性,不會隨意組合,而是按照某種特定的組合順序進行組合,形成完整的武器裝備名稱。

二 數據描述與研究方法

1. 數據描述

本文以維基百科(Wikipedia)為數據來源,從中抽取出6402個英文武器裝備名詞條及類別信息,詞條涵蓋主要武器裝備類型,對不同軍兵種均有覆蓋,具有一定的代表性,見表1。

表1 抽取出的武器裝備名詞條及類別信息舉例

2. 研究方法

本文主要是從武器裝備名的構成要素與構成模式兩方面開展。在實際研究中,基于人工構建的英文武器裝備名數據庫,人工開展標注與調查工作,對每一個英文武器裝備名進行結構分析,在較大范圍的調查基礎上,總結每種結構的模式規律和頻率特征,從總體上對英文武器裝備名稱的構成要素與構成模式有一個較為全面的把握,之后將語言學調查結果轉化為可被機器使用的形式化規則,同時輔以專門詞典和統計信息,可以為英文武器裝備名的自動識別提供支持。

三 英文武器裝備名構成類型

英文武器裝備名自動識別的研究很少,其構成成分也沒有權威的分類標準,因此,本文對大量英文武器裝備名進行觀察、總結、提煉,提出了分層處理策略,并給出一套分類標準。

英文武器裝備名的構成成分很復雜,既有公司名、型號,也會有別稱,還會有描述該武器裝備特征的詞匯。如在 “Rheinmetall 20mm Twin Anti-Aircraft Cannon”這個詞條中,就包含“Rheinmetall”這樣的公司名,“20mm”這樣形容該火炮性能特征的口徑大小,還有“Anti-Aircraft”這樣描述該火炮功能的詞匯。除此之外,英文武器裝備名中還有很多其他與該武器裝備有關的各類詞匯。在這種情況下,就要求對英文武器裝備名的構成成分進行科學合理的分類,并在覆蓋面足夠廣泛的情況下不冗余,為此,本文采用了兩層分類體系。

1. 第一層分類

在第一層分類中,任意一個英文武器裝備名都可由型號A、別稱N、描述P和縮寫R這四個成分來描述。其中,描述P指對武器裝備特征、制造商、性能等的描述。由于縮寫R單獨出現時一般是整個英文武器裝備名的縮寫,如“薩德”反導系統縮寫為“THAAD”,而其作為武器裝備名的一個組成成分出現時一般是對該武器裝備特定描述的縮寫,如“Type 10 120mm AA Gun”中,“AA”就是“Anti-Aircraft”的縮寫。因此,當其與其他成分組合時,將其視作描述P的一個子分類。而當縮寫R單獨出現時,將其視作一個單獨的分類。這樣,基于這四個成分的所有可能組合,可將第一層分類的所有情況列舉出來,見表2。

表2 第一層分類情況及舉例

“Scud”是一個別稱,是著名的“飛毛腿”導彈,該詞條由單獨一個別稱N構成;“M1”是型號,是美軍現役主戰坦克,該詞條由單獨一個型號A構成;“Ferret armored car”由別稱“Ferret”(白鼬)、形容該車為帶裝甲的“armored”與“car”三個部分組成,是英軍的白鼬裝甲車,包含了別稱N與描述該車特征的部分P兩個要素;“Marine Personnel Carrier”由形容該車為海軍使用的“Marine”、形容該車功能為攜帶人員的“Personnel”與“Carrier”三個部分組成,這三個部分都為描述該車特征的部分P;“RIM-7M Sea Sparrow”由型號“RIM-7M”與別稱“Sea Sparrow”組成,是著名的“海麻雀”艦空導彈,包含了型號A與別稱N兩個要素;“SRAAM”是武器裝備名“Short-range air-to-air missile”的縮寫;“152mm towed gun-howitzer M1955”由表示其口徑的“152mm”、表示其為拖拽式的“towed”、表示其型號的“M1955”和“gun-howitzer”組成,包含了型號A與描述該武器裝備特征的部分P兩個要素;“OMC RG-31 Nyala”由公司名“OMC”、別稱“Nyala”(林羚)與型號“RG-31”組成,是南非的“林羚”裝甲車,包含了別稱N、型號A和描述該武器裝備特征的部分P。

第一層分類是對武器裝備名的總體表達形式分類,該分類沒有考慮具體構成要素的組合順序問題,只是根據某一詞條所包含的構成成分種類將其分為八類,同時對于“描述P”,該構成成分下還可劃分出更多具體的類,如在“37mm anti-tank gun M1930”這個詞條中,“37mm”“anti-tank”和“gun”都是描述武器裝備特征的詞,但具體來看,“gun”是指該武器裝備的基本類型為火炮,“37mm”是指該火炮的口徑,“anti-tank”是指該火炮的功能,這些描述信息各具獨特性,需要區別對待。因此,為了更加精確地描述每一個武器裝備詞條的構成模式,本文將其進行第二層分類。

2.第二層分類

第二層分類將描述P這個類別進行了具體化的分類,形成了描述類要素,如表3所示。

表3 描述類要素及舉例

基本類型(K)指武器裝備的類別,如“gun”“tank”等,這類表達形式既可以作為武器裝備名稱的描述成分使用,也可以單獨指稱某一類武器裝備名。軍兵種(M)指武器裝備主要服務的軍兵種,如“naval”“marine”等。地域(W)指該武器裝備的使用地域,如“amphibious”“offshore”等。作戰功能F指武器裝備在戰爭中的用途,如“anti-tank”“air-to-ground”等。公司(B)指該武器裝備的制造商,常見的有“Boeing”“Lockheed”等。物理特征(S)形容武器裝備的重量、外形等物理屬性,既指“輕型”“重型”這樣武器裝備的重量,也可指“12mm”這樣的口徑。動力(I)指武器裝備的動力來源,如“nuclear”“motor”等。層級(U)既指如“戰術”“戰役”這樣的戰爭規模層級,也指如“師”“單兵”這樣的作戰單位層級,還有“中距”“短距”這樣的打擊距離層級。運動方式(T)既指如“拖拽式”“自行式”這樣武器裝備的機動方式,也指“巡航”“彈道”這樣導彈的彈道運行方式。操作(O)既指“有人”“無照料”這樣的操作者是否是人的特征,也有“自動”“半自動”這樣的自動化程度。附屬(C)既指該裝備作為載物附屬于其他載體,也指該裝備作為載具承載其他裝備。武器裝備構成要素十分復雜,有的詞是對武器裝備特征的額外說明,將其歸為補充說明(Z)。此外,在第二層分類中,型號A也具體化為系列E與具體型號V。

四 英文武器裝備名構造模式

1. 構造模式獲取

本文對搜集到的英文武器裝備名根據上文提出的兩層分類體系進行手動標注,并在計算機的輔助下進行總結。首先,將該詞條依據兩層分類體系進行切分;其次,對切分后的每一個部分進行標注,得到其構成模式。部分標注結果如表4。

表4 英文武器裝備名的部分標注結果

注:標注采用“/”作為分隔符將一個英文武器裝備名詞條切分成幾個部分。

“Hawker Sea Fury”是英國霍克公司生產的“海怒”戰斗機,將其切分后,“Hawker”是公司名,標為“B”,“Sea Fury”意為“海怒”,標為“N”,其構成模式為“BN”。“Bavar 373”是伊朗的一款長距防空系統,將其切分為兩部分,第一部分“Bavar”在波斯語中意為“信念”,標注為“N”,“373”是其具體型號,標注為“V”,其構成模式為“NV”?!癕ersad”是伊朗的一款先進的防空系統,在波斯語中意為“埋伏”,所以其構成模式標注為“N”?!?00mm air defense gun KS-19”是蘇聯生產的一款高射炮,于二戰結束后入役。將其切分為五個部分,“100mm”是其口徑,為物理特征,標注為 “S”,“air defense”指其作戰功能,標注為“F”,“gun”是其基本類型,標注為“K”,“KS”是其所在系列,標為“E”,“-19”為其具體型號,標為“V”,得到其構成模式為“SFKEV”。得到標注語料后,在計算機的輔助下對標注語料進行處理,總結出英文武器裝備名的構造模式分布規律、構成要素分布規律。

2. 構成模式、構成要素分布規律

(1)英文武器裝備名構成模式的分布規律

表5是對標注后的結果做統計分析所得。由于構成模式較多,此處只列舉排名前十位的構成模式。

表5 英文武器裝備名構成模式的分布統計(前十位)

構成模式總共501類,通過分析表格,可以發現:其中出現頻率最高的BEV等五個構成模式占了調查集中所有英文武器裝備名的50.64%,而出現頻率排名前十的構成模式占了調查集中所有英文武器裝備名的64.41% 。“BEV”與“EK”兩類構成模式占比最大,都達到了14%以上,其次是“EV”與“BV”兩種構成模式,占比都在6.50%以上,因此從總體分布看,英文武器裝備名的構成模式分布十分集中,大量武器裝備名稱只是由少數幾類模式構成,而大部分模式類型對應的武器裝備名數都較為有限。符合“BEV”構成模式的英文武器裝備名有著名的艦載戰斗機F4B的陸軍版“Boeing P-12”、中國的“Shenyang J-6”,即殲-6戰斗機等。符合“EK”構成模式的有美國著名的“Ticonderoga-class cruiser”(提康德羅加級巡洋艦)、英國正在建造的“Queen Elizabeth-class aircraft carrier”(伊麗莎白女王級航母)等。符合“EV”構成模式的有我國著名的地空導彈系統“HQ-9”(紅旗-9),我國裝備的自行榴彈炮“PLZ-5”等。符合“BV”構成模式的有被稱為二戰期間最杰出的手槍之一的“Beretta M1934”(貝雷塔M1934),納粹黨大量配發的“Walther PP”(瓦爾特PP)手槍等。符合“N”構成模式的有美軍的“Spike”(長釘)反坦克導彈,美軍的“Apache”(阿帕奇)武裝直升機等。在構成模式中,最長的為“SOBEKED”,在調查數據集中出現過一次,包含了七個構成成分,這是英國Vickers公司一戰期間產的一款野戰炮“1.59inch Breech-Loading Vickers Q.F. Gun, Mk II”。構成模式復雜的還有“ESMKEV”,包含了六個構成成分,在調查數據集中出現了11次,如英國Vickers公司產的英國第一款后膛裝填的艦炮“BL 12inch naval gun Mk VIII”。除此之外,構成成分復雜的還有“SMFKEV”等,這里就不再一一列舉。

英文武器裝備名構成模式的分布特點意味著英文武器裝備名的構成模式會集中在其中某些構成模式上,這也就意味著在較大規模調查基礎上可以較全面得到英文武器裝備名的構成模式。而有限的模式特征和構成要素成為英文武器裝備名構成的重要特征,能夠為統計識別方法提供重要的語言特征支持,提升自動識別的效果。

(2)英文武器裝備名的構成要素的分布規律

由于構成要素的種類較多,在這里只列舉各個門類排名前十位的構成要素統計表(見表6)。

表6 英文武器裝備名構成要素統計結果(前十位)

通過分析圖表,我們可以發現:總體來看,英文武器裝備名的構成要素分布較為集中。其中,“E” (系列)、“V”(具體型號)、“B”(公司)、“K”(基本類型)、“N”(別稱)這五個構成要素類型占比較大,都在10.40%以上,而“E”(系列)與“V”(具體型號)更是在21%以上。

上述統計結果意味著英文武器裝備名的構成要素會相對集中于幾個特定類型上,在之后的研究中,可以根據英文武器裝備名中高頻出現的構成要素類型進行有針對性的泛化。如:可以對“E”(系列)、“V”(具體型號)進行泛化,擴充詞典中的武器裝備制造公司B和昵稱N,以此來提高本文總結規則的泛化能力。

五 實驗與評價

為檢驗本文總結的構成模式對英文武器裝備名的描寫能力,本文利用未在調查數據集中出現的英文武器裝備名開展開放測試。同時為了更加精確地測試本文總結的構成模式的有效性,還在開放測試中排除未登錄詞的影響后進行了再次測試。

1. 實驗數據與評價方法

(1)實驗數據

開放測試數據來源分為兩個部分:選取500條未在調查數據集中出現過的英文武器裝備名和500條非英文武器裝備名的命名實體混合的數據集作為開放測試數據。

(2)實驗方法

基于本文總結提出的英文武器裝備名構成模式及相應的構成要素詞典,利用對構成模式的最長匹配方法匹配各個詞條,對測試數據中的每一條數據進行匹配識別,并記錄識別結果。

(3)評價方法與指標

將識別結果與原數據集做比較,只有完全將詞條識別出來方可視為識別成功,未識別出或部分識別出視為識別失敗。在開放測試完成后,計算識別結果的準確率和召回率,并在此基礎上計算F值,用F值來評價本文提出識別方法的效果(見表7)。

表7 評價指標

2. 實驗結果及分析

從實驗結果看,在未消除未登錄詞的影響前,本文總結的構成模式和提出的識別方法的準確率非常高,在98.6%以上,但召回率較低,為60%左右,但在消除未登錄詞的影響之后,準確率上升到了99%以上,召回率上升到了92%以上。這一方面說明本文總結的構成模式對武器裝備名有著很優異的描述性能,但同時也要求有效減小未登錄詞的影響(見表8)。

對識別結果進一步分析發現,開放測試中的未

表8 實驗結果

登錄詞所屬的類別也具有很強的不均衡性,最多的未登錄詞是別稱,其次是公司名,這兩者占據未登錄詞的比例接近61%,因此在未來研究中,可以對英文武器裝備名中的別稱與公司名進行專門研究,研究其類別和規律,并據此來構建和完善針對別稱與公司名的專門知識,從而進一步提高英文武器裝備名的識別效果,為實用化識別系統的構建打下堅實基礎。

六 結 語

本文對英文武器裝備名的構成成分進行了分類并分析,形成了兩層分類體系。在此基礎上,本文對來自維基百科的6402條英文武器裝備名進行了手工標注,并對英文武器裝備名的構成模式和各個分類所包含的詞單元進行了調查,形成了英文武器裝備名的構成模式庫和領域詞典,并利用實驗對構成模式的有效性做了檢驗。在調查數據的基礎上,本文研究了英文武器裝備名的命名規律,得出了 “英文武器裝備名構成要素類型有限,構成模式相對確定”的結論。下一步,我們將以本文的研究為基礎,提出對英文武器裝備名的自動識別方法。

在未來的工作中,可以利用統計學方法對真實語料中的英文武器裝備名的上下文特征進行描述,并在此基礎上結合英文武器裝備名的內部構成規律,以達到對英文武器裝備名更好地識別。在較高的準確率、召回率和較低的誤識率的基礎上,將識別出的英文武器裝備名配以更多的信息顯示出來,開發出一個實用化系統,以服務于用戶。

此外,本文針對英文武器裝備名自動識別的有關工作也可以較為方便地遷移到其他領域的命名實體研究中去,為其提供一定的借鑒。

猜你喜歡
自動識別英文分類
分類算一算
分類討論求坐標
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
數據分析中的分類討論
教你一招:數的分類
英文摘要
鄱陽湖學刊(2016年6期)2017-01-16 13:05:41
英文摘要
金屬垃圾自動識別回收箱
英文摘要
財經(2016年19期)2016-08-11 08:17:03
英文摘要
主站蜘蛛池模板: 一级毛片在线免费看| 欧美高清日韩| 波多野结衣久久精品| 亚洲中文精品人人永久免费| 亚洲综合色婷婷| 色妞永久免费视频| 国产视频一区二区在线观看| 特级做a爰片毛片免费69| 国产玖玖视频| 国产美女主播一级成人毛片| 99免费在线观看视频| 久久精品66| 亚洲日本精品一区二区| 91黄视频在线观看| 国产极品美女在线| 国产手机在线ΑⅤ片无码观看| 青青草原国产av福利网站| 视频国产精品丝袜第一页| 欧美h在线观看| 国产激情无码一区二区免费| 成人91在线| 亚洲精品黄| 国产精品不卡片视频免费观看| 午夜三级在线| 亚洲Av激情网五月天| 免费可以看的无遮挡av无码| 久久久精品无码一区二区三区| 久久精品这里只有国产中文精品 | 毛片国产精品完整版| 久久99国产综合精品1| 欧美精品v欧洲精品| 2021国产精品自拍| 暴力调教一区二区三区| 99热这里只有精品免费| 亚洲精品色AV无码看| 亚洲区视频在线观看| 99热免费在线| 亚洲自拍另类| 一级看片免费视频| 久久不卡国产精品无码| 3D动漫精品啪啪一区二区下载| 中文天堂在线视频| 亚洲91精品视频| 亚洲a级在线观看| 亚洲欧洲日产国码无码av喷潮| 亚洲手机在线| 有专无码视频| 欧美日韩一区二区三| 找国产毛片看| 亚洲第一区欧美国产综合| 欧美精品影院| 伊人91在线| 这里只有精品在线播放| 亚洲人免费视频| 国产极品粉嫩小泬免费看| 久久久久久久久亚洲精品| 国产色网站| 日韩福利视频导航| 粗大猛烈进出高潮视频无码| 日本人真淫视频一区二区三区| 亚洲久悠悠色悠在线播放| a级毛片免费播放| 亚洲日韩高清在线亚洲专区| 男女男精品视频| 九九这里只有精品视频| 国产精品无码一区二区桃花视频| 91在线丝袜| 亚洲一级毛片在线播放| 国模视频一区二区| 欧美不卡在线视频| 欧美激情伊人| 99热这里只有精品在线观看| 欧美精品aⅴ在线视频| 久久99精品久久久久纯品| 久久国产精品嫖妓| 日本三级精品| 免费无码一区二区| 国产系列在线| 国产婬乱a一级毛片多女| 亚洲成人动漫在线观看| 无码人妻免费| 免费国产好深啊好涨好硬视频|