999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

功能小句自動句法分析結果的錯誤分析

2014-07-16 08:52:38馬建軍
關鍵詞:功能

馬建軍,宗 敏

(大連理工大學 外國語學院英語系,遼寧 大連 116024)

句法分析是自然語言處理的基本問題,是指通過計算機算法得到自然語言句子的句法結構。[1]自上個世紀50年代以來,句法分析問題一直是自然語言處理領域的重點和難點。[2]提高句法分析的質量不僅要更正算法,選擇更合適的語法模板,更要從每次實驗的錯誤中進行總結分析,在具體方面加以改正。實驗表明豐富的語言知識對句法分析精度的提高有積極的作用,[3]但是在自然處理領域研究者多從算法和模板上進行錯誤分析或多個實驗進行比較,從語言學角度分析的文章甚至段落少之又少。徐潤華將句法錯誤分為兩大類:語法功能不合理和語法缺失,僅舉了4個例子。[4]馬建軍提出由于搭配庫知識不全,小句中的小品詞和介詞很難區分,并明確指出做狀語的名詞短語容易出現識別錯誤。[5]盛文鳳在其畢業論文中指出兩大類介詞短語識別錯誤:邊界錯誤和功能錯誤,也僅有4個例子。[5]

鑒于此,本文應用韓禮德系統功能語言學中小句的理論,對基于CRF的功能句法自動分析結果進行數據統計,從句法錯誤的表現形式和句法錯誤原因兩方面進行歸納總結,并結合實例做出形式化描述,對于設立標注規則,降低人工成本、提高句法分析準確度,甚至譯后編輯都具有一定的實際價值和理論意義。

一 錯誤分類統計及討論

圖1 三類一級錯誤百分比

經統計,5021個句子中,共出現193種錯誤。本文將其總共分為3類一級錯誤、7類二級錯誤和38類三級錯誤。其中,一級錯誤包括:機器自動識別的邊界錯誤(99種)、機器欠缺語言知識造成的語法成份識別錯誤(85種)以及少量的句法分析前期的人工標注語注錯誤(9種)。三類一級錯誤所占百分比如圖1所示。一級的邊界錯誤可分為兩類二級錯誤:漏編錯誤(26種)和語法成分邊界錯誤(73種)。兩類二級錯誤里可繼續分出11種三級錯誤。邊界錯誤細致構成如表1所示。

表1 邊界錯誤構成

按照IOB2標注語方法,I表示該標注項目在短語內,B表示短語開始位置。因此,我們把語法成份識別錯誤分為兩類二級錯誤:短語內成份錯誤(45種)和短語起始成份錯誤(40種)。具體例子如表2所示。

表2 短語內成份錯誤和短語起始成份錯誤示例

本文中,按照功能語法小句理論,小句成份功能塊被分為7大類:主語、謂語、補語、補語1/2/3/4、狀語、謂語剩余部分和補語剩余部分,共10部分。但是,所選擇的句法分析結果的語料中,沒有涉及到有補語4的小句,所以具體的語法成份錯誤包括9種。語法成分識別錯誤構成如表3所示。

表3 語法成分識別錯誤構成

第三類一級錯誤——人工標注錯誤僅占錯誤總數的5%,具體的標注錯誤(三級錯誤)僅有9種。將這9種錯誤歸為三類二級錯誤:不小心打錯詞的手誤、原文有縮寫導致標注識別錯誤和成份嵌套錯誤,每種錯誤僅錯1-4詞,大多數只錯一詞。具體如表4所示。

表4 人工標注錯誤構成

注: 1)I-和B-指該成分被用“[]”擴起來了,但是沒有注明功能

2)I-[P和I-[B指該成分在標注時多標了一個“[”,如:“[[P”。

3)B-PM指該成分在標注時,不小心P后多了一個M。

4)B-Denough/RB指功能D與詞enough/RB之間缺少了空格。

5)I-to/TO和B-to/TO指用“][”把不該分開的成分分開了。

從圖1,表1,表3,表4可以看出:

1.三類一級錯誤中,人工標注錯誤比例是最低的,僅占5%。但是,人工標注錯誤中,除了“原文有縮寫”這一項,手誤和句子成分識別不清的問題是應該避免的。

2.在二級的漏編錯誤中,機器漏編而人有標注的情況(53.85%)比人沒有標注而機器標注的情況(46.15%)略多一些。這說明我們需要增加或者細化標注規則,以免機器思維混亂,導致錯誤。

3.不論是在語法成份的邊界錯誤還是在語法成份的識別錯誤中:狀語、補語2和主語的識別錯誤最多;補語3和補語補充部分因為語料中出現的次數少,所以錯誤少;謂語部分和謂語錯誤在不同的情況中時多時少。這意味著,狀語和補語2是自動句法分析的難點。要細化狀語邊界的描述,并將狀語常出現的位置考慮到系統設置中,增強系統的排序功能,才能提高對狀語和補語2的識別效果。

二 錯誤原因

需要說明的是,三個級別的錯誤會同時存在于小句當中,他們不是非此即彼,而是互相關聯且共存的。因此,我們要從整個小句入手,究其不能被機器學習,或者影響機器學習的因素。通過對錯誤小句的樣本分析,本文確定了如表5所示的小句句法分析錯誤原因。

表5 小句句法分析錯誤原因

自然語言是復雜的,機器僅靠運算,對句型的識別能力有限度。如表5所示,小句句法分析錯誤共4大類原因:特殊句型、漏編、人工錯誤和標點分隔。每一類下面有具體的出錯項目,現舉例說明。

1.句型問題。

(1)there be句型,如例1,

錯誤標注:[P There/EX are/VBP] [C so/RB many/JJ rich/JJ people/NNS in/INP your/PRP$ area/NN] ,/, and/CC...

在我們的標注規則中,there be被劃分到一起,識別為小句謂語P,這一點機器學到了。但是,there be 句型中,be后面的成份才是句子的真正主語S,而不是動詞be的補語C。在there be句型的一般現在時、現在完成時、過去完成時的句子中,這種錯誤均有出現。

(2)倒裝結構,如例2,

錯誤標注:[D Here/RB] [P are/VBP] [C our/PRP$ latest/JJS price/NN sheets/NNS] and/CC…

Here為地點副詞,放在句首,小句需要倒裝,be后的成份應該是句子的主語S,但是機器判斷不出這是倒裝句,因此將be后的成份識別為補語C。類似的倒裝結構還出現在enclosed is…,attached are…,listed are…等小句中。

(3)It形式主語句型,如例3,

錯誤標注:Although/INC it/IT [P is/VBZ] [D already/RB] [D very/RB] [P late/JJ for/FOR] [C your/PRP$ L∨C/NNP] to/TO [P arrive/VB] ,/,…

我們知道,在It is … for sb. to do sth.句型中,句子的真正主語是sb. to do sth.,而機器所掌握的只是介詞for后面應該接補語C,因此出現主語S識別錯誤。

(4)特殊疑問句,如例4,

錯誤標注:Why/WRB [P do/VBP] [C thousands/NNS of/INP people/NNS] who/WP [D normally/RB] [P suffer/VBP from/RP] [C the/DT miseries/NNS of/INP cold/JJ ,/, damp/JJ ,/, changeable/JJ weather/NN] [P wear/VB] [C Thermotex/NNP] ?/.

在上面的疑問句中,do是一個疑問助詞,而不是實意動詞,因此do后面的成份應該是主語S,而不是補語C。此類問題還出現在how long does...,what will be…等小句中。

(5)小句復合體。

功能語法中的小句復合體實際就是傳統語法中的復合句或者并列句。標注錯誤的語料中,小句復合體錯誤之一是主從詳述關系小句,即定語從句。如例5,

錯誤標注:… if/INC [S you/PRP] [P would/MD accept/VB] [C our/PRP$ order/NN for/INP coffee/NN] [C whose/WP$ number/NN] [P is/VBZ] [C No./NN 3003/CD] ./.

例5中,whose number 是定語從句的主語S,不能被識別為C。小句復合體中,投射關系小句,即賓語從句,也是常出現錯誤的小句復合體。如下例6,

錯誤標注:… ,/, [P have/VBP shown/VBN] that/INC [S of/INP all/DT conventional/JJ underwear/NN fabrics/NNS Thermotex/NNP] [P has/VBZ] [C the/DT highest/JJS warmth/NN insulating/VBG properties/NNS] ./.

介詞短語修飾名詞,應位于名詞后,而不是名詞前。因此,例6中,介詞短語of all conventional underwear fabrics應該被標注為賓語從句的狀語D,Thermotex為后面小句的主語S。

2.漏編。

機器沒有學到規則而漏編,可能是因為規則設置模糊,更有可能是前期人工標注時,人為主觀漏掉了對一些詞的標注,以致不同小句中,對同一個詞標注出現沖突,導致錯誤。語料中體現最多的漏編項目有:并列連詞、比較連詞和關系代詞。

(1)并列連詞問題,如例7,

錯誤標注:[P There/EX is/VBZ] [D also/RB] [S a/DT saving/NN in/INP freight/NN charges/NNS] when/WRB [S separate/JJ consignments/NNS] [P intended/VBN for/RP] [C the/DT same/JJ port/NN of/INP destination/NN] [P are/VBP carried/VBN] [D in/INP one/CD container/NN] and/CC [C an/DT additional/JJ saving/NN on/INP insurance/NN] [D because/INP of/INP the/DT lower/JJR premiums/NNS] [P charged/VBN for/RP] [C containershipped/VBN goods/NNS] ./.

例7的句子主干可以提煉為:There is a saving in freight charges and an additional saving on insurance,這使得an additional saving on insurance成為there be句型中的第二個主語。但是由于and 沒有被標注成份,所以機器不能識別出and并列的是兩個短語還是兩個小句,以至于成份識別出錯。類似錯誤還出現在連詞or和either…or…結構中。

(2)比較連詞than沒有納入標注范圍,見例8,

錯誤標注:[D Due/JJ to/INP our/PRP$ internal/JJ remittance/NN procedures/NNS] ,/, which/WDT [P took/VBD] [D longer/RBR than/INP anticipated/VBN] ,/, …

例8中,由于than沒有標注功能,系統就近選擇,將其標入狀語D,完全忽視了比較的意義,同時還造成了謂語anticipated的識別錯誤。

(3)定語從句關系代詞沒有納入標注范圍。

并不是每一個沒有入編的定語從句關聯詞都有識別錯誤,但機器對個別關系代詞的自動識別會出現錯誤,尤其是介詞+關系代詞的情況。常出現錯誤的有:who,with those who,of which,which。見例9,

錯誤標注:Since/INC [S the/DT defects/NNS of/INP the/DT goods/NNS] [P are/VBP inherent/JJ][D in/INP the/DT quality/NN of/INP the/DT material/NN of/INP which/WDT] [S the/DT goods/NNS] [P are/VBP made/VBN] ,...

例9中有三個錯誤:首先,“be +形容詞+介詞”的結構中,介詞應該被標注在謂語中,算作謂語P的一部分,機器沒有學習到,反而將in與后面的名詞短語放在一起當做狀語D。進而,the quality of the material本該是in的補語C,就被括在了狀語內。最后,of which由于沒有被標注功能,系統自動將其識別為了狀語D,造成錯誤。

3.人工錯誤。

人工錯誤中的手誤錯誤在錯誤分類表格下的注釋中已經有詳細說明,此處不再舉例贅述。關于小句功能成分混淆問題,可能由于標注者疲勞或句子過長或其他原因,功能成分劃分有誤,而機器自動識別正確,見例10,

錯誤標注:[S In/INP support/NN of/INP our/PRP$ claim/NN] [S we/PRP] [P are/VBP sending/VBG] [C1 you/PRP] [C2 a/DT survey/NN report/NN] [P issued/VBN] by/BY [C CCIB/NNP] ./.

但是例10中, in support of介詞短語表示“為了支持……”,應該被識別為狀語D,但是人工標記成了主語S,反而機器標記正確。

4.標點分隔。

標點分隔問題指:本該共同作為同一功能的幾個短語,由于其間有標點,機器就近選擇標點所代表的功能,以至于標注混亂。常出現錯誤的標點有:引號、冒號、逗號。以引號錯誤為例,見表6。

表6 引號分隔錯誤示例

三 結語

本研究表明功能句法分析的錯誤中,邊界錯誤最多,其次是功能成分識別錯誤,人工錯誤最少。但究其根本,在初期進行語料標注時,功能成分邊界的劃分、標注項目的確定和少量人為標記錯誤,對機器識別結果都有一定的影響?;诠δ苄【涞木浞ǚ治鱿到y還有很大的改進余地,本研究正是邁向改進的第一步。此后,對小句的研究會進一步深入,為提高句法分析精度貢獻綿薄之力。

[1]俞士汾.計算語言學概論[M].北京:商務印書館,2004.

[2]李業剛,黃河燕.漢語組塊分析研究綜述[J].中文信息學報,2013,27(3):1-8.

[3]袁里馳.融合語言知識的統計句法分析[J].中南大學學報(自然科學版),2012,43(3):986-991.

[4]徐潤華.基于詞語搭配知識和語法功能匹配的句法分析器[D].南京師范大學,2013.

[5]馬建軍.面向機器翻譯的英語功能名詞短語識別研究[D].大連理工大學,2012.

[6]盛文鳳.英語介詞短語功能識別及其在翻譯中的應用[D].大連理工大學,2013.

[7]閆旭.淺談SQL Server數據庫的特點和基本功能[J].價值工程,2012:229-231.

猜你喜歡
功能
拆解復雜功能
鐘表(2023年5期)2023-10-27 04:20:44
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
基層弄虛作假的“新功能取向”
當代陜西(2021年21期)2022-01-19 02:00:26
深刻理解功能關系
鉗把功能創新實踐應用
關于非首都功能疏解的幾點思考
基于PMC窗口功能實現設備同步刷刀功能
懷孕了,凝血功能怎么變?
媽媽寶寶(2017年2期)2017-02-21 01:21:24
“簡直”和“幾乎”的表達功能
中西醫結合治療甲狀腺功能亢進癥31例
主站蜘蛛池模板: 国产天天色| 国产第一色| 国产精品无码久久久久久| 国产特级毛片| 国产日韩久久久久无码精品| 欧美亚洲第一页| 国产欧美网站| 国产啪在线91| 日韩天堂在线观看| 国产自视频| 色综合天天娱乐综合网| 亚洲精品在线91| 亚洲欧洲日产国产无码AV| 国产精品一线天| 欧美特黄一级大黄录像| 久久国产亚洲欧美日韩精品| 国内精自视频品线一二区| 国产精品播放| 欧美日本在线观看| 91精品啪在线观看国产| 国产成人精品18| 午夜性爽视频男人的天堂| 女人18毛片一级毛片在线 | 国产成人高清亚洲一区久久| 亚洲欧美成aⅴ人在线观看 | 婷婷亚洲视频| 国产99视频精品免费观看9e| 亚洲视频在线青青| 波多野结衣中文字幕一区二区| 欧美激情综合一区二区| 粉嫩国产白浆在线观看| 五月婷婷激情四射| 国产青青草视频| 国产在线一区二区视频| 色悠久久综合| 尤物视频一区| 国产午夜人做人免费视频中文| 在线观看免费黄色网址| 91小视频版在线观看www| 中国美女**毛片录像在线| 亚洲男人天堂久久| 亚洲bt欧美bt精品| 狠狠色婷婷丁香综合久久韩国| 狼友av永久网站免费观看| 欧美亚洲欧美| 手机永久AV在线播放| 精品伊人久久久久7777人| 亚洲第一视频区| 国产亚洲欧美日韩在线观看一区二区| 亚洲三级电影在线播放 | 国内老司机精品视频在线播出| 国产一级毛片在线| 欧洲日本亚洲中文字幕| 亚洲第一成网站| 成年人视频一区二区| 亚洲综合香蕉| 午夜欧美理论2019理论| 亚洲专区一区二区在线观看| 永久免费无码日韩视频| 日韩av无码DVD| 国产一级一级毛片永久| 亚洲日本精品一区二区| 国产99精品久久| 午夜性爽视频男人的天堂| 国产成人一区| 一级成人a毛片免费播放| 99视频国产精品| 国产91精品最新在线播放| 亚洲91精品视频| 在线播放真实国产乱子伦| 欧美精品影院| 国产理论精品| 熟女日韩精品2区| a免费毛片在线播放| 国产另类视频| 伊人久久综在合线亚洲2019| 内射人妻无码色AV天堂| 操美女免费网站| 美女无遮挡拍拍拍免费视频| 亚洲精品视频网| 99久久亚洲综合精品TS| 国产欧美日韩va|