999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

添加冒號和分號分類標(biāo)簽特征的漢語逗號分類

2014-02-27 07:07:37李艷翠谷晶晶周國棟
中文信息學(xué)報(bào) 2014年5期
關(guān)鍵詞:分類特征實(shí)驗(yàn)

李艷翠,谷晶晶,周國棟

(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3. 蘇州大學(xué) 自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

1 引言

標(biāo)點(diǎn)符號是書面語言的重要組成部分,同一種標(biāo)點(diǎn)往往有不同的句法或篇章功能,例如,逗號有分隔小句、主謂關(guān)系和短語并列等不同的語言功能[1]。有效識別標(biāo)點(diǎn)的功能,有助于句法分析、篇章分析、機(jī)器翻譯等自然語言處理技術(shù)效果的提高。

在句法分析方面,李辛等[2]引入標(biāo)點(diǎn)處理進(jìn)行漢語長句句法分析,利用部分標(biāo)點(diǎn)符號的特殊功能將復(fù)雜長句分割成子句序列,把整句的句法分析分成兩級來進(jìn)行,從而提高了復(fù)雜長句分析的正確率和召回率。Jin等[3]提出利用逗號對漢語長句進(jìn)行劃分,通過漢語句子的上下文識別逗號左右兩邊的子句是并列關(guān)系還是從屬關(guān)系,并利用這兩種關(guān)系對逗號進(jìn)行分類,進(jìn)而提高句法分析的性能。在篇章分析方面,Xue等[4]進(jìn)行表示句子邊界的逗號識別研究,提出逗號可等同于句子邊界時(shí)要滿足兩點(diǎn)要求: 一是逗號前后子句有完整的句法結(jié)構(gòu)(即具有一個(gè)完整的IP結(jié)構(gòu),存在主謂賓);二是具有獨(dú)立的句義且逗號前后子句間沒有緊密的句法關(guān)系。Yang等[5]對逗號的使用方法進(jìn)行了更詳細(xì)的分類,共分為七類: SB、IP_COORD、VP_COORD、ADJ、COMP、SBJ和Other。Yang等采用了兩種基于句法信息的方法實(shí)現(xiàn)逗號的自動分類。谷晶晶等[6]提出一種基于漢語句子的分詞與詞性標(biāo)注信息做逗號自動分類的方法,結(jié)果表明利用詞與詞性進(jìn)行逗號分類的方法是可行的。在機(jī)器翻譯方面,黃河燕等[7]利用標(biāo)點(diǎn)符號和關(guān)聯(lián)詞等把復(fù)雜長句進(jìn)行切分,簡化為多個(gè)獨(dú)立的簡單句,再進(jìn)行翻譯處理,以此提高機(jī)器翻譯的性能。

從以上的研究可以發(fā)現(xiàn),逗號功能識別是標(biāo)點(diǎn)研究中的重點(diǎn)和難點(diǎn),本文主要研究漢語逗號的功能分類。文獻(xiàn)[8]統(tǒng)計(jì)顯示漢語賓州樹庫(CTB6.0)中句號、問號、嘆號、分號、逗號和冒號等標(biāo)點(diǎn)的使用頻率,其中句號、問號、嘆號共占29.55%,逗號高達(dá)67.17%,其次是冒號(1.69%)和分號(1.85%)。由于逗號所占比例較大并且具有較多不同的功能,因此非常有必要進(jìn)行逗號的功能分類研究。漢語句子中使用頻率最高的除了逗號,還有冒號和分號,本文分別將CTB6.0語料中含有冒號和分號的句子抽取出來,進(jìn)行逗號的自動分類識別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)(見表1),含冒號句子的語料和分號句子的語料中,逗號自動分類的總體正確率都嚴(yán)重低于全體語料的總體正確率,尤其是句子邊界(SB)分類逗號的F值嚴(yán)重下降。說明含有冒號或分號的句子中逗號多元分類的自動識別效果不好,文獻(xiàn)[6]中的錯(cuò)誤分析也指出了IP_COORD類與SB分類容易混淆。

表1 全體語料與局部語料總體正確率對比

說明: 實(shí)驗(yàn)采用文獻(xiàn)[6]的特征和最大熵分類器。含冒號語料是指從全體語料中抽取出來每個(gè)句子中至少包含一個(gè)冒號的語料;含分號語料是指從全體語料中抽取出來的每個(gè)句子中至少包含一個(gè)分號的語料。

逗號、冒號和分號在使用上存在一定的層次關(guān)系。通常情況下,分號的層次比逗號更接近根節(jié)點(diǎn)。在冒號作用域內(nèi),分號層次低于冒號,高于逗號。這些標(biāo)點(diǎn)符號豐富的使用方法導(dǎo)致了漢語句子長度較長且語義復(fù)雜。逗號分類是標(biāo)點(diǎn)分析的一個(gè)重要工作,由表1可知,含有冒號和分號的語料中逗號的分類效果較差,所以有必要專門進(jìn)行處理,看能否增加逗號分類的正確率。

本文主要研究添加冒號和分號分類標(biāo)簽為特征后的逗號自動分類。主要從以下3方面進(jìn)行展開: 首先給出標(biāo)點(diǎn)分類方法;然后介紹基于此分類方法的標(biāo)點(diǎn)分類語料庫;最后給出冒號和分號對逗號分類影響的實(shí)驗(yàn)結(jié)果與分析。

2 標(biāo)點(diǎn)分類

2.1 逗號分類

本文借鑒Yang等[5]提出的逗號分類標(biāo)準(zhǔn),將逗號使用方法劃分為7類。首先把逗號的使用方法在總體上分為兩種,即所連接的兩子句之間存在關(guān)系和不存在關(guān)系。兩子句之間存在的關(guān)系又分為并列關(guān)系和從屬關(guān)系。并列關(guān)系有3種類型(SB、IP_COORD與VP_COORD),從屬關(guān)系也有3種類型(ADJ、COMP與SBJ)。每種類別的具體說明見文獻(xiàn)[6],圖1展示了逗號分類類別。下面對每種類別進(jìn)行簡單說明,實(shí)例中屬于此類的逗號用c1...cn標(biāo)識,如例1中的c1和c2屬于類別SB,例2中的c3屬于IP_COORD類。

圖1 逗號分類類別

SB(SentenceBoundary): 分割句子邊界的逗號。該類逗號是指在某些語境下,起句子邊界的作用。該類逗號要求逗號左右的子句都是IP結(jié)構(gòu),父節(jié)點(diǎn)為根節(jié)點(diǎn)。如例1中的c1和c2。

例1陜西省目前批準(zhǔn)的外資項(xiàng)目已達(dá)兩千四百多個(gè),c1協(xié)議利用外資額四十多億美元,c2實(shí)際引進(jìn)外資超出十六億美元。

IP_COORD(IPCoordination): 分割父節(jié)點(diǎn)為非根節(jié)點(diǎn)的并列IP結(jié)構(gòu)的逗號。如c3和c4。

例2他指出,中國共產(chǎn)黨在農(nóng)村改革中形成了一整套基本政策,c3實(shí)踐證明是正確的,c4必須保持穩(wěn)定性和連續(xù)性。

VP_COORD(VPCoordination): 分割并列動賓短語的逗號。這一類的逗號與IP_COORD類逗號相似,都是分割嵌套結(jié)構(gòu)中的并列結(jié)構(gòu)。

例3中國銀行是四大國有商業(yè)銀行之一,c5也是中國主要的外匯銀行。

ADJ(Adjunction): 分割附屬從句與主句的逗號。附屬從句是指在句子中擔(dān)當(dāng)某種句子成分的主屬結(jié)構(gòu)。雖然從句部分的句子結(jié)構(gòu)是完整的,但它并不能脫離主句部分獨(dú)立完整地表達(dá)意思。

例4為了在運(yùn)行機(jī)制上與保護(hù)區(qū)相配套,c6寧波保護(hù)區(qū)率先在中國實(shí)施了企業(yè)依法注冊直接登記制的試行一站式管理。

COMP(Complementation): 分割句子謂語與賓語的逗號。通常出現(xiàn)在“表示”、“指出”、“認(rèn)為”、“介紹”等提示性動詞之后。

例5業(yè)內(nèi)人士認(rèn)為: c7它將為中韓兩國經(jīng)貿(mào)界提供一次擴(kuò)大交流與合作的良機(jī)。

SBJ(SententialSubject): 分割句子主語和謂語的逗號。SBJ類逗號表示的是逗號分割開了句子的主語與動賓結(jié)構(gòu)。

例6出口快速增長,c8成為推動經(jīng)濟(jì)增長的重要力量。

Other: 其他類型。本文將不屬于上述6種類型的逗號都劃分為Other類型。

2.2 冒號分類

[1],本文將冒號的使用方法歸納為7類(如圖2): 引用、動賓、邊界、總分、解說、提示、Other。其中引用、動賓和邊界又歸為話語引用類,而總分、長解說和短解說又歸為解釋說明類。Other分類是對冒號的一些不經(jīng)常使用的用法歸類。下面對每種類別的冒號進(jìn)行舉例說明。

圖2 冒號分類標(biāo)準(zhǔn)

例7秦牧: c9要學(xué)好語文,必須注意多讀、多寫、多思索。

動賓(VP): 該類冒號分割開了謂語動詞與賓語。常用的謂語動詞有: 問、答、說、曰、云、想、是、證明、宣布、例如、如下等。

例8克萊因說: c10“普遍的觀點(diǎn)是人以群分,人們總喜歡和自己相似的人,所以有理論提出多樣化不利于團(tuán)結(jié)。”

邊界(SB): 該類冒號被定義為句子邊界,冒號前后的句子都是一個(gè)完整的IP結(jié)構(gòu),可獨(dú)立存在。冒號后的句子一般是對冒號前句中主語的話語引用,由左右雙引號界定。

例9鳳姐連忙告訴小丫頭傳飯: c11“我和太太都跟著老太太吃。”

總分(ZF): 冒號前的句子是總說,冒號后面的句子是對前面句子的分說。

例10本文將冒號的使用方法歸納為七類: c12引用、動賓、邊界、總分、短解說、提示、Other。

解說(LJ): 后面的句子是對冒號前面的詞語的解釋說明。

例11有人曾做過對比實(shí)驗(yàn): c13兩個(gè)病情相近,年齡和體重相差無幾的手術(shù)患者,每天食用一只海參的患者,會比另一個(gè)患者提前20天左右全面康復(fù)。

提示(SJ): 該類是生活中常用的、位于提示短語后的冒號。該類冒號是從解說類中分離出來的一類,冒號后的內(nèi)容也是對冒號前詞或短語的解說,該類冒號前通常只有一個(gè)詞或短語。

例12電話: c14 8888888

Other: 本文設(shè)置一個(gè)Other類,是因?yàn)榇嬖谝恍┦褂梅椒ǔ霈F(xiàn)頻率較低的冒號,有分總類冒號、呼語類冒號以及作者與作品之間的冒號,例如,“朱自清: 《背影》”。這些使用方法的冒號都可單獨(dú)作為一類,但由于實(shí)際語料中出現(xiàn)的頻率較低,故將這些使用方法統(tǒng)歸為Other類。

2.3 分號分類

參考文獻(xiàn)[1],本文對分號設(shè)置3類標(biāo)注標(biāo)簽,分別是: 并列關(guān)系(BL)、非并列關(guān)系(FB)和條款類(TK)。其中,并列關(guān)系是指分號兩邊的多個(gè)子句是并列的關(guān)系,而非并列關(guān)系是指兩邊的多個(gè)子句間存在轉(zhuǎn)折、因果等非并列關(guān)系。條款類是指分條或分行列舉的分句之間使用的分號,這類分號通常用在冒號的作用域內(nèi)。標(biāo)注方法與標(biāo)注冒號的分類標(biāo)簽方法相同。

例13語言,人們用來抒情達(dá)意;c15文字,人們用來記言記事。

例14我國年滿十八周歲的公民,不分民族、種族、性別、職業(yè)、家庭出身、宗教信仰、教育程度、財(cái)產(chǎn)狀況、居住年限,都有選舉權(quán)和被選舉權(quán);c16但是依照法律被剝奪政治權(quán)力的人除外。

例15中華人民共和國行政區(qū)域劃分如下: c17(一)全國分為省、自治區(qū)、直轄市;c18(二)省、自治區(qū)分自治州、縣、自治縣、市;c19(三)縣、自治縣分鄉(xiāng)、民族鄉(xiāng)、鎮(zhèn)。

例13中的分號為并列關(guān)系類,例14中的分號屬于非并列關(guān)系類,例15中的分號屬于條款類。對于條款類的分號,有時(shí)一個(gè)分句為一行,如例15中的(一)(二)(三)可以分別作為一個(gè)段落,這時(shí)的分號相當(dāng)于段落間的分割符號。識別該類分號對于基于段落的篇章分析有一定的幫助。

3 標(biāo)點(diǎn)分類語料

3.1 逗號分類語料

據(jù)統(tǒng)計(jì),CTB 6.0語料中共有51 886個(gè)逗號,各分類所占的逗號數(shù)量比例如表2所示。采用與文獻(xiàn)[6]中相同的訓(xùn)練語料和測試語料劃分方式,訓(xùn)練語料包含了42 497個(gè)逗號,測試語料包含了5 436個(gè)逗號。

表2 CTB 6.0語料中各類逗號分布

3.2 冒號分類語料

本文的冒號語料實(shí)驗(yàn)數(shù)據(jù)是從逗號自動分類與識別語料(CTB6.0)中抽取出來的。抽取出的冒號語料大小為原始全體語料的9%,具體標(biāo)注的冒號數(shù)量和冒號語料中逗號的數(shù)量如表3所示。由表3可以看出,語料中含有的冒號的個(gè)數(shù)只是逗號個(gè)數(shù)的50%左右,但是位于冒號后的逗號占逗號總數(shù)的78%。由此也可以預(yù)見,添加冒號分類標(biāo)簽特征后,將對逗號的自動分類與識別產(chǎn)生影響。在逗號分類的訓(xùn)練語料和測試語料中分別抽出所有包含冒號的句子,構(gòu)成新的訓(xùn)練語料和測試語料。對抽取出來的訓(xùn)練語料和測試語料,首先分別進(jìn)行預(yù)處理,再分別進(jìn)行人工標(biāo)注漢語冒號分類標(biāo)簽。所標(biāo)注的冒號分類標(biāo)簽參考2.2中的冒號分類,主要標(biāo)注7類標(biāo)簽,分別是引用(Nm)、動賓(VP)、邊界(SB)、總分(ZF)、解說(LJ)、提示(SJ)和Other。

表3 冒號語料中各標(biāo)點(diǎn)個(gè)數(shù)

冒號語料中存在與例16類似的句子,即句子中只含有冒號而沒有逗號,且冒號位于句末,這種情況的句子不在本文實(shí)驗(yàn)的考察范圍之內(nèi)。類似例16中的冒號一般是位于一個(gè)段落的結(jié)尾處,下面緊跟著的一個(gè)段落或者是多個(gè)段落都在該冒號作用域內(nèi),但這些段落中的逗號分類與識別已經(jīng)不受該冒號的影響,故該類冒號不在本文的考察范圍之內(nèi)。

例16港臺會師看新局:

3.3 分號語料

分號語料同樣是從逗號自動分類與識別語料中抽取出來的。采取和冒號語料同樣的處理方法,經(jīng)過預(yù)處理后再進(jìn)行人工標(biāo)注。

分號語料中含有的分號和逗號個(gè)數(shù)統(tǒng)計(jì)結(jié)果如表4所示。據(jù)統(tǒng)計(jì),抽取出的分號語料大小為原始全體語料的5.5%。相比于冒號,分號數(shù)量更少。

表4 分號語料中各標(biāo)點(diǎn)個(gè)數(shù)

4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)分別進(jìn)行了添加冒號分類標(biāo)簽特征、添加分號分類標(biāo)簽特征和同時(shí)添加這兩種標(biāo)點(diǎn)分類標(biāo)簽特征的實(shí)驗(yàn)。這3個(gè)實(shí)驗(yàn)采用了基本相同的方法,流程如圖3所示。根據(jù)Yang等人[5]一文中介紹的逗號各分類對應(yīng)的句法模型,預(yù)處理系統(tǒng)每次讀入一個(gè)帶句法信息的句子,對句中逗號,分別提取逗號分類的三元組文件,即[句子標(biāo)號,逗號序號,逗號分類標(biāo)簽]。通過對CTB 6.0句法樹庫的自動提取(即預(yù)處理系統(tǒng)),可以得到該實(shí)驗(yàn)訓(xùn)練模型時(shí)所需要的逗號訓(xùn)練樣例(即三元組文件)和測試樣例。

圖3 添加冒號(分號)分類標(biāo)簽特征的逗號分類流程圖

本文基本特征選取和文獻(xiàn)[6]相同: 1) 子句主干特征,從分詞與詞性標(biāo)注的序列中,選取3個(gè)能表示子句主干的詞;2) 當(dāng)前逗號序號及序號前的逗號分類類別,通過提取這些特征可以間接反映句子的層次結(jié)構(gòu);3) 詞匯特征,提取詞匯特征是為了得到體現(xiàn)逗號左右子句特點(diǎn)的詞,比如存在介詞、連詞、副詞等。另外,分別添加冒號或分號的分類標(biāo)簽為一組新特征。

4.1 添加冒號分類標(biāo)簽特征的實(shí)驗(yàn)結(jié)果及分析

4.1.1 冒號語料的實(shí)驗(yàn)結(jié)果

按照文獻(xiàn)[6]的最大熵模型實(shí)驗(yàn)提取上下文特征的方法,在提取原特征的基礎(chǔ)上,將當(dāng)前逗號前的冒號分類標(biāo)簽作為一個(gè)新的特征加入到特征集合中。實(shí)驗(yàn)的結(jié)果如表5所示。

表5 冒號語料中逗號自動識別結(jié)果

從表5可以看出,逗號分類的自動識別整體正確率提高了9.9%,說明通過添加冒號分類標(biāo)簽特征來提高逗號自動識別正確率的方法是可行的,而這兩類標(biāo)點(diǎn)符號之間是存在影響的。表5中,各分類逗號的F值都有不同程度的提高,尤其是SB分類和IP_COORD分類,分別提高了32.3%和23.0%。說明添加的冒號分類標(biāo)簽,對這兩類逗號識別正確率影響最大,一些被錯(cuò)分為SB分類的逗號,在本實(shí)驗(yàn)中被正確識別為IP_COORD分類。至于SBJ分類的自動識別F值為零,是由于屬于該分類的逗號在訓(xùn)練樣例中只出現(xiàn)了3次,在測試樣例中只有1個(gè)。

4.1.2 全體語料的實(shí)驗(yàn)結(jié)果

在冒號語料的實(shí)驗(yàn)取得成功后,本實(shí)驗(yàn)將標(biāo)注了冒號分類標(biāo)簽的語料帶入到全體語料中,替換沒有被標(biāo)注的冒號句子。在標(biāo)注了冒號分類標(biāo)簽的全體語料上,再次進(jìn)行實(shí)驗(yàn),新實(shí)驗(yàn)同樣是在添加冒號分類標(biāo)簽特征后進(jìn)行多元逗號分類。實(shí)驗(yàn)結(jié)果如表6所示。

表6列出了添加冒號分類標(biāo)簽前后,分別采用最大熵模型和CRF模型的實(shí)驗(yàn)結(jié)果。基于最大熵模型的全體語料整體正確率提高了0.7%,基于CRF模型的全體正確率提高了0.8%,由此也再次說明基于CRF模型的自動分類識別正確率要高于基于最大熵模型的自動識別正確率。由表3統(tǒng)計(jì)的數(shù)據(jù)可知,冒號語料中的逗號個(gè)數(shù)占全體語料中逗號個(gè)數(shù)的6.9%,而由表5添加冒號分類標(biāo)簽特征的冒號語料逗號分類總體正確率提高9.9%,表6全體語料總體正確率提高0.8%,實(shí)驗(yàn)說明冒號語料和全體語料在添加冒號分類標(biāo)簽特征后,提高的總體正確率是成比例的。

同時(shí),SB分類和IP_COORD分類的逗號在全體語料的實(shí)驗(yàn)中,結(jié)果都有一定的提高。在全體語料上,SB分類并沒有IP_COORD分類F值提高的多,因?yàn)樵谌w語料中,SB分類共有1311個(gè),而IP_COORD分類只有506個(gè)。

4.1.3 邊界識別

引言中提到冒號對IP_COORD分類和SB分類的逗號存在明顯影響,由于SB分類屬于逗號標(biāo)示句子邊界的情況,所以本文將同樣考察冒號對識別逗號作為句子邊界情況存在的影響。識別SB分類,即為識別句子邊界(EOS,End Of a Sentence)。結(jié)合本文的實(shí)驗(yàn),只需將SB分類歸為EOS,余下的6類歸為非句子邊界(Non-EOS,Not the End Of a Sentence)。表7列出了基于最大熵模型的全體語料在添加冒號標(biāo)簽特征前后,識別逗號標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果。

由表7可以看出,在添加冒號標(biāo)簽特征后,逗號標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果在總體正確率上提高1.2%,EOS和NEOS分類的F值也分別有所提高。再次說明,冒號分類標(biāo)簽對逗號的分類自動識別存在影響。

表7 逗號標(biāo)示句子邊界的識別結(jié)果

4.2 添加分號分類標(biāo)簽特征的實(shí)驗(yàn)及分析

4.2.1 分號語料的實(shí)驗(yàn)結(jié)果

添加分號分類標(biāo)簽特征的實(shí)驗(yàn)與添加冒號分類標(biāo)簽特征的實(shí)驗(yàn)類似。在提取原有特征的基礎(chǔ)上,將當(dāng)前逗號前的分號分類標(biāo)簽作為一組新的特征添加到特征集合中。實(shí)驗(yàn)結(jié)果如表8所示。

表8 分號語料中逗號分類自動識別結(jié)果及對比

表8中分號語料基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)是基于最大熵模型的,添加分號分類標(biāo)簽特征的實(shí)驗(yàn)分別采用了最大熵和CRF兩種模型。CRF模型的自動識別正確率比最大熵模型的更高,但這里主要對比添加分號分類標(biāo)簽特征前后的最大熵模型的實(shí)驗(yàn)結(jié)果。由表8可知,基于最大熵模型的實(shí)驗(yàn)結(jié)果中,逗號分類的自動識別整體正確率提高了4.6%。

表8中,各分類逗號的F值都有不同程度的提高,但并不像添加冒號分類標(biāo)簽的實(shí)驗(yàn)結(jié)果中SB分類和IP_COORD分類正確率提高的幅度那樣大。正確率提高相對較高的是ADJ類逗號和VP_COORD類逗號。實(shí)驗(yàn)表明添加分號分類標(biāo)簽特征提高逗號自動識別正確率的方法是可行的。

4.2.2 全體語料的實(shí)驗(yàn)結(jié)果

在分號語料的實(shí)驗(yàn)取得成功后,本文同樣將已標(biāo)注的分號語料反饋到原語料中。同樣的方法,實(shí)驗(yàn)結(jié)果如表9所示。

表9 添加分號標(biāo)簽后的全體語料實(shí)驗(yàn)結(jié)果及對比

由表9可知,添加新特征后最大熵模型的總體正確率提高了0.2%,而CRF模型的總體正確率提高了0.5%。在添加冒號分類標(biāo)簽特征的實(shí)驗(yàn)結(jié)果(表6)中,CRF模型和最大熵模型分別提高了0.7%和0.8%。添加分號分類標(biāo)簽特征效果沒有添加冒號分類標(biāo)簽特征明顯與它們在語料中所占的比例有關(guān),由3.2和3.3節(jié)可知,冒號語料占全體語料的9%,而分號語料明顯較小,占全體語料的5.5%。

比較表6和表9可知,CRF模型比最大熵模型效果要好。因?yàn)镃RF模型計(jì)算了全局最優(yōu)的輸出節(jié)點(diǎn)的條件概率,而不是只通過當(dāng)前的狀態(tài)來定義下一個(gè)節(jié)點(diǎn)的狀態(tài)。通過分析冒號和分號的作用域可以發(fā)現(xiàn),冒號的作用域是從冒號后的第一個(gè)字符開始到句末標(biāo)點(diǎn)結(jié)束;而分號的作用域不止包含在分號后面的句子部分,它的作用域?yàn)楫?dāng)前分號前后相鄰的兩個(gè)分號(相鄰不是分號時(shí),為句子開始字符和句子結(jié)束字符)之間。故在添加分號分類標(biāo)簽特征的實(shí)驗(yàn)中,更能體現(xiàn)CRF模型的優(yōu)越性。

4.3 同時(shí)添加冒號和分號分類標(biāo)簽特征的實(shí)驗(yàn)

同時(shí)添加冒號和分號分類標(biāo)簽為特征的實(shí)驗(yàn),是指同時(shí)添加當(dāng)前逗號前的冒號的分類標(biāo)簽和分號的分類標(biāo)簽作為一組新的特征進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表10所示。

通過對全體語料的基準(zhǔn)系統(tǒng)和分別添加其中某一個(gè)標(biāo)點(diǎn)的分類結(jié)果對比,該綜合實(shí)驗(yàn)的總體正確率及各項(xiàng)的分類的F值都有所提高,說明本文提出的添加其他標(biāo)點(diǎn)符號的分類標(biāo)簽特征輔助逗號多元分類的自動識別方法是可行的,且取得了相對較好的成績。CRF模型的總體正確率達(dá)到69.2%,已經(jīng)非常接近Yang等基于句法信息的71.5%的總體正確率。

5 結(jié)論

本文主要研究了分別添加冒號和分號分類標(biāo)簽,以及同時(shí)添加兩類標(biāo)點(diǎn)的分類標(biāo)簽特征后,對逗號自動分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,在分別添加冒號或分號分類標(biāo)簽特征后,逗號多元分類的自動識別正確率都有所提高。在同時(shí)添加這兩類標(biāo)點(diǎn)分類標(biāo)簽特征時(shí),逗號識別的正確率達(dá)到69.2%。本文實(shí)驗(yàn)說明分號和冒號分類對逗號分類是存在影響的,合理地利用冒號或分號分類標(biāo)簽可以提高逗號分類的正確率。

參考文獻(xiàn)

[1] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局、中國國家標(biāo)準(zhǔn)化管理委員會. GB/T15834-2011標(biāo)點(diǎn)符號用法[M].北京:中國標(biāo)準(zhǔn)出版社, 2011.

[2] 李幸, 宗成慶. 引入標(biāo)點(diǎn)處理的層次化漢語長句句法分析方法[J]. 中文信息學(xué)報(bào), 2006, 20(4): 8-15.

[3] Mei xunjin,Mi-Yong kim,Dongi kim, et al. Segmentation of Chinese long sentences using commas[C]// Proceedings of 3rd ACL SIGHAN Workshop. Barcelona,2004: 1-8.

[4] Nianwen Xue, Yaqin Yang. Chinese sentence segmentation as comma classification. [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 631-635.

[5] Yaqin Yang, Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis. [C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL), 2012: 786-794

[6] 谷晶晶, 周國棟. 基于分詞與詞性標(biāo)注的漢語逗號自動分類[J]. 計(jì)算機(jī)工程與應(yīng)用,http://www.cnki.net/kcms/doi/10.3778/j.ssn.1002-8331,2014: 1310-0034.

[7] 黃河燕, 陳肇雄. 基于多策略分析的復(fù)雜長句翻譯處理算法[J]. 中文信息學(xué)報(bào), 2002, 16(3): 1-7.

[8] 李艷翠, 馮文賀, 周國棟. 基于逗號的漢語子句識別研究[J].北京大學(xué)學(xué)報(bào),2013,49(1): 7-14.

猜你喜歡
分類特征實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
分類算一算
如何表達(dá)“特征”
做個(gè)怪怪長實(shí)驗(yàn)
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 久久综合色天堂av| 国产69精品久久| 一级毛片不卡片免费观看| 色综合久久久久8天国| 精品国产成人三级在线观看| 欧美区一区| 午夜电影在线观看国产1区| 亚洲第一视频免费在线| 国产在线一区二区视频| 97视频精品全国在线观看| 九九九精品成人免费视频7| 3344在线观看无码| 欧美性天天| 26uuu国产精品视频| 在线观看热码亚洲av每日更新| igao国产精品| 欧美激情成人网| 国产乱视频网站| 亚洲自拍另类| 黄色不卡视频| 秋霞国产在线| 亚洲动漫h| 欧美一级色视频| 国产AV无码专区亚洲精品网站| 国产成人AV综合久久| 日韩在线播放中文字幕| 亚洲 日韩 激情 无码 中出| 亚洲色欲色欲www在线观看| 狠狠做深爱婷婷久久一区| 国产精品对白刺激| 亚洲 欧美 偷自乱 图片| 天堂网亚洲综合在线| 在线a视频免费观看| 国产亚洲欧美日韩在线一区| 东京热一区二区三区无码视频| 国产三级国产精品国产普男人 | 91久久国产热精品免费| 国产成人做受免费视频| 露脸国产精品自产在线播| 999福利激情视频| 亚洲精品波多野结衣| 全部免费毛片免费播放| 一级片一区| 亚洲 欧美 偷自乱 图片| 97在线公开视频| 永久免费av网站可以直接看的| 中文成人无码国产亚洲| 国产凹凸一区在线观看视频| 毛片一级在线| 国产主播在线一区| 五月天天天色| 亚洲AV无码乱码在线观看代蜜桃| 欧美在线伊人| 国产福利不卡视频| 亚洲人成色77777在线观看| 久久国语对白| 午夜免费视频网站| 亚洲大尺度在线| 欧美日韩免费观看| 色天堂无毒不卡| 国产视频一区二区在线观看 | 白浆视频在线观看| 国产综合亚洲欧洲区精品无码| 有专无码视频| 国产成人a毛片在线| 九色在线视频导航91| 激情综合网激情综合| 国产主播在线观看| 国产精品9| 99精品免费欧美成人小视频 | 永久免费av网站可以直接看的| 97在线公开视频| 福利一区三区| 97影院午夜在线观看视频| 国产人前露出系列视频| 日韩在线欧美在线| 国产精品一区二区在线播放| 五月婷婷导航| 国产视频入口| 亚洲国产精品无码久久一线| 色婷婷成人| 亚洲一级色|