999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

帶標注語料庫的分詞不一致研究綜述

2008-12-31 00:00:00
現代語文 2008年8期

摘 要:目前,帶標注語料庫因為標注質量等原因嚴重影響了漢語的自動分詞和測評,而其中影響較大的就是語料庫中分詞的不一致。本文總結并分析了前人對于分詞不一致的各種研究,廓清了分詞不一致的概念,提出分詞不一致最好按照所屬類別統一處理,同一類型的詞應該處理成相同的切分形式。

關鍵詞:分詞不一致 語料庫 綜述

詞的正確切分是進行中文文本處理的必要條件,計算語言學中很多深層次的工作只有在自動分詞的基礎上才能完成,因此分詞的準確性對后續的研究十分重要。自動分詞技術經歷了從分詞規范到“規范+詞表”的轉變,取得了巨大的成績。帶標注語料庫的出現彌補了規范和詞表的很多不足,但猶如一把雙刃劍,現階段的帶標注語料庫由于標注質量等原因也嚴重影響著分詞系統的結果和后續的研究工作。衡量分詞語料庫的標注質量有一條重要的標準就是分詞的一致性,即同一個詞或同一個結構在文本中是否保持了相同的切分形式。由于不同的人對詞有不同認識,很多經過人工校對的語料還存在著大量的分詞不一致問題,分詞不一致現象在帶標注語料庫中廣泛存在。很多學者致力于這一方面的研究,解決了一部分分詞不一致的問題,本文在總結前人研究的基礎上,提出了一些自己的看法。

一、帶標注語料庫

“帶標注語料庫”是經過人工標注或審定的文本,包括分詞語料庫、詞性(pos)標注語料庫、語塊語料庫和句法樹庫等等。這些帶標注語料庫常常用來作為各種分詞系統訓練和測試的材料,也同時作為測評各系統的標準。帶標注語料庫因其在漢語自動分詞中的重要作用而被一些人稱為“金本位”(Feixia,2000)。

帶標注語料庫的出現使得很多人認為分詞系統可以不再需要分詞規范和詞表,因為這些知識可以從訓練集中獲得。同時分詞結果必須和測試集逐詞進行比對,測試集成了測評參賽系統的標準答案。這就產生了兩個問題:一是目前的帶標注語料庫是否能擔此重任,二是有了帶標注語料庫我們是不是就可以放棄詞表等資源的建設。

黃昌寧(2005)在第一屆的SIGHAN Bakeoff的PK(北京大學)和AS(臺灣中央研究院)兩個測試語料庫中發現“測試集內”、訓練和測試兩個語料庫之間有“一對多”(訓練集中的一個詞在測試集中被切碎)和“多對一”(測試集中的一個詞在訓練集中被切碎)的錯誤,使得這兩個測試語料庫的分詞出錯率分別達到了1.29%和2.26%,從而它們的baseline F值分別下降了1.36%和1.93%。這說明帶標注語料庫的分詞質量嚴重影響著漢語的自動分詞和分詞測評,現階段帶標注語料庫的質量還沒有達到理想的水平。一方面我們要加強語料庫的建設,提高帶標注語料庫的質量,使其真正符合“金本位”的稱號;另一方面,詞表等資源的建設不能放棄,這些資源不僅是自動分詞的基礎,在計算語言學乃至語言學的其他領域都有著及其重要的意義。

二、分詞不一致的研究現狀綜述

分詞的一致性一直是衡量帶標注語料庫質量的一個重要標準。目前,分詞不一致的研究在計算語言學領域主要集中于兩個方面,一是考察性研究,主要是從語言學的角度,討論分詞不一致產生的原因和導致分詞不一致出現的結構類型,以及對語料庫和后續工作會帶來的影響;二是策略性研究,主要是利用規則或統計的算法,依靠程序識別和處理具體的分詞不一致問題。

(一)考察性研究

孫茂松(1999)首先提出分詞不一致的概念,將分詞的一致性分為一致性1和一致性2。一致性1:在保持語義同一性的前提下,一個結構體在語料庫中的分合是否始終一致(例如:“豬肉”是否始終保持一個整體,或者始終分開);一致性2:與某個結構體具有相同結構類型的其他一切結構體在語料庫中的分合是否與該結構體始終一致(例如:“牛肉”與“豬肉”的結構類型完全相同,“牛肉”是否跟隨了“豬肉”的分合狀態)。“分詞不一致”就是指不符合一致性1和一致性2的情況。孫茂松對漢語語料庫THBY進行初步分析,總結導致分詞語料庫出現不一致的主要結構類型有定中結構、狀中結構、動賓結構、動補結構、復雜概念名詞、半凝固格式或習用語等其他幾種,討論了“語法詞”與“心理詞”的區別,指出分詞語料庫以切成“心理詞”為宜。并進一步指出“心理詞”的模糊性決定了嚴格意義的完全一致對分詞語料庫是不可能實現的,認為分詞一致的目標應調整為受控條件下的一致性。

黃昌寧(2005)提出了“切分變異”這個術語:“如果一個詞在一個語料庫中有不止一個切分形式就叫做一個變異,它的每一個切分形式叫做一個異例(instance),每個異例由一個或多個詞(token)組成。”這里的“切分變異”和孫茂松的“一致性1”的概念是一致的。黃昌寧通過檢查Bakeoff1的PK和AS兩個測試語料庫中測試集內、訓練和測試兩個語料庫之間的“一對多”和“多對一”的切分變異,從而發現測試語料庫的標注質量必然影響著分詞系統的測評結果。因此他認為,用標注信息的出錯率來定量地考察每個帶標注語料庫的標注質量,以確保其金本位的功能。

楊爾弘等(2006)在2003年“863中文與接口技術”漢語自動分詞與詞性標注一體化評測中,將該測試語料中具有兩種切分形式的字串命名為“合分字段”。對于這些字段,測試的標準答案給出了兩種選擇,評測時,分詞系統只要始終保持兩者中的任一種切分即認為正確。他們將分合字段分為以下兩個方面:

第一,不發生歧義的普通詞語合分字段。包括:A.含有前、后接成分的詞語,如:“社會化”“損傷性”“同學們”;B.含有語素字的詞語,如:“針 狀”“統一 體”“污染 物”;C.由動詞+動詞或動詞+介詞構成動詞的詞語,如:“發 出”“意識 到”“放 在”;D.由副詞或助詞+中心詞(動詞或形容詞)構成的詞語,如:“意味 著”“不 好”“太 多”;E.由動詞或名詞+名詞中心詞構成的詞語,如:“有 可能”“下 結論”“百科 全書”“巴西 人”;F.由代詞+量詞或名詞構成的詞語,如:“本 書”“每 天”“此 次”;G.名詞+方位詞構成的處所詞,如:“坑 底”“路 上”“房 里”;H.數詞,如:“第 二”“八 十”“百 分之 二 十 五”。

第二,具有合分形式的專有名詞,包括:A.人名+稱呼,如:“奧爾森 先生”“張伯里 教授”;B.地名,如:“巴拿馬 運河”“南沙 群島”“香港 特區”;C.機構名,如:“俄羅斯 外交部”“中國 農業 大學”。

對于“分合字段”,863采取的柔性化評測使服務于不同目的的標注系統可以進行公平的測試。但是863只考慮了字段個體的不一致問題,對于同種結構類型的“分合字段”卻沒有考慮,此外完全用詞性來給分合字段分類缺乏合理性,人們的語感很難感覺到“下 結論”和“百科 全書”會有什么聯系。

董宇(2006)對1998年1月《人民日報》標注語料中具有多種切分形式的詞進行了統計,發現1034個單純的切分變異。在此基礎上從不同層面分析切分變異的出現規律,得出大量的切分變異出現在低頻詞、二字詞中,且隨著使用頻率的增加,變異的從合度逐漸趨向于1。同時從語義、語法結構和語用的角度將切分變異劃分為13類,使得切分變異在語義、語法結構和切分形式上取得了類的一致性。

(二)策略性研究

杜永萍等(2001)將分詞不一致現象分為三類:應分字串、應合字串、均正確字串,并針對這三類字串建立詞性排歧規則庫。該研究利用規則庫中的特征詞規則庫和詞性搭配規則庫,以及計算機輔助人工校對的方法解決分詞一致性和詞性標注的一致性問題,不足之處在于規則庫之外的分詞不一致字段切分的正確與否需要人工來校對。

劉江等(2005)以50萬熟語料為基礎,抽取其中的不一致字段,將不一致字段分為:由于歧義造成,由于前后綴的分合造成和由于相同結構在語料庫中前后切分不一致造成三類。文章進行了詳細的統計分析,并根據其切分結果形式的特點,運用基于支持向量機的方法進行分詞一致性的校驗,經封閉測試,一致性檢驗準確率達到75.6%。遺憾的是,該研究只是校對了歧義切分和詞綴造成的不一致,最終沒有討論第三種即相同結構在語料庫中的前后切分不一致的情況。

苗璽等(2006)在對150萬漢字熟語料的統計分析基礎上,總結了導致語料庫中分詞結果不一致的主要結構類型,包括:錯誤切分導致的分詞不一致、多義型歧義字段的切分結果導致的分詞不一致以及相同語境下具有兩種或多種切分形式的字串。對于第一類,文章只考慮了地名的情況;第二類,采用枚舉法建立多義型歧義字段詞典,通過規則判斷多義型歧義字串的切分是否正確;第三類,利用字串長度和詞性標記,使部分相同結構的字串達到一致。雖然此研究對這三種類型的分詞不一致的解決最終達到了100%、95.83%和85.53%的正確率,但是采用枚舉法和簡單依靠字串長度和詞性來解決多義型歧義和多種切分形式字串不具有普適性。

盧俊之(2006)提出了一種基于機器學習的分詞不一致自動識別方案,通過兩遍識別,以特征詞法識別結果為基礎,讓機器從中學習到規則后輔以人工規則再處理第一遍未識別的不一致字串。既解決了單一使用特征詞法召回率過低和單一使用規則法容易忽視小規則的問題,也克服了原先方法前期需要投入大量人力進行人工校對和規則總結的缺陷。對200萬字語料庫中的分詞不一致字串進行了實驗,封閉測試與開放測試的正確率分別達到85.22%和83.13%。

三、研究誤區與今后發展方向

分詞不一致的問題,前人已有不少研究,但是問題依然存在,如果不將這些問題弄清楚,我們很難再向前邁進一步。

(一)相同的語言環境

對相同的語言環境的認識上的差異造成了人們對分詞不一致概念認識上的不同。“相同的語言環境”是指相同的語義環境或相同的上下文環境。如果某個字段在兩個語言環境下表示的是相同的意思,我們可以認為這個字段所處的這兩個語言環境是相同的。“相同的語境”是分詞不一致概念提出的前提,組合型歧義各義項所處環境不同,語義也不同,這跟分詞不一致有很大的差異。因此組合型歧義字段造成的多種切分形式不能稱之為分詞不一致。

(二)分詞不一致的界定

最早給出分詞不一致定義的是孫茂松(1999),但是此后很多研究沒有采用這個定義,并且有的研究中的分詞不一致包含的內容也不一樣。“切分變異”和“分合字段”指的都是分詞不一致,但側重于個體的分詞不一致,和孫茂松的“一致性1”差不多。但是有些研究者的分詞不一致概念與分類比較混亂,嚴重影響了后續的研究,在這里我們有必要廓清分詞不一致的概念,從而明確今后的研究方向。

1.杜永萍、鄭家恒(2001)將分詞不一致分為三類:

1)應分字串

應分字串即應切分卻被合并的字串,包括:

A)在任何語境下切分是唯一正確結果,例如:“紅鞋”。

B)歧義切分錯誤字串。

2)應合字串

應合字串即應合并卻被切分的字串,包括:

A)在任何語境下合并是唯一正確結果,例如:“奧運會”。

B)歧義切分錯誤字串。

3)均正確字串

切分結果有“分”有“合”,但均正確,包括:

A)歧義切分正確字串。

B)爭議字串,例如:“古典音樂”。

這樣的分類方法讓人感覺很混亂,而且在應分字串和應合字串中的唯一正確結果確實應該是唯一的,只是因為切分錯誤而造成差異,爭議字串很明顯是屬于分詞不一致的。

2.劉江(2005)將分詞不一致分成三個主要類別:

1)由歧義造成的:包括由組合型歧義造成的分詞不一致和由交集型歧義造成的分詞不一致。

2)由前后綴的分合造成的,例如:“老a/ 朋友n”和“老朋友/n”、“管理/v 者/k”和“管理者/n”。

3)由相同結構在語料庫中的前后切分不一致造成的。

作者在文中提到的分詞不一致是指同一字串在相同的語言環境下的切分結果不一致,很顯然這樣的分類與之是有出入的。由前后綴造成的分詞不一致是分詞不一致中的一個類別,不能概括整個分詞不一致現象。第三個分類應該是相同結構類型下的分詞不一致,但遺憾的是作者對于這一類沒有詳細地說明。

3.苗璽、鄭家恒(2006)也將分詞不一致定義為三大類:

1)錯誤切分導致的分詞不一致,其分與合的形式中只有一個是正確的。

2)多義型歧義字段的切分結果導致的分詞不一致,不同的語境使得相同的字串具有分與合兩種切分形式,且每種切分形式都是正確的。

3)在相同語境中,相同的字串具有分與合兩種或多種不同的切分形式,按照構詞法或信息處理用分詞加工規范等標準,應該統一該字串切分形式。

這樣的分類非常清晰,之后的研究者也有沿用此分類方法的。但是作者在這篇文章的開頭曾指出:“語料庫分詞的一致性是指在相同的語境下對同一字串切分結果是相同的。”很明顯,組合型歧義造成的不一致并不屬于分詞不一致的范疇。

(三)研究方法

由于分詞不一致的概念比較混亂,因此目前大部分的研究主要致力于個體的分詞不一致和組合型歧義的區分和處理。基本采取“分而治之”的方法,簡單概括起來可以分為組合型歧義的消解和利用規則處理簡單的分詞不一致。可是,分詞不一致不僅僅是幾個類型更不可能只有前后綴加詞根的形式,在處理方法上單靠字串長度和詞性標記構建規則來解決分詞不一致還是遠遠不夠的。

(四)相同結構的分詞不一致應引起重視

現階段正在對同一個分詞單位在語料中的分詞不一致進行深入研究,但是很少有人討論相同結構類型的分詞不一致。從提高語料庫質量的角度,統一相同結構類型的分詞不一致具有更高的價值,是解決一致性問題的根本所在。

分詞的一致性可以定義為:在相同語境下,同一字段以及與該字段具有相同結構類型的所有字段在語料庫中的切分應該始終一致。我們認為現階段亟待解決的就是相同結構的不同分詞單位的一致性(即孫茂松的一致性2)問題,簡單的統一或者簡單的分開都不合理,可以在統一的基礎上采用彈性的分合政策。

注釋:

①組合型歧義應分字串,在語料中被錯誤合并,如:“領導/n

將來/v 我/r 校/n 視察/v”中的“將來”應該切分成“將/v 來/v”。

②組合型歧義應合字串,在語料中被錯誤切分,如:“他/r

很/d 有/v 繪畫/vn 才/d 能/v”中的“才能”應該切成“才能/n”。

參考文獻:

[1]Fei Xia,Martha Palmer et al.Developing Guidelines

and Ensuring Consistency for Chinese Text Annotation[Z].In Proceedings of the 2nd International Conference on Language Resources and Evaluation,2000.

[2]董宇,陳小荷.帶標注語料庫中切分變異的統計分析及思考[A].第三屆學生計算語言學研討會論文集[C].2006.

[3]杜永萍,鄭家恒.分詞及詞性標注一致性校對系統的設計與實現[J].電腦開發與應用,2001,(10).

[4]黃昌寧,林娟等.自然語言理解與大規模內容計算[M].北京:清華大學出版社,2005.

[5]苗璽,鄭家恒.中文語料庫分詞不一致的分類處理研究[J].山西大學學報(自然科學版),2006,(1).

[6]劉江,鄭家恒,張虎.中文文本語料庫分詞一致性檢驗技術的初探[J].計算機應用研究,2005,(9).

[7]盧俊之.基于機器學習的分詞不一致自動識別研究[A].第三屆學生計算語言學研討會論文集[C].2006.

[8]孫茂松.談談漢語分詞語料庫的一致性問題[J].語言文字應用,1999,(2).

[9]楊爾弘,方瑩等.漢語自動分詞和詞性標注評測[J].中文信息學報,2006,(1).

(董宇,金陵科技學院)

主站蜘蛛池模板: 国产精品中文免费福利| 91精品情国产情侣高潮对白蜜| 日韩欧美中文字幕一本| 一区二区三区在线不卡免费| 九九热精品免费视频| 欧美激情视频一区二区三区免费| 亚洲九九视频| 五月婷婷精品| 国产精品林美惠子在线播放| 欧美在线视频不卡第一页| 国产SUV精品一区二区| 久久一色本道亚洲| 亚洲视频色图| 国产色伊人| 亚洲欧美日韩久久精品| 制服无码网站| 亚洲日韩AV无码精品| 青青青国产在线播放| 无码一区二区三区视频在线播放| 福利一区三区| 欧美成人精品一区二区| 国产偷国产偷在线高清| 亚洲天堂成人| 干中文字幕| 99精品在线看| 国产精品视频观看裸模| 国产无码制服丝袜| 最新痴汉在线无码AV| 911亚洲精品| 欧美在线精品怡红院| 欧美国产中文| 五月婷婷导航| 免费人成黄页在线观看国产| 国产成人一二三| 亚洲人成亚洲精品| 精品無碼一區在線觀看 | 精品国产一区二区三区在线观看| 国产成人资源| 亚洲成人黄色在线| 欧美精品亚洲精品日韩专区va| 欧美国产菊爆免费观看| 十八禁美女裸体网站| 青青草原国产精品啪啪视频| 免费看久久精品99| 亚洲国产亚综合在线区| 美女视频黄又黄又免费高清| 重口调教一区二区视频| 噜噜噜久久| 成人亚洲国产| 亚洲成人动漫在线观看| 国产va欧美va在线观看| 久草视频福利在线观看| 欧美不卡视频一区发布| 亚洲黄色网站视频| 国产午夜精品一区二区三区软件| 欧美成人综合在线| 91青青草视频在线观看的| 欧美成人二区| 亚洲毛片一级带毛片基地| 欧美激情网址| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲免费成人网| 黄色a一级视频| 久久久四虎成人永久免费网站| 国产亚洲美日韩AV中文字幕无码成人| 日本不卡在线视频| 午夜不卡视频| 国产免费久久精品99re丫丫一| av无码一区二区三区在线| 人妻中文字幕无码久久一区| 亚洲狠狠婷婷综合久久久久| 国产97区一区二区三区无码| 国产精品自在在线午夜区app| 亚洲日本一本dvd高清| 亚洲av无码人妻| 精品少妇人妻av无码久久| 无码啪啪精品天堂浪潮av| 成人午夜福利视频| 高清不卡一区二区三区香蕉| 婷婷色一二三区波多野衣| 二级特黄绝大片免费视频大片| 噜噜噜久久|