"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向智能信息處理的語料庫標注質量影響因子*——從《漢語人名拉丁轉寫方案》的設計談起

2015-10-23 08:08:04通拉嘎
圖書館學刊 2015年1期

通拉嘎

(泉州師范學院圖書館,福建 泉州 362000)

1 引言

語料庫是大量自然語言素材的有序集合,這些語言素材是書面文本、言語錄音或其轉寫[1],語料庫標注是為語料庫增加一些語言學信息[2]。語料庫不僅為語言研究提供新的研究手段,也為信息檢索、文本分類、機器翻譯等自然語言信息處理的研究提供重要支持。由于國內外語料庫建設尚缺乏通用的規范或標準可以遵循,如何衡量語料庫標注的質量、語料庫標注出現了哪些問題,都值得我們深入探究。筆者以智能信息處理發展相對薄弱的少數民族信息處理典型代表蒙古文信息處理的子問題——《漢語人名拉丁轉寫方案》的設計為例,探討影響語料庫標注質量的各類因素。

蒙古文語料庫的建設從20世紀80年代開始興起,由于傳統蒙古文書寫形式從上至下,蒙古文部分元音、輔音顯示形式相同,新以蒙古文語料庫建設之初即以拉丁形式轉寫各式語料,避免了排版、顯示、系統兼容及部分歧義問題,把面向信息處理的蒙古文本形式簡化為蒙古文(或漢字)包括標點符號等組成的一個字符串問題[3]。不過與中、英文大規模語料庫的發展相比,蒙、藏、維為代表的少數民族語言信息處理的研究與發展相對滯后,語料庫經過機器標注之后,還需大量的人工校對過程,這不僅耗時耗力,還因標注者的不同理解,語料有不同層次的標注問題。蒙古文信息處理作為少數民族語言信息處理發展的卓越代表,發展中出現的問題極富典型性意義。對不同的自然語言理解來說,未登錄詞及歧義問題始終是重點及難點問題,而未登錄詞問題比歧義問題更為棘手。在Bake-off-2003的4個語料庫中因未登錄詞造成的分詞精度失落比歧義切分造成的精度失落至少大10倍左右,未登錄詞主要包括各類命名實體,人名、地名、機構名等專有名詞和新詞語,未登錄詞中人名的分布將近30%[2]40-41;而內蒙古大學26萬詞規模語料庫中,人名有3522個,漢語人名即有1243個,占據了35.29%的較高比例,漢語人名的拉丁轉寫問題成為了蒙古文語料庫標注無法忽視的問題。我們設計的《漢語人名拉丁轉寫方案》(以下簡稱《轉寫方案》)是在詳細分析蒙古文語料庫標注問題的基礎上提出的解決方案,在分析語料庫標注質量影響因子時有其獨特的視角及代表意義。

2 語料庫標注質量影響因子分析

語料庫開發通常包括規劃、設計、選材、建庫和標注等5個階段[4]。語言學知識的賦予是語料庫具備可用性的基本前提。目前,語料庫的標注還未達到完全的自動化標注,后續還需要人工干預,語料庫的設計與加工差異較大,標注質量也千差萬別。影響語料庫標注質量的因子有標注的規范化發展、標注的準確性、一致性、中立性、通用性等5方面。

2.1 標注的規范化發展

標注的規范化發展是指語料庫建立之初,即以通用科學的規范來指導語料庫具體的標注工作。語言文字是信息的主要載體,沒有高水平的語言文字的規范化、標準化,就不可能有真正意義上的高水平的信息化。人們在生活工作中愈加注重時效,更加注意信息現代化,標準化規范化比以往任何時候都顯得重要和迫切。

語料庫的標注必須以完整、通用的規范作為指導,語料庫的標注規范是為語料庫提供科學、實用的系統化規則,是語料庫標注的導引性文件,對智能信息處理的規范化發展、對各類系統的兼容,對語言資源的數據共享都有積極影響。

有鑒于此,我們在設計《轉寫方案》之初,參考各類的中文分詞規范,以適應語料庫現狀的4條規則作為《轉寫方案》的設計原則。《轉寫方案》具體以蒙古語外來詞標注習慣為基礎,適當參考現代蒙古文拉丁及漢語拼音的標注習慣,條例以排列順序享受優先:

條例1漢語語音需一一對應成蒙古文拉丁字母。

條例2以蒙古文書面語的外來詞拼寫習慣為基礎。

條例3以蒙古文語料庫的標注現行規則為參考。

條例4以《現代蒙古語語料庫標注規范》為參考[5]。

2.2 標注的準確性

標注的準確性,顧名思義,指語料庫標注要求準確,才能實現通用及實用,以CLAWS為例,采用統計方法標注,正確率達到96%~97%[6],這已經是標注效果非常好的語料庫了。語料庫標注按加工層次可以分為詞法標注、句法標注、語義標注、篇章標注等,無論對哪種深度的標注來說,準確性是影響語料庫實用的基本前提。

以蒙古文語料庫的漢語人名的拉丁轉寫來說,雖然經過自動標注和人工校對,語料庫的標注還是出現大小寫字母混用,相同的聲母、韻母被標注成了不同的形式等問題,如“zhzhi”“ch-chi”“sh-shi”被標注成了不同聲母,“j、q、x、z、c、s、zh、ch”等漢語多個聲母與蒙古語少數輔音相對應,漢語韻母被賦予了蒙古語元音的陰、陽性特征。

目前,蒙古文語料庫的漢語人名的標注有些參考了漢語拼音,有些參考了蒙古語人名的標注慣例,因而漢語人名標注不一,甚至相同人名的標注也未能統一,如:LIU=LAN=T00|LIU=LAN=T0V(劉蘭濤),LIYAN=POWe|LIYAN=PUWE(廉頗)。

蒙古文語料庫中漢語人名標注的錯誤直接影響到了未登錄詞的處理,并進而影響了蒙古文信息處理的發展,使系統的實用性大打折扣,由此可見標注的準確性對語料庫質量產生的影響。

2.3 標注的一致性

標注的一致性指按固定的規范或原則指導語料庫的標注,對相同語言成分的標注要前后一致,貫徹數據庫始終。

以蒙古文語料庫漢語人名的拉丁轉寫為例,由于存在較多的人工標注與校對的成分,人名在拉丁轉寫方面并非前后一致,相同的聲母、韻母轉寫為不同的元音、輔音形式,不同的聲母、韻母轉寫為相同的蒙古文大小寫形式,這給語料庫的使用帶來很大困難。

2.3.1 聲母轉寫出現的問題

c標注為C|c(c0V=CONG曹聰);c、q、ch都標注為C(cAI=LUN蔡倫|JIYANG=CING江青|CeN=D0V=$eNG陳道生);d標注為D|d(LIU=YAN=DONG劉延東|deNG=SIY0V=PING鄧小平);g標注為G|g(BUWe=GU 博古|JU=geN=JU朱根柱);h標注為H|h(HU=CI=LI胡啟立|cAI=he=SeN蔡和森);r標注為R|r(BAI=RU=BING白如冰|CeN=JING=rUN 陳景潤);x、s都標注為S(SIVWAN=WANG宣王|(LI=LI=SAN李立三);j、zh都標注為J(JIYANG=JIYe=$I蔣介石|deNG=JUNG=SIYA鄧中夏;z標注為Z|z(LIU=ZONG=YVWAN柳宗元|LIN=ze=SIUI林則徐);zh標注為J|Z(ZeU=IVI周瑜|JeU=eN=LAI周恩來);zhi標注為zhI|zHI(FANG=zhI=MIN方志敏|$eN=I=zHI沈一智)。

2.3.2 韻母轉寫出現的問題

ao標注為0V|00|AV(LI=J0V=SING李肇星|J00=ZI=YANG趙紫陽|MAV=Ze=dONG毛澤東);i標注為 e|I(LI=Se=GVWANG李四光|HU=CI=LI胡啟立);ian標注為IYEN|IYAN(Ye=JIYEN=ING葉劍英|CIYAN=CI=CeN錢其琛);o標注為00|Owe(LIYANG=$eNG=B00梁勝波|BOWe=I=BOWe薄一波);ou標注為eU|EU(JeU=BA=PI周扒皮|PeNG=YONG=EU);ong標注為ONG|UNG|VNG(c0V=CONG曹聰|dUNG=cUN=rUI董存瑞|J0V=zhI=HVNG趙志紅);uo標注為OWe|UWe(JANG=ZOWe=LIN張作霖|YANG=$UWe楊朔);ü標注為IVI|IUI(SIVI=SIYANG=CIYAN徐向前|dA大=IUI禹)。

2.4 標注的中立性

標注的中立性指語料庫標注中要采取被標注者、使用者及系統本身可以普遍接受的中立模式,很多分詞單位的界限有時較為模糊,我們在語料庫標注中要注重以中立的態度標注語料,以適應不同深度、不同層次、不同受眾的需求,提高語料庫的使用價值。以《轉寫方案》的設計原則為例,“漢語語音需一一對應成蒙古文拉丁字母”指漢語聲母需與蒙古語輔音達到一一對應,以避免混淆。漢語無法對應到蒙古語的聲、韻母可以參考《漢語拼音方案》進行標注。

“以蒙古文書面語外來詞拼寫習慣為基礎”指應充分尊重蒙古文歷來的外來詞拼寫習慣。蒙古語經過多年的演變與發展,已有相當固定的外來詞拼寫規則,如:“紅”在蒙古語中拼寫為“HVNG”或“hUNG”,“河”拼寫為“he”,我們對現已成形的蒙古文外來詞拼寫習慣應予以充分重視。

“以蒙古文語料庫標注現行規則為參考”指需遵守現代蒙古文語料庫的現有標注習慣。現行的語料庫標注規則是基于蒙古文傳統的詞語標注習慣,以大、小寫字母區分漢語聲、韻母,我們應予以保留。

“以《現代蒙古語語料庫標注規范》為參考”指《轉寫方案》的制訂應遵循《現代蒙古語語料庫標注規范》確立的專有名詞標注的4條規則:“zhi、chi、shi標注為zhI、chI1;人姓和名之間的圓點以等號表示;蒙古語的dong標注為dUNG;專名必須以等號連接,如,MAV=Ze=dONG。”

設計原則充分中和了蒙古文語料庫標注固有知識、蒙古語書面語外來詞拼寫慣例及《漢語拼音方案》,既照顧了蒙古文語料庫已有的語料庫標注習慣,也考慮了蒙古文非語料庫使用的外來詞拼寫習慣,又綜合參照了中文信息處理用途,有很強的中立性,適應了語料庫標注需要及語言研究需要。

2.5 標注的通用性

標注的通用性指不僅符合智能信息處理的各項標注需求,也適應不同文本之間的文本轉換、數據共享的需求。我們以設計原則為指導,對漢語的蒙古文拉丁轉寫制訂了具體的轉寫方案。

表1 漢語聲母的蒙古語拉丁轉寫方案

表2 漢語韻母的蒙古語拉丁轉寫方案

《轉寫方案》不僅適應蒙古文語料庫各類文本的標注,適應詞法分析、句法分析、信息檢索、信息抽取直至機器翻譯的需求,也適應蒙古文本與其他文種間的雙語、多語語料庫的建設需要,具有非常強的通用性。

3 結語

語料庫對智能語言信息處理及語言學研究都具有重要意義,筆者著重探討了影響語料庫標注質量的因素,認為語料庫的規范化發展,標注的準確性、一致性、中立性、通用性等是影響語料庫標注質量的關鍵因素,并以蒙古文語料庫標注中的重要及典型問題——漢語人名的拉丁轉寫為例,分析了影響因素對語料庫建設產生的作用。蒙古文語料庫中的漢語人名的拉丁轉寫問題是語言文字的標準化問題,以蒙古語語料庫標注現狀及蒙古文標注外來詞的固定習慣為基礎,以《現代蒙古語語料庫標注規范》為參考,適當借鑒漢語的標注規則,提出了較為詳盡和通用的《轉寫方案》,希望語料庫標注質量影響因子的探討能對語料庫的科學化發展、語言的本質屬性和規律的探討及信息資源的共享與交換產生積極影響。

注釋:

文中的符號說明:

等號(=)為連接符號,表示被連接的是一個標記單位,如“SIVI=SIYANG=CIYAN徐向前”。

豎線(|)表示語言單位之間的切分或隔斷,如“C|c”。

[1] 趙鐵軍.機器翻譯原理[M].哈爾濱:哈爾濱工業大學出版社,2000.

[2] 達胡白乙拉.蒙古語基本動詞短語自動識別研究[D].呼和浩特:內蒙古大學,2005.

[3] 劉連元.現代漢語語料庫選材設計[A].羅振聲,袁毓林.計算機時代的漢語和漢字研究[C].北京:清華大學出版社,1996.

[4] 嘎日迪.蒙古文信息處理技術及自然語言理解[M].呼和浩特:內蒙古大學出版社,2006.

[5] 鄭家恒.智能信息處理——漢語語料庫加工技術及應用[M].北京:科學出版社,2010.

[6] 國家語言資源監測與研究中心.中國語言生活狀況報告[M].北京:商務印書館,2007.

主站蜘蛛池模板: 国产精品欧美激情| 制服丝袜亚洲| 亚洲经典在线中文字幕| 日韩福利在线视频| 97精品久久久大香线焦| 永久成人无码激情视频免费| 国产乱人免费视频| 午夜小视频在线| 思思热精品在线8| 亚洲精品国产自在现线最新| 亚洲精品你懂的| 在线国产毛片手机小视频| 免费又爽又刺激高潮网址| 91福利片| 国产精品微拍| 好久久免费视频高清| 亚洲一区二区三区麻豆| 经典三级久久| 久久精品人人做人人综合试看| 欧美全免费aaaaaa特黄在线| 国产手机在线观看| 国产在线视频导航| 久久99这里精品8国产| 99re免费视频| 日韩 欧美 小说 综合网 另类| 黄色免费在线网址| 99久久精品无码专区免费| 精品久久777| 9999在线视频| 日韩专区欧美| 午夜无码一区二区三区| 国产超碰一区二区三区| 综合色天天| 亚洲国产亚综合在线区| 国产剧情一区二区| 亚洲精品成人片在线观看| 又猛又黄又爽无遮挡的视频网站| 少妇精品久久久一区二区三区| 真人免费一级毛片一区二区| 91精选国产大片| 中文无码毛片又爽又刺激| 成人福利免费在线观看| 波多野结衣亚洲一区| 992Tv视频国产精品| 国产精品成人一区二区不卡 | 国产一级做美女做受视频| 国产精品视屏| 亚洲视频免费在线看| 91久久精品日日躁夜夜躁欧美| 日韩不卡免费视频| 91午夜福利在线观看精品| 国产高清在线精品一区二区三区| 欧美天堂久久| 韩国福利一区| 亚洲一区二区三区香蕉| 精品国产91爱| 亚洲91在线精品| 亚洲成AV人手机在线观看网站| 国产农村精品一级毛片视频| 欧美黄网站免费观看| 国产精品免费电影| 制服丝袜 91视频| 国产地址二永久伊甸园| 2021国产在线视频| 亚洲精品视频免费| 中文无码伦av中文字幕| 亚洲国产清纯| 国产欧美另类| 国产毛片一区| 国产成人欧美| 亚洲日韩AV无码精品| 成人精品午夜福利在线播放| 亚洲精品在线影院| 国产大全韩国亚洲一区二区三区| 美女被狂躁www在线观看| 亚洲欧洲自拍拍偷午夜色| 亚洲婷婷在线视频| 毛片免费在线| 福利小视频在线播放| 国产成人福利在线视老湿机| 日本91在线| 久久国产精品娇妻素人|