999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文詞性標注:單步標注還是同步標注?基于詞還是基于字?

2013-09-03 06:32:24魏小雨張天宇
中國信息化·學術版 2013年7期
關鍵詞:同步

魏小雨 張天宇

【摘 要】中文詞性標注給中文語句中的每一個字分配一個POS標簽。但是,由于中文詞語在句子中不能被精確切分,所以若想進行中文詞性標注,需要詞語切分作為前提條件。我們可以在分詞之后進行詞性標注,或者將詞性標注與分詞進行組合,兩者同時進行。此外,我們可以選擇在基于詞的基礎上進行詞性標注,利用上下文語意,或者基于字符的基礎。本文提出一種利用最大熵值框架方法針對中文詞性標注等架構處理和特征表示的深入研究。我們發現分詞與標注同步進行的基于字符的方法是最好的,基于字符單步(once-at-a-time)進行的標注方法是值得商榷和完善的,在精確度上略差于同步(all-at-once)進行方法,但是它的運行時間更短些。

【關鍵詞】詞性標注;分詞;單步;同步

【中圖分類號】G623.31【文獻標識碼】A【文章編號】1672-5158(2013)07-0354-02

1.引言

大多數基于語料庫語言處理的研究,主要集中在對英文的處理。理論上,我們應該只能使用基于語料庫的端口,因為語言的機器學習技術在很大的程度上獨立于語言。但是,實際上,不同語言的特性帶來了復雜性。尤其是中文,詞語在一條語句中不能被準確的劃分。因此在我們進行標注和解析等工作之前需要先進行分詞,因為中文詞性標注是對每一個詞進行標注,并且一條語句的解析樹是詞。

進行中文部分詞語標注時,會遇到以下問題:

(1) 我們應該嚴格按照先分詞后標注的方法進行標注還是分詞與標注同時進行?

(2) 我們應該基于上下文(基于詞)進行標注,還是基于字符進行標注?

本文提出一種利用最大熵值框架方法針對詞性標注等問題的深入研究。我們分析了不同方法的運行結果,試圖找尋最優化的方法。

2.分詞

作為我們調查研究的第一步,我們創建一種不進行詞性標注的中文分詞。由于在使用單步方法時,分詞中的錯誤將傳遞到詞語標注階段,為了我們研究的準確性,我們使用最先進的分詞技術。我們的分詞類似于采用最大熵值分詞法(Xue and Shen, 2003)。它根據上下文得來的特性對每個詞進行分類。每個詞被分配一個由4個邊界值組成的標簽:“b”表示一個詞的開始,“m”表示一個詞的中間的字,“e”表示一個詞的結尾,“e”表示該表示的詞是單個字的詞。

2.1 分詞特點

我們提出了另外三種能夠提高分詞精確度的功能(如下模板(d)-(f))。在我們的分詞中去掉了默認功能(Xue and Shen, 2003),因為在我們的分詞中默認功能不能夠提高我們的精確度。

以下的功能模板在我們的分詞中被使用,W指代詞,C指代字。(a)-(c)指的是含有5個字的內容。 0C表示當前字符, nC表示當前字符的前后n位置上的字符。

英文與中文的語言差別直接影響到英文詞性標注方法在中文環境下的運行結果,得到是無效的結果。中文里個別字符編碼信息有助于詞性標注。使用基于字符方法的中文詞性標注優于使用基于詞方法的中文詞性標注。我們的研究還表明,與之前提出的同步基于字符方法相比,單步基于字符方法達到了相當良好的詞性標注精確度,并且可以大大縮減運行時間。

參考文獻

[1] H.Jing,R.Florian, X. Luo, T. Zhang, and A.Ittycheriah. 2003. HowtogetaChineseName(Entity):segmentation and combination issues.In Proc. of EMNLP

[2] O.Y.Kwong and B. K. Tsou. 2003. Categorial fluidity in Chinese and its implications for part-of-speech tagging. In Proc. of EACL

[3] X.Luo. 2003. A maximum entropy Chinese characterbased parser. In Proc. of EMNLP

[4] A.Ratnaparkhi. 1996. A maximum entropy model for part-of-speech tagging. In Proc. of EMNLP

[5] R. Sproat, C. Shih, W. Gale, and N. Chang. 1996. A stochastic finite-state wordsegmentation algorithm for Chinese. Computational Linguistics, 22(3):377-404

[6] R.Sproat and T.Emerson. 2003. The first international Chinese word segmentation bakeoff. In Proc. of SIGHAN Workshop.

[7] W.J.Teahan,Y.Wen,R.McNab, and I. H. Witten. 2000. A compression-based algorithm for Chinese word segmentation Computational Linguistics,26(3):375-393

[8] F.Xia, M. Palmer,N.Xue, M. E. Okurowski, J. Kovarik, F-D Chiou,S.Huang,T.Kroch,and M. Marcus. 2000. Developing guidelines and ensuring consistency for Chinese text annotation. In Proc. of LREC

猜你喜歡
同步
素質教育理念下藝術教育改革的思路
政府職能的轉變與中國經濟結構調整的同步
商情(2016年42期)2016-12-23 14:26:58
公共藝術與城市設計的協調與同步
有源應答器DBPL解碼算法研究及FPGA實現
一種新型雙軌同步焊接的焊接裝置
讓思維訓練與口才訓練同時進行
汽車空調產品的協同開發探討
“四化”同步發展的實證檢驗及實現路徑研究
軟科學(2015年10期)2015-10-28 02:28:08
時間統一系統秒同步故障遠程預警系統設計
基于CAZAC序列的MIMOOFDM定時同步算法
主站蜘蛛池模板: 欧美综合激情| 国产性猛交XXXX免费看| 美美女高清毛片视频免费观看| 欧美无专区| 久久亚洲高清国产| 免费精品一区二区h| 国产呦精品一区二区三区下载| 日韩无码黄色网站| 久久不卡精品| 黄色成年视频| a级毛片在线免费观看| 国产一区二区在线视频观看| 国产激情无码一区二区APP | 无码福利日韩神码福利片| 中文字幕人妻无码系列第三区| 无码AV动漫| 国产幂在线无码精品| 国产成人h在线观看网站站| 黄色网站不卡无码| 欧美激情第一欧美在线| 国产女人在线观看| 天堂成人av| 99热这里只有精品国产99| 五月天丁香婷婷综合久久| 欧美在线三级| 在线欧美一区| 麻豆精品久久久久久久99蜜桃| 国产成本人片免费a∨短片| 一级一毛片a级毛片| 久久精品人妻中文系列| 一边摸一边做爽的视频17国产| 波多野结衣一区二区三区AV| 色综合狠狠操| 国产精品女熟高潮视频| 全部无卡免费的毛片在线看| 精品亚洲麻豆1区2区3区| 性网站在线观看| 中文字幕调教一区二区视频| 一本二本三本不卡无码| 欧美亚洲综合免费精品高清在线观看 | 国产青榴视频| 国产精品无码AV中文| 怡红院美国分院一区二区| 在线五月婷婷| 老汉色老汉首页a亚洲| 少妇被粗大的猛烈进出免费视频| 精品91视频| 白浆免费视频国产精品视频| 日韩欧美中文字幕在线韩免费| 中文字幕无码制服中字| 国产肉感大码AV无码| 老司机久久99久久精品播放| 狠狠干综合| 国产精品亚洲va在线观看| 久久国产精品无码hdav| 国产女人在线观看| 亚国产欧美在线人成| 欧美伦理一区| 色AV色 综合网站| 久久久久久国产精品mv| 欧美成人亚洲综合精品欧美激情| 亚洲中文字幕在线一区播放| 一级爆乳无码av| 午夜丁香婷婷| 99ri国产在线| 尤物精品国产福利网站| 国产91透明丝袜美腿在线| AV不卡在线永久免费观看| 99国产精品免费观看视频| 波多野结衣无码中文字幕在线观看一区二区| 91丝袜美腿高跟国产极品老师| 国产精品女熟高潮视频| 中文字幕免费播放| 亚洲精品中文字幕无乱码| 一级毛片不卡片免费观看| 制服丝袜亚洲| 最新国产在线| 在线观看网站国产| 久久99精品久久久久久不卡| 国产精品视频猛进猛出| 香蕉精品在线| 国产第一页亚洲|