999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語有標記并列結構自動識別方法綜述

2014-08-15 00:50:27劉小蝶
語文學刊 2014年8期
關鍵詞:自動識別語義規則

○劉小蝶

(北京師范大學 中文信息處理研究所,北京 100875)

一、引言

有標記的并列結構(下文簡稱并列結構)指的是有顯性連詞“和、與、跟、同、并且、且”和連接符號“、”連接的并列結構,是漢語中一種很常見的短語結構組合,能否正確地識別出有標記并列結構,對提高句子的句法分析準確率、機器翻譯的質量有著重要的意義。并列結構的自動識別作為“語塊的識別和分析”的一個內容,因為需要綜合運用語法、語義等多方面的語言學知識,長期以來一直是語言信息處理中的難點,在自動識別研究方面的成果并不多。

從方法論的角度來說,語言信息處理中的自動識別研究可以分為基于規則的方法和基于統計的方法以及規則和統計相結合的混合方法。下面,我們將對三種方法并列結構的自動識別做個簡單的介紹和評價。

二、基于規則的方法的研究

規則的方法主要依靠專家總結的語言規律,對具體的領域、語言表達格式有要求。其識別并列結構的依據是并列結構各并列項之間存在某種相似性,如中心語相似和結構平行。

詹衛東(2000)對聯合式名詞短語、形容詞性短語和動詞性短語以及動詞性短語中的連謂結構分析時,卻得出內部組成成分的限制條件目前還難以描述的結論。

吳文芳(2013)結合現代漢語并列結構的語言特點,提出“中心詞驅動的并列結構識別策略”,該策略充分利用詞性這種簡單的句法信息,而基本未觸及語義信息;識別時,需要用到其他短語識別結果;未詳細交代如何確定左右邊界集合內的若干邊界中唯一一個邊界。

王東波(2008)基于統計得到規則模板和并列結構候選集,對候選集匹配規則模板得出并列結構,最后,通過詞形和詞綴相同計算語義相似度再次篩選。此方法中獲取規則模板和并列結構候選集都是基于統計的,比較簡單粗糙,而目前詞語語義計算缺乏量化和精確化,靠其篩選出來的并列結構錯誤率當然很高。苗艷軍(2009)將并列結構劃分為六大類,根據不同的類型制定不同的識別策略。作者對結構平行性的理解和使用局限于并列項中各詞的詞性序列的相似。王文和苗文中所謂的規則是根據語料庫中的統計數據提取的詞語序列的排列,本質上并不是真正的基于規則的方法。

三、基于統計的方法的研究

基于統計的方法主要依靠各種模型識別并列結構,其健壯性和靈活性比較好,不需要太多的人工干預領域知識,隨著計算機技術的進步,語料庫規模的不斷擴大,統計的方法在并列結構的自動識別中逐步得到應用。

周強(2003)依據漢語中的一個基本假設:“詞性相同、結構相同、語義類相同、音節數相同的項并列是最理想、最嚴格的并列”,通過基于動態規劃的最佳路徑選擇和路徑評分閾值的限制判斷識別并列結構。此文中的假設是典型的、理想的并列結構形式,對并列成分的長度有著強烈的要求,且路徑基本分的計算是詞語對相似度評分的簡單累加,當處理真實文本中很多非理想的并列結構或者較長的句子時,該算法難以發揮作用。

王東波(2008)使用條件隨機場模型(CRF)把有標記并列結構自動識別的任務看成文本中詞語與詞性序列選擇標記、確定邊界的過程。但特征是基于CRF的有標記并列結構自動識別的核心,特征選擇的好壞將影響CRF模型識別的性能。此模型對簡單的并列結構識別效果不錯,因為條件隨機場的訓練和解碼的開源工具還只支持鏈式的序列,尚不支持復雜的序列,而且訓練非常耗時。

苗艷軍(2009)采用最大熵模型通過給并列結構每個詞設置一個標記就可以將識別問題轉化為分類問題加入了錯誤驅動學習的方法,針對最大熵模型標注的錯誤部分進行改進。吳文芳(2013)利用基于支持向量機(SVM)模型將識別任務仍視為一個分類問題,此模型在嵌套并列結構、多并列項并列結構、單個詞并列結構中識別錯誤率很高。吳文在比較了基于規則的方法后,證明基于支持向量機(SVM)模型方法效果不如基于規則的方法。苗文和吳文中的模型都需要選擇合適的特征訓練,此模型只對簡單的并列結構識別效果顯著。

四、統計和規則相結合的方法

苗艷軍(2009)提出了一種統計和規則相結合的對并列結構的邊界進行識別的方法。該方法先從含有并列結構的句子中學習一個最大熵概率模型,然后以此概率模型為基礎對句子中的每個詞進行邊界預測,從而得到一個邊界預測序列。其次根據并列結構的特點建立了規則庫,用這些規則對邊界預測序列進行再處理,得到最終的并列結構的邊界。該方法先是基于統計在簡單的并列結構方面處理得較好,其次用規則加以修正,提高了簡單并列結構的識別的正確率。

五、結束語

本文簡要地介紹了近年來在并列結構自動識別領域出現的一些有代表性的方法和實踐,基于規則和統計的方法各有劣勢:基于規則的方法往往依賴專家知識、具體的領域、語言表達格式,可移植性差,并且規則不能涵蓋所有的并列結構現象;基于統計的方法對訓練語料中并列結構的特征和并列項長度有強烈的依賴和限制,提取的特征主要使用詞語、詞長、詞性等,對于構成略微復雜的并列結構來說,這些特征并不能有效解決識別問題。

目前,不管是基于規則的方法還是基于統計的方法存在的問題是對并列結構的分析不夠深入,具體表現在:1)對詞類知識有強依賴,因此正確的詞語切分和詞性標注是并列結構準確識別的前提,尤其是并列標記“和/與”是連詞和介詞的兼類,其正確性直接影響并列結構的識別的結果。2)較少涉及語義信息,多使用字符串的詞形或詞綴相同。

并列結構的正確界定需要依據并列成分的結構特點和語義關系等信息,這兩項問題的解決需要努力的方向:1)對并列結構深入研究,深挖并列結構的規律。2)開發一套系統的公認的現代漢語詞匯語義分類體系或詞匯語義表示體系。3)開發大規模、高質量的標注多種信息的能夠共享的漢語語料庫。

[1]吳云芳.面向中文信息處理的現代漢語并列結構研究[M].北京師范大學出版社,2013.

[2]吳云芳.并列成分中心詞語義相似性考察[J].當代語言學,2005(4).

[3]吳云芳.動詞性并列結構的結構平行[J].語言科學,2004(6).

[4]詹衛東.面向中文信息處理的現代漢語短語結構規則研究[M].清華大學出版社,2000.

[5]王東波.基于規則的單層單標記并列結構自動識別[J].文教資料,2008,29~31.

[6]王東波,陳小荷,年洪東.基于條件隨機場的有標記并列結構自動識別[J].中文信息學報,2008(22).

[7]苗艷軍.漢語并列結構的自動識別[D].蘇州大學,2009.

[8]周強.漢語語料庫的短語自動劃分和標注研究[D].北京大學,2003.

[9]王東波.有標記并列結構的自動識別[D].南京師范大學,2008.

[10]苗艷軍,李軍輝,周國棟.統計和規則相結合的并列結構自動識別[J].計算機應用研究,2009(26).

猜你喜歡
自動識別語義規則
撐竿跳規則的制定
數獨的規則和演變
語言與語義
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
金屬垃圾自動識別回收箱
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于IEC61850的配網終端自動識別技術
電測與儀表(2016年6期)2016-04-11 12:06:38
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲综合色婷婷中文字幕| 狠狠做深爱婷婷综合一区| 呦系列视频一区二区三区| 亚洲精品欧美重口| 91成人在线免费观看| 国产欧美日韩视频怡春院| 911亚洲精品| 久久久无码人妻精品无码| 99热这里只有精品免费国产| 亚洲国产中文欧美在线人成大黄瓜 | 欧美性精品不卡在线观看| 国内精品免费| 99精品国产自在现线观看| 欧美色香蕉| 成人无码一区二区三区视频在线观看 | 国产精品成人免费视频99| 国产麻豆精品手机在线观看| 波多野结衣一二三| 国产三级国产精品国产普男人| 国产一级特黄aa级特黄裸毛片| 一级毛片免费观看不卡视频| 六月婷婷精品视频在线观看| 欧美va亚洲va香蕉在线| 国产精品久久久久久久伊一| 天堂成人在线| 婷婷久久综合九色综合88| 在线国产资源| 午夜免费小视频| 视频二区国产精品职场同事| 国产无码在线调教| 欧美精品黑人粗大| 国产亚洲精品无码专| 九色综合视频网| 国产精品漂亮美女在线观看| 日韩精品毛片| 国产精品成人一区二区不卡 | 国产激情在线视频| 国产黄色免费看| 2019国产在线| 国产特一级毛片| 日本不卡在线视频| 91久久偷偷做嫩草影院精品| 精品小视频在线观看| 久久精品视频亚洲| 欧美成人免费| 91在线中文| 久久综合九色综合97网| 国产尤物在线播放| 亚亚洲乱码一二三四区| 人妖无码第一页| 伊人久久综在合线亚洲91| 国产成人喷潮在线观看| 欧美在线视频a| 精品国产成人av免费| 国产精品任我爽爆在线播放6080| 第九色区aⅴ天堂久久香| 欧美日韩第二页| 亚洲精品无码AⅤ片青青在线观看| 日韩第一页在线| 91青青草视频在线观看的| 全部免费毛片免费播放| 日韩123欧美字幕| 视频一区亚洲| 伊大人香蕉久久网欧美| 日本在线免费网站| 国产粉嫩粉嫩的18在线播放91| 国产凹凸一区在线观看视频| 国产欧美精品一区二区 | 色综合久久无码网| 首页亚洲国产丝袜长腿综合| 极品尤物av美乳在线观看| 2019年国产精品自拍不卡| 热re99久久精品国99热| 91年精品国产福利线观看久久 | 亚洲欧美在线看片AI| 亚洲va精品中文字幕| 亚洲成AV人手机在线观看网站| 亚洲精品无码高潮喷水A| 久久精品无码一区二区日韩免费| 手机看片1024久久精品你懂的| av一区二区无码在线| 中美日韩在线网免费毛片视频|