999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上下文邊界可變的詞義消歧

2015-12-23 01:09:30高光來
計算機工程與設計 2015年10期
關鍵詞:語義實驗

閆 蓉,高光來

(內蒙古大學 計算機學院,內蒙古 呼和浩特010021)

0 引 言

通常詞義消歧方法可分為基于統計的方法和基于知識的方法[1]。傳統的基于知識的方法[2-4]針對文本中出現的多義詞,不管是什么詞性,均選取固定上下文來進行消歧的,這樣一定會引入不同程度的噪音,影響消歧效果。歸其原因,該方法從根本上忽略了不同詞性的多義詞制約其含義的上下文語境范圍應是不同的。通常,詞語含義的差別一定會在語言運用中得到體現,詞的不同含義會在句法或詞匯搭配層面上表現出不同的組合特征,并且不同詞性詞語的這種彼此獨立且呈互補分布的特征是不一樣的。這樣,對詞的含義辨析時所依據的內容應該是不同的。直觀上,對于不同詞性的多義詞而言,制約其語義的語境范圍是有所差異的。如句子 “只有這樣,我們才可能進一步體會這首歌曲所 [表現/v]的感情和內容。”,多義動詞 [表現]在句中語義為 “show|表現”,位置較近的語境詞 {歌曲}足已制約其語義,無需其它語境詞。而在句子 “古老的中藥,在這里插上了現代科技的 [翅膀/n]。”,多義名詞 [翅膀]在句中語義為 “part|部件:PartPosition= {wing|翅},whole= {aircraft|飛行器}”,制約其含義還需要距離較遠的語境詞 {插上}。鑒于此,提出一種上下文邊界可變的中文詞義消歧模型 (Chinese WSD model with variable context window,CWSD-VCW),基本思想是按照多義詞詞類信息,針對性得選擇消歧語境范圍,減少噪音來達到消歧目標。實驗結果表明,該方法可以提高全文消歧正確率。

1 詞義消歧原則

文獻 [3,4]利用距離函數約束上下文中各詞語對多義詞含義的影響。文獻 [5,6]通過構建上下文模型的方法,進一步以更為量化的方式給出了上下文各詞語對多義詞含義的影響。但上述方法在進行消歧過程中,盡管考慮了上下文中各詞語對多義詞含義的制約作用的不同,但均是在固定上下文范圍下進行的,未考慮到對不同詞性的多義詞,詞義和詞的分布之間是具有密切的,制約其語義的上下文范圍應是不同的。這正是本文解決詞義消歧問題的出發點。本文主要依據多義詞詞性,按照在特定上下文范圍內使得多義詞某個義項與上下文詞語關系的密切程度最大作為消歧原則,來尋求制約多義詞語義的最小上下文范圍。

2 詞義消歧方案

通常,在解決詞義消歧過程中,上下文范圍的選取就是第一個要解決的問題。因為上下文范圍選取的大小直接影響消歧問題解決的好壞[6],而且在選取過程中,多義詞左右兩邊詞語選擇是否對稱,也是值得考慮的問題[7,8]。第二個要解決的問題是關于詞語詞義的定義問題。因為在不同的主題、記錄、句子、搭配和詞性等方面有著些許差異。第三個要解決的問題是如何計算多義詞義項和上下文各詞語間的相關度。文章接下來的部分,給出了上述3個問題的具體解決策略。

2.1 上下文邊界可變的消歧模型構建

消歧過程中要解決的第一個問題即消歧上下文的選取,關于它的解決是本文要研究的重點。通常上下文范圍選取是與實際應用問題相關的。本文主要目的是為了考察詞語含義辨析時所依據的上下文有效范圍的大小,所以選取的上下文范圍是對稱的 (去掉停用詞和虛詞后的結果)。模型建立的主要思路:利用多義詞與選取的特定上下文各詞語間的語義關系和搭配關系的組合,保證選取的上下文中各詞與多義詞盡可能的存在著句法關系并且語義關系值最大,達到消歧目的。

模型的構造如下:

設特定文本 (去掉停用詞和虛詞后的結果)中有多義詞S 存在n 個義項,記為S1,S2,…,Sn,上下文范圍為距離多義詞S左右各m 個詞語,記為W-m,W-m+1,…,W-1,S,W1,…,Wm-1,Wm,Ai和Bi分別為義項Si的右搭配矩陣和左搭配矩陣。那么,多義詞S 的正確義項就是使得式 (1)取最大值的那個義項

式中:SR(Wi,Wj)——詞語Wi和Wj之間的語義相關度。

從語言信息處理角度來看,不同詞性詞語的語義組合特征是不一致的。那么,確定不同詞性詞語的語義所依據的信息也應該是有差異的。本文的核心工作是考察消歧上下文的選取是否會與待消歧多義詞詞性有聯系,聯系如何。這里的消歧上下文m 的大小選取,將會根據待消歧多義詞詞性的不同有所區別。具體的,就是分詞性的選取消歧上下文范圍,即m 的取值會和待消歧多義詞詞性相關,m 成了可調值。對于名詞詞性的多義詞,其義項區分主要是依靠其所聯系的謂詞,而且不同詞義的語法組合能力不同,消歧窗口大小不大統一,需要設置的m 值應較大些;對于動詞詞性的多義詞,其義項區分主要是依靠其相聯系的補足語,需要的m 值應較小;對于形容詞詞性的多義詞,其義項區分主要是依靠其所修飾的名詞,需要的m 值也較小。關于在不同詞性條件下,m 最佳估計值的確定待后文實驗說明。

2.2 詞語間語義相關度的計算

關于詞語詞義的定義,在不同的主題、記錄、句子、搭配和詞性等方面有著些許差異。本文按照在 《知網》中出現詞語的義項定義來進行研究。

本文對于詞語間語義相關度,主要用基于詞語間語義關系來度量相關度。詞語間語義關系的獲取是本文計算多義詞義項和上下文各詞語間的相關度的基礎,它主要依賴于所應用的語義關系分類資源,具體定義參見文獻 [9]。除了義原間的語義關系外,還用到了兩個詞語間的共現度,來細化詞語間的相關度。具體可參見文獻 [10],簡記為SR(W1,W2)。

2.3 義項語義搭配庫的構建

為了進一步細化多義詞義項和上下文各詞語間的相關度,本文構造了一個義項語義搭配庫,式 (1)中的Ai和Bi分別為多義詞S 某個義項Si在義項語義搭配庫中的右搭配矩陣和左搭配矩陣。義項語義搭配庫的構造,主要是以《知網》中各詞的語義搭配實例為種子搭配,利用山西大學STC973ver1.0 的500 萬漢字的語料庫,包含2915894 詞次,通過計算各詞對間的SR(W1,W2)獲得詞語各義項的搭配信息。但在實際的漢語使用中,多義詞隨詞性的分布并不相同。表1中列出了部分高頻多義詞在STC973中各詞類出現次數的統計信息。如詞語 “打”,在2005 版 《知網》中義項數達到32個,在STC973中共出現1291次,其中動詞出現1281 次,占99.23%;詞語 “地方”,在 《知網》中義項數6個,其中詞性為形容詞的義項數1 個,但在STC973中未出現。由此可以看出在特定語料中多義詞各詞類出現次數很不均衡,并且經過進一步的實驗驗證,多義詞有的義項很常用,有的義項則很少使用,這將影響各義項搭配信息的獲取,所以在實際應用中應充分考慮。為解決構建過程中的數據稀疏問題,本文對多義詞語中各義項的搭配數目進行約束,對于搭配數目較少或沒有的義項,從其它資源 (搜狗公布的中文詞語搭配庫http://www.sogou.com/labs/dl/r.html)中進行追加。表2為部分多義詞的各義項搭配信息。

表1 部分高頻多義詞各詞類在STC973中出現的統計信息

表2 部分詞語各義項的搭配信息

表2 (續)

3 實驗與分析

3.1 語料準備

在對語料STC973 進一步的統計中,我們發現多義詞在語料中多以名詞、動詞和形容詞的詞性出現,且動詞和名詞詞類使用頻率較高。因此,對于大規模實際文本,解決實詞的歧義問題是非常重要的。實驗中我們也是這樣做的。實驗數據集選用公開漢語評測語料SemEval-2007 (名詞19個,動詞21 個)和SemEval-2010 (動詞27 個),另外還有人民日報1998年1月份 (動詞119個,名詞214個)進行。

3.2 實驗設計與結果分析

本文選取的評測標準是Pmar(macro average accuracy),即詞義標注正確句子數占所有句子數的比例。本文共進行4個實驗。

實驗1:通過調整消歧上下文范圍,考察選取的上下文范圍大小對消歧效果的影響。實驗結果表明,在消歧過程中,隨著引入的消歧知識的增加,并不會使得消歧效果有顯著的提高,結果如圖1所示。當選取窗口信息不斷增加的同時,消歧效果增加并不明顯,反而有所降低。分析其原因,在于擴大窗口引入更多消歧有效信息的同時,也不同程度的增加了噪音量。

那么進一步的實驗,應該考察這些噪音具體的是影響哪些詞性的多義詞,即是否要在消歧過程中,針對多義詞詞性分開來考察其選取的上下文范圍。為此進行了實驗2。

圖1 窗口大小調整對消歧效果的影響

實驗2:對不同詞性的多義詞在不同窗口下分別進行了消歧實驗,來觀察詞性信息對消歧結果影響,即確定式(1)中m 的最佳估計值。實驗結果如圖2所示。從圖2可以看出:對于不同詞性的多義詞詞語進行消歧時,窗口大小的選取不應該采用固定大小的方式,應有區別的對待,從而盡可能減少噪音的引入,提高消歧效果。從實驗結果我們可以得到,制約各詞性多義詞語義的最小上下文范圍如下:m名詞=6,因為名詞義項的區分主要是依靠其所聯系的謂詞,而且針對特定名詞的不同義項的語法組合能力不同,消歧窗口大小不大統一,需要設置的消歧窗口值大;m動詞=4,因為動詞義項區分主要是依靠其相聯系的補足語,需要的消歧窗口值較小;m形容詞=4,因為形容詞義項區分主要是依靠其所修飾的名詞,需要的消歧窗口值也要小一些。接下來的實驗3就是考察這種根據詞性調節上下文范圍來進行消歧,是否會提高消歧正確率。

圖2 窗口大小對不同詞性詞語消歧效果的影響

實驗3:針對語料中出現的所有多義詞,根據其詞性的不同,選擇性的選取其消歧上下文范圍。各詞性多義詞的Pmar結果分別為:名詞0.790,動詞0.759,形容詞0.812,系統Pmar為0.787,其消歧性能要比沒有對不同詞性的多義詞限定上下文范圍的平均正確率高出6.26%。實驗結果表明,CWSD-VCW 方法是有效的。為了進一步驗證本文所提出方法的有效性,進行了實驗4。

實驗4:將SemEval-2007測試實例的最常用詞義MFS(most frequent sense)作為Baseline,將CWSD-VCW、Baseline和SemEval-2007最好名次[11]這3種方法分別對40個多義詞進行消歧,實驗結果如圖3和圖4所示。

圖3 3種方法對名詞消歧結果比較

圖4 3種方法對動詞消歧結果比較

實驗結果表明,方法CWSD-VCW 對于名詞和動詞的Pmar均高于SemEval-2007 最好名次分別超出1.6%和17.5%,系統Pmar超出8.6%,進一步驗證了本文提出方法的有效性。同時,實驗中也發現,CWSD-VCW 方法對于名詞消歧效果的提升并不大,原因在于名詞詞性的多義詞,其義項間區分主要是依靠與之相聯系的謂詞,而且不同義項與謂詞的語法組合不同。

整體上,雖然CWSD-VCW 實驗結果遜于MFS,但結果中有8個名詞和9個動詞的正確率高于MFS,說明這種無監督的消歧方法的性能還有較大的提升空間。

4 結束語

本文研究制約詞語語義的上下文語境,對于解決詞義消歧問題具有重要的意義。在消歧過程中,引入的消歧知識的增加,并不會使得消歧效果有顯著提高,歸咎原因主要是引入了更多的噪音。為解決詞義消歧中的噪音問題,本文針對不同詞性的多義詞在進行消歧時,采取分而治之的原則,按照多義詞詞類信息來選擇上下文語境范圍,選取多義詞義項集中與上下文語境詞語義相關度最大的作為其正確義項。從實驗結果可以看出,本文提出的CWSD-VCW 方法可以有效解決詞性為名詞、動詞和形容詞的多義詞消歧問題。但對于多義詞本身而言,其種類不限于這些,再有詞義研究所用信息是復雜多樣的,除了文中提及的語境信息,還有主題約束和篇章一致性等因素。正因為這樣,對于不同類型的歧義詞的處理過程,其難度和策略會有所差異。正如學者Kilgariff所說: “senses depend on the task”,在解決詞義消歧問題的實際應用過程中,如何將多種知識資源的融合來解決詞義消歧問題,將是今后工作的難點和重點。

[1]Navigli R.Word sense disambiguation:A survey [J].ACM Computing Surveys,2009,41 (2):1-69.

[2]Agirre E,De Lacalle OL,Soroa A,et al.Knowledge-based WSD on specific domains:Performing better than generic supervised WSD [C]//Proceedings of the 21st International Jont Conference on Artifical Intelligence,2009:1501-1506.

[3]YANG Zhizhuo,HUANG Heyan.Graph based word sense disambiguation method using distance between words [J].Journal of Software,2012,23 (4):776-785 (in Chinese).[楊陟卓,黃河燕.基于詞語距離的網絡圖詞義消歧 [J].軟件學報,2012,23 (4):776-785.]

[4]YANG Zhizhuo,HUANG Heyan.WSD method based on heterogeneous relation graph [J].Journal of Computer Research and Development,2013,50 (2):437-444 (in Chinese). [楊陟卓,黃河燕.基于異構關系網絡圖的詞義消歧研究 [J].計算機研究與發展,2013,50 (2):437-444.]

[5]Bernard Brosseau Villeneuve,Nie Jianyun,Noriko Kando.Towards an optimal weighting of context words based on distance[C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010:107-115.

[6]Bernard Brosseau Villeneuve,Noriko Kando,Nie Jianyun.Construction of context models for word sense disambiguation[J].Information and Media Technologies,2011,6 (3):701-729.

[7]Li G,Kou G,Quan J.Symmetric is not the optimal local context window in Chinese word sense disambiguation [C]//International Conference on Information Technology and Computer Science,2009:201-204.

[8]Li G,Kou G,Zhou E,et al.Symmetric trends:Optimal local context window in Chinese word sense disambiguation[C]//International Conference on Hybrid Intelligent Systems,2009:151-154.

[9]DONG Zhendong,DONG Qiang.HowNet[EB/OL].[2010-11-05].http://www.keenage.com(in Chinese).[董振東,董強.知網[EB/OL].[2010-11-05].http://www.keenage.com.]

[10]YAN Rong,GAO Guanglai. Word sense disambiguation based on word semantic relevancy computation [J].Computer Engineering and Applications,2012,48 (27):109-113 (in Chinese).[閆蓉,高光來.面向詞義消歧的詞語相關度計算[J].計算機工程與應用,2012,48 (27):109-113.]

[11]Mohammad S,Hirst G,Resnik P.Tor,TorMD:Distributional profiles of concepts for unsupervised word sense disambiguation [C]//4th International Workshop on Semantic Evaluations,2007:326-333.

猜你喜歡
語義實驗
記一次有趣的實驗
微型實驗里看“燃燒”
語言與語義
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 五月婷婷综合网| 中文字幕 91| 久久综合婷婷| 国产精品污视频| 亚洲AV无码久久精品色欲| 国产福利小视频高清在线观看| 91精品啪在线观看国产91九色| 色哟哟国产精品| 国产精品成人免费视频99| 日本91在线| 日本不卡在线视频| 亚洲天堂精品视频| 亚洲国产成人自拍| 精品無碼一區在線觀看 | 亚洲色图欧美一区| 国产成人在线小视频| 亚洲日本一本dvd高清| 欧美色视频日本| 亚洲欧美成人综合| 精品久久久久无码| 欧美人与牲动交a欧美精品| 国产精品人成在线播放| 免费在线a视频| 国产丝袜精品| 亚洲精品福利视频| 国产精品成人AⅤ在线一二三四| 午夜性爽视频男人的天堂| 在线观看免费人成视频色快速| 91精品伊人久久大香线蕉| 国产精品蜜芽在线观看| 青青操国产视频| 国产成人做受免费视频| 毛片免费视频| 直接黄91麻豆网站| 在线国产91| 国产91麻豆免费观看| 超碰精品无码一区二区| 天天爽免费视频| 国产91丝袜| 直接黄91麻豆网站| 国产精品永久不卡免费视频| 午夜爽爽视频| 日本免费a视频| 精品欧美一区二区三区久久久| 中文字幕亚洲精品2页| av无码久久精品| 黄色污网站在线观看| 亚洲av日韩av制服丝袜| 伊人欧美在线| 亚洲成人一区二区三区| 日韩无码精品人妻| 亚洲首页在线观看| 色婷婷在线播放| 精品视频一区二区三区在线播| 男女男免费视频网站国产| 欧美激情视频二区三区| 国产区福利小视频在线观看尤物| 亚洲天堂在线免费| 国产成人无码播放| 国产精品蜜芽在线观看| V一区无码内射国产| 真人免费一级毛片一区二区| 亚洲欧洲日产国码无码av喷潮| 亚洲女同一区二区| 亚洲美女操| 精品成人一区二区三区电影 | 成人久久精品一区二区三区| 日韩精品一区二区三区免费| 国产无人区一区二区三区| 天天综合网在线| 亚洲制服中文字幕一区二区 | www.国产福利| 国产真实乱子伦精品视手机观看| 欧美一区二区丝袜高跟鞋| 美女黄网十八禁免费看| 亚洲天堂网站在线| 国产老女人精品免费视频| 99久久国产自偷自偷免费一区| 国产精品一线天| 国产精品原创不卡在线| 亚洲高清中文字幕| 国产迷奸在线看|