999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語料庫的多義詞統(tǒng)計意義解析

2019-10-08 06:24:31曹慧
科學(xué)大眾·教師版 2019年7期

曹慧

摘 要:本文所研究的三種基于語料庫的統(tǒng)計意義解析方法,試圖通過對詞的共現(xiàn)模式的了解來推斷一個多義詞的正確意義。該技術(shù)基于貝葉斯決策理論、神經(jīng)網(wǎng)絡(luò)和信息檢索中使用的內(nèi)容向量。為了更好地理解這些方法,我們給定一組上下文,每個上下文都包含已知意義上的名詞line,構(gòu)造一個分類器來為新的上下文選擇正確的行意義。為了了解多義的程度如何影響表現(xiàn),我們比較了三種和六種感覺任務(wù)的結(jié)果。結(jié)果表明,每一種方法都能準確區(qū)分六種線形感官,準確率達70%以上。此外,分類器的響應(yīng)模式在很大程度上在統(tǒng)計上是不可區(qū)分的。兩項任務(wù)的比較表明,解決個體感官困難程度是一個比多義程度更大的表現(xiàn)因素。

關(guān)鍵詞:語料庫; 統(tǒng)計; 多義詞

中圖分類號:G642 ? ? ? ? ? ? ?文獻標識碼:A ? ?文章編號:1006-3315(2019)07-159-002

1.引言

語料庫指的是為某一個或多個應(yīng)用而專門收集的、有一定結(jié)構(gòu)的、有代表性的、可以被計算機程序檢索的、具有一定規(guī)模的語料的集合[1]。本研究的目的是系統(tǒng)地探討基于語料庫的統(tǒng)計意義解析方法中,每個詞的義數(shù)、每個義的訓(xùn)練例數(shù)等變量對統(tǒng)計意義解析方法的影響。為了研究詞義數(shù)量的影響,我們選擇了高度多義的名詞line,在詞匯網(wǎng)絡(luò)中有25個詞義。

2.文獻綜述

Yarowsky[2]將貝葉斯統(tǒng)計方法與其他基于語料庫的統(tǒng)計模型發(fā)表的結(jié)果進行了比較。他通過使用相同的詞語,用相同的意義定義,將這些差異最小化。令人信服地指出,貝葉斯模型與代價更高的方法一樣好,甚至更好。

作為本研究的試點,利用內(nèi)容向量和神經(jīng)網(wǎng)絡(luò)分類器對線進行了兩種意義上的區(qū)分任務(wù),準確率達到90%以上。然后運行一個三感區(qū)分任務(wù)。

3.研究方法

培訓(xùn)和測試的內(nèi)容取自1987-89《華爾街日報》語料庫和來自APHB語料庫。從WordNet中提取2個包含“[L1]ine(s)”的句子,并手動分配單個意義。

通常,實驗在目標的兩側(cè)使用固定數(shù)量的單詞或字符作為上下文。在這個實驗中,我們使用語言單位-句子-代替。選擇使用兩句上下文:包含行和前一句的句子,訓(xùn)練和測試上下文的平均大小為44.5個單詞。

詞義解析任務(wù)使用名詞行以下六種意義:

1.a product: ‘ a new line of workstations

2.a formation of people or things: ‘stand in line

3.spoken or written text: ‘a(chǎn) line from Shakespeare

4.a thin, flexible object; cord: ‘a(chǎn) nylon line

5.an abstract division: ‘a(chǎn) line between good and evil

6.a telephone connection: ‘the line went dead

為了檢驗訓(xùn)練樣本的數(shù)量對分類器性能的影響,我們從200個訓(xùn)練集中提取了較小的訓(xùn)練集,每個意義的前50和100個上下文被用來構(gòu)建新的訓(xùn)練集。在給定的試驗中,對每個訓(xùn)練集使用相同的894個測試上下文集。每個分類器在相同的試驗中使用相同的訓(xùn)練和測試上下文,但是根據(jù)方法的需要對文本進行不同的處理。

4.分類

這三個分類器使用的唯一信息是字符串在上下文中同時出現(xiàn)。它們不使用其他線索,如句法標記或詞序。它們也不需要任何不是完全自動的訓(xùn)練上下文的增強。

4.1貝葉斯法

由Gale,Church和Yarowsky[3]開發(fā)的貝葉斯分類器使用貝葉斯決策理論對與多義目標的每個意義同時出現(xiàn)的令牌進行加權(quán)。模型的主要組件標記被定義為任何字符串:單詞、數(shù)字、符號、標點符號或任何組合。整個標記都是重要的,因此基本單詞(wait vs. wait)和混合大小寫字符串(Bush vs. Bush)的變形形式是不同的標記。與每個標記相關(guān)聯(lián)的是一組顯著性,每個顯著性對應(yīng)一種感覺,由訓(xùn)練數(shù)據(jù)計算得出。給定意義的標記的顯著性是Pr(token/sense)/Pr(token)。給定意義的標記的影響是其顯著性的對數(shù)。

為了在(測試)上下文中選擇目標單詞的意義,分類器計算每個標記意義在上下文中對所有標記的影響總和,并選擇和最大的意義。在意義分辨的情況下,顯著標記包括出現(xiàn)頻率低得多的內(nèi)容詞。貝葉斯分類器實驗由AT&T貝爾實驗室的Kenneth Church進行。在這些實驗中,兩句話環(huán)境使用的一個固定大小的窗口±50標記周圍的目標詞,Gale等人找到導(dǎo)致一個小數(shù)量的上下文用于估計概率最優(yōu)值。

4.2內(nèi)容向量

信息檢索系統(tǒng)的向量空間模型推動了感知分辨率的內(nèi)容向量方法,其中,語料庫中的每個概念都定義了向量空間的一個軸,語料庫中的文本表示為該空間中的一個點。語料庫中的概念通常定義為出現(xiàn)在語料庫中的詞干集,兩個文本之間的相似性被計算為表示兩個文本的向量的函數(shù)。

對于感知解析問題,每個感知都由一個由該感知訓(xùn)練上下文構(gòu)造的單個向量表示。由訓(xùn)練上下文定義的一個空間向量也是為每一個測試上下文構(gòu)造的。要為測試上下文選擇一個意義,需要計算其向量與每個意義向量之間的內(nèi)積,并選擇其內(nèi)積最大的意義。

4.3神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)方法將感知分辨率作為一種監(jiān)督學(xué)習(xí)范式。成對的(輸入特性,期望的響應(yīng))出現(xiàn)在一個學(xué)習(xí)程序中。該程序的任務(wù)是設(shè)計一些方法來使用輸入特性將訓(xùn)練上下文劃分為與期望響應(yīng)相對應(yīng)的非重疊集。

每個上下文都被轉(zhuǎn)換成位向量。在整個訓(xùn)練集中出現(xiàn)至少兩次的每個概念都被分配到位向量位置。得到的向量的位置為1,與上下文中的概念對應(yīng),否則為0。這個過程創(chuàng)建超過4000個位置的向量。然而,這些向量是極其稀疏的,它們平均包含略多于17個概念。

對網(wǎng)絡(luò)進行訓(xùn)練,直到每個訓(xùn)練示例中對應(yīng)于期望響應(yīng)的單元的輸出大于任何其他單元的輸出為止。訓(xùn)練一個網(wǎng)絡(luò)直到所有的例子都正確分類,這樣的結(jié)果是罕見的標記可以獲得不相稱的重要性。

為了確定網(wǎng)絡(luò)的良好拓撲結(jié)構(gòu),研究了各種網(wǎng)絡(luò)拓撲:將0到100個隱藏單元排列在一個隱藏層中的網(wǎng)絡(luò);具有多層隱藏單元的網(wǎng)絡(luò);以及具有單層隱藏單元的網(wǎng)絡(luò),其中輸出單元連接到隱藏單元和輸入單元。在所有情況下,沒有隱藏單元的網(wǎng)絡(luò)配置要么優(yōu)越,要么在統(tǒng)計上與更復(fù)雜的網(wǎng)絡(luò)難以區(qū)分。由于沒有網(wǎng)絡(luò)拓撲明顯優(yōu)于沒有隱藏單元的網(wǎng)絡(luò)拓撲,所以這里報告的所有數(shù)據(jù)都來自這樣的網(wǎng)絡(luò)。

5.結(jié)論

所有分類器在訓(xùn)練上下文數(shù)量最多(200)的情況下表現(xiàn)最佳。

三種方法的響應(yīng)模式的收斂性表明,每種分類器都從訓(xùn)練上下文中提取盡可能多的字數(shù)數(shù)據(jù)。如果是這樣,那么任何只使用單詞計數(shù)的技術(shù)都不會比這里測試的技術(shù)準確得多。

雖然一詞多義的程度確實影響了感官分辨任務(wù)的難度,但更大的表現(xiàn)因素是個體感官分辨的難度。從語境的考察來看,關(guān)鍵信息似乎離詞很近,而離詞較遠的語境則是噪聲。這些基于語料庫的統(tǒng)計技術(shù)使用了訓(xùn)練上下文的貧乏表示:兩個句子中出現(xiàn)的標記的簡單計數(shù)。我們認為,除非將詞序或句法信息等其他信息納入該技術(shù),否則不可能顯著提高分辨率的準確性。

基金項目:2013年安徽省教育廳人文社會科學(xué)研究一般項目(項目編號:SK2013B227)

參考文獻:

[1]何婷婷.語料庫研究[D]華中師范大學(xué)博士學(xué)位論文,2003

[2]Yarowsky,D.,Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, COLING-92, 1992

[3]Gale,W.,Church,K.W.,and Yarowsky,D,A method for disambiguating word senses in a large corpus. Statistical Research Report 104,AT&T Bell Laboratories,1992

主站蜘蛛池模板: 老司机午夜精品网站在线观看| 国产欧美精品专区一区二区| 有专无码视频| 曰韩人妻一区二区三区| 黄色网站不卡无码| 国产尤物视频在线| 午夜老司机永久免费看片| 国产成人精品在线1区| 欧美特级AAAAAA视频免费观看| 手机精品福利在线观看| 国产精品不卡永久免费| 欧美精品在线看| 免费国产小视频在线观看| 亚洲一区二区在线无码| 国产偷国产偷在线高清| 欧美全免费aaaaaa特黄在线| 韩国v欧美v亚洲v日本v| 国产精品福利一区二区久久| 国产成人欧美| 全部无卡免费的毛片在线看| 亚洲欧美另类日本| 久久99国产综合精品1| 欧美日韩中文字幕在线| 久久久久久久久亚洲精品| 久久这里只精品国产99热8| 亚洲欧美综合另类图片小说区| 亚洲第一视频网| www.youjizz.com久久| 国产嫖妓91东北老熟女久久一| 国产精品一线天| 99久久精品久久久久久婷婷| 国产精品hd在线播放| 黄网站欧美内射| 亚洲精品日产精品乱码不卡| 中文毛片无遮挡播放免费| 老司机午夜精品网站在线观看| 久久久成年黄色视频| 欧美激情视频一区| 国产精品亚洲αv天堂无码| 亚洲av无码牛牛影视在线二区| 98精品全国免费观看视频| 国产99精品视频| 激情无码字幕综合| 日韩性网站| 无码精品国产VA在线观看DVD| 九九九精品视频| 日韩欧美中文在线| 国产免费精彩视频| 中国国产高清免费AV片| 日韩高清无码免费| 午夜a级毛片| 国产亚洲欧美在线人成aaaa| 69视频国产| 亚洲中久无码永久在线观看软件 | 干中文字幕| 色播五月婷婷| 日韩成人高清无码| 成人在线不卡视频| 国产丝袜第一页| 91精品在线视频观看| 国产人成在线视频| 丁香五月激情图片| 午夜毛片免费观看视频 | 亚洲swag精品自拍一区| 国产精品视频猛进猛出| 久久香蕉国产线看观看精品蕉| 亚洲欧美国产视频| 69免费在线视频| 国内老司机精品视频在线播出| 国产一区二区三区在线观看视频 | 亚洲精品高清视频| 国产福利微拍精品一区二区| 91欧洲国产日韩在线人成| 亚洲第一福利视频导航| 国产农村精品一级毛片视频| 精品久久久久久成人AV| 欧美爱爱网| 国产一区二区精品福利| 人妻无码中文字幕一区二区三区| 国产波多野结衣中文在线播放| 国产高清不卡视频| 亚洲香蕉伊综合在人在线|