999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的語境特征對must語義排歧影響研究

2020-06-22 13:15:56于建平付繼林白塔娜
軟件導刊 2020年5期

于建平 付繼林 白塔娜

摘 要:英語情態動詞的一詞多義給自然語言處理帶來了很大困難。情態動詞語義對語境很敏感,發現影響情態動詞語義的主要語境因素對情態動詞特征選擇、機器翻譯等都十分重要。因此,采用神經網絡技術對英語情態動詞進行語義排歧,并確定不同語境特征對語義排歧結果的影響。基于一個100萬字的語料庫,以英語情態動詞must為例,從語境中提取影響must語義的語義特征和句法特征,計算并確定這些特征向量值,建立可區分根情態與認識情態語義的BP神經網絡,排歧正確率達到94%。在此基礎上,通過實驗研究確定不同語境特征對情態動詞must語義排歧的影響程度等級。該研究結果為情態動詞語義排歧及情態動詞語義人工識別提供了重要依據。

關鍵詞:神經網絡;英語情態動詞;語義排歧;語境特征

DOI:10. 11907/rjdk. 191918 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)005-0033-04

0 引言

多數英語情態動詞都具有一詞多義、內涵與外延模糊、語義不確定等特性,所以英語情態動詞語義排歧無論在人機語言交流還是自然語言處理中都是一個重要且棘手的問題。以往關于情態動詞的研究主要側重于對情態動詞語義與句法特征及其功能的描述[1-3]。自然語言處理主要側重于實義動詞、名詞語義理解與排歧技術及方法研究[4-10]。由于情態動詞語義的復雜性,目前針對情態動詞語義排歧的研究很少,針對不同語境特征對情態動詞語義及其排歧影響的研究更少。然而,這些研究無論對語言學還是自然語言處理都具有十分重要的意義。神經網絡是由大量簡單處理單元廣泛地相互連接而形成的復雜網絡系統,其反映了人腦功能的許多基本特征,是一個高度復雜的非線性動力學系統。神經網絡具有大規模并行、分布式存儲與處理等特點,以及自組織、自適應與自學習能力,特別適合處理需要同時考慮許多因素和條件、不精確與模糊的信息處理問題[11],已應用于模式識別、文本分類和知識發現等多個領域[12-19]。神經網絡也很適合于研究情態動詞的語義排歧問題。

本文以情態動詞must為例,基于100萬詞的語料庫建立情態動詞語義排歧神經網絡模型,并在此基礎上研究不同語境特征對排歧效果的影響,旨在確定情態動詞在具有不同語義時的語境特征結構,揭示不同語境特征對英語情態動詞語義的影響程度,為情態動詞語義排歧神經網絡設計提供重要的特征選擇依據,從而提高語義排歧正確率,并為英語情態動詞語義識別提供依據。

1 英語情態動詞must語義劃分

著名情態語義學家Coates[3]把情態動詞must的語義劃分為:根情態語義(root meaning)和認識情態語義(epistemic meaning)。根情態語義包括表達責任(obligation)的語義和表達義務(necessity)的語義,Coates對must情態語義劃分見圖1。

本文采用以上語義劃分方法,開展針對must根情態語義和認識情態語義的語義排歧與知識發現研究。

2 must語義排歧

2.1 語境特征提取

基于一個100萬字的英語語料庫,采用神經網絡對must進行語義排歧。首先將語料庫平均分為兩個,一個作為訓練語料庫,另一個作為檢驗語料庫;然后,按照以上語義劃分對兩個語料庫中的must進行標注,分別從兩個語料庫中提取50個樣本例句,構成訓練集與檢驗集;之后確定樣本例句的語境特征,包括語義特征和句法特征。語義特征由主語與must的互信息以及must與其后動詞的互信息構成,句法特征由與must共現頻率較高的句法形式構成。提取的語境特征包括:

(1)語義特征:①主語與根情態must1的互信息;②主語與認識情態must2的互信息;③根情態must1與謂語動詞的互信息;④認識情態must2與謂語動詞的互信息。

(2)句法特征:①否定式;②被動語態;③謂語動詞為施事動詞;④主語有生命性;⑤must+完成體;⑥must+靜態動詞。

2.2 語境特征向量化處理

為了使提取的10個語境特征能夠在神經網絡中運行,需要將語境特征變成矢量。首先,對①-④的語義特征計算互信息,計算公式如下[9]:

2.3 BP神經網絡設計

由于訓練集與檢驗集樣本均為50個,輸入向量為10維,vi (i = 1,2,…10),所以網絡輸入為一個50×10維的矩陣。對于隱層神經元個數,經過反復實驗發現,隱層為9個神經元時,網絡實現的精度和正確率最高,分別為1.760 95×10-8和94%,因此確定隱層神經元數量為9個。傳遞函數為tansig,輸出層是單個神經元o,傳遞函數是線性的purelin,訓練函數選取trainlm,訓練精度設為le-006。該神經網絡結構見圖2。

將表1中訓練集和檢驗集的向量輸入神經網絡。同時,對網絡輸出結果進行歸一化處理,即輸出結果在(-0.5,0.5)之間時,取0代表認識情態must;輸出結果在(0.5,1.5)之間時,取1代表根情態must。在Matlab 7.0環境下運行所建立的BP神經網絡,對其進行訓練與檢驗,結果如圖3-圖4所示。其中,“*”為目標值,“+”為輸出結果,二者重合為正確排歧,否則為錯誤排歧。由圖3可以看出,在訓練17步以后,神經網絡達到設定精度10-6。由圖4可以看出,該網絡排歧只出現了3個錯誤,排歧正確率達到94%。

3 不同語境特征對情態動詞must語義排歧的影響

3.1 實驗

為了解不同語境特征對must語義排歧的影響程度,采用訓練好的神經網絡進行實驗。每次從神經網絡訓練集矩陣與檢驗集矩陣中分別刪除同一個特征向量,然后在Matlab7.0環境下運行BP神經網絡,觀察排歧結果變化程度,從而得知該特征對must語義排歧的影響程度。依次進行10次實驗,實驗結果見表2。

3.2 實驗結果分析

從表3實驗結果可以看出,當忽略認識情態must與謂語動詞的互信息時,排歧正確率最低,說明“認識情態must與謂語動詞的互信息”特征對must語義排歧影響最大。其次是“must +靜態動詞”,再次是“否定式”和“被動語態”特征。雖然忽略“否定式”和“被動語態”特征時都出現了8個錯誤,網絡精度都為10-7,但忽略“被動語態”因素時,訓練神經網絡使用了更多步數,所以“被動語態”相比“否定式”對must的情態語義影響更大。以同樣方法可以確定不同語境特征對must情態語義的影響由大到小排序為:認識情態must與謂語動詞的互信息>must+靜態動詞>被動語態>否定式>根情態must與謂語動詞的互信息>主語有生命性>主語與根情態must的互信息>施事謂語動詞>主語與認識情態must的互信息>must+完成體。

比較表3中的數據可以發現,認識情態must與謂語動詞的互信息、must+靜態動詞、主語有生命性主要影響must的根情態語義,其它特征主要影響must的認識情態語義。

下面從整體上研究不同語境特征對must情態語義排歧的影響。本文進行如下實驗:①把主語與根情態must互信息以及主語與認識情態must互信息看作主語與must互的信息。在神經網絡輸入矢量中同時刪除這兩個矢量,然后運行神經網絡,觀察主語對must語義排歧的影響;②把根情態must與謂語動詞的互信息和認識情態must與謂語動詞的互信息看作must與謂語動詞的互信息,同時刪除這兩個矢量,再運行神經網絡,觀察謂語動詞對must語義排歧的影響;③同時刪除6個句法特征,然后運行神經網絡,觀察全體句法特征對語義排歧的影響;④同時刪除4個語義互信息特征,然后運行神經網絡,觀察全體語義特征對語義排歧的影響。實驗結果見表3。

從表3可以看出,忽略must與謂語的互信息后,網絡精度僅為10-2,無法達到設定精度(10-6),而且排歧正確率明顯下降(58%),說明must與謂語動詞的互信息對must的情態語義排歧影響很大。原因主要在于認識情態must與謂語動詞的互信息對must語義排歧影響較大。相比之下,忽略主語與must的互信息對must語義排歧影響較小。從總體上看,謂語動詞對must語義排歧的影響遠大于主語對其的影響。從表3還可以看出,忽略所有句法特征后,排歧正確率有所下降,但下降幅度不大。但忽略所有語義互信息特征后,網絡無法達到所要求的精度,僅為10-2,說明對其影響很大。該結果說明語義特征相比句法特征對must語義排歧的影響大得多,所以在情態動詞語義排歧中,既要考慮語義特征,又要考慮句法特征,以語義特征為主,句法特征為輔。

4 結語

本文所建立的用于英語情態動詞must語義排歧的神經網絡達到了94%的理想排歧正確率。基于該神經網絡進行的實驗結果表明,就單項語言特征而言,“認識情態must與謂語動詞的互信息”對must情態語義排歧影響最大,其次是“must +靜態動詞”。“被動語態”和“否定式”對must的情態語義影響也較大。“must+完成體”對must的語義排歧影響最小。就不同類別的語境特征而言,語義特征相比句法特征對must語義排歧的影響大得多。本文研究結果揭示了不同語境特征對must語義排歧的影響及影響程度,并對不同屬性特征的影響程度進行排序,為情態動詞語義排歧的特征選擇與神經網絡設計提供了重要依據,為自然語言處理中的情態動詞語義排歧研究和情態語義學研究提供了重要的理論與實踐依據。該方法也可應用于其它情態動詞的語義排歧研究。

參考文獻:

[1] PALMER F R. Mood and modality[M]. ?Cambridge: Cambridge University Press, 2001.

[2] SWEETSER E. From etymology to pragmatics: metaphorical and cultural aspects of semantic structure[M]. ?Cambridge: Cambridge University Press, 1990.

[3] COATES J. The semantics of the modal auxiliaries[M]. ?London: Routledge Press,1983.

[4] IDE N,VERONIS J. Word sense disambiguation: the state of the art[J]. ?Computational Linguistics, 1998,24 (1): 1-41.

[5] SEIFOLLAHI S, SHAJARI M. Word sense disambiguation application in sentiment analysis of news headlines: an applied approach to FOREX market prediction[J]. ?Journal of Intelligent Information System, 2019, 52(1):57-83.

[6] KRAWCZYK B, MCINNES B T. Local ensemble learning from imbalanced and noisy data for word sense disambiguation[J]. ?Pattern Recognition, 2018,78: 103-119.

[7] CORREA E A, LOPES A A, AMANCIO D R. Word sense disambiguation: a complex network approach[J]. ?Information Sciences, 2018,442: 103-113.

主站蜘蛛池模板: 亚洲系列无码专区偷窥无码| 国产97公开成人免费视频| 亚洲国产中文欧美在线人成大黄瓜 | 国产一级二级三级毛片| 天天综合色天天综合网| 在线视频97| 无码不卡的中文字幕视频| 亚洲啪啪网| 毛片手机在线看| 亚洲黄网视频| 欧美福利在线播放| 国产在线精彩视频二区| 日韩久草视频| 国产免费人成视频网| 欧美成人精品一级在线观看| 真实国产乱子伦高清| 丝袜久久剧情精品国产| 国产午夜人做人免费视频中文| 视频一区视频二区日韩专区| 国产chinese男男gay视频网| 天堂岛国av无码免费无禁网站| 2022国产无码在线| 精品撒尿视频一区二区三区| 国产高颜值露脸在线观看| 亚洲av成人无码网站在线观看| 国产欧美成人不卡视频| 欧美爱爱网| 色综合激情网| 91小视频在线观看| 久99久热只有精品国产15| 精品一区二区三区中文字幕| 原味小视频在线www国产| 99尹人香蕉国产免费天天拍| 日韩成人在线网站| 中国成人在线视频| 亚洲天堂2014| 噜噜噜久久| 日韩欧美国产另类| 国产成人乱码一区二区三区在线| 婷婷成人综合| 亚洲嫩模喷白浆| 漂亮人妻被中出中文字幕久久 | 亚洲无码日韩一区| 在线观看av永久| 国产女人18毛片水真多1| 国产精品19p| 日韩最新中文字幕| 热久久综合这里只有精品电影| 亚洲av综合网| 国产成人精品一区二区三区| 精品一区二区三区四区五区| 精品福利视频网| 91青青视频| 国产综合精品一区二区| 国产你懂得| 欧美精品不卡| 亚洲精品日产精品乱码不卡| 欧美曰批视频免费播放免费| 试看120秒男女啪啪免费| 国模粉嫩小泬视频在线观看| 国内丰满少妇猛烈精品播| 重口调教一区二区视频| 日本高清在线看免费观看| 日本妇乱子伦视频| 国产最爽的乱婬视频国语对白| 国产久操视频| 福利在线不卡| 国产波多野结衣中文在线播放| 亚洲国产精品久久久久秋霞影院| 99在线视频免费观看| 久久女人网| 五月综合色婷婷| 国产日韩丝袜一二三区| 国产日韩久久久久无码精品| 国产18在线播放| 成人国产精品一级毛片天堂| 精品一区二区无码av| 波多野结衣亚洲一区| 日本国产一区在线观看| 亚洲欧洲自拍拍偷午夜色| 伊人久久精品亚洲午夜| 国产老女人精品免费视频|