999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本蘊含問題簡介

2016-10-28 08:34:11唐帥李青
西部皮革 2016年18期
關鍵詞:單詞文本語言

唐帥,李青

(山東科技大學,山東 青島 266000)

?

文本蘊含問題簡介

唐帥,李青

(山東科技大學,山東 青島 266000)

文本蘊含是自然語言處理中的一個重要概念。本文對文本蘊含問題本身以及其研究現狀進行簡單的介紹。

人工智能;自然語言處理;文本蘊含

1 文本蘊含

文本蘊含(Textual Entailment)是自然語言處理(Natural Language Processing)中的一個重要概念。它描述的是兩個文本片段的有向性關系。當其中一個文本片段內容的真實性依賴于另外一個文本片段的真實性時,這種關系存在。文本蘊含沒有純邏輯蘊含(pure logical entailment)般的嚴謹性。非形式化地,如果一個閱讀某文本片段的人類讀者會推斷另外一個文本片段中的內容極可能是真實的,那么這兩個文本片段之間存在文本蘊含關系。可以記作:“t entails h” (t?h),其中t和h分別為蘊含和被蘊含的文本片段。文本蘊含關系是有向的。因為在t?h 成立的情況下,h?t 成立與否通常是不確定的。

文本蘊含在自然語言處理領域中的地位非常關鍵。因為它與自然語言的多樣性(variability)(比如同一個語義可以對應多種不同的具體表達方式)緊密相關,而如何處理語言的多樣性可謂自然語言研究領域中最大的難點。與此同時,有效處理自然語言的多樣性問題是自然語言諸多重要應用領域中取得突破的基礎。

2 RTE

人工智能與自然語言處理領域的研究者們越發意識到文本蘊含問題的重要性,RTE(Recognizing Textual Entailment)于2004年被作為一項一般性任務(generic task)被提出。自2004年到2013年,8界RTE挑戰(RTE Challenges)成功舉行,旨在為研究者們提供可以用來評估和比較他們的研究方法的具體數據集。歷年來RTE的主要組織者包括巴伊蘭大學(Bar-Ilan University),Fondazione Bruno Kessler 研究中心,美國國家標準與技術研究院(NIST),以及意大利的語言和通信技術評價中心(CELCT)。

3 解決文本蘊含問題的一個重要框架

在現階段,語言多樣化問題往往出現于一些實用性的系統中。而這些系統對語言多樣化問題的處理通常是建立在比較“膚淺(shallow)”的語義層面。這是因為基于邏輯的含義層面(meaning-level)的表示是難以實現的。然而缺乏一種不限于具體應用的通用性框架,來對語言多樣化進行建模。Ido Dagan等人在《PROBABILISTIC TEXTUAL ENTAILMENT: GENERIC APPLIED MODELING OF LANGUAGE VARIABILITY》一文中提出了一個膚淺語義層面的通用的語言多樣化模型,并將其實現為一個可以投入到多種應用的實用性引擎。這個模型被廣泛認可,并在很大程度上影響了人們對于文本蘊含問題的研究方法。

在文本蘊含的原始定義中,這種關系是確定性的。即t?h 要不成立,要么不成立。而在Ido Dagan等人提出的模型中采用了一種更加模糊的處理方法,給每一個文本蘊含實例分配一個概率,用以表示該文本蘊含關系成立的可能性。文章提出的重要概念如下:

樣板(template):一個文本片段(language expression)以及與之對應的句法分析。其中的一些次結構可以用變量來替代。這些變量可以是根據句法結構分類的。(比如詞類,詞性,或者依賴性解析(dependency parsing)中的關系類型。)

蘊含式樣(entailment pattern):一個蘊含式樣包括由共享變量域的一個蘊含樣板和一個被蘊涵樣板組成的結構,以及式樣相對應的概率(包括先驗和后驗)。例如:

X←subjbuyobj→Y?X←subjownobj→Y

推理機制:模型利用既有的蘊含式樣庫,通過不斷對其運用概率推理邏輯的方式以獲得更加龐大和復雜的文本之間的蘊含關系。推理模型中用到的核心推理規則如表1所示:

表1

其中第一條規則計算所有匹配的蘊含式樣中的最大概率。第三個第四條規則描述了兩種在不影響蘊含關系的前提下,將前提和結論分別組成更復雜的文本的方法。

4 常見的方法舉例

以下介紹一種比較有代表性的模型。

一種最簡單和直接的處理方式是基于兩個文本片段在詞法層面上的相似度來評估二者之間的蘊含關系。通常利用兩個文本片段中所含單詞的重疊程度(word overlap)來建立二者的相似度計算方法。一種可能的計算方法如下:

首先提取文本h中的單詞集合,以及其與文本t中單詞集合的交集。然后用加權處理(比如采用TF-IDF進行加權)過后的交集比上加權后的h中單詞的集合,以得到所考察的一對文本片段之間的單詞重疊度,從而基于這個重疊度對二者之間的蘊含關系做出評估。

[1]Dagan,I.,and Glickman,O.Probabilistic textual entailment: generic applied modelingof language variability[C].Grenoble,France: PASCAL Workshop on Learning Methods for Text Understanding and Mining,2004.

[2]Marco,P.,and Fabio,Z.Learning Shallow Semantic Rules for Textual Entailment[C].Borovets,Bulgaria: Recent Advances in Natural Language Processing,2007.

[3]Yongmei,T.,and Junyu,Z.BUPTTeam Participation[C].TAC Recognizing Textual Entailment,2011.

唐帥(1987-),男,漢族,山東臨沂人,山東科技大學在讀碩士研究生,研究方向:人工智能、自然語言處理。

李青(1991-),女,漢族,山東濟寧人,山東科技大學情報學在讀碩士研究生,研究方向:信息系統工程、智能數據分析與處理。

TN929.53

A

1671-1602(2016)18-0251-01

猜你喜歡
單詞文本語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
我有我語言
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 最新日韩AV网址在线观看| 欧美黑人欧美精品刺激| 黄色在线网| 亚洲天堂网在线播放| 99这里只有精品免费视频| 国产精品无码AV中文| 国产女人喷水视频| 国产精品青青| 国产女同自拍视频| 亚洲精品第一页不卡| 亚洲欧洲AV一区二区三区| 日韩欧美亚洲国产成人综合| 国产成人在线小视频| 综合天天色| 國產尤物AV尤物在線觀看| 国产小视频免费| 国产91小视频在线观看| 免费啪啪网址| 久久99精品久久久久纯品| 福利一区在线| 国产丝袜精品| 亚洲精品福利视频| 在线看免费无码av天堂的| 免费又爽又刺激高潮网址| 国产在线拍偷自揄观看视频网站| 美女国产在线| 2024av在线无码中文最新| 久久青草热| 国产欧美日韩另类| 人妻丰满熟妇AV无码区| 国产在线观看人成激情视频| 无码精品国产dvd在线观看9久| 小蝌蚪亚洲精品国产| a亚洲视频| 国产欧美日韩综合一区在线播放| 中国黄色一级视频| 最新国产成人剧情在线播放| 国产精品自在线拍国产电影| 拍国产真实乱人偷精品| 91久久精品国产| 午夜日b视频| 日韩成人在线一区二区| 欧美乱妇高清无乱码免费| 日韩国产一区二区三区无码| 亚洲性视频网站| 欧美亚洲香蕉| 国产精品毛片在线直播完整版| 一级毛片免费观看久| 色有码无码视频| 18禁黄无遮挡免费动漫网站| 好紧太爽了视频免费无码| 亚洲A∨无码精品午夜在线观看| 色婷婷综合激情视频免费看| 中文字幕日韩欧美| 被公侵犯人妻少妇一区二区三区| 99久久精品美女高潮喷水| 一区二区三区成人| 免费亚洲成人| 香蕉蕉亚亚洲aav综合| 毛片网站在线看| 国产欧美日韩综合在线第一| 日本国产精品| 中文字幕无码电影| 99在线观看免费视频| 国内精品视频在线| 五月丁香在线视频| 999国内精品视频免费| 亚洲三级影院| 久久综合一个色综合网| 欧美日韩在线亚洲国产人| 国产欧美日韩另类| 亚洲无码日韩一区| 日本欧美中文字幕精品亚洲| 最新国产网站| 伊人久久大香线蕉影院| 精品成人免费自拍视频| 国产成人夜色91| 性做久久久久久久免费看| 在线无码av一区二区三区| 午夜国产大片免费观看| 福利片91| 国产真实乱子伦视频播放|