999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于本體的詞匯語義傾向計算

2012-04-29 00:00:00鄧箴

摘要:詞匯傾向性計算是自然語言處理研究領域的一個新的熱點。詞語傾向性的判定是意見挖掘的基礎和重要環節。本文基于本體概念提出了一種詞匯語義傾向性計算的方法。實驗表明,本文的方法在漢語常用詞中的效果較好,詞頻加權后的判別率更高,具有一定的實用價值。

關鍵詞:本體語義傾向中文信息處理

0 引言

詞匯語義傾向性是近年來中文信息抽取領域研究中一個新的研究方向,它是一門交叉學科,涉及到信息檢索與計算語言學的領域,所產生的研究點來自意見挖掘。意見挖掘并不是針對文檔所談及的話題進行研究,而是對文檔表達的傾向性觀點,即肯定或否定的意見進行研究。

意見挖掘任務分為以下幾步:一是對文檔中的主觀性詞語或短語進行識別,二是對其進行傾向性的判定。三是結合其傾向性與句子結構來分析,獲得句子的對傾向性。四是獲得段落或篇章的傾向性。

詞匯傾向性是意見挖掘的基礎環節,目前已經受到研究人員的廣泛關注。

基于HowNet與基于同義詞詞林的詞匯語義傾向性分析法是目前已有的中文詞語語義傾向性分析法中最主要的兩類。

如復旦大學的朱嫣嵐等獲得新詞傾向性的方法是,在手工選定少量的基準詞后,利用HowNet來對新詞和基準詞的相似度進行計算。上海交大的婁德成等獲得新詞語義傾向性的方法是,通過手工進行HowNet包含的所有詞條的傾向性標注,并且由一定量的極性詞語組成種子集合最終形成褒貶詞語詞典,將不包含在詞典中的所有新詞進行新詞與種子集合中詞語的互信息計算。[1]北京大學的路斌等使用同義詞詞林,把種子詞匯擴展到更大的褒貶義詞集合。另外還有的進行詞語語義傾向性研究的方法是使用機器學習統計等。

現有的相關研究都取得了好的成果。但是,大部分的詞語都是具有唯一傾向性,只有少數的詞語在不同的語言環境中具有多傾向性。本文的主要內容就是建立本體詞庫在一定程度上分析這種情況。

1 本體詞匯構建

以本體為基礎組織的信息,可以通過各種知識表示方法如“產生式表示”“框架表示”“元組”等將其整合到知識庫中,該知識庫的特點是既可以對常識和領域知識進行存儲和處理,又可以進行詞語分類方面的處理。除此之外,有本次建立的詞匯還可以在Web環境下分布并保證唯一性、一致性、高效性,實現準確和高效的搜索。傳統的詞匯語義傾向計算缺乏實體之間的聯系,在知識表示方面存在不足。本體技術的引入,闡明了實體之間的聯系,有利于分析一些多傾向性詞的極性。

現今,本體在許多領域得到了廣泛應用,它在構件語義Web、語義理解、數據挖掘等方法有很重要的意義。本體是對研究對象在向量空間上的研究,將研究對象劃分后建立相對的元組,然后再進行分類研究。

在構建本體詞匯庫時,通過查找褒貶詞典來對詞庫進行擴種,按同義詞詞典進行語義群的分類,同一群內的詞語不能有不同的傾向性。

如昂揚、奮發、高昂、振奮為一個同義詞群,傾向性為褒義。敗北、鎩羽、失敗、失利、戰敗是一個同義詞群,傾向性為貶義。當處理的詞語不在褒貶義詞典內時,通過同義詞詞典查找其同義詞群,以同義詞群的傾向性作為該詞的傾向性,當褒貶義詞典內沒有要處理的詞語時,應通過同義詞詞典查找,該詞的傾向性與其同義詞群的傾向性相同,最終確定錄入本次詞匯中。

在傾向性研究中,本體旨在解決特征詞匯的細粒度劃分,以此為基礎解決話題傾向性細粒度劃分,以此為基礎來解決詞匯傾向性細粒度劃分。詞匯本體[2]是話題語料中的特征詞劃分的依據,為此必須收件建立詞匯本體。基于基本概念和角色概念建立本體[3]。正面詞匯分為喜、樂、贊、真、善、美;負面詞匯分為怒、哀、驚、假、惡、丑。以(P,V)二元組來描述詞匯本體中詞匯的極性(polarity)、傾向性程度(value)屬性(-1≤value≤1),正面詞匯值為證,負面詞匯值為負。例如,“暴怒”的屬性為(負面,-0.91),根據其上面概念可以確定詞匯的種類為“怒”。除此之外,還可以用詞性、高頻左右搭配詞、近義詞、反義詞等屬性來解釋詞匯本體中的概念和實例。這樣構件的本體詞匯就給出了詞匯傾向性的細粒度。

2 詞匯的語義傾向性計算

我們為每個詞匯都賦予一個語義傾向的度量值[4]。與基準詞語義關聯的緊密程度決定了度量值的大小。基準詞是一些具有代表性的褒貶詞。與褒義基準詞聯系緊密,它的褒義傾向就較明顯,反之,它的貶義傾向就比較強烈。

在上面設想的基礎上,所設計的方法如下:

假設由一個褒義詞和一個貶義詞組成一對基準詞,而這樣的基準側在文體詞庫中有k對,用k_l來表示褒義基準詞,k_m表示貶義基準詞,V(w)表示詞匯w的語義傾向值,,以0作為默認的閾值以0作為默認的閾值,最終傾向值大于閾值的為褒義,小于閾值的為貶義。V(w)數值的大小代表詞w的褒貶強烈程度。

詞w的語義傾向值計算公式如下:

V(w)=■Similarity(k_l,w)-■Similarity(k_m,w)

公式中Similarity(k,w)的計算是檢測詞與基準詞之間的傾向值。

3 實驗

實驗采用的測試集100個隨機從網絡文章中抽取的含有主觀評價性的文本。文章通過本校中文系同學手工獲取,包括經濟、政治、體育、娛樂等各個類型,相關度小是選取時注意的要點,從而保證了測試集的覆蓋范圍,測試結果也會更準確,更能體現實驗方法的普遍性。

挑選出測試并人工標注其中的主觀性詞語,將文本依次輸入系統,自己計算并標注其中的主觀詞,將兩者進行比較,比較結果如表1所示

實驗結果顯示,部分貶義詞被判定為褒義,造成貶義詞的詞語判定召回率較低。

例如:我覺得自己的行為太單純幼稚,女孩兒的眼神清澈又單純。而一個單純為貶義詞,第二個單純為褒義詞。因此,在不同的語言環境下,他們的褒貶不同就造成了上面方法的計算偏差。同樣,這也是本文后續的一個研究重點。

4 結論

本文采用了基于基準詞和本體詞庫的方法來進行語義傾向性的計算。該方法擴充了基準詞判定的范圍,并使用具體數值來表示詞匯語義的傾向程度。在對詞匯語義進行傾向性計算時,并沒有考慮到詞語所在的語言環境,這也是導致判定結果的一個重要原因。因此,考慮詞匯語言環境的傾向性分析將是本文下一步考慮的工作和研究點。

參考文獻:

[1]婁德成,姚天昉.漢語句子語義極性分析和觀點抽取方法的研究[J].計算機應用,2006,26(11):2622-2625.

[2]冉婕,謝樹云,黃吉亞.一種基于本體的概念相似度計算基于應用[J].微計算機信息,2012,28(2):50-52.

[3]崔其文,解福.改進的領域本體概念語義相似度計算方法[J].計算機應用與軟件,2012,29(2):173-174.

[4]李藝紅,蔣秀鳳.中文句子傾向性分析[J].福州大學學報(自然科學版),2010,38(4):504-508.

[5]朱嫣嵐,閩錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,20(1):14-20.

基金項目:寧夏大學科學研究基金資助項目(項目編號:ZR1122)。

作者簡介:

鄧箴,女,(1984-),河南三門峽人,助教,碩士,計算機應用技術,主要研究方向:數據挖掘、信息抽取、人工智能。

主站蜘蛛池模板: 天堂久久久久久中文字幕| 又爽又大又黄a级毛片在线视频| 成人久久18免费网站| 2021精品国产自在现线看| 午夜视频日本| 热久久综合这里只有精品电影| 一级全黄毛片| 一级毛片在线免费看| 欧美成人精品一级在线观看| 国产玖玖玖精品视频| 欧美一级在线| 国产黄色免费看| 99精品在线看| 亚洲女人在线| 亚洲无码视频喷水| 久久综合五月婷婷| 国产色婷婷视频在线观看| 777午夜精品电影免费看| 国产女人18毛片水真多1| 无码电影在线观看| 国产精品林美惠子在线观看| 波多野结衣一区二区三区88| 黄色网址手机国内免费在线观看| 天天综合色网| 色九九视频| 欧美中文字幕一区| 亚洲av无码专区久久蜜芽| 欧美中文字幕第一页线路一| 欧亚日韩Av| 久久久久国产精品免费免费不卡| 亚洲最大看欧美片网站地址| 亚洲精品大秀视频| 香蕉国产精品视频| 蜜桃视频一区二区| 天天综合网站| 国产国拍精品视频免费看 | 午夜a级毛片| 亚洲va欧美va国产综合下载| 伊人丁香五月天久久综合 | 国产乱码精品一区二区三区中文| 小说 亚洲 无码 精品| 狠狠综合久久| 亚洲人成人无码www| 国产色婷婷视频在线观看| 国产精品男人的天堂| 国产在线视频自拍| 欧美在线中文字幕| 日本a级免费| 久久精品日日躁夜夜躁欧美| 国产中文在线亚洲精品官网| 亚洲免费人成影院| 中文字幕自拍偷拍| 九九热这里只有国产精品| 国产精品播放| 国产精品护士| 99热免费在线| 精品精品国产高清A毛片| 99热这里只有精品5| 天天色天天操综合网| 亚洲首页在线观看| 久久久久88色偷偷| 一级高清毛片免费a级高清毛片| 精品无码一区二区三区电影| 一级毛片免费高清视频| 激情综合网址| 日本欧美午夜| 中文字幕亚洲乱码熟女1区2区| 亚洲天堂网在线观看视频| 成人一级免费视频| 成人午夜网址| 欧美一级99在线观看国产| 国产精品对白刺激| 亚洲无码高清一区二区| 一区二区偷拍美女撒尿视频| 日本AⅤ精品一区二区三区日| 国内精品久久九九国产精品 | AV在线天堂进入| 亚洲精品动漫| 亚洲无码精品在线播放| 欧美翘臀一区二区三区| 福利在线不卡一区| 一级全免费视频播放|