999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多特征的漢泰雙語新聞主題句相似度計算

2018-03-02 17:32:56孫帥強郜洪奎
軟件 2017年9期

孫帥強+郜洪奎

摘 要:句子相似度的計算是自然語言處理領域中的重要研究課題,它在信息檢索、文本挖掘、機器翻譯等領域占有重要的作用。為提高漢泰雙語新聞主題句相似度計算的準確率,本文根據漢泰雙語新聞主題句的句式特點,提出了一種融合多特征的漢泰雙語新聞主題句相似度計算方法。在選取詞性、句法成分作為有效特征外,引入句子依存關系特征,并通過對不同的特征加不同的權重來調節各個特征對相似度計算的貢獻,從而使計算結果達到最優。與基于詞典的方法進行比較,實驗結果表明,該方法使得準確率提高了5.9%。

關鍵詞:漢泰雙語;新聞主題句;相似度計算;多特征融合;權重

融合多特征的漢泰雙語新聞主題句相似度計算

孫帥強 郜洪奎

摘 要:句子相似度的計算是自然語言處理領域中的重要研究課題,它在信息檢索、文本挖掘、機器翻譯等領域占有重要的作用。為提高漢泰雙語新聞主題句相似度計算的準確率,本文根據漢泰雙語新聞主題句的句式特點,提出了一種融合多特征的漢泰雙語新聞主題句相似度計算方法。在選取詞性、句法成分作為有效特征外,引入句子依存關系特征,并通過對不同的特征加不同的權重來調節各個特征對相似度計算的貢獻,從而使計算結果達到最優。與基于詞典的方法進行比較,實驗結果表明,該方法使得準確率提高了5.9%。

關鍵詞:漢泰雙語;新聞主題句;相似度計算;多特征融合;權重

0 引言

句子相似度是對句子間的相似性給出一個度量,其在自然語言處理領域占有很重要的地位。句子相似度的計算是信息檢索、機器翻譯、自動問答系統以及多文檔文摘等應用領域中的關鍵技術之一。目前,大多數的句子相似度研究都僅針對單語環境,主要包括基于編輯距離、基于詞和詞序、基于語義依存、基于框架語義分析、基于本體詞典或知網語義以及基于語義單元的句子相似度等計算方法。雙語環境下句子間的相似度由于語言之間的轉換會引入更多的噪聲,同時也需要使用更多的資源,使問題更為復雜。

目前,雙語句子相似度的計算方法主要有兩種:一種是利用雙語平行語料;另外一種是利用雙語詞典。基于平行語料的方法就是利用大規模的語料去統計貢獻的詞對或者在找出相似的句對的基礎上作詞語的替換,但是這種方法的準確性取決于語料庫的規模和質量;基于詞典的方法就是利用雙語詞典找出句子中互譯的詞對,雖然沒有基于平行語料那樣對大規模語料庫的依賴,但是基于詞典的方法會出現一詞多譯的現象。目前,面向英語、法語、德語、漢語等多種語言的句子相似度研究都得到了快速的發展,如張貫虹等利用詞典和詞向量空間模型計算漢蒙句子的相似度。Erdmann等人使用機器翻譯工具將源文本翻譯成目標文本所用的語言然后再使用單語言句子相似度算法計算英德兩者之間的句子相似度;Smith等人利用漢英之間的翻譯概率詞典,將所含的互譯詞對的個數作為相似性的度量。但關于漢泰雙語句子相似度的研究目前還不多見。因此,本文結合漢泰雙語新聞主題句的句式特點,提出了一種基于多特征的漢泰新聞主題句相似度計算方法。該方法融合了詞性、句法成分和句子依存關系三個特征,可以更全面、更準確地衡量漢泰句子之間的相似度。

1 漢一泰新聞主題句描述

新聞主題句是從新聞的核心事件中抽取得到,且概括了新聞發生的時間、地點、參與者等信息,是由中心詞(或者說觸發詞)及其連接起來的有約束作用的主要組成部分(如參與者、時間、地點等)構成。與一般的句子相比,新聞主題句更關注的是事件的發生時間、地點、人物等要素。所以漢泰雙語新聞主題句相似度的計算不僅要考慮一般句子相似度計算,還要考慮加入句子中心詞以及和中心詞有聯系的事件要素的相似度計算。

根據Web新聞特點,新聞主題句的句法比較固定的使用主謂賓的形式,而漢泰兩種語言的主干成分的語序在句式上基本一致。下面的一個例子是從漢泰雙語新聞中抽出來的一個平行的新聞主題句對,標有特殊字體的是句子的主干,相同的特殊字體代表互譯,兩個句子的主干都符合S+V+B的句式:

中文句子:中國首架極地固定翼飛機成功飛越南極最高區。

泰語句子:

2 基于漢泰新聞主題句不同特征的相似度計算

通過對新聞主題句的深入分析,并結合漢泰的句式特點,我們提出了一種基于多特征的漢泰新聞主題句相似度計算方法,選擇詞性、句法成分和句子依存關系三個特征,分別計算他們的相似度。基于多特征的新聞主題句相似度計算方法框架如圖1所示。下面分別對基于這三個特征的主題句相似度的計算方法進行具體描述。

2.1 詞性相似度計算

詞性表示詞所屬的類別,是語言的基本結構。詞性的不同往往引起詞義和作用的不同。如下面兩個句子:

句子1:中國召開了“兩會”,為未來的發展指明了方向。

句子2:“兩會”的召開,為未來的發展指明了方向。

在上述例子中,“召開”一詞在兩個句子中的詞性不一致,句子1中是動詞,作謂語;句子2中為名詞,作主語。因此可以看出,詞性的不一樣導致了兩個詞在句子中所起的作用也不一樣。

新聞的主題句就是對新聞所報道的事件的一個全面的概括,基本上涵蓋了新聞事件的所有要素。所以在漢泰新聞主題句相似度計算時,我們更關注的是句子中所含有的實體要素和句子的中心詞。所以我們在計算漢泰新聞主題句同性相似度的時候只選擇句子中的表示時間的詞性(t)、名詞詞性(N)、和動詞詞性(V)來做詞性的相似度。計算公式如下所示:其中,cn、ct、cv分別表示中文句子分詞后詞性為名詞、時間詞和動詞的數量;vn、vn、vv。分別表示泰語句子分詞后詞性為名詞、時間詞和動詞的數量。相似度中除以3是對詞性的一種平滑。

2.2 句法成分相似度計算endprint

漢語和泰語都是基于語義的句子,并且在Web新聞中,主題句一般采用比較通用的主謂賓的句式。在這種句式中,漢泰雙語在句法和句子成分方面一致的。所以在相似的漢泰新聞主題句中,句子成分也是有著很大的相似性。根據這個特點,我們在計算漢泰雙語新聞主題句相似度的時候,將雙語句子的句子成分考慮在內。

經過對漢泰雙語的新聞主題句的句法分析,我們可以得到雙語句子的各個句法成分信息。根據分析,本文選取了主謂、動賓、定中、狀中和動補這五大類句法成分信息,并且用向量來表示這五大類句子成分在句子中出現的次數,叫做句法成分向量。并且用求余弦夾角的方法求出兩個句子的句子成分向量的相似度。

例如:

句子1:世界經濟增長的重要推動力量是中國。

句子2:(中國依然是世界經濟增長的重要推動力量)。

對句子1和2經過句法分析后,可以得到句子1和2成分關系向量分別為: A1[2,2,2,1,0],A2[2,2,2,2,0]。句子l和2成分關系向量的余弦相似度計算公式如下所示:

帶入向量A1和A2,最后得到句子l和句子2的句法成分相似度為0.97。

2.3 句子依存關系相似度計算

在句子中,每一個詞并不是獨立存在的,它們每一個的存在都具有語法意義上的作用。所以在句子相似度的計算過程中,利用句子中的詞語和他們之間的依存關系可以更好的去表征兩個句子之間的相似度。基于此我們對漢泰雙語的新聞主題句進行句法分析,中文句子利用哈工大的LTP平臺進行句法分析‘14],泰語句子利用昆明理工大學智能信息處理重點實驗室的句法分析工具。下邊的例子是利用上述的工具分別對漢泰句子進行句法分析,結果如圖2、圖3所示:

通過上面對句子的句法分析我們可以發現,無論是漢語句子還是泰語句子,都有一個在句法中被稱為ROOT的詞語來串聯整個句子,其他的詞語都是圍繞這個詞來進行修飾描述的,我們稱這個詞為根項。其他的詞有些和根項直接關聯,有些不直接和根項直接關聯,我們統稱為非根項。在非根項中我們選擇和根項有主謂、謂賓關系的詞語作為直接項,再從剩余的詞語中選擇實體詞,即時間、地點、人物作為非直接項。

下面,采用巴克斯范式(BNF范式)形式化定義漢泰主題句。

主題句::=<非直接項×直接項><根項>

非直接項::=<時間×地點><人物><動作>l<時間><地點><人物>l<時間><地點×動作>l<時間><人物><動作>l<地點><人物><動作>l<時間><地點>l<時間><人物>l<時間><動作>l<地點><人物>l<地點><動作>l<人物><動作>l<時間>l<地點>l<人物>l<動作>

直接項::=<對象1><對象2>l<對象1>1<對象2>

<時間>::=時間表示格式

<地點>::=地點表示格式

<人物>::=人物表示格式

<對象1>:=可表示為人物或者地點

<對象2>:=可表示為人物或者地點

直接項和非直接項中的人物、地點等實體是可以重復的。利用上述范式表示,例子中的中文句子可以表示成{中國,南極,飛機,最高區,飛越};泰語句子可以表示成

通過上述范式表述,將漢泰新聞主題句表述成向量模式,即:

主題句={直接項,非直接項,根項}

轉換為數學表達式為:

其中,o表示人物實體,f表示時間實體,,表示地點實體,v表示動作要素,o1和o2表示根項中人物、地點實體,廠表示非直接項,z表示直接項,r表示根項。

公式(3)給出了漢泰雙語主題句的依存關系表示模型,下邊就是為每個維度賦值,我們采用以下策略:

(1)初始化向量:將對應的句子成分映射到公式(3)所示的向量空間模型中,若對應的維度上有實體我們就將權值置為1,否則置為0。

(2)調節泰語句子權重:若sv和sc,對應維度上的初始權重不都是1我們不需要調節;針對權重都是1的維度我們采用相似度方法來調節,對于時間要素若是相差一天之內我們將泰語句子的權重置為0.5,若是相差大于一天我們將泰語權重置為0。具體相似度的計算方法是借助維基百科中的概念可以表征詞語的特性,用維基百科中的概念作為向量空間,對詞語進行向量表示。

通過以上兩個步驟我們可以得到漢泰和泰語句子的依存句法向量,然后利用向量之間的余弦相似度計算兩個句子的依存句法相似度,如下式所示:

2.4 漢泰雙語新聞主題句計算

綜合以上三個方面的特征,給出如下具有多特征的漢泰雙語新聞主題句相似度的計算公式如下:

其中,α、β、γ分別是區分度的權重,取值都在o到1之間且α+β+γ=l。我們的目標函數是尋找一組可能的參數組合α,β,γ,在隨后的相似度計算評價函數中,使準確率的指標值達到最大。我們人工選取了100對相似的漢泰新聞主題句,采用遺傳算法求權重,根據經驗取適當的代數,經過多次迭代選優,找jL}{參數的最佳組合。最后我們取α=o.15,β=0.35,γ=0.5。

3 實驗與結果分析

3.1 實驗數據集

對于新聞語料的來源,本文選取了主流的180個中文門戶網站和20個論壇,以及125個不同專題的泰語網站。中文新聞包括人民日報、新華社、門戶網站,泰語網站也以每日新聞、早報、芭堤雅新聞在線等核心平臺為主。

本文從爬取到的漢泰新聞語料中抽取出2487個句子,其中有2000個句子是噪音句子,構成噪音集,沒有類別區分;另外487個句子構成標準集,它們分屬于軍事、體育和社會政治三個大類,各個大類別中含有157、145、185個句子。在句子處理過程中,中文分詞使用中科院的分詞工具ICTCLAS3.0,中文的語法分析利用哈工大的語言技術平臺云LTP。泰語的分詞、詞性標注均采用昆明理工大學智能信息處理實驗室開發的工具,實驗時我們把標準集和噪聲集混到一塊進行試驗。具體的實驗語料如表1所示:

3.2評價指標

本文采用準確率(Precision)來進行評價本文方法的性能.

3.3 實驗結果對比與分析

將本文提出的基于多特征的漢泰新聞主題句相似度計算方法與基于詞典的雙語句子相似度計算方法進行對比,對比試驗結果如表2所示:

實驗結果顯示兩種方法在體育和軍事這兩個類別下的準確率都不及社會政治,原因是這兩個類別下的新聞報道在書寫方面都沒有社會政治類別規范,尤其是體育類別中經常會出現各種人名,在分詞過程中很容易分錯;軍事領域中許多的武器介紹,武器名字也會在分詞的過程中錯誤分掉。

雖然兩個方法在不同的領域有著不同的問題存在,但是還是能看出來本文提出的基于多特征的漢泰新聞主題句相似度計算方法在三個領域中的準確率都要高于基于詞典的雙語句子相似度計算方法,平均準確率更是高于基于詞典的方法。所以說本文提出的基于多特征的漢泰新聞主題句相似度計算方法是可行的。

4 結語

本文通過分析漢泰雙語新聞主題句的特點,選取了漢泰新聞主題句的三個特征,即詞性特征、句子成分特征和句子依存關系特征,并通過對不同的特征加不同的權值來調節各個特征對相似度計算的貢獻,進而提高漢泰新聞主題句的相似度。實驗結果表明,該方法是有效可行的.下一步以融合更豐富的語言特征以及語義特征,進一步提高漢泰新聞主題句的相似度的準確率。endprint

主站蜘蛛池模板: 亚洲日本一本dvd高清| 99re热精品视频国产免费| 99视频在线免费| 日本不卡视频在线| 四虎永久在线视频| 中字无码精油按摩中出视频| 在线精品视频成人网| 毛片久久久| 国产办公室秘书无码精品| 国产成人8x视频一区二区| 国产成人高清在线精品| 久久青草免费91线频观看不卡| 欧美激情视频二区| 欧美一区二区自偷自拍视频| 91偷拍一区| 成·人免费午夜无码视频在线观看| 国产人人射| 国产精品冒白浆免费视频| 综合成人国产| 久久99这里精品8国产| 九九九久久国产精品| 欧美伊人色综合久久天天| 国产一级在线播放| 无码高潮喷水专区久久| 亚洲日韩Av中文字幕无码| 亚洲欧州色色免费AV| 国产欧美日韩资源在线观看| 日韩视频福利| 高清无码手机在线观看| 黄色一级视频欧美| 欧美综合一区二区三区| 欧美精品色视频| 中文字幕永久在线看| 亚洲大尺码专区影院| 国产精品无码制服丝袜| 婷婷六月天激情| 国产精品xxx| www.91在线播放| 国产午夜不卡| 国内精品视频在线| 狠狠色噜噜狠狠狠狠色综合久| 欧美日韩一区二区三| 久久99蜜桃精品久久久久小说| 亚洲伦理一区二区| 污污网站在线观看| 亚洲精品午夜无码电影网| 久久精品亚洲热综合一区二区| 91久久国产综合精品| 国产精品性| 狠狠五月天中文字幕| 2021国产精品自产拍在线| 亚洲天堂网视频| 区国产精品搜索视频| 国产又大又粗又猛又爽的视频| 精品国产99久久| 欧美色视频在线| 亚洲成人在线免费观看| 中国一级毛片免费观看| 欧美综合成人| 欧美亚洲激情| 一级毛片免费观看久| 天天色综网| 欧美精品v| 亚洲欧美一级一级a| 国产黄在线免费观看| 999精品在线视频| 综合色88| 真实国产乱子伦视频| 亚洲中字无码AV电影在线观看| 99re热精品视频中文字幕不卡| 视频一区亚洲| 亚洲精品波多野结衣| 免费人成在线观看视频色| 欧美午夜视频在线| 午夜爽爽视频| 国产原创自拍不卡第一页| 亚洲成人精品久久| 永久免费av网站可以直接看的 | 国产美女精品一区二区| 本亚洲精品网站| 天天躁夜夜躁狠狠躁图片| 日本少妇又色又爽又高潮|