999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏語單句相似度計算模型研究

2016-05-14 14:40:19李成龍多拉
中國科技縱橫 2016年6期

李成龍 多拉

【摘 要】句子相似度計算在藏文信言處理的各個領域中都是很重要的。本文從藏語句子的多個角度分析句子的相似性,利用藏語句子的特征結構,結合詞形、詞序、相似單元夾角和詞性來計算藏語句子的相似度,從幾個方面最終計算藏語句子的相似度。實驗結果表明,該計算方法合理、簡便、可行。

【關鍵詞】詞性 詞序 藏語句子 自然語言處理

1 引言

在自然語言處理領域,尤其在藏文信息處理中,藏語句子相似度的計算是一項基礎性較強的研究課題。長期以來一直是人們研究的一個熱點和難點,直接決定著藏語信息處理領域的發展。如:基于實例的機器翻譯、基于語料庫的藏語教學系統、自動問答系統、藏文信息檢索等研究中,藏語單句的基本句型研究對計算機語句處理具有重要的理論意義,使計算機對藏語句法分析的重要基礎和前提。之前,對藏語句子相似度有些研究,安見才讓老師寫的《藏語句子相似度算法的研究》提出了采用散列單詞倒排索引和基于句長相似度粗選的算法。于洪志老師在《基于藏語句多特征融合的主觀題自動評分算法》中提出了一種藏語句多特征融合的主觀題自動評分算法,構建了關鍵詞詞形相似度計算模型、詞序相似度計算模型、句子長度相似度計算模型和句子語義相似度計算模型。

隨著藏語語料庫語言學的興起,藏漢語語料庫的建立也是一個基礎研究項目,給予我們研究藏文信息處理領域的一個好的平臺。其基本原理是:當輸入一個待翻譯的藏語句子時,系統自動從藏漢雙語實例庫中搜索到最相似的句子,再以該句子的譯文為查詢對象,查找出與藏語句子相對應的漢語句子。句子相似度的研究是很重要的一個研究項目,其直接影響到信息的檢索和翻譯的正確性等很多領域。

2 句子相似度模型

2.1 詞形相似度

藏語句子的構成是以動詞為核心,其語序常態是“ 施事— 受事— 動作” 的格局。詞形相似度是比較輸入句子和查詢句子相似單元的長度。相似單元為輸入句子與查詢句子中的每個單元相匹配,尋找到相同的匹配單元。即SameWC(A和B)表示句子A和B中相似單元的長度,Len(A),Len(B)為句子A,B的長度,即長度是一個句子中相同的詞和標點符號,為了方便于計算也可以忽略標點符號。當相同單元在某個句子中出現的次數較多時,以出現次數少的句子來計算。

例1:

WordSim(A和B)表示句子A和B的詞形相似度,由公式(1)來表示:

WordSim(A和B)=2×SameWC(A和B)/len(A)+len(B).(0≤WordSim(A和B)≤1) (1)

該兩個句子的相似度值SameWC(A和B)=2×5/(6+7)=0.769。

2.2 詞序相似度

詞序相似度是兩個句子中含有相同詞在位置關系上的相似程度。要考慮到一個句子的有序度和無序度。Match(A,B)表示在句子A和B當中都出現并且都只出現過一次的相似單元的集合,用Order(A,B)表示句子A中有序的相似單元,句子B中所確定的相似單元被打亂的程度,就是無序度,用Entropy(A,B)表示。句子A,B的詞序相似度有公式(2)來表示:

,在句子A中,各相似單元排列順序的相鄰關系為,2-3,3-4,4-5,5-6,6-7,在這個句子中沒有被打亂的相鄰關系,即Entropy(A,B)=0,Order(A,B)表示句子B中各相鄰最大匹配頂點的有序度。在句子B中有序項為,2<3、3<4、4<5、5<6、6<7,Order(A,B)=5.

2.3 相似單元夾角相似度

計算句子相似度時,有些句子詞形、詞序、句子長度方面都相同,在輸人句子中位置相鄰的兩個相似單元在實例句子中被非相似單元的匹配單元間隔開來(排列順序不變),此中間隔成為相似單元夾角。AngleNum(A,B)為相似單元夾角的個數,AngleSize(A,B)為所有夾角中間匹配單元的個數。由公式(3)為:

比較規則:兩個藏語句子的詞類序列,結合詞類的權值信息,對兩個句子從詞的最左邊起始位置開始,依次進行比較,如果詞性相同,就匹配,得到最優的匹配結果,即最后的結果使兩個待比較句子的詞類序列相似度值最大。eword表示詞性匹配的總數目,psmatchcount表示兩個比較的句子中分詞較少的句子的詞個數,如果其中有一個句子的所有詞都比較完了,則整個比較就結束。

上面2個句子表達的意思完全不同,其中的詞匯也相異但是句法結構是一致的。所以這個兩個句子結構相似度的值為1.假如兩個句子的結構完全不相同,句子相似度的值等于0。

2.5 句子相似度

綜合考慮詞形、詞序、相似單元夾角相似度、詞性相似度的計算,給出述下多特征的藏語句子的綜合相似度計算模型。

Zsim(A,B)= WordSim(A,B)+ OrderSim(A,B)+ Angle(A,B) pswsim(A,B)其中 分別是各類計算的權重, =1(0≤ ≤1,0≤ ≤1,0≤ ≤1,0≤ ≤1).各區分度的權重是可以調節的,考慮到各區分度對相似度的值得貢獻大小,因此取 ,突出了詞性在句子中的作用,其權重大。

3 算法流程圖

算法流程圖1所示:

4 實驗結果及分析

該實驗中,我們采用了由西北民族大學多拉老師提供的語料庫。該語料庫中共找出1000個藏語句子,并已經完成了詞語切分和標注。下面列出部分句子實例。

在上面的句子中,nr,vj,nn等是詞類標記或者是短語類型標記。在目前的實驗中,我們從句子集中選取了一些句子作為輸入句子(源句子)。分別在語料庫中查找與之結構相似的句子,并且按照相似度從大到小排序。由于篇幅限制,表1列出了部分計算結果。

在表1中可以看出實驗結果,做實驗的過程中能夠把完全相似或整個相似的句子從預料當中找出來,系統會給出一個從0到1之間的一個值。藏語句子相似性的判斷,并沒有一個標準,只是一個模糊的概念。所以,我們并不能非常準確地用一個確定的數字來表示它們的相似性,只能把上述相似度值,看作是一個相對的概念,反應相似的趨勢。

5 結語

藏語句子相似度的計算在基于實例的藏漢機器翻譯,信息檢索等領域中有著舉足輕重的地位。本文從詞的角度出發,從相同詞的相似度、詞序相似度、詞性相似度三個方面綜合考慮了兩個句子相似度,它們所體現的信息都是不一樣的,從幾個方面考慮計算最終的藏語句子的相似度。實驗結果表明,該計算方法合理、簡便、可行。

參考文獻:

[1] 王榮波,池哲儒.基于詞類串的漢語句子結構相似度計算方法[J].中文信息學報,2005(01).

[2] 安見才讓.藏語句子相似度算法的研究[J].中文信息學報,2011(4).

[3] 于洪志,夏建華,萬福成,陳新一.基于藏語句多特征融合的主觀題自動評分算法[J].計算機工程與應用,2014(5).

[4] 吐爾遜阿依·阿不來提.基于詞典的維吾爾語句子相似度研究[J].電子制作,2014(13).

[5] 李春梅,徐慶生.基于多特征的漢語句子相似度計算模型的研究[J].計算機技術與發展,2014(6).

[6] 呂學強,任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學學報(自然科學版),2003(6).

作者簡介:李成龍(1982—),男,藏族,甘肅天祝人,西北民族大學在讀碩士,主要從事藏文信息處理研究。多拉(1967—),男,藏族,青海海南人,西北民族大學博士、教授,主要從事語言學及應用語言學、藏文信息處理教學與研究。

主站蜘蛛池模板: 国产精品观看视频免费完整版| 免费观看亚洲人成网站| 国产在线91在线电影| 日韩毛片在线播放| 国产一级二级三级毛片| 国产一级二级在线观看| 国产成人综合亚洲欧美在| 欧美五月婷婷| 成·人免费午夜无码视频在线观看| 99久久国产综合精品女同| 日韩精品无码免费专网站| 国产手机在线小视频免费观看| 欧美第一页在线| 亚洲丝袜中文字幕| 亚洲国产91人成在线| 国产成年女人特黄特色大片免费| 国产成人精品一区二区三区| 精品无码一区二区在线观看| 无码电影在线观看| 1769国产精品视频免费观看| 国产精品美人久久久久久AV| 日韩无码真实干出血视频| 特级精品毛片免费观看| 亚洲国产综合第一精品小说| 色婷婷综合激情视频免费看| 国产农村精品一级毛片视频| 国产美女一级毛片| 日韩精品无码免费一区二区三区 | 久久人人妻人人爽人人卡片av| 欧美综合在线观看| 中文天堂在线视频| 亚洲九九视频| 原味小视频在线www国产| 亚洲国产午夜精华无码福利| 在线播放真实国产乱子伦| 国产麻豆aⅴ精品无码| 深夜福利视频一区二区| 久久精品亚洲热综合一区二区| 国产在线观看99| 色综合天天娱乐综合网| 国产XXXX做受性欧美88| 欧洲成人免费视频| 日韩黄色在线| 国产一级裸网站| 色偷偷一区| 沈阳少妇高潮在线| 欧美成人午夜在线全部免费| 久久人人97超碰人人澡爱香蕉 | 国产白浆在线| 国产高颜值露脸在线观看| 日韩欧美中文| 日韩欧美一区在线观看| av在线手机播放| 免费人成视频在线观看网站| 日韩不卡高清视频| 伊人久综合| 91精品啪在线观看国产| 99久久精品免费看国产电影| 99热这里只有精品在线播放| 国产欧美日韩在线一区| 国产精品欧美在线观看| 99久久国产综合精品2023| 91精品视频网站| 91精品国产情侣高潮露脸| 国产精品熟女亚洲AV麻豆| 亚洲日韩图片专区第1页| 在线免费不卡视频| 华人在线亚洲欧美精品| 亚洲精品国产日韩无码AV永久免费网| 亚洲美女一级毛片| 黄色三级网站免费| 亚洲国产精品一区二区高清无码久久| 国内精品久久人妻无码大片高| 99久久精品国产麻豆婷婷| 天堂中文在线资源| 亚洲欧州色色免费AV| 亚洲第一成人在线| 2021国产精品自拍| 无码网站免费观看| 国产成人一二三| 免费在线一区| 五月天在线网站|