999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量數據機器單詞中關鍵語義篩選方法研究

2017-04-10 20:38:56渠新峰
現代電子技術 2017年6期
關鍵詞:單詞

渠新峰

摘 要: 為了提高機器單詞翻譯的準確性,需要進行關鍵語義篩選和特征提取,故提出一種基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。首先構建海量數據機器單詞的文本語義主題詞概念決策樹模型,采用語義信息轉換方式計算機器單詞中關鍵語義的利用規則、聚類中心等信息參量;然后采用主題詞表自然語義信息抽取方法進行語義評估和翻譯可靠性測試,實現關鍵語義自動篩選控制;最后進行仿真測試。結果表明,采用該方法進行機器單詞中關鍵語義篩選, 提高了文本機器翻譯的自適應配準能力,翻譯的準確性得到有效提高。

關鍵詞: 海量數據; 機器翻譯; 單詞; 語義篩選

中圖分類號: TN911?34; TP391.1 文獻標識碼: A 文章編號: 1004?373X(2017)06?0018?03

Abstract: In order to improve the accuracy of machine translation of words, the key semantic screening and feature extraction are needed. Because of this, a method of the key semantic screening of the massive data machine words based on thesaurus natural semantic information extraction is proposed. The thesaurus concept semantic decision tree model of the massive data machine words is build. The semantic information conversion mode is used to calculated the key semantic utilization rules of machine words and the information parameters of clustering center. The thesaurus natural semantic information extraction method is adopted to conduct semantic translation evaluation and reliability testing for realization of the automatic control of key semantic selection. The simulation test results show that the method has improved the adaptive ability of the text machine translation, and the accuracy of the translation effectively.

Keywords: massive data; machine translation; word; semantic screening

0 引 言

在大數據信息時代,需要采用機器翻譯處理大量的文字數據信息,為了提高對海量文本數據的機器翻譯的準確性,需要對機器單詞的關鍵語義進行準確的特征篩選,把握機器單詞的關鍵信息,提高對機器翻譯的面向對象性和人機交互能力。機器翻譯模型分為三個層次,分別為局部語義聚類[1?2]、語義情感分析[3]和表現模型。其中數據模型提供機器單詞翻譯的數據來源,作為原始語言的文本輸入,通過與翻譯對象的某個領域相關的數據集合分類,進行程序控制,實現領域本體模型構建;基于語義度量的RDF圖近似查詢[4],在語義模型中形成機器翻譯的概念匯聚點,根據語義集合概念之間的上下層關系,進行語義轉換和信息抽取實現語義篩選后的機器翻譯輸出。本文針對當前的關鍵語義篩選方法的控制性不好和準確性不好的問題,提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。

1 海量數據機器單詞的文本語義主題詞表模型

1.1 文本語義主題詞的決策樹

為了實現對海量數據機器單詞中關鍵語義篩選,首先構建海量數據機器單詞的文本語義主題詞表模型,構建文本語義主題詞概念語義度量決策樹[4],根據L. Breiman,J. Friedman等人提出分類和回歸樹的思想[5?6],引入二叉分類回歸決策樹,構建機器翻譯的語言評價集,對海量數據機器單詞進行主分量特征優化處理。假設語言評價集β[∈][0,T]為抽取類型性特征向量集S的主特征量。其中T為海量數據機器單詞評價集S中元素的個數,數據集主特征向量β可由函數[Δ]表示為一個二元語義分布的決策樹模型,有:

2 關鍵語義篩選改進

2.1 關鍵語義的利用規則計算

在上述進行了文本語義主題詞概念集的基礎上,進行海量數據機器單詞中關鍵語義篩選方法改進設計,提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法,采用語義信息轉換方式計算機器單詞中關鍵語義的利用規則、聚類中心等信息參量[9],令[A=a1,a2,…,an]為主題詞表覆蓋表達概念的訓練集的屬性集,[B=b1,b2,…,bm]為文本中抽取的特征詞的類別集,[ai]的語義特征抽取的屬性值為[c1,c2,…,ck],得到主題詞表的關鍵語義篩選的匹配信息表達式為:

2.2 關鍵語義自動篩選實現

采用主題詞表自然語義信息抽取方法進行語義評估和翻譯可靠性測試,實現關鍵語義自動篩選控制,在實現關鍵語義篩選的算法設計之前,給出形式概念定義。

定義 形式概念(formal concept):設E是形式背景中的語義特征集合O的一個子集,定義[fE∶={AA|OE,ORA}](表示E中連接兩個主題詞的形式概念集);相應的,設I是屬性集合A的一個主題詞表子集,定義[gI∶={OO|AI,ORA}](表示關鍵語義篩選查找屬性集的集合)。

若(E1,I1),(E2,I2)是海量數據機器單詞翻譯集合K=(O,A,R)上的兩個概念,根據偏序關系取出文檔中的主題詞,如果有概念C2≤C1,每條有向邊的距離滿足C2≤C3≤C1,構建語義特征概念格,選擇相似度最小的連接節點對(E,I)進行語義篩選,得到關鍵語義篩選的連通圖如圖2所示。

根據上述定義和關鍵語義篩選的連通圖設計,得到關鍵語義自動篩選的算法如下:

輸入:所有海量數據機器單詞的屬性主題詞集

輸出:形式關鍵語義篩選結果

BEGIN

Context = NEW relationship among parameters;

//初始化輸入參數集,生成可選的組合方案

Attr = NEW ontologies;

//初始化屬性集,進行參數間的語義匹配

Text = NEW Web service []; //輸入參數映射

//依次處理每個輸出參數概念,進行關鍵語義篩選的動態匹配

FOR(int i=0; i< Situation; i++){

FileRihfer(Tfevdt[i]);

Obj = NEW RinsinList; //使用一階謂詞邏輯

//查找屬性集Attde的一個翻譯序列或歷史子任務

IF(characteristic similarity r IS NOT EMPTY){

FOR (int j=0;j

Obj.wfhi(j,"0");

}

} }

//規則屬性轉換成PDDL謂詞,或添加新的屬性,實現關鍵語義自動篩選控制

END

3 實驗測試分析

對海量數據機器單詞關鍵語義篩選的仿真實驗建立在開源代碼為Heritrix的環境中,其中操作系統:Windows XP,機器單詞庫源于Google AJAX seArch AP,利用實際采集的單詞信息數據構建海量數據機器單詞的特征詞集合完整概念格如圖3所示。

從圖3自頂向下觀察概念格可知,采用本文方法進行語義篩選,每一個機器單詞的特征詞集合的父概念都包含了子概念的對象,說明采用本文方法進行語義篩選具有完備性,能有效覆蓋機器單詞翻譯的概念集。為了定量測試本文方法進行機器單詞關鍵語義篩選的性能,抽取主題詞表的機器單詞語義對共2 800對,采用本文方法和傳統方法進行測試分析,參數設定自定義語義特征同義詞的判定閾值為0.23, 相似度值大于0.1,得到篩選的查準率對比結果如圖4所示,從圖4得知,采用本文方法進行海量數據機器單詞的關鍵語義篩選的查準率較高,性能較好。

4 結 語

本文研究了海量數據機器單詞的優化翻譯問題,提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。實驗結果表明,采用本文方法進行機器單詞中關鍵語義篩選,查準率指標表現較好,說明能有效提高機器翻譯準確性。

參考文獻

[1] 辛宇,楊靜,湯楚蘅,等.基于局部語義聚類的語義重疊社區發現算法[J].計算機研究與發展,2015,52(7):1510?1521.

[2] 冶忠林,楊燕,賈真,等.基于語義擴展的短問題分類[J].計算機應用,2015,35(3):792?796.

[3] 吳江,唐常杰,李太勇,等.基于語義規則的Web金融文本情感分析[J].計算機應用,2014,34(2):481?485.

[4] 章登義,吳文李,歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學報,2015,43(7):1320?1328.

[5] 孟祥福,嚴麗,馬宗民,等.基于語義相似度的數據庫自適應查詢松弛方法[J].計算機學報,2011,34(5):812?824.

[6] 寇月,申德榮,李冬,等.一種基于語義及統計分析的Deep Web實體識別機制[J].軟件學報,2008,19(2):194?208.

[7] HERRERA F, HERRERA?VIEDMA E, MARTINEZ L. A fusion approach for managing multi?granularity linguistic terms sets in decision making [J]. Fuzzy sets and systems, 2000, 114(1): 43?58.

[8] 舒婷,劉泉,艾青松,等.基于梯形模糊數與二元語義需求權重確定方法[J].武漢理工大學學報,2011,33(12):111?114.

[9] STOEAN C, PREUSS M, STOEAN R, et al. Multimodal optimization by means of a topological species conservation algorithm [J]. IEEE transactions on evolutionary computation, 2010, 14(6): 842?864.

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
主站蜘蛛池模板: 色窝窝免费一区二区三区 | 国产成人夜色91| 免费高清a毛片| 亚洲国产欧美自拍| 亚洲精品中文字幕无乱码| 亚洲一区二区在线无码 | 日本欧美视频在线观看| 免费人成网站在线观看欧美| 色有码无码视频| 日韩无码视频播放| 中文字幕在线视频免费| 日本人妻一区二区三区不卡影院 | AV无码一区二区三区四区| 国精品91人妻无码一区二区三区| 人人妻人人澡人人爽欧美一区| 人妻一区二区三区无码精品一区| 成人综合在线观看| 99久久精品国产自免费| 香蕉视频在线观看www| 欧美激情视频一区| 午夜性爽视频男人的天堂| 国产91成人| 日本黄色a视频| 国产精品毛片一区视频播| 中文字幕永久视频| 一区二区日韩国产精久久| 亚洲天堂啪啪| 丁香婷婷在线视频| 自慰网址在线观看| 欧美 国产 人人视频| 国产喷水视频| 亚洲国产日韩欧美在线| 人妻夜夜爽天天爽| 首页亚洲国产丝袜长腿综合| 欧美一级高清视频在线播放| 美女免费黄网站| 国产精品久久久久久久伊一| 2021亚洲精品不卡a| 国产综合欧美| swag国产精品| 亚洲成人网在线播放| 国产白浆视频| 美女视频黄又黄又免费高清| 福利在线不卡| 国产主播喷水| 欧美在线一级片| 日本黄色a视频| 国内丰满少妇猛烈精品播| www.91在线播放| 国产91小视频在线观看| 国产精品视频3p| 婷婷色婷婷| 国产成人艳妇AA视频在线| 久久久久久久蜜桃| 亚洲午夜18| 欧美一区二区三区国产精品| 欧美五月婷婷| 日韩在线视频网站| 亚洲成人网在线观看| 亚洲欧美极品| 天天做天天爱夜夜爽毛片毛片| 中文字幕第1页在线播| 国产精品三级av及在线观看| 亚洲欧美另类日本| 久久这里只有精品8| 丁香五月婷婷激情基地| 中文字幕精品一区二区三区视频| 99久久精品国产麻豆婷婷| 热久久综合这里只有精品电影| 中国国产A一级毛片| 57pao国产成视频免费播放| 亚洲一级毛片| 极品国产在线| www.av男人.com| 免费人成视网站在线不卡| 亚洲成人福利网站| 国产一区二区网站| 亚洲精品在线观看91| 777国产精品永久免费观看| 97成人在线视频| 美女高潮全身流白浆福利区| 欧美a在线视频|