999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量數據機器單詞中關鍵語義篩選方法研究

2017-04-10 20:38:56渠新峰
現代電子技術 2017年6期
關鍵詞:單詞

渠新峰

摘 要: 為了提高機器單詞翻譯的準確性,需要進行關鍵語義篩選和特征提取,故提出一種基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。首先構建海量數據機器單詞的文本語義主題詞概念決策樹模型,采用語義信息轉換方式計算機器單詞中關鍵語義的利用規則、聚類中心等信息參量;然后采用主題詞表自然語義信息抽取方法進行語義評估和翻譯可靠性測試,實現關鍵語義自動篩選控制;最后進行仿真測試。結果表明,采用該方法進行機器單詞中關鍵語義篩選, 提高了文本機器翻譯的自適應配準能力,翻譯的準確性得到有效提高。

關鍵詞: 海量數據; 機器翻譯; 單詞; 語義篩選

中圖分類號: TN911?34; TP391.1 文獻標識碼: A 文章編號: 1004?373X(2017)06?0018?03

Abstract: In order to improve the accuracy of machine translation of words, the key semantic screening and feature extraction are needed. Because of this, a method of the key semantic screening of the massive data machine words based on thesaurus natural semantic information extraction is proposed. The thesaurus concept semantic decision tree model of the massive data machine words is build. The semantic information conversion mode is used to calculated the key semantic utilization rules of machine words and the information parameters of clustering center. The thesaurus natural semantic information extraction method is adopted to conduct semantic translation evaluation and reliability testing for realization of the automatic control of key semantic selection. The simulation test results show that the method has improved the adaptive ability of the text machine translation, and the accuracy of the translation effectively.

Keywords: massive data; machine translation; word; semantic screening

0 引 言

在大數據信息時代,需要采用機器翻譯處理大量的文字數據信息,為了提高對海量文本數據的機器翻譯的準確性,需要對機器單詞的關鍵語義進行準確的特征篩選,把握機器單詞的關鍵信息,提高對機器翻譯的面向對象性和人機交互能力。機器翻譯模型分為三個層次,分別為局部語義聚類[1?2]、語義情感分析[3]和表現模型。其中數據模型提供機器單詞翻譯的數據來源,作為原始語言的文本輸入,通過與翻譯對象的某個領域相關的數據集合分類,進行程序控制,實現領域本體模型構建;基于語義度量的RDF圖近似查詢[4],在語義模型中形成機器翻譯的概念匯聚點,根據語義集合概念之間的上下層關系,進行語義轉換和信息抽取實現語義篩選后的機器翻譯輸出。本文針對當前的關鍵語義篩選方法的控制性不好和準確性不好的問題,提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。

1 海量數據機器單詞的文本語義主題詞表模型

1.1 文本語義主題詞的決策樹

為了實現對海量數據機器單詞中關鍵語義篩選,首先構建海量數據機器單詞的文本語義主題詞表模型,構建文本語義主題詞概念語義度量決策樹[4],根據L. Breiman,J. Friedman等人提出分類和回歸樹的思想[5?6],引入二叉分類回歸決策樹,構建機器翻譯的語言評價集,對海量數據機器單詞進行主分量特征優化處理。假設語言評價集β[∈][0,T]為抽取類型性特征向量集S的主特征量。其中T為海量數據機器單詞評價集S中元素的個數,數據集主特征向量β可由函數[Δ]表示為一個二元語義分布的決策樹模型,有:

2 關鍵語義篩選改進

2.1 關鍵語義的利用規則計算

在上述進行了文本語義主題詞概念集的基礎上,進行海量數據機器單詞中關鍵語義篩選方法改進設計,提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法,采用語義信息轉換方式計算機器單詞中關鍵語義的利用規則、聚類中心等信息參量[9],令[A=a1,a2,…,an]為主題詞表覆蓋表達概念的訓練集的屬性集,[B=b1,b2,…,bm]為文本中抽取的特征詞的類別集,[ai]的語義特征抽取的屬性值為[c1,c2,…,ck],得到主題詞表的關鍵語義篩選的匹配信息表達式為:

2.2 關鍵語義自動篩選實現

采用主題詞表自然語義信息抽取方法進行語義評估和翻譯可靠性測試,實現關鍵語義自動篩選控制,在實現關鍵語義篩選的算法設計之前,給出形式概念定義。

定義 形式概念(formal concept):設E是形式背景中的語義特征集合O的一個子集,定義[fE∶={AA|OE,ORA}](表示E中連接兩個主題詞的形式概念集);相應的,設I是屬性集合A的一個主題詞表子集,定義[gI∶={OO|AI,ORA}](表示關鍵語義篩選查找屬性集的集合)。

若(E1,I1),(E2,I2)是海量數據機器單詞翻譯集合K=(O,A,R)上的兩個概念,根據偏序關系取出文檔中的主題詞,如果有概念C2≤C1,每條有向邊的距離滿足C2≤C3≤C1,構建語義特征概念格,選擇相似度最小的連接節點對(E,I)進行語義篩選,得到關鍵語義篩選的連通圖如圖2所示。

根據上述定義和關鍵語義篩選的連通圖設計,得到關鍵語義自動篩選的算法如下:

輸入:所有海量數據機器單詞的屬性主題詞集

輸出:形式關鍵語義篩選結果

BEGIN

Context = NEW relationship among parameters;

//初始化輸入參數集,生成可選的組合方案

Attr = NEW ontologies;

//初始化屬性集,進行參數間的語義匹配

Text = NEW Web service []; //輸入參數映射

//依次處理每個輸出參數概念,進行關鍵語義篩選的動態匹配

FOR(int i=0; i< Situation; i++){

FileRihfer(Tfevdt[i]);

Obj = NEW RinsinList; //使用一階謂詞邏輯

//查找屬性集Attde的一個翻譯序列或歷史子任務

IF(characteristic similarity r IS NOT EMPTY){

FOR (int j=0;j

Obj.wfhi(j,"0");

}

} }

//規則屬性轉換成PDDL謂詞,或添加新的屬性,實現關鍵語義自動篩選控制

END

3 實驗測試分析

對海量數據機器單詞關鍵語義篩選的仿真實驗建立在開源代碼為Heritrix的環境中,其中操作系統:Windows XP,機器單詞庫源于Google AJAX seArch AP,利用實際采集的單詞信息數據構建海量數據機器單詞的特征詞集合完整概念格如圖3所示。

從圖3自頂向下觀察概念格可知,采用本文方法進行語義篩選,每一個機器單詞的特征詞集合的父概念都包含了子概念的對象,說明采用本文方法進行語義篩選具有完備性,能有效覆蓋機器單詞翻譯的概念集。為了定量測試本文方法進行機器單詞關鍵語義篩選的性能,抽取主題詞表的機器單詞語義對共2 800對,采用本文方法和傳統方法進行測試分析,參數設定自定義語義特征同義詞的判定閾值為0.23, 相似度值大于0.1,得到篩選的查準率對比結果如圖4所示,從圖4得知,采用本文方法進行海量數據機器單詞的關鍵語義篩選的查準率較高,性能較好。

4 結 語

本文研究了海量數據機器單詞的優化翻譯問題,提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。實驗結果表明,采用本文方法進行機器單詞中關鍵語義篩選,查準率指標表現較好,說明能有效提高機器翻譯準確性。

參考文獻

[1] 辛宇,楊靜,湯楚蘅,等.基于局部語義聚類的語義重疊社區發現算法[J].計算機研究與發展,2015,52(7):1510?1521.

[2] 冶忠林,楊燕,賈真,等.基于語義擴展的短問題分類[J].計算機應用,2015,35(3):792?796.

[3] 吳江,唐常杰,李太勇,等.基于語義規則的Web金融文本情感分析[J].計算機應用,2014,34(2):481?485.

[4] 章登義,吳文李,歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學報,2015,43(7):1320?1328.

[5] 孟祥福,嚴麗,馬宗民,等.基于語義相似度的數據庫自適應查詢松弛方法[J].計算機學報,2011,34(5):812?824.

[6] 寇月,申德榮,李冬,等.一種基于語義及統計分析的Deep Web實體識別機制[J].軟件學報,2008,19(2):194?208.

[7] HERRERA F, HERRERA?VIEDMA E, MARTINEZ L. A fusion approach for managing multi?granularity linguistic terms sets in decision making [J]. Fuzzy sets and systems, 2000, 114(1): 43?58.

[8] 舒婷,劉泉,艾青松,等.基于梯形模糊數與二元語義需求權重確定方法[J].武漢理工大學學報,2011,33(12):111?114.

[9] STOEAN C, PREUSS M, STOEAN R, et al. Multimodal optimization by means of a topological species conservation algorithm [J]. IEEE transactions on evolutionary computation, 2010, 14(6): 842?864.

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
主站蜘蛛池模板: 日韩高清一区 | 国产一区二区精品福利| 丁香亚洲综合五月天婷婷| 18禁色诱爆乳网站| 无码免费视频| 日韩欧美91| 久久青草精品一区二区三区| 国产精品欧美在线观看| 亚洲综合激情另类专区| 亚洲欧洲日产国码无码av喷潮| 国产精品成人一区二区不卡| 老色鬼久久亚洲AV综合| 亚洲视频无码| 国产精品自拍露脸视频| 亚洲国产天堂久久综合226114| 亚洲水蜜桃久久综合网站| 国产三级成人| 高清免费毛片| 波多野结衣久久高清免费| 91精品啪在线观看国产91九色| 114级毛片免费观看| 中文字幕免费在线视频| 黄色在线网| 免费观看成人久久网免费观看| 伊人婷婷色香五月综合缴缴情| 久久精品人人做人人爽电影蜜月| 3344在线观看无码| 国产尹人香蕉综合在线电影| 国产一区二区网站| 又黄又湿又爽的视频| 精品偷拍一区二区| 一区二区在线视频免费观看| 自偷自拍三级全三级视频| 国内精品免费| 亚洲欧洲天堂色AV| 黄色国产在线| 国产剧情国内精品原创| 亚洲中文字幕23页在线| 成人午夜天| 免费看黄片一区二区三区| 91po国产在线精品免费观看| 99国产精品一区二区| 免费观看亚洲人成网站| 精品三级在线| www.精品视频| 日韩激情成人| 在线国产欧美| 99精品在线看| 午夜精品一区二区蜜桃| 波多野结衣在线se| 人人澡人人爽欧美一区| 国产三级毛片| 自拍中文字幕| 真实国产乱子伦高清| 黄色网页在线观看| 久久青草免费91观看| 亚洲性影院| 99久久国产综合精品2020| 日本a级免费| 亚洲区视频在线观看| 五月婷婷丁香综合| 久综合日韩| 午夜无码一区二区三区| 中文字幕在线欧美| 日韩欧美成人高清在线观看| 人与鲁专区| 久久精品国产亚洲麻豆| 国产黄在线免费观看| 亚洲黄色成人| 国产成人精品2021欧美日韩| 在线精品自拍| 亚洲成人网在线播放| 亚洲中文字幕在线一区播放| 激情无码字幕综合| 美女国产在线| 伊人久久婷婷| 欧美色伊人| 中文无码精品a∨在线观看| 三区在线视频| 国产欧美网站| 亚洲三级影院| 亚洲欧洲日韩综合|