海量數據機器單詞中關鍵語義篩選方法研究

2017-04-10 20:38:56渠新峰

現代電子技術 2017年6期

關鍵詞：單詞

渠新峰

摘要：為了提高機器單詞翻譯的準確性，需要進行關鍵語義篩選和特征提取，故提出一種基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。首先構建海量數據機器單詞的文本語義主題詞概念決策樹模型，采用語義信息轉換方式計算機器單詞中關鍵語義的利用規則、聚類中心等信息參量；然后采用主題詞表自然語義信息抽取方法進行語義評估和翻譯可靠性測試，實現關鍵語義自動篩選控制；最后進行仿真測試。結果表明，采用該方法進行機器單詞中關鍵語義篩選，提高了文本機器翻譯的自適應配準能力，翻譯的準確性得到有效提高。

關鍵詞：海量數據；機器翻譯；單詞；語義篩選

中圖分類號： TN911?34； TP391.1 文獻標識碼： A 文章編號： 1004?373X（2017）06?0018?03

Abstract： In order to improve the accuracy of machine translation of words， the key semantic screening and feature extraction are needed. Because of this， a method of the key semantic screening of the massive data machine words based on thesaurus natural semantic information extraction is proposed. The thesaurus concept semantic decision tree model of the massive data machine words is build. The semantic information conversion mode is used to calculated the key semantic utilization rules of machine words and the information parameters of clustering center. The thesaurus natural semantic information extraction method is adopted to conduct semantic translation evaluation and reliability testing for realization of the automatic control of key semantic selection. The simulation test results show that the method has improved the adaptive ability of the text machine translation， and the accuracy of the translation effectively.

Keywords： massive data； machine translation； word； semantic screening

0 引言

在大數據信息時代，需要采用機器翻譯處理大量的文字數據信息，為了提高對海量文本數據的機器翻譯的準確性，需要對機器單詞的關鍵語義進行準確的特征篩選，把握機器單詞的關鍵信息，提高對機器翻譯的面向對象性和人機交互能力。機器翻譯模型分為三個層次，分別為局部語義聚類[1?2]、語義情感分析[3]和表現模型。其中數據模型提供機器單詞翻譯的數據來源，作為原始語言的文本輸入，通過與翻譯對象的某個領域相關的數據集合分類，進行程序控制，實現領域本體模型構建；基于語義度量的RDF圖近似查詢[4]，在語義模型中形成機器翻譯的概念匯聚點，根據語義集合概念之間的上下層關系，進行語義轉換和信息抽取實現語義篩選后的機器翻譯輸出。本文針對當前的關鍵語義篩選方法的控制性不好和準確性不好的問題，提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。

1 海量數據機器單詞的文本語義主題詞表模型

1.1 文本語義主題詞的決策樹

為了實現對海量數據機器單詞中關鍵語義篩選，首先構建海量數據機器單詞的文本語義主題詞表模型，構建文本語義主題詞概念語義度量決策樹[4]，根據L. Breiman，J. Friedman等人提出分類和回歸樹的思想[5?6]，引入二叉分類回歸決策樹，構建機器翻譯的語言評價集，對海量數據機器單詞進行主分量特征優化處理。假設語言評價集β[∈][0，T]為抽取類型性特征向量集S的主特征量。其中T為海量數據機器單詞評價集S中元素的個數，數據集主特征向量β可由函數[Δ]表示為一個二元語義分布的決策樹模型，有：

2 關鍵語義篩選改進

2.1 關鍵語義的利用規則計算

在上述進行了文本語義主題詞概念集的基礎上，進行海量數據機器單詞中關鍵語義篩選方法改進設計，提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法，采用語義信息轉換方式計算機器單詞中關鍵語義的利用規則、聚類中心等信息參量[9]，令[A=a1，a2，…，an]為主題詞表覆蓋表達概念的訓練集的屬性集，[B=b1，b2，…，bm]為文本中抽取的特征詞的類別集，[ai]的語義特征抽取的屬性值為[c1，c2，…，ck]，得到主題詞表的關鍵語義篩選的匹配信息表達式為：

2.2 關鍵語義自動篩選實現

采用主題詞表自然語義信息抽取方法進行語義評估和翻譯可靠性測試，實現關鍵語義自動篩選控制，在實現關鍵語義篩選的算法設計之前，給出形式概念定義。

定義形式概念（formal concept）：設E是形式背景中的語義特征集合O的一個子集，定義[fE∶={AA|OE，ORA}]（表示E中連接兩個主題詞的形式概念集）；相應的，設I是屬性集合A的一個主題詞表子集，定義[gI∶={OO|AI，ORA}]（表示關鍵語義篩選查找屬性集的集合）。

若（E1，I1），（E2，I2）是海量數據機器單詞翻譯集合K=（O，A，R）上的兩個概念，根據偏序關系取出文檔中的主題詞，如果有概念C2≤C1，每條有向邊的距離滿足C2≤C3≤C1，構建語義特征概念格，選擇相似度最小的連接節點對（E，I）進行語義篩選，得到關鍵語義篩選的連通圖如圖2所示。

根據上述定義和關鍵語義篩選的連通圖設計，得到關鍵語義自動篩選的算法如下：

輸入：所有海量數據機器單詞的屬性主題詞集

輸出：形式關鍵語義篩選結果

BEGIN

Context = NEW relationship among parameters；

//初始化輸入參數集，生成可選的組合方案

Attr = NEW ontologies；

//初始化屬性集，進行參數間的語義匹配

Text = NEW Web service []； //輸入參數映射

//依次處理每個輸出參數概念，進行關鍵語義篩選的動態匹配

FOR（int i=0； i< Situation； i++）{

FileRihfer（Tfevdt[i]）；

Obj = NEW RinsinList； //使用一階謂詞邏輯

//查找屬性集Attde的一個翻譯序列或歷史子任務

IF（characteristic similarity r IS NOT EMPTY）{

FOR （int j=0；j

Obj.wfhi（j，"0"）；

}

} }

//規則屬性轉換成PDDL謂詞，或添加新的屬性，實現關鍵語義自動篩選控制

END

3 實驗測試分析

對海量數據機器單詞關鍵語義篩選的仿真實驗建立在開源代碼為Heritrix的環境中，其中操作系統：Windows XP，機器單詞庫源于Google AJAX seArch AP，利用實際采集的單詞信息數據構建海量數據機器單詞的特征詞集合完整概念格如圖3所示。

從圖3自頂向下觀察概念格可知，采用本文方法進行語義篩選，每一個機器單詞的特征詞集合的父概念都包含了子概念的對象，說明采用本文方法進行語義篩選具有完備性，能有效覆蓋機器單詞翻譯的概念集。為了定量測試本文方法進行機器單詞關鍵語義篩選的性能，抽取主題詞表的機器單詞語義對共2 800對，采用本文方法和傳統方法進行測試分析，參數設定自定義語義特征同義詞的判定閾值為0.23，相似度值大于0.1，得到篩選的查準率對比結果如圖4所示，從圖4得知，采用本文方法進行海量數據機器單詞的關鍵語義篩選的查準率較高，性能較好。

4 結語

本文研究了海量數據機器單詞的優化翻譯問題，提出基于主題詞表自然語義信息抽取的海量數據機器單詞中關鍵語義篩選方法。實驗結果表明，采用本文方法進行機器單詞中關鍵語義篩選，查準率指標表現較好，說明能有效提高機器翻譯準確性。

參考文獻

[1] 辛宇，楊靜，湯楚蘅，等.基于局部語義聚類的語義重疊社區發現算法[J].計算機研究與發展，2015，52（7）：1510?1521.

[2] 冶忠林，楊燕，賈真，等.基于語義擴展的短問題分類[J].計算機應用，2015，35（3）：792?796.

[3] 吳江，唐常杰，李太勇，等.基于語義規則的Web金融文本情感分析[J].計算機應用，2014，34（2）：481?485.

[4] 章登義，吳文李，歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學報，2015，43（7）：1320?1328.

[5] 孟祥福，嚴麗，馬宗民，等.基于語義相似度的數據庫自適應查詢松弛方法[J].計算機學報，2011，34（5）：812?824.

[6] 寇月，申德榮，李冬，等.一種基于語義及統計分析的Deep Web實體識別機制[J].軟件學報，2008，19（2）：194?208.

[7] HERRERA F， HERRERA?VIEDMA E， MARTINEZ L. A fusion approach for managing multi?granularity linguistic terms sets in decision making [J]. Fuzzy sets and systems， 2000， 114（1）： 43?58.

[8] 舒婷，劉泉，艾青松，等.基于梯形模糊數與二元語義需求權重確定方法[J].武漢理工大學學報，2011，33（12）：111?114.

[9] STOEAN C， PREUSS M， STOEAN R， et al. Multimodal optimization by means of a topological species conservation algorithm [J]. IEEE transactions on evolutionary computation， 2010， 14（6）： 842?864.