智能模糊決策樹算法在英語(yǔ)機(jī)器翻譯中的應(yīng)用

2020-11-03 11:36:50陶媛媛

計(jì)算機(jī)測(cè)量與控制 2020年10期

陶媛媛，陶丹

(1.西安交通大學(xué) 城市學(xué)院，西安 710000；2.西安市曲江第一中學(xué)，西安 710000)

0 引言

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)中一種從人類語(yǔ)言中獲取和分析含義，并以智能的方式與人類進(jìn)行交互的方法[1]。機(jī)器翻譯主要涉及使用計(jì)算機(jī)軟件將文本或語(yǔ)音形式的語(yǔ)言從一種自然語(yǔ)言翻譯為另一種自然語(yǔ)言，同時(shí)保留其含義和解釋。從一種自然語(yǔ)言到另一種語(yǔ)言的簡(jiǎn)單單詞替換是機(jī)器翻譯中使用的基本過程和方法之一[2]。由于對(duì)整個(gè)短語(yǔ)的識(shí)別和理解，并將其與最接近的短語(yǔ)進(jìn)行匹配需要目標(biāo)語(yǔ)言中的對(duì)應(yīng)語(yǔ)言存在偏差，單獨(dú)使用該方法可能會(huì)導(dǎo)致對(duì)原始文本的誤導(dǎo)性解釋。

在機(jī)器翻譯中主要部分是“翻譯過程”。這個(gè)過程可以簡(jiǎn)單地解釋為對(duì)源文本的含義進(jìn)行解碼，然后將其重新編碼為目標(biāo)語(yǔ)言。顯然，此過程需要復(fù)雜的算法才能成功，因?yàn)槟軌蛲耆獯a示例文本的含義意味著解釋器必須能夠分析文本的所有功能，這就需要深入了解源語(yǔ)言的語(yǔ)法結(jié)構(gòu)、語(yǔ)義、習(xí)語(yǔ)、語(yǔ)法等等涉及語(yǔ)言學(xué)的諸多方面[3]，亦不能忽略考慮源語(yǔ)言的文化背景。因此，正如同聲傳譯員或者口譯員需要具備大量語(yǔ)言學(xué)以外的知識(shí)，才能將詞匯所表達(dá)的含義重新編碼為目標(biāo)語(yǔ)言，從而避免錯(cuò)誤告知或歪曲源文本[4]。

機(jī)器翻譯訓(xùn)練數(shù)據(jù)從來都不是完美的，雙語(yǔ)句子對(duì)常常是錯(cuò)誤的逐句排列，或者由于人為錯(cuò)誤，這些句子對(duì)彼此的翻譯不佳。通常，目標(biāo)上下文被建模為SMT的語(yǔ)言模型。當(dāng)前，主要重點(diǎn)工作是從單語(yǔ)上下文轉(zhuǎn)換為雙語(yǔ)上下文[5]，例如，雙語(yǔ)語(yǔ)言模型和操作序列模型基于最小翻譯單位。通常，這些方法依賴于傳統(tǒng)n-gram方法，由于數(shù)據(jù)稀疏，其缺點(diǎn)是窗口有限且語(yǔ)義表示效率低下[6]。為了加強(qiáng)上下文的語(yǔ)義表示，國(guó)內(nèi)外許多專家學(xué)者使用神經(jīng)網(wǎng)絡(luò)來研究相關(guān)問題(雙語(yǔ)語(yǔ)境表示的神經(jīng)網(wǎng)絡(luò))。NN聯(lián)合模型(NNJM)，其編碼使用前饋NN，以減少目標(biāo)方的重復(fù)發(fā)生；因此，可以集成到翻譯解碼中[7]。盡管如此，由于基于窗口的前饋NN的性質(zhì)，NNJM在捕獲源側(cè)上下文之間的長(zhǎng)距離依賴項(xiàng)方面存在缺陷。

互聯(lián)網(wǎng)是人們獲取信息的重要來源，但是互聯(lián)網(wǎng)上存在的很多錯(cuò)誤的分級(jí)英語(yǔ)機(jī)器翻譯模型極大地阻礙了這一發(fā)展過程，使人們無(wú)法有效地獲取信息，更無(wú)法有效的翻譯信息。因此，目前對(duì)于如何建立有效的分層的英語(yǔ)機(jī)器翻譯模型已成為迫在眉睫的問題。在互聯(lián)網(wǎng)上，大部分的英語(yǔ)機(jī)器翻譯的模型主要以分層英語(yǔ)機(jī)器翻譯的形式呈現(xiàn)[8]。僅當(dāng)信息的語(yǔ)義是真實(shí)的情況下，相應(yīng)英語(yǔ)的機(jī)器翻譯才是分層英語(yǔ)機(jī)器翻譯，反之亦然，英語(yǔ)機(jī)器翻譯在語(yǔ)義上是不正確的。基于分層英語(yǔ)機(jī)器翻譯的特征，肯定存在與任何否定分層英語(yǔ)機(jī)器翻譯平行的確定分層英語(yǔ)機(jī)器翻譯。此外，可以通過構(gòu)造相應(yīng)的準(zhǔn)確的分級(jí)英語(yǔ)機(jī)器翻譯模型來構(gòu)建否定的分層英語(yǔ)機(jī)器翻譯模型[9]。

本文提出了一種基于智能模糊決策算法的英語(yǔ)機(jī)器翻譯模型(HEMTM)。通過搜索有關(guān)英語(yǔ)機(jī)器翻譯的相關(guān)HEMTM模型來操作該模型；該模型在構(gòu)建機(jī)器翻譯的過程中，考慮了基于HEMTM與相應(yīng)的英語(yǔ)機(jī)器翻譯支持關(guān)系之間的差異。以期將該模型應(yīng)用于具有多個(gè)答案的英語(yǔ)機(jī)器翻譯的構(gòu)建。

1 方法論

1.1 模糊決策樹

決策樹(DT,decision tree)是檢索新的有趣知識(shí)的一種廣泛使用方法。決策樹代表了一種從標(biāo)記實(shí)例中進(jìn)行歸納的簡(jiǎn)單而強(qiáng)大的方法[10]。模糊決策樹是模糊環(huán)境中決策樹的推廣。模糊決策樹所代表的知識(shí)對(duì)于人類的思維方式來說更為自然。經(jīng)典的清晰決策樹廣泛應(yīng)用于模式識(shí)別，機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘。引入決策樹來歸納分類模型，可通過沿著從根到葉的路徑傳播樣本來對(duì)樣本進(jìn)行分類，該路徑包含分類信息。

模糊決策樹(FDT,fuzzy decision tree)是一種更通用的表示知識(shí)的方法[11]。該方法使我們能夠在學(xué)習(xí)階段(樹的構(gòu)造)或泛化階段使用數(shù)字值和符號(hào)值來表示模糊模態(tài)。此外，Bouchon-Meunicr和Marsala等研究人員認(rèn)為模糊決策樹等效于一組模糊規(guī)則并且可以引入這種歸納規(guī)則來優(yōu)化數(shù)據(jù)庫(kù)的查詢過程或從數(shù)據(jù)中推斷決策[12]。

模糊決策樹的目標(biāo)是具有較高的可理解性，使模糊系統(tǒng)具有漸進(jìn)和優(yōu)美的行為。因此，使用模糊集和近似推理來擴(kuò)展符號(hào)決策樹，以進(jìn)行樹的構(gòu)建和推理過程。同時(shí)，借用了豐富的現(xiàn)有決策樹方法來處理不完整的知識(shí)，并擴(kuò)展為利用模糊表示中可用的新信息[12]。

模糊集的概念由研究人員Zadeh于1965年通過隸屬函數(shù)提出。為了度量模糊事件，Zadeh于1978年提出了可能性度量的概念。模糊熵是不確定性的一種度量。

特別地，當(dāng)ζ是一個(gè)模糊集，取具有隸屬度的值xi,i=1,2,...,n時(shí)，De Luca和Termini分別將其熵定義為如公式(1)所示：

(1)

當(dāng)S(t)=-1lnt-(l-t)ln(l-t)時(shí)，很容易驗(yàn)證該函數(shù)S(t)關(guān)于t=0.5對(duì)稱，嚴(yán)格按照間隔[0，0.5]增大，嚴(yán)格按照間隔[0.5,1]減小，并達(dá)到其唯一最大值在t=0.5時(shí)是ln2。

描述熵的不確定性主要是由于語(yǔ)言的模糊性而不是信息的缺乏而引起的，并且當(dāng)模糊變量是一個(gè)可能的變量時(shí)其消失。然而，希望看到當(dāng)模糊變量退化為清晰數(shù)時(shí)熵為0，而當(dāng)模糊變量為等值時(shí)熵最大。

1.2 模型構(gòu)建

分層英語(yǔ)機(jī)器翻譯的模型(HEMTM)構(gòu)建如圖1所示。輸入是分層英語(yǔ)機(jī)器翻譯，輸出是分層英語(yǔ)機(jī)器翻譯模型構(gòu)建的結(jié)果。

圖1 分級(jí)英語(yǔ)機(jī)器翻譯模型

機(jī)器翻譯將相關(guān)的HEMTM與相應(yīng)的分級(jí)機(jī)器翻譯相結(jié)合，為相關(guān)的HEMTM和相應(yīng)的分級(jí)英語(yǔ)機(jī)器翻譯之間的支持關(guān)系的評(píng)估奠定了基礎(chǔ)。HEMTM智能模糊決策樹算法中的ri和fs是句子的機(jī)器翻譯，sti和fs是集合機(jī)器翻譯[13]。詞之間的機(jī)器翻譯為生成語(yǔ)義向量和詞序向量奠定了基礎(chǔ)。單詞之間的機(jī)器翻譯的公式如式(2)所示。公式(2)用于計(jì)算單詞的機(jī)器翻譯wi個(gè)和詞w2。l和h分別代表w1和w2在詞網(wǎng)中的最短距離，并且w1和w2兩者都存在于該詞網(wǎng)。單詞之間的機(jī)器翻譯可以以更好的方式，通過式(2)進(jìn)行評(píng)價(jià)，此時(shí)α=0.2和β=0.45。

(2)

在公式(1)中，如果w1=w2，其相關(guān)性可以視為1；此外，因?yàn)樵O(shè)計(jì)的詞網(wǎng)中的信息無(wú)法覆蓋所有單詞。因此，如果w1是個(gè)否則w2無(wú)法被詞網(wǎng)覆蓋，Sw(w1,w2)=0。

假設(shè)s1是句子sti從ri中選擇的，并且s2是對(duì)應(yīng)的ri、fs的分層英語(yǔ)機(jī)器翻譯，接下來，將通過計(jì)算以下內(nèi)容的機(jī)器翻譯來演示機(jī)器翻譯的過程s1和s2。

1.3 語(yǔ)義向量相關(guān)性

文獻(xiàn)[14]通過用NN編碼整個(gè)源句子來捕獲長(zhǎng)距離依賴。此外，他們都將整個(gè)源句子在不同的翻譯時(shí)間步上表示為固定向量，而不是動(dòng)態(tài)向量，這在機(jī)制中已顯示出了應(yīng)用前景。語(yǔ)義向量相關(guān)性的計(jì)算：通過生成相應(yīng)的句子語(yǔ)義向量來計(jì)算語(yǔ)義向量的相關(guān)性句子s1和句子s2以及語(yǔ)義向量之間的余弦機(jī)器翻譯的計(jì)算。假設(shè)結(jié)束詞被分為s1和s2，相應(yīng)的單詞集分別是W1={w11,w12,...,w1n和W2={w21,w22,...,w2n}。假設(shè)W=W1∪W2，且W={w1,w2,...,wk}，如果wi∈W1，那么vli=1。在公式(3)中，wi∈W。如果wiW，并且存在最匹配的單詞wbm，那么當(dāng)搜索時(shí)wi(目標(biāo)詞)來自句子s1，然后vli=Sw(wi,wbm)。否則，如果vli=0，將開始獲取最佳匹配詞的過程。

可以應(yīng)用類似的計(jì)算以獲得對(duì)應(yīng)的語(yǔ)義向量s2，V2。s1和s2的語(yǔ)義向量相關(guān)性可以通過V1和V2的機(jī)器余弦轉(zhuǎn)換來計(jì)算。詳細(xì)的計(jì)算可以證明為式(3)所示：

(3)

1.4 詞序向量相關(guān)性

文獻(xiàn)[15]引入了一種神經(jīng)概率語(yǔ)言模型，該模型在目標(biāo)語(yǔ)言上下文詞而不是離散詞的分布式表示上順序運(yùn)行。將矯正的線性單位和噪聲對(duì)比估計(jì)引入Bengio等人的神經(jīng)概率語(yǔ)言模，并將其應(yīng)用于大型詞匯。詞序向量相關(guān)性的計(jì)算方法：通過生成相應(yīng)的句子的詞序向量，并用式(4)來計(jì)算句子的詞序向量相關(guān)性，然后計(jì)算詞序向量的相關(guān)性。在式(4)中，O1和O2分別代表的詞序向量s1和s2。s1生成的詞序向量是O1={o11,o12,...o1k}。結(jié)果可以通過以下方式計(jì)算：1)wi∈W1，如果wi∈W1，o11的位置是在s1中的wi;2)wi∈W1，如果wiW1，搜索的最匹配詞wi，wbm已經(jīng)完成。如果存在wbm，o1i的位置是位于s1中的wbm，否則o1i=0。在找出詞序向量的過程中，參數(shù)的最優(yōu)值ζ在算法2中使用的是0.4。

(4)

1.5 智能模糊決策算法

用智能模糊決策算法計(jì)算，智能模糊決策算法s1和s2可以通過式(5)基于語(yǔ)義向量相關(guān)性和詞序向量相關(guān)性來計(jì)算。如果s1是句子sti從中ri選擇，并且s2是相應(yīng)的英語(yǔ)機(jī)制翻譯fs，在式(5)中，sti和fs可以分別代表s1和s2。在式(5)中，參數(shù)的最佳值θ是0.85。

(5)

上式第一個(gè)式子是ri對(duì)fs沒有傾向趨勢(shì)，第二個(gè)式子是代表有傾向趨勢(shì)。ri是否傾向于fs是基于獲取過程中是否存在否定的語(yǔ)法依存關(guān)系以及否定副詞在ri中，例如hardly、rarely、few、seldom等。

2 實(shí)驗(yàn)分析

分層英語(yǔ)機(jī)器翻譯模型構(gòu)建的仍是當(dāng)前研究熱點(diǎn)。文獻(xiàn)[16]使用相關(guān)語(yǔ)言之間的詞形相似度或精確的上下文匹配來推斷可能的翻譯。文獻(xiàn)[17]提出了在ConceptNet上的主題感知傳播方法，以提高語(yǔ)言質(zhì)量。不同的詞在不同的主題下會(huì)有不同的情感。生成的主題感知情感詞典提高了文本分類的性能。他們的系統(tǒng)預(yù)測(cè)了文本的極性以及文本中最可能的主題和概念的情感價(jià)值。文獻(xiàn)[18]使用常識(shí)知識(shí)庫(kù)來檢測(cè)含義不清楚的單詞。他們利用ConceptNet工具包確定單詞替換，并計(jì)算了任意兩個(gè)給定術(shù)語(yǔ)之間的概念相似度，并定義了平均平均概念相似度(MACS)度量標(biāo)準(zhǔn)來識(shí)別上下文外的術(shù)語(yǔ)。因此，本文采用的數(shù)據(jù)集是從TREC2007中收集的分級(jí)英語(yǔ)機(jī)器翻譯數(shù)據(jù)集。可靠的分級(jí)英語(yǔ)機(jī)器翻譯由30種，由真實(shí)語(yǔ)義唯一答案的分級(jí)英語(yǔ)機(jī)器翻譯和20種從TREC2007中隨機(jī)選擇的多答案的真實(shí)語(yǔ)義的分級(jí)英語(yǔ)機(jī)器翻譯組成[19-20]。為了進(jìn)行對(duì)比分析，本實(shí)驗(yàn)建立了模糊算法模型(FQ)和基于模糊決策樹的算法模型(HEMTM)。FQ模型是通過搜索與分層英語(yǔ)機(jī)器翻譯未加入特征算法的模型。實(shí)驗(yàn)分析了在FQ和HEMTM兩種模型構(gòu)建下，機(jī)器翻譯的有序分布。圖2和圖3分別顯示了當(dāng)HEMTM數(shù)量為150(n=150)時(shí)以FQ和HEMTM的模型構(gòu)建方式，CBrank，CBGrank，CFrank和CFGrank的分布。橫坐標(biāo)代表信息收集中的HEMTM站點(diǎn)，縱坐標(biāo)代表相應(yīng)站點(diǎn)中HEMTM的機(jī)器翻譯平均排名。

圖2 FQ模型的機(jī)器翻譯

從圖2中可以看出，機(jī)器翻譯的順序與HEMTM所在的英語(yǔ)機(jī)器翻譯信息集合的順序沒有明顯的相關(guān)性。在HEMTM的集合中，HEMTM機(jī)器翻譯排名并不總是比質(zhì)量最高的英語(yǔ)機(jī)器翻譯排名差。究其原因，與CBrank和CFrank相比，排名間隔在CBGrank和CFGrank，CBGrank和CFGrank顯示具有較大的跨度。可以從圖3進(jìn)行推斷，機(jī)器翻譯的順序符合圖2趨勢(shì)的HEMTM的翻譯，而在FQ的模型下，HEMTM機(jī)器翻譯的分布更加集中。

圖3 HEMTM模型的機(jī)器翻譯

從上述實(shí)驗(yàn)中可以得出以下結(jié)論，當(dāng)機(jī)器翻譯等級(jí)為CFGrank時(shí)，構(gòu)建的模型基本具有較高的準(zhǔn)確性。圖5描述了構(gòu)建模型準(zhǔn)確度，當(dāng)機(jī)器翻譯選用為FG模型等級(jí)為CFGrank時(shí)，準(zhǔn)確度是由n和δ的關(guān)系決定。從圖4可以看出，當(dāng)δ是確定的時(shí)候，隨著n的值變大，精度將上升然后下降。原因是當(dāng)n很小時(shí)，由于相關(guān)HEMTM的數(shù)量有限，因此分層英語(yǔ)機(jī)器翻譯的某些部分無(wú)法正確構(gòu)建；而當(dāng)n較大時(shí)，對(duì)相應(yīng)的分層英語(yǔ)機(jī)器翻譯的貢獻(xiàn)率將高于對(duì)相應(yīng)的分層英語(yǔ)機(jī)器翻譯的貢獻(xiàn)率。因此導(dǎo)致最后的結(jié)果為降低模型構(gòu)建的準(zhǔn)確性。而當(dāng)n是確定的時(shí)候，精度將隨著δ的增加而上升，然后再下降。

圖4 準(zhǔn)確性趨勢(shì)n=60(FQ)

與機(jī)器翻譯的精度不同，從該圖可以看出，當(dāng)n>90時(shí)，精度隨著n值的增加先上升然后下降。從圖4和圖5可以看出，當(dāng)采用FQ的方式利用Alexa排名間隔的機(jī)器翻譯時(shí)，可以獲得較高的精度；而當(dāng)對(duì)CFGrank進(jìn)行機(jī)器翻譯的排名時(shí)，可以獲得更高的精度。

圖5 準(zhǔn)確性趨勢(shì)δ=0.9(HEMTM)

結(jié)合圖4、圖5可以看出，4種相關(guān)HEMTM模型機(jī)器翻譯等級(jí)影響其準(zhǔn)確性的參數(shù)與FQ模型影響準(zhǔn)確性參數(shù)相一致。但是，由于HEMTM模型捕獲的語(yǔ)言信息量質(zhì)量較差，因此準(zhǔn)確性略低于FQ模型。采用HEMTM的CFGrank等級(jí)，在n=60，δ=0的情況下，基本模型構(gòu)建的準(zhǔn)確性為68%。

3 結(jié)束語(yǔ)

本文提出了一種基于智能模糊決策樹算法HEMTM的分層英語(yǔ)機(jī)器翻譯方法。通過捕獲和分析相應(yīng)的分層英語(yǔ)機(jī)器翻譯中相關(guān)特征來實(shí)現(xiàn)模型構(gòu)建。機(jī)器翻譯的過程中，考慮了基于HEMTM與相應(yīng)的英語(yǔ)機(jī)器翻譯支持關(guān)系之間的差異。經(jīng)實(shí)際驗(yàn)證，在n=60，δ=0時(shí)，模型準(zhǔn)確率可達(dá)到68%。該模型可應(yīng)用于具有多個(gè)答案的英語(yǔ)機(jī)器翻譯。