999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能模糊決策樹算法在英語(yǔ)機(jī)器翻譯中的應(yīng)用

2020-11-03 11:36:50陶媛媛
計(jì)算機(jī)測(cè)量與控制 2020年10期
關(guān)鍵詞:語(yǔ)義單詞英語(yǔ)

陶媛媛,陶 丹

(1.西安交通大學(xué) 城市學(xué)院,西安 710000;2.西安市曲江第一中學(xué),西安 710000)

0 引言

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)中一種從人類語(yǔ)言中獲取和分析含義,并以智能的方式與人類進(jìn)行交互的方法[1]。機(jī)器翻譯主要涉及使用計(jì)算機(jī)軟件將文本或語(yǔ)音形式的語(yǔ)言從一種自然語(yǔ)言翻譯為另一種自然語(yǔ)言,同時(shí)保留其含義和解釋。從一種自然語(yǔ)言到另一種語(yǔ)言的簡(jiǎn)單單詞替換是機(jī)器翻譯中使用的基本過程和方法之一[2]。由于對(duì)整個(gè)短語(yǔ)的識(shí)別和理解,并將其與最接近的短語(yǔ)進(jìn)行匹配需要目標(biāo)語(yǔ)言中的對(duì)應(yīng)語(yǔ)言存在偏差,單獨(dú)使用該方法可能會(huì)導(dǎo)致對(duì)原始文本的誤導(dǎo)性解釋。

在機(jī)器翻譯中主要部分是“翻譯過程”。這個(gè)過程可以簡(jiǎn)單地解釋為對(duì)源文本的含義進(jìn)行解碼,然后將其重新編碼為目標(biāo)語(yǔ)言。顯然,此過程需要復(fù)雜的算法才能成功,因?yàn)槟軌蛲耆獯a示例文本的含義意味著解釋器必須能夠分析文本的所有功能,這就需要深入了解源語(yǔ)言的語(yǔ)法結(jié)構(gòu)、語(yǔ)義、習(xí)語(yǔ)、語(yǔ)法等等涉及語(yǔ)言學(xué)的諸多方面[3],亦不能忽略考慮源語(yǔ)言的文化背景。因此,正如同聲傳譯員或者口譯員需要具備大量語(yǔ)言學(xué)以外的知識(shí),才能將詞匯所表達(dá)的含義重新編碼為目標(biāo)語(yǔ)言,從而避免錯(cuò)誤告知或歪曲源文本[4]。

機(jī)器翻譯訓(xùn)練數(shù)據(jù)從來都不是完美的,雙語(yǔ)句子對(duì)常常是錯(cuò)誤的逐句排列,或者由于人為錯(cuò)誤,這些句子對(duì)彼此的翻譯不佳。通常,目標(biāo)上下文被建模為SMT的語(yǔ)言模型。當(dāng)前,主要重點(diǎn)工作是從單語(yǔ)上下文轉(zhuǎn)換為雙語(yǔ)上下文[5],例如,雙語(yǔ)語(yǔ)言模型和操作序列模型基于最小翻譯單位。通常,這些方法依賴于傳統(tǒng)n-gram方法,由于數(shù)據(jù)稀疏,其缺點(diǎn)是窗口有限且語(yǔ)義表示效率低下[6]。為了加強(qiáng)上下文的語(yǔ)義表示,國(guó)內(nèi)外許多專家學(xué)者使用神經(jīng)網(wǎng)絡(luò)來研究相關(guān)問題(雙語(yǔ)語(yǔ)境表示的神經(jīng)網(wǎng)絡(luò))。NN聯(lián)合模型(NNJM),其編碼使用前饋NN,以減少目標(biāo)方的重復(fù)發(fā)生;因此,可以集成到翻譯解碼中[7]。盡管如此,由于基于窗口的前饋NN的性質(zhì),NNJM在捕獲源側(cè)上下文之間的長(zhǎng)距離依賴項(xiàng)方面存在缺陷。

互聯(lián)網(wǎng)是人們獲取信息的重要來源,但是互聯(lián)網(wǎng)上存在的很多錯(cuò)誤的分級(jí)英語(yǔ)機(jī)器翻譯模型極大地阻礙了這一發(fā)展過程,使人們無(wú)法有效地獲取信息,更無(wú)法有效的翻譯信息。因此,目前對(duì)于如何建立有效的分層的英語(yǔ)機(jī)器翻譯模型已成為迫在眉睫的問題。在互聯(lián)網(wǎng)上,大部分的英語(yǔ)機(jī)器翻譯的模型主要以分層英語(yǔ)機(jī)器翻譯的形式呈現(xiàn)[8]。僅當(dāng)信息的語(yǔ)義是真實(shí)的情況下,相應(yīng)英語(yǔ)的機(jī)器翻譯才是分層英語(yǔ)機(jī)器翻譯,反之亦然,英語(yǔ)機(jī)器翻譯在語(yǔ)義上是不正確的。基于分層英語(yǔ)機(jī)器翻譯的特征,肯定存在與任何否定分層英語(yǔ)機(jī)器翻譯平行的確定分層英語(yǔ)機(jī)器翻譯。此外,可以通過構(gòu)造相應(yīng)的準(zhǔn)確的分級(jí)英語(yǔ)機(jī)器翻譯模型來構(gòu)建否定的分層英語(yǔ)機(jī)器翻譯模型[9]。

本文提出了一種基于智能模糊決策算法的英語(yǔ)機(jī)器翻譯模型(HEMTM)。通過搜索有關(guān)英語(yǔ)機(jī)器翻譯的相關(guān)HEMTM模型來操作該模型;該模型在構(gòu)建機(jī)器翻譯的過程中,考慮了基于HEMTM與相應(yīng)的英語(yǔ)機(jī)器翻譯支持關(guān)系之間的差異。以期將該模型應(yīng)用于具有多個(gè)答案的英語(yǔ)機(jī)器翻譯的構(gòu)建。

1 方法論

1.1 模糊決策樹

決策樹(DT,decision tree)是檢索新的有趣知識(shí)的一種廣泛使用方法。決策樹代表了一種從標(biāo)記實(shí)例中進(jìn)行歸納的簡(jiǎn)單而強(qiáng)大的方法[10]。模糊決策樹是模糊環(huán)境中決策樹的推廣。模糊決策樹所代表的知識(shí)對(duì)于人類的思維方式來說更為自然。經(jīng)典的清晰決策樹廣泛應(yīng)用于模式識(shí)別,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘。引入決策樹來歸納分類模型,可通過沿著從根到葉的路徑傳播樣本來對(duì)樣本進(jìn)行分類,該路徑包含分類信息。

模糊決策樹(FDT,fuzzy decision tree)是一種更通用的表示知識(shí)的方法[11]。該方法使我們能夠在學(xué)習(xí)階段(樹的構(gòu)造)或泛化階段使用數(shù)字值和符號(hào)值來表示模糊模態(tài)。此外,Bouchon-Meunicr和Marsala等研究人員認(rèn)為模糊決策樹等效于一組模糊規(guī)則并且可以引入這種歸納規(guī)則來優(yōu)化數(shù)據(jù)庫(kù)的查詢過程或從數(shù)據(jù)中推斷決策[12]。

模糊決策樹的目標(biāo)是具有較高的可理解性,使模糊系統(tǒng)具有漸進(jìn)和優(yōu)美的行為。因此,使用模糊集和近似推理來擴(kuò)展符號(hào)決策樹,以進(jìn)行樹的構(gòu)建和推理過程。同時(shí),借用了豐富的現(xiàn)有決策樹方法來處理不完整的知識(shí),并擴(kuò)展為利用模糊表示中可用的新信息[12]。

模糊集的概念由研究人員Zadeh于1965年通過隸屬函數(shù)提出。為了度量模糊事件,Zadeh于1978年提出了可能性度量的概念。模糊熵是不確定性的一種度量。

特別地,當(dāng)ζ是一個(gè)模糊集,取具有隸屬度的值xi,i=1,2,...,n時(shí),De Luca和Termini分別將其熵定義為如公式(1)所示:

(1)

當(dāng)S(t)=-1lnt-(l-t)ln(l-t)時(shí),很容易驗(yàn)證該函數(shù)S(t)關(guān)于t=0.5對(duì)稱,嚴(yán)格按照間隔[0,0.5]增大,嚴(yán)格按照間隔[0.5,1]減小,并達(dá)到其唯一最大值在t=0.5時(shí)是ln2。

描述熵的不確定性主要是由于語(yǔ)言的模糊性而不是信息的缺乏而引起的,并且當(dāng)模糊變量是一個(gè)可能的變量時(shí)其消失。然而,希望看到當(dāng)模糊變量退化為清晰數(shù)時(shí)熵為0,而當(dāng)模糊變量為等值時(shí)熵最大。

1.2 模型構(gòu)建

分層英語(yǔ)機(jī)器翻譯的模型(HEMTM)構(gòu)建如圖1所示。輸入是分層英語(yǔ)機(jī)器翻譯,輸出是分層英語(yǔ)機(jī)器翻譯模型構(gòu)建的結(jié)果。

圖1 分級(jí)英語(yǔ)機(jī)器翻譯模型

機(jī)器翻譯將相關(guān)的HEMTM與相應(yīng)的分級(jí)機(jī)器翻譯相結(jié)合,為相關(guān)的HEMTM和相應(yīng)的分級(jí)英語(yǔ)機(jī)器翻譯之間的支持關(guān)系的評(píng)估奠定了基礎(chǔ)。HEMTM智能模糊決策樹算法中的ri和fs是句子的機(jī)器翻譯,sti和fs是集合機(jī)器翻譯[13]。詞之間的機(jī)器翻譯為生成語(yǔ)義向量和詞序向量奠定了基礎(chǔ)。單詞之間的機(jī)器翻譯的公式如式(2)所示。公式(2)用于計(jì)算單詞的機(jī)器翻譯wi個(gè)和詞w2。l和h分別代表w1和w2在詞網(wǎng)中的最短距離,并且w1和w2兩者都存在于該詞網(wǎng)。單詞之間的機(jī)器翻譯可以以更好的方式,通過式(2)進(jìn)行評(píng)價(jià),此時(shí)α=0.2和β=0.45。

(2)

在公式(1)中,如果w1=w2,其相關(guān)性可以視為1;此外,因?yàn)樵O(shè)計(jì)的詞網(wǎng)中的信息無(wú)法覆蓋所有單詞。因此,如果w1是個(gè)否則w2無(wú)法被詞網(wǎng)覆蓋,Sw(w1,w2)=0。

假設(shè)s1是句子sti從ri中選擇的,并且s2是對(duì)應(yīng)的ri、fs的分層英語(yǔ)機(jī)器翻譯,接下來,將通過計(jì)算以下內(nèi)容的機(jī)器翻譯來演示機(jī)器翻譯的過程s1和s2。

1.3 語(yǔ)義向量相關(guān)性

文獻(xiàn)[14]通過用NN編碼整個(gè)源句子來捕獲長(zhǎng)距離依賴。此外,他們都將整個(gè)源句子在不同的翻譯時(shí)間步上表示為固定向量,而不是動(dòng)態(tài)向量,這在機(jī)制中已顯示出了應(yīng)用前景。語(yǔ)義向量相關(guān)性的計(jì)算:通過生成相應(yīng)的句子語(yǔ)義向量來計(jì)算語(yǔ)義向量的相關(guān)性句子s1和句子s2以及語(yǔ)義向量之間的余弦機(jī)器翻譯的計(jì)算。假設(shè)結(jié)束詞被分為s1和s2,相應(yīng)的單詞集分別是W1={w11,w12,...,w1n和W2={w21,w22,...,w2n}。假設(shè)W=W1∪W2,且W={w1,w2,...,wk},如果wi∈W1,那么vli=1。在公式(3)中,wi∈W。如果wiW,并且存在最匹配的單詞wbm,那么當(dāng)搜索時(shí)wi(目標(biāo)詞)來自句子s1,然后vli=Sw(wi,wbm)。否則,如果vli=0,將開始獲取最佳匹配詞的過程。

可以應(yīng)用類似的計(jì)算以獲得對(duì)應(yīng)的語(yǔ)義向量s2,V2。s1和s2的語(yǔ)義向量相關(guān)性可以通過V1和V2的機(jī)器余弦轉(zhuǎn)換來計(jì)算。詳細(xì)的計(jì)算可以證明為式(3)所示:

(3)

1.4 詞序向量相關(guān)性

文獻(xiàn)[15]引入了一種神經(jīng)概率語(yǔ)言模型,該模型在目標(biāo)語(yǔ)言上下文詞而不是離散詞的分布式表示上順序運(yùn)行。將矯正的線性單位和噪聲對(duì)比估計(jì)引入Bengio等人的神經(jīng)概率語(yǔ)言模,并將其應(yīng)用于大型詞匯。詞序向量相關(guān)性的計(jì)算方法:通過生成相應(yīng)的句子的詞序向量,并用式(4)來計(jì)算句子的詞序向量相關(guān)性,然后計(jì)算詞序向量的相關(guān)性。在式(4)中,O1和O2分別代表的詞序向量s1和s2。s1生成的詞序向量是O1={o11,o12,...o1k}。結(jié)果可以通過以下方式計(jì)算:1)wi∈W1,如果wi∈W1,o11的位置是在s1中的wi;2)wi∈W1,如果wiW1,搜索的最匹配詞wi,wbm已經(jīng)完成。如果存在wbm,o1i的位置是位于s1中的wbm,否則o1i=0。在找出詞序向量的過程中,參數(shù)的最優(yōu)值ζ在算法2中使用的是0.4。

(4)

1.5 智能模糊決策算法

用智能模糊決策算法計(jì)算,智能模糊決策算法s1和s2可以通過式(5)基于語(yǔ)義向量相關(guān)性和詞序向量相關(guān)性來計(jì)算。如果s1是句子sti從中ri選擇,并且s2是相應(yīng)的英語(yǔ)機(jī)制翻譯fs,在式(5)中,sti和fs可以分別代表s1和s2。在式(5)中,參數(shù)的最佳值θ是0.85。

(5)

上式第一個(gè)式子是ri對(duì)fs沒有傾向趨勢(shì),第二個(gè)式子是代表有傾向趨勢(shì)。ri是否傾向于fs是基于獲取過程中是否存在否定的語(yǔ)法依存關(guān)系以及否定副詞在ri中,例如hardly、rarely、few、seldom等。

2 實(shí)驗(yàn)分析

分層英語(yǔ)機(jī)器翻譯模型構(gòu)建的仍是當(dāng)前研究熱點(diǎn)。文獻(xiàn)[16]使用相關(guān)語(yǔ)言之間的詞形相似度或精確的上下文匹配來推斷可能的翻譯。文獻(xiàn)[17]提出了在ConceptNet上的主題感知傳播方法,以提高語(yǔ)言質(zhì)量。不同的詞在不同的主題下會(huì)有不同的情感。生成的主題感知情感詞典提高了文本分類的性能。他們的系統(tǒng)預(yù)測(cè)了文本的極性以及文本中最可能的主題和概念的情感價(jià)值。文獻(xiàn)[18]使用常識(shí)知識(shí)庫(kù)來檢測(cè)含義不清楚的單詞。他們利用ConceptNet工具包確定單詞替換,并計(jì)算了任意兩個(gè)給定術(shù)語(yǔ)之間的概念相似度,并定義了平均平均概念相似度(MACS)度量標(biāo)準(zhǔn)來識(shí)別上下文外的術(shù)語(yǔ)。因此,本文采用的數(shù)據(jù)集是從TREC2007中收集的分級(jí)英語(yǔ)機(jī)器翻譯數(shù)據(jù)集。可靠的分級(jí)英語(yǔ)機(jī)器翻譯由30種,由真實(shí)語(yǔ)義唯一答案的分級(jí)英語(yǔ)機(jī)器翻譯和20種從TREC2007中隨機(jī)選擇的多答案的真實(shí)語(yǔ)義的分級(jí)英語(yǔ)機(jī)器翻譯組成[19-20]。為了進(jìn)行對(duì)比分析,本實(shí)驗(yàn)建立了模糊算法模型(FQ)和基于模糊決策樹的算法模型(HEMTM)。FQ模型是通過搜索與分層英語(yǔ)機(jī)器翻譯未加入特征算法的模型。實(shí)驗(yàn)分析了在FQ和HEMTM兩種模型構(gòu)建下,機(jī)器翻譯的有序分布。圖2和圖3分別顯示了當(dāng)HEMTM數(shù)量為150(n=150)時(shí)以FQ和HEMTM的模型構(gòu)建方式,CBrank,CBGrank,CFrank和CFGrank的分布。橫坐標(biāo)代表信息收集中的HEMTM站點(diǎn),縱坐標(biāo)代表相應(yīng)站點(diǎn)中HEMTM的機(jī)器翻譯平均排名。

圖2 FQ模型的機(jī)器翻譯

從圖2中可以看出,機(jī)器翻譯的順序與HEMTM所在的英語(yǔ)機(jī)器翻譯信息集合的順序沒有明顯的相關(guān)性。在HEMTM的集合中,HEMTM機(jī)器翻譯排名并不總是比質(zhì)量最高的英語(yǔ)機(jī)器翻譯排名差。究其原因,與CBrank和CFrank相比,排名間隔在CBGrank和CFGrank,CBGrank和CFGrank顯示具有較大的跨度。可以從圖3進(jìn)行推斷,機(jī)器翻譯的順序符合圖2趨勢(shì)的HEMTM的翻譯,而在FQ的模型下,HEMTM機(jī)器翻譯的分布更加集中。

圖3 HEMTM模型的機(jī)器翻譯

從上述實(shí)驗(yàn)中可以得出以下結(jié)論,當(dāng)機(jī)器翻譯等級(jí)為CFGrank時(shí),構(gòu)建的模型基本具有較高的準(zhǔn)確性。圖5描述了構(gòu)建模型準(zhǔn)確度,當(dāng)機(jī)器翻譯選用為FG模型等級(jí)為CFGrank時(shí),準(zhǔn)確度是由n和δ的關(guān)系決定。從圖4可以看出,當(dāng)δ是確定的時(shí)候,隨著n的值變大,精度將上升然后下降。原因是當(dāng)n很小時(shí),由于相關(guān)HEMTM的數(shù)量有限,因此分層英語(yǔ)機(jī)器翻譯的某些部分無(wú)法正確構(gòu)建;而當(dāng)n較大時(shí),對(duì)相應(yīng)的分層英語(yǔ)機(jī)器翻譯的貢獻(xiàn)率將高于對(duì)相應(yīng)的分層英語(yǔ)機(jī)器翻譯的貢獻(xiàn)率。因此導(dǎo)致最后的結(jié)果為降低模型構(gòu)建的準(zhǔn)確性。而當(dāng)n是確定的時(shí)候,精度將隨著δ的增加而上升,然后再下降。

圖4 準(zhǔn)確性趨勢(shì)n=60(FQ)

與機(jī)器翻譯的精度不同,從該圖可以看出,當(dāng)n>90時(shí),精度隨著n值的增加先上升然后下降。從圖4和圖5可以看出,當(dāng)采用FQ的方式利用Alexa排名間隔的機(jī)器翻譯時(shí),可以獲得較高的精度;而當(dāng)對(duì)CFGrank進(jìn)行機(jī)器翻譯的排名時(shí),可以獲得更高的精度。

圖5 準(zhǔn)確性趨勢(shì)δ=0.9(HEMTM)

結(jié)合圖4、圖5可以看出,4種相關(guān)HEMTM模型機(jī)器翻譯等級(jí)影響其準(zhǔn)確性的參數(shù)與FQ模型影響準(zhǔn)確性參數(shù)相一致。但是,由于HEMTM模型捕獲的語(yǔ)言信息量質(zhì)量較差,因此準(zhǔn)確性略低于FQ模型。采用HEMTM的CFGrank等級(jí),在n=60,δ=0的情況下,基本模型構(gòu)建的準(zhǔn)確性為68%。

3 結(jié)束語(yǔ)

本文提出了一種基于智能模糊決策樹算法HEMTM的分層英語(yǔ)機(jī)器翻譯方法。通過捕獲和分析相應(yīng)的分層英語(yǔ)機(jī)器翻譯中相關(guān)特征來實(shí)現(xiàn)模型構(gòu)建。機(jī)器翻譯的過程中,考慮了基于HEMTM與相應(yīng)的英語(yǔ)機(jī)器翻譯支持關(guān)系之間的差異。經(jīng)實(shí)際驗(yàn)證,在n=60,δ=0時(shí),模型準(zhǔn)確率可達(dá)到68%。該模型可應(yīng)用于具有多個(gè)答案的英語(yǔ)機(jī)器翻譯。

猜你喜歡
語(yǔ)義單詞英語(yǔ)
語(yǔ)言與語(yǔ)義
單詞連一連
看圖填單詞
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
讀英語(yǔ)
認(rèn)知范疇模糊與語(yǔ)義模糊
酷酷英語(yǔ)林
最難的單詞
語(yǔ)義分析與漢俄副名組合
單詞拾趣
主站蜘蛛池模板: 狠狠做深爱婷婷综合一区| 精品天海翼一区二区| 婷婷色一区二区三区| av在线5g无码天天| 538国产在线| 欧美精品亚洲二区| 欧美综合中文字幕久久| 茄子视频毛片免费观看| 免费播放毛片| 97视频精品全国在线观看| 婷婷亚洲综合五月天在线| 欧美日韩资源| 精品在线免费播放| 亚洲成a人片77777在线播放| 亚洲国产精品无码久久一线| 亚洲欧美成人影院| 四虎AV麻豆| 免费在线观看av| 久久精品欧美一区二区| 国产精品永久久久久| 国产黄色爱视频| 大陆精大陆国产国语精品1024| AV不卡国产在线观看| 国产中文一区二区苍井空| 国产亚洲精品无码专| 国产国语一级毛片在线视频| 高潮毛片无遮挡高清视频播放| 国产精品第三页在线看| 午夜精品久久久久久久99热下载| 日韩av手机在线| 亚洲国产日韩欧美在线| 日韩精品毛片| 中国黄色一级视频| www.亚洲一区| 欧美亚洲国产精品第一页| AV无码国产在线看岛国岛| 在线观看视频一区二区| 麻豆国产在线观看一区二区| 亚洲第一黄片大全| 免费可以看的无遮挡av无码| 精品国产一区91在线| 不卡的在线视频免费观看| 国产亚洲欧美在线专区| 无码国产偷倩在线播放老年人| 国产三级毛片| 亚洲欧美综合另类图片小说区| 色老头综合网| 最新国产高清在线| 55夜色66夜色国产精品视频| 国产精选小视频在线观看| 九九线精品视频在线观看| 国产97视频在线| 亚洲国产成人自拍| 成年人福利视频| 欧美日韩中文国产va另类| 草草影院国产第一页| 综合色88| 欧美性精品不卡在线观看| 最新加勒比隔壁人妻| 1级黄色毛片| 精品国产女同疯狂摩擦2| 久久96热在精品国产高清| 精品色综合| 亚洲国产欧美目韩成人综合| 99人妻碰碰碰久久久久禁片| 国产成人精品在线1区| 国产网站一区二区三区| 欧美在线三级| 2021国产精品自产拍在线| 嫩草在线视频| 深夜福利视频一区二区| 伊人激情久久综合中文字幕| 亚洲欧美另类日本| 国产日产欧美精品| 亚洲国产一区在线观看| 伊人色天堂| 丁香婷婷综合激情| 欧美综合中文字幕久久| 久久午夜夜伦鲁鲁片无码免费| 伊人久久大香线蕉成人综合网| 国产网友愉拍精品| 国产精品无码AV中文|