999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多源信息的平行語料庫相似句段去重算法

2021-11-17 07:18:36左世亮劉穩良
計算機仿真 2021年8期
關鍵詞:單詞方法

左世亮,劉穩良

(上海應用技術大學,上海201418)

1 引言

我國和沿線國家之間的交流愈發緊密,各類深度合作項目日益增多,這對語言服務企業與人才能力都設定了更高的標準要求[1-2]。語言服務企業為支撐翻譯生產,創建了一系列平行語料庫,為多元化語言服務需求提供充足便利。但在多源信息發展的今天,隨著語料數量持續增長,出現越來越多的相似語句,為翻譯工作帶來諸多困擾[3],由此要對相似句段進行去重,保障語言服務效率與水平。

關于文本去重問題,陳平華[4]等提出一種采用簽名與哈希技術的云存儲去重方案,在數據去重過程中運用雙層校驗機制審計數據完整性,校驗文件完整性并精確定位損壞數據塊;構造Merkle哈希樹生成校驗值,計算去重標簽,確保檢測到重復數據。但該方法局限性高,不易廣泛推廣。鄧玉輝[5]等提出一種基于混合頁面的磁盤緩存去重策略。在磁盤緩存中引入混合頁機制,保留基頁增加巨頁,自適應調整巨頁大小讓命中率最大化;監測基頁、巨頁冷熱程度,將重復率高的冷巨頁拆分為基頁,實現基頁、巨頁動態轉換;利用重刪技術對基頁、巨頁依次實施去重,在命中率最大化同時保持去重率,但方法去重速率緩慢。

綜合以上內容,本文創建一種基于詞頻-逆向文件頻率(term frequency-inverse document frequency,TF-IDF)的平行語料庫相似句段去重算法。對齊平行語料庫互為對應關聯的句子,推導句段相似程度,加強后續去除速度,融合TF-IDF技術與單詞主題相關性,計算關鍵詞權重,刪除高權重句段,達到平行語料庫句段去重目的。

2 平行語料庫句子對齊計算

為平行語料庫創建句子以及對齊關聯,明確源語言句段內哪些句子和語料庫語言中的句段互為譯文。句子對齊關聯可能包含多種形式,最常見的是源語言句段內一個句子與目標語言句段內的一個句子對應[6],此外還包含如下幾種狀況:源語言中一個句子與目標語言內兩個或若干個句子對應;源語言中兩個或若干個句子與目標語言中一個句子對應;源語言中兩個或若干個句子與目標語言中兩個或若干個句子相對。在特殊情況下,翻譯與原文存在較大差距,省略不譯狀況時有發生,同時為了讓目標語言更便于理解,增添解釋性語言。此時會產生某種語言文本的句子與其它語言沒有句子相互對應的現象。本文使用召回率與精確率,按照特有參照對句子對齊算法性能實施評估。

若一段對齊的雙語句段是〈S,T,Ar〉,Ar為參考對齊,針對隨機一個和Ar相同級別的對齊A,A內準確的雙語句段數和Ar全部雙語句段數的比率就是A對應于Ar的對齊召回率,計算過程為

Recall(A,Ar)=|A∩Ar|/|Ar|

(1)

從上式可知,對齊召回率是在對齊內準確的雙語句段數和全部準確雙語句段數的比值,證明A內獲得正確對齊句段的個數越多。

如果一段對齊的雙語句段為〈S,T,Ar〉,Ar為參考對齊,關于隨機一個和AR擁有相等對齊長度的對齊A,A內準確的雙語句段和A內全部雙語句段的比率為對齊精確率,即

Precision(A,Ar)=|A∩Ar|/|A|

(2)

在真實運用中,通常采用F評估法當作權衡對齊性能的指標,該方法是對齊精確率與召回率的調和均值。

傳統對齊方法依靠句段內的單詞個數,沒有考慮單詞自身形態與含義。在此前提下,創設一個概率模型,同時挑選最大概率路徑當作對齊輸出,該模型的參數涵蓋句段類別概率與長度相對概率[7]。

使用基于長度的句子對齊方法,其核心思想是句子長度越相近,則變成對譯句段的概率越大。

3 句段相似度分析

按照源語言文本,從大范圍多源信息平行語料庫內找到最為接近的翻譯范例,確保譯員準確高效地完成翻譯工作,這就是句段相似度計算的根本任務[8]。現階段對于相似度暫無一個確切定義,在不同實際應用中,相似度內涵各不相等。本文依照如下內容進行相似度類型區分:A和B間的相似度與它們的共性及區別有關,共性數量越多,相似度越高;區別越多,相似度越小。文中的相似度代表兩個句段字符重復水準,按照句段相似水平將去重句段劃分為以下幾種:句段全部重復、句段內涵重復、句型轉換和少部分同義詞變換。

將句段描述為單詞集合

π(S)={W1,W2,…,Wn}

(3)

式中,S代表句段,Wi是句段內的單詞。

句段S1與句段S2之間的表層相似度為

Sim(S1,S2)=2*Γ(π(S1)Iπ(S2))

/(Len(S1)+Len(S2))

(4)

式中,I代表集合的求交運算,Γ是集合的因子數量,Len是句段長度,也就是句段內包含的單詞個數。

兩個句段表層相似度越高,輸入的待翻譯句段和翻譯實例相同的單詞越多,保障了平行語料庫譯文的高質量。

句段中詞匯信息熵值越高,表明該詞匯在語料庫內出現的頻率越小,對分辨句段相似度的作用越好,計算流程為

H(w)=lg(M/m)

(5)

式中,w為詞匯,M是平行語料庫內的句段總數,m是出現詞匯w的句段數量。

相似度臨界值可以更好地約束句子相似度運算精度,將臨界值設定在0.6~0.7之間。句段S1與句段S2的信息熵相似度臨界值計算過程為

SimH=∑H(wi)

(6)

實施待選實例搜索過程中,在多源信息下的平行語料庫內挑選一定數量的句段,再使用式(6)的信息熵相似度臨界值計算過程,從句段中選出某些句子。

值得注意的是,本文方法無法在全部平行語料庫內直接使用式(6)擇取待選實例。原因在于,假如在全部平行語料庫中直接使用信息熵相似度臨界值篩查待選模式,就會給某種特殊用詞過多比重,致使篩選出的翻譯句段和預期翻譯結果相差較多[9],降低了譯文整體翻譯質量。

使用基于泛化的匹配度計算,在泛化前提下算出待選實例和輸入的待翻譯句段之間的模糊匹配度。按照待翻譯的輸入句子對翻譯實例的有關語法單位實施泛化,構成擁有相對復雜特征的參變量,憑借泛化實例類比推導組建輸入句段的譯文。

類比推理是一個變量屬性收斂匹配的過程,譯文結構利用對泛化實例采取替換、拷貝、刪除等動作來實現。實施泛化匹配過程中,要考慮詞形、詞類、詞的同義、反義和涵蓋的語境信息[10]。

詞語泛化匹配度代表輸入句段內的某個詞語和翻譯實例內的某個詞語能夠互相替換的幾率,與詞匯相似度具有密切關聯。將詞語泛化匹配度的計算方程描述為

LGMD(w1,w2)=f(SimLex,SimPos,SimCon)

(7)

式中,α、β、γ為三個系數,代表不同狀況下的可信度權值,SimLex為詞匯相似度,SimPos為詞性相似度,SimCon是語境相似度。SimLex的運算過程如下

SimLex(w1,w2)

(8)

式中,dis_sem(w1,w2)代表詞匯w1、w2之間的語義距離,α為權值系數。語義距離的運算使用基于HowNet方法,該方法提供的義原分類樹,用樹的模式呈現出每個義原及其關聯,樹內父節點與子節點的義原擁有上下位關聯[11],采用義原分類樹推算兩個詞語間的語義距離。

SimPos推導公式為

(9)

其中,Pos(w)為詞匯w處于句段中的詞類標注屬性。

SimCon推導公式為:

(10)

式中,ω是權值系數,dis_con(w1,w2)是單詞w1、w2的上下文偏移間距。

句子泛化匹配度是翻譯實例以范例形式,對輸入句段實施類比翻譯的可靠度,計算過程為:

(11)

式中,分母內的Len(s1)、Len(s2)依次代表輸入句段與翻譯實例的句段長度。

最終句段相似度計算公式為:

similarity(s1,s2)=a·SGMD(s1,s2)

+β·Sims(s1,s2)+γ·SimH

(12)

通過以上過程,就能從平行語料庫中找出最相近的翻譯句子,提升后續相似句段去重效果。

4 基于TF-IDF技術的平行語料庫相似句段去重算法

傳統相似句段去重將文檔分詞識別獲得的關鍵詞當作特征值,權重是關鍵詞出現的數量。詞性與詞長是權衡單詞權重的主要元素,全方位呈現句段具體內容,提升相似句段去重精確率。權重只取決于單詞出現的次數,句段內的某些核心內容會發生損壞,大幅減少了去重精度。為處理這一難題,本文運用TF-IDF技術與單詞主題相關性推算關鍵詞權重,剔除權重值較高的句段,實現準確高效的平行語料庫句段去重目標。

TF-IDF技術主要計算關鍵詞在句段內的重要程度,TF是關鍵詞在句段內出現的頻度,將關鍵詞ti的TF描述成

(13)

逆向文本頻率IDF,代表關鍵詞所在句段處于句段集合中的比例,記作

(14)

式中,|D|是ti句段集合內的句段總數,|{j:ti∈dj}|為包含關鍵詞的句段個數,并保證是ni,j不等于零的句段。

關鍵詞i在句段j中的TF-IDF定義是

tf-idfi,j=tfi,j×idfi

(15)

TF-IDF技術的有限性在于,句段出現次數越高,重要程度就越低,這對于某些句段而言擁有一定偏差,某類關鍵詞匯在句段中出現的次數也很多,要賦予此類詞匯更多的權重。

本文使用單詞主體相關性當作附加權重,把專業術語單詞長度設定為辨別單詞主體相關性的憑據。選擇平行語料庫內的關鍵詞為數據集合[12],計算數據集合內20000個中文術語長度,同時實施正態擬合,其結果如圖1所示。

圖1 中文譯文長度擬合示意圖

圖1內的擬合正態分布函數是

(16)

將擬合后獲得的擬合函數確定系數書寫成Rsquare,該系數越趨近于1,證明擬合函數對真實數據的詮釋性能越強。

單詞長度約接近5,伴隨函數值的升高,單詞主題相關性也隨之上升。

運用單詞主題相關性函數當作附加權重,能提升TF-IDF技術對權重計算的準確性。最后得到關鍵詞e的權重計算方程為

w(e)=tfe,j×idfe×(1+len(x))

(17)

以下為相似句段去重的具體步驟:在待檢測的文本內選擇一個句段Si和目前已知的句段集合S,將Si與集合內的句段按一定順序分別計算其權重,假如某個句段Sj和Si的權重超出設定的臨界值,那么Si就無法作為一個全新的句段放入S中,反之將其添加至S中。

5 實驗分析

為證明所提方法去重成效,對該算法與文獻[4]、文獻[5]方法進行實驗分析,開發語言為Java。圖2是三種方法在相同狀況下對同一文本集句段進行去重的運算時間。

圖2 不同方法下的去重運算時間

從圖2中可知,在句段數據量較小時,三種方法均耗費很少的運算時間,去重時間近乎相等。但在實驗數據量逐步上升后,所有方法的時間呈現指數形式增長,文獻[5]方法所耗時間最長,其次為文獻[4]方法,所提方法耗費的運行時間最短。出現此種現象的原因是,本文方法充分考慮了句段相似度在不同情況下的重復模式,可使用在任何長度的語句比對中,增強了算法去重識別速率。

利用去重召回率與精確率權衡算法的實用性,把去重的關鍵放在短句與長句比率在0.3~0.9之間的句子。通過多次實驗,設定的平衡參數λ1與λ2如表1所示,相似度臨界值為0.6。

表1 平衡參數設定

實驗第一組數據為自主研發的樣本150個句段,第二、三、四組數據從互聯網中得到,分別為750、630、480個句段,實驗結果如表2所示。

表2 算法召回率和精確率實驗結果

從表2中可以看到,本文方法召回率與精確率均為最高的,另外三組數據均存在一定的誤判現象。在實際操作中,在相關度分析時制作一個分析報表,報表內記載被系統認為相似的句段編碼與內容,再利用人工判別是否相似,去除誤判結果。

使用自主研發樣本數據,通過更改臨界值大小,觀測臨界值對本文方法召回率與精確率的影響,如圖3所示。

圖3 臨界值對本文方法去重效果的影響

從圖3看出,閾值在0.6~0.7之間時,召回率與精確率實現很好的均衡,這與上文設定結果相同,以此也證明了本文方法的可靠性。

6 結論

為提升語言服務企業翻譯工作時效性,提出一種基于TF-IDF技術的平行語料庫相似句段去重算法。該算法對整體重復與特別相近的句段擁有極強的去重效果,但該方法研究語義相似性的內容較少,后續會對此點進行改進,深入提升算法去重的完整性。

猜你喜歡
單詞方法
What’s This?
Exercise 1
單詞連一連
學習方法
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 白浆免费视频国产精品视频| 亚洲第一黄色网址| 色悠久久久| 精品国产一区二区三区在线观看| 国产性精品| 原味小视频在线www国产| 黄色不卡视频| 亚洲综合极品香蕉久久网| 91久久国产成人免费观看| 毛片最新网址| 亚洲视频无码| 国产日韩丝袜一二三区| 一级香蕉视频在线观看| 亚洲va在线观看| 激情综合图区| 国产精品欧美激情| 精品三级网站| 欧美性精品| 久久久四虎成人永久免费网站| 色噜噜狠狠色综合网图区| 婷婷激情五月网| 国产91熟女高潮一区二区| 成人精品视频一区二区在线 | 亚洲一级毛片免费观看| 国产欧美日本在线观看| 久久国产拍爱| 国产精品女主播| 精品午夜国产福利观看| 台湾AV国片精品女同性| 亚洲美女久久| 亚洲精品无码高潮喷水A| 亚洲天堂久久| 91在线视频福利| 日韩国产高清无码| 97久久免费视频| 国产不卡在线看| 国产激情影院| 日本爱爱精品一区二区| 超薄丝袜足j国产在线视频| a级毛片免费网站| 超碰精品无码一区二区| 18禁高潮出水呻吟娇喘蜜芽| 欧美日本激情| 国产福利观看| 拍国产真实乱人偷精品| 日韩免费毛片| 亚洲高清日韩heyzo| 无码 在线 在线| 亚洲国产精品成人久久综合影院| 日韩精品一区二区三区中文无码| 无码视频国产精品一区二区| 88国产经典欧美一区二区三区| 欧美在线黄| 亚洲成人福利网站| 国产黄色爱视频| 国产免费高清无需播放器 | 91免费国产在线观看尤物| V一区无码内射国产| 久久精品最新免费国产成人| 亚洲天堂网2014| 波多野结衣一区二区三区四区| 99久久精品免费视频| 国产日韩精品一区在线不卡 | 国产亚洲欧美在线人成aaaa | 青草免费在线观看| 狠狠做深爱婷婷综合一区| 色综合热无码热国产| 欧美日韩一区二区三区在线视频| 97人妻精品专区久久久久| 亚洲精品爱草草视频在线| 亚洲人成网站在线播放2019| 亚洲成年网站在线观看| 国产亚洲欧美另类一区二区| 亚洲色无码专线精品观看| 人妻中文字幕无码久久一区| 久久黄色一级片| 视频一区视频二区日韩专区| 丰满人妻中出白浆| 精品午夜国产福利观看| 亚洲精品视频网| 国产无码网站在线观看| 潮喷在线无码白浆|