999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于平行語料庫的英漢跨語言信息檢索設計研究

2021-09-05 11:43:22雪,梁
電子設計工程 2021年17期
關鍵詞:信息檢索單詞語言

葉 雪,梁 娟

(陜西財經職業技術學院,陜西 咸陽 712099)

信息時代中出現了大量的數字信息,文本信息為最常用、最基本的方式,為了能夠在海量文本信息中尋找自己所需要的,人們需要高效檢索工具。如何能夠對非結構數據進行存儲與查詢,屬于重點研究內容[1]。上世紀90年代,人們對信息檢索的要求越來越高,不再滿足同個語種檢索,要在檢索結果中具備多語種信息。在國際互聯網不斷發展的過程中,Internet中信息資源數量與類型越來越豐富,語言也具備不平衡性與多樣性。網絡用戶數量也越來越多,掌握語言也多樣化。因為網絡資源語種多樣性與網絡用戶對語言掌握的差異化,導致人們通過網絡對信息檢索出現語言障礙,為非英語國家用戶使用網絡信息帶來了不便[2]。因此,英漢跨語言信息檢索設計的研究具有重要意義。

1 系統結構設計

跨語言信息檢索(CLIR)中的查詢根據長度劃分為長查詢、短查詢與標題查詢,查詢翻譯已經成為針對跨語言信息檢索最流行的技術,性能達到單純檢索效率的50%~75%;并且創建查詢翻譯處理模塊和創建文檔翻譯處理模塊對比,前者比較容易實現[3]。所以,將基于平行語料庫的查詢翻譯作為跨越源語和目標語的語言界限方法,并且用英語雙語詞典作為主體的知識源實現查詢翻譯處理。在創建的面向英漢跨語言信息檢索系統中,重點為漢語IR與查詢翻譯。實現系統的思想為:使初始源語(英語)查詢翻譯成為目標語(漢語)單詞列表,之后通過翻譯處理進行查詢,利用漢語IR技術和概率方法得到相應文檔列表。通過全自動的方式實現全部查詢處理,包括短查詢、長查詢的翻譯處理[4],圖1為英漢跨語言信息檢索系統的結構。

圖1 英漢跨語言信息檢索系統的結構

2 英漢跨語言信息檢索的設計

2.1 翻譯算法

英漢跨語言信息檢索的翻譯算法主要包括預處理、預分析和翻譯處理,其中預處理指的是英語查詢分詞、大小寫變換、標記標點符號等預處理過程;翻譯處理為實現英語查詢短語層、詞匯層兩層翻譯的處理過程;預分析指的是實現英語查詢中單詞形態恢復、禁用詞標記、詞性分析等處理的過程[5]。

2.1.1 預處理

英語分詞查詢過程中,要利用不同標點符號啟發式方法分割句子,以空格作為標志,將每個句子字符切割成為單詞流;針對通過分詞處理得到的單詞流,使其中的標點符號實現標注處理;因為英語查詢大部分都是新聞報道標題,首字母都是大寫形式的詞匯,所以要正確判斷,針對單詞首字母進行大小寫變換處理,為后續操作提供正確信息[6]。

2.1.2 預分析

英語查詢通過預處理之后,預分析要標注其中的禁用詞,并且恢復變換形勢的單詞。一個詞可能會具有多種不同的詞性,在不同句子中的語法性能各有不同。所以,要決定一個詞的詞類需在具體句子中以其他詞的語法功能進行判定。基于隱馬爾可夫模型HMM詞性標注器實現正確地標注詞類[7]。

因為英語查詢中具備變化形式的單詞,不利于得到正確的翻譯結果,所以,要通過英漢雙語詞典,利用不規則形態恢復表和規則變化啟發式實現單詞形態恢復處理,得到相應的原形[8]。

2.1.3 翻譯處理

詞匯層翻譯是通過英漢雙語詞典的基本詞典部分進行逐詞翻譯,其中包括詞義消歧問題。語境條件為語法語義參數,在具體詞選擇的過程中,對詞義進行標記,此標記表示一定的語義、語法特征,即概念碼[9]。

短語層翻譯是通過英漢雙語詞典成語部分實現,涉及遠距離、近距離短語識別的問題,重點為近距離短語識別和翻譯處理過程,使用正向最大匹配法,過程為:

1)通過英漢雙語詞典得到以目前查詢詞作為領頭詞的短語集合;

2)創建基于目前查詢詞,并且具有詞匯數和短語集合各成員的短語。

對比所創建的短語和短語集合的各成員,假如有一對成功匹配,就進行短語標記,若除了處理部分以外第一個單詞屬于當前查詢詞,則重復匹配過程;假如有多對成功匹配,就要選擇長度最大的進行短語標記,并將其作為目前查詢詞,重復匹配過程;假如沒有匹配成功,使目前查詢詞相鄰的下個單詞成為目前查詢詞,重復匹配過程[10]。

在處理過程中,利用式(1)進行翻譯處理和排序:

以式(2)定義語項權重:

式(2)中的q(t)為語項t權重,一般為查詢頻率:

式(3)中,di(t)為語項t在文檔Di中出現的次數,k為語料庫不同的語項數目,n為文檔集文檔數目。

對于p(t)中Turing-Good的估計,利用pat(t)=pr(t)r*/N得到:

式中,r為語項t在文檔集中出現的次數,Nr為文檔集中r次語項數目,N為文檔集觀察得出的全部語項數目。針對每篇文檔,能夠通過以上公式實現處理和排序。

2.2 索引模塊設計

索引模塊在分析預處理純文本文件之后,創建倒排索引生成索引文件在磁盤中寫入,從而實現全文索引,圖2為索引用例圖,圖3為索引模塊圖。在開始索引時,要得到待索引文檔集路徑,需保存索引文件路徑,并分析是否要重建索引參數[11]。之后,新建索引對象、分詞模塊加載分詞詞典,對文檔進行讀取。如果文檔為中文,就調用分詞模塊實現分詞處理;如果是英文,則不需要分詞,通過解析器對文檔進行解析,以此為索引對象增加此文檔對象,最后利用寫索引機制使詞語單詞等信息寫入到索引中,并且生成索引文件保存在磁盤中[12]。

圖2 索引用例圖

圖3 索引模塊圖

在開始索引時,要將待索引文本路徑根據掃描的文本文件實現內容的讀入,之后創建寫索引對象,加載分詞詞典,調用分詞模塊并實現分詞處理,將得到的詞用空格分開[13]。最終,將此詞寫入索引,通過分析器分析。之后調用IndexEriter類中的addDocument對CLucene調用實現索引,用directory類對CLucene索引存儲的位置進行描述。其屬于抽象類,有兩個子類,能夠提供特定的存取索引方法。對于待索引大量文檔集,將文檔存儲路徑告知CLucene,實現Directory實例的生成,并且將此實例傳遞給構造函數[14]。然后,利用Directory實現IndexWrieer,在某個指定目錄中創建索引文件,并存儲在磁盤中。

在跨語言檢索過程中,用戶輸入索引式、索引文件路徑與查詢相關度范圍之后,系統能夠進一步處理檢索式,如果為中文檢索式,則通過分詞處理之后利用翻譯構成最終英文檢索式;如果為英文檢索式就直接翻譯,轉變為中文檢索式[15-16]。

3 系統測試

因為漢語查詢集都是通過Big5字符集實現編碼,漢語處理工具以基于GB字符編碼為主,所以針對初始漢語查詢集,要通過Big5碼-GB碼轉換器,使其朝著GB字符集編碼方式轉變。文中選擇3個新聞集合作為案例,一共有242 918篇文檔,表1為相關英語語料庫的統計數據。

表1 相關英語語料庫的統計數據

針對目前信息檢索系統,利用準確率與查全率對系統檢索性能進行衡量。在檢索過程中使用以下方法進行評價:利用多個檢索系統對同個查詢檢索之后,將其返回的最相關的前100篇文檔合并,并且對比文檔集進行人工相關性評價。該方法能夠降低評價工作量,還能夠使評價準確度得到提高[17]。

在訓練英語語料庫過程中,得到最好的結果平均查準率為0.386 9,在漢語查詢集和除了訓練部分之外的英語語料庫測試過程中,自動查詢模式通過分詞方式實現索引處理,最后單語使用基于n元組的切分方法實現索引處理。圖4為測試結果,表2為漢英跨語言信息檢索運行結果和平均中值對比。通過對比表明,漢英CLIR的運行中C-ECLIR1性能是最佳的。

表2 漢英跨語言信息檢索運行結果和平均中值對比

圖4 測試結果

目前,所創建的跨語言信息檢索系統已經初成規模。通過系統運行情況和測試評估可知,查詢翻譯器和漢語搜索引擎的系統性能滿足要求[18]。

4 結束語

跨語言信息檢索技術屬于全新信息處理技術,此技術為計算語言學信息處理帶來全新的解決途徑。文中設計面向英漢的跨語言信息檢索系統屬于機器翻譯技術在信息檢索領域中使用的全新嘗試,能夠有效促進跨語言信息檢索問題的解決。在英漢查詢翻譯中,主要將英漢雙語詞典作為主體的知識源。但是,除了詞典完整性問題,還要通過詞典中選擇單詞最佳翻譯。以此,文中創建了英漢翻譯處理模式和短語層翻譯處理模式,與詞類標記等信息結合,得到正確的翻譯結果。

猜你喜歡
信息檢索單詞語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
單詞連一連
看圖填單詞
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
我有我語言
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
主站蜘蛛池模板: 亚洲黄色成人| 久久精品丝袜高跟鞋| 中文字幕在线日本| 看国产毛片| 国产91精品调教在线播放| 亚洲AV无码不卡无码| 国产欧美日韩va另类在线播放| 91国内外精品自在线播放| 三上悠亚在线精品二区| 91香蕉视频下载网站| 亚洲成人免费看| 亚洲日韩精品欧美中文字幕| 国产精品久久久久久久久| 中国国产A一级毛片| 国产区精品高清在线观看| 婷婷五月在线视频| 国产精品夜夜嗨视频免费视频 | 欧洲亚洲欧美国产日本高清| 国产成人h在线观看网站站| 欧美日韩第二页| 国产亚洲精品91| 又猛又黄又爽无遮挡的视频网站| 日韩欧美色综合| 女人天堂av免费| 91尤物国产尤物福利在线| 任我操在线视频| 熟女成人国产精品视频| 午夜爽爽视频| 青青青国产精品国产精品美女| 国产精品久久自在自线观看| 亚洲成aⅴ人片在线影院八| 国产亚洲欧美日韩在线一区| 国产啪在线| 成人免费视频一区| 99久久精品无码专区免费| 最新无码专区超级碰碰碰| 免费看一级毛片波多结衣| 亚洲精品高清视频| 欧美不卡视频在线| 又爽又大又光又色的午夜视频| 久久免费视频6| 97色婷婷成人综合在线观看| a级高清毛片| 伊人91在线| 国产女人18水真多毛片18精品| 国产成人夜色91| 欧美日韩在线国产| 中文一级毛片| 午夜精品区| 九色视频最新网址| 黄色成年视频| 成人国产精品网站在线看| 婷婷99视频精品全部在线观看 | 亚洲中文在线看视频一区| 国产精品伦视频观看免费| 亚洲成a人片77777在线播放| 真人高潮娇喘嗯啊在线观看| 日本午夜网站| 91在线一9|永久视频在线| 天天干天天色综合网| 欧美天天干| 伊人狠狠丁香婷婷综合色 | 欧美亚洲中文精品三区| 91色在线观看| 国产无码精品在线| 亚洲国产第一区二区香蕉| 亚洲aaa视频| 在线日本国产成人免费的| 久久精品国产91久久综合麻豆自制| 91探花在线观看国产最新| 亚洲福利片无码最新在线播放| 99久久国产综合精品2020| 这里只有精品在线| 欧美成人精品一级在线观看| 亚洲国产理论片在线播放| 亚洲男人在线天堂| 亚洲欧美不卡中文字幕| 色婷婷在线播放| 亚洲综合亚洲国产尤物| 亚洲国产综合精品一区| 亚洲精品你懂的| 高清不卡一区二区三区香蕉|