999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

查詢擴展技術在跨語言信息檢索中的應用

2015-05-15 10:13:40楊亮
現代計算機 2015年2期
關鍵詞:信息檢索用戶語言

楊亮

(廣東技術師范學院圖書館,廣州 510400)

查詢擴展技術在跨語言信息檢索中的應用

楊亮

(廣東技術師范學院圖書館,廣州 510400)

互聯網的快速發展使得網絡資源的表現形式日益多樣化,其中信息資源的多語種問題,成為人們獲取信息的主要障礙。當用戶檢索的信息是自己不熟悉的語言時,往往難以獲得準確的檢索結果。基于Lucene平臺設計并實現跨語言信息檢索系統,系統在提問式翻譯的基礎上應用查詢擴展技術。實驗結果表明,查詢擴展技術可有效提高跨語言信息檢索的查全率。

跨語言信息檢索;查詢擴展;Lucene

0 引言

隨著互聯網的不斷發展,使用不同語言的互聯網用戶也在不斷增加,網絡上的海量信息資源由很多不同的語言所組成,當用戶需要檢索的信息是自己不熟悉的語言時往往會面臨一定的障礙,這使得很多用戶不能自由地獲取信息。為了解決多語種問題帶來的語言障礙,讓用戶可以更加便捷地檢索信息,學者們開始對跨語言信息檢索進行探索。

傳統的信息檢索研究的是單一語種的檢索問題,即檢索提問式和被檢索文檔集采用的是同一種語言表述。而跨語言信息檢索(Cross-Language Information Retrieval,簡稱CLIR)是指用戶通過一種語言(通常是自己的母語)進行檢索,獲取以另一種或幾種語言表述的信息或文檔的信息檢索技術和方法[1]。在跨語言信息檢索中,用戶構造檢索提問式所使用的語言通常稱為源語言(Source Language),一般是用戶的母語或用戶所熟悉的語言;而被檢索的文檔集所使用的語言通常稱為目標語言(Target Language),目標語言一般是用戶不熟悉甚至完全陌生的語言[2]。跨語言檢索重點研究的是源語言與目標語言之間翻譯匹配的問題。

1 翻譯方法

目前,實現源語言與目標語言的翻譯匹配主要有四種方法:提問式翻譯、文獻翻譯、中間語種轉換和非翻譯[3~6]。

提問式翻譯(Query Translation Approach)。這種方法將用戶輸入的檢索提問式翻譯為系統支持的語言,然后進行檢索。提問式翻譯是目前最為常用的方法,它可以很容易地與傳統的單語種信息檢索相結合,特點是對系統要求不高,執行速度快。但由于提問式比較短,通常都是一個或幾個詞,缺乏一定的上下文語境,對于一詞多義、一義多詞等翻譯歧義問題不能很好地解決。實現提問式翻譯主要有基于詞典(Dictionary-Based)和基于雙語語料庫(Bilingual Corpus-Based)兩種模式。

文獻翻譯(Document Translation Approach)。文獻翻譯在信息檢索之前,將被檢索的文檔集轉化為與檢索提問式相同的語種,通過該方法返回給用戶的結果是用源語言所描述的,且上下文語境信息比較寬泛,用戶選擇利用起來也就更加便利。不過由于目前機器翻譯的效果并不理想,而將系統中的所有文獻都從目標語種翻譯為源語種的工作量十分龐大,完全由人工來翻譯又不現實,因此,文獻翻譯的實用性較差。

中間語種轉換(Interlingual Representation Approach)。提問式翻譯將源語種轉化為目標語種,而文獻翻譯將目標語種轉化為源語種,中間語種轉換方法則是將源語種和目標語種同時轉換為第三方的中間語種。這種方法多用于源語種和目標語種不能直接翻譯或雙語詞典不存在時,如德語和意大利語。

非翻譯(No Translation Approach)。該方法不對源語種或者目標語種進行翻譯就可以實現跨語言信息檢索,即潛語義索引。這種方法不需要詞典、機器翻譯系統,但是如何針對具體問題構造優化的向量空間模型是一項經驗性的工作,且訓練文檔不容易獲取。

2 查詢擴展技術

信息需求是用戶想要查找的信息主題,信息檢索就是從大規模非結構化數據的集合中找出滿足用戶信息需求的資料的過程。在檢索時用戶使用檢索提問式來代表其信息需求,將檢索提問式提交給系統,系統從文檔集中返回與之相關的文檔[7]。然而,用戶提交的檢索提問式通常是一個很短的句子或者是少量的關鍵詞,簡短的檢索提問式不能很好地代表用戶的信息需求,從而造成檢索出的文檔對用戶的需求價值不高。為此,有學者提出了查詢擴展技術。

查詢擴展(Query Expansion)指的是利用計算機語言學、信息學等多種技術,把與原查詢相關的詞語或者與原查詢語義相關聯的概念添加到原查詢,得到比原查詢更長的新查詢,然后檢索文檔,以改善信息檢索的性能,解決信息檢索領域長期困擾的詞不匹配問題,彌補用戶查詢信息不足的缺陷[8]。查詢擴展技術主要分為全局分析和局部分析兩大類。全局分析是對整個文檔集的語詞進行相關分析,計算每對語詞間的關聯程度,在檢索時選取與檢索提問式關聯程度高的語詞對檢索提問式進行擴充。全局分析需要對整個文檔集進行相關處理,系統計算量大,只適合小范圍內的信息檢索,不適用于大規模的海量檢索。局部分析利用初始檢索得到的最相關的N篇文檔作為擴展用詞的來源,不需要對全部語詞進行相關計算[9]。

在跨語言信息檢索領域,以往的研究多集中在理論和模型方面,實踐研究較少,本文基于Lucene平臺設計并實現了一個漢英跨語言信息檢索系統,使用局部分析中的相關性反饋技術對翻譯后的檢索提問式進行查詢擴展[10],通過實驗研究應用查詢擴展前后系統的檢索性能。

3 系統設計與實現

本文基于Lucene平臺實現了一個跨語言信息檢索系統,結構如圖1。系統應用了查詢擴展技術檢索系統,采用了B/S架構,使用Eclipse開發平臺和Tomcat服務器搭建開發環境,采用Java語言進行編程,并使用MySQL數據庫管理機讀詞典。

圖1 跨語言信息檢索系統結構圖

3.1 Lucene檢索引擎

Lucene是一款高性能的、可擴展的信息檢索(IR)工具庫,是一款以Java實現的成熟、自由、開源的軟件,為開發者提供了完整的檢索引擎和索引引擎,可以方便地在系統中實現全文檢索的功能。同時,Lucene是Apache軟件基金會(Apache Software Foundation)中的一個項目,基于Apache軟件許可協議授權,在近年來已經成為最受歡迎的開源信息檢索工具庫。

本文基于Lucene平臺實現系統的檢索功能,Lucene的核心API主要可分為兩類。第一類是索引過程的核心類,包括IndexWriter、Directory、Analyzer、Document等。其中IndexWriter(寫索引)是索引過程的核心組件,主要負責創建新索引和對索引的維護。Directory類指明了Lucene索引的位置所在。Analyzer和Document則表示在建立索引前,文本文件需要經過分析器和文檔化的處理。第二類是搜索過程的核心類,包括IndexSearcher、QueryParser、Query、TopDocs等。其中IndexSearcher用于搜索由IndexWriter類創建的索引,所有的檢索操作都是通過IndexSearcher實例使用一個重載的search方法來實現。QueryParser類將用戶輸入的檢索提問式處理為一個具體的Query對象;大多數IndexSearcher的search方法都會以返回TopDocs對象的形式來返回搜索結果。

3.2 分詞

在英語環境中,英文單詞之間用空格來進行間隔,單詞就是自然的索引單元,而在中文環境中,中文文本是以字為基本單元的,字和字之間沒有明顯的間隔,這就需要中文分詞技術來解決這個問題,運用中文分詞技術可以將連續的文本序列按照一定的規則切分成具有獨立語義的詞組[11]。中文分詞是中文信息處理的基礎與關鍵,本文使用ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)來對中文檢索提問式進行分詞。ICTCLAS是由中國科學院計算技術研究所研制出的漢語詞法分析系統,主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別等。ICTCLAS是目前比較好的漢語詞法分析器,提供了一套完整的動態鏈接庫供開發者直接在自己的系統中調用來實現漢語詞法分析,支持C/C++/C#/Delphi/Java等主流開發語言。

3.3 詞典翻譯

本文使用基于詞典的提問式翻譯方法對中文檢索提問式進行翻譯處理,詞典選用了MDBG漢英詞典,該詞典屬于1997年Paul Denisowski創辦的CEDICT項目,支持簡體中文、繁體中文以及拼音與英語的對照翻譯。詞典可以在MDBG網站上免費獲取,內容涵蓋了單字、詞組、短語、地名、專業術語等110284個詞條。

詞條示例:

世界觀世界觀[shi4 jie4 guan1]/worldview/world outlook/Weltanschauung/

3.4 建立索引

在進行檢索前,首先要對檢索文檔建立索引,以便進行快速檢索。索引操作把數據處理成一種高效的、可交叉引用的數據結構,這種結構允許對存儲在其中的單詞進行快速隨機存取。本文基于Lucene平臺建立索引,Lucene的索引結構分為索引(Index)、索引段(Segment)、索引文檔(Document)、索引域(Field)和索引項(Term)五個層次。Lucene的每個索引結構由若干個段組成,每個段包含若干個文檔,每個文檔管理若干個域,每個域中有若干個項,項就是索引中最基本的語匯單元[12]。

本文對數據建立索引的過程分為三個部分:

(1)預處理:將所有檢索文檔都轉換成Lucene能夠處理的格式——純文本數據流,以.txt的格式保存在磁盤中。

(2)分析:通過Lucene索引管理器對文檔進行分析,將文本轉換為最基本的索引項,并且過濾掉一些頻繁出現卻沒有實際意義的詞,如英文中的a、an、the、in、on等停用詞,去除標點符號。

(3)寫入索引:將分析處理后的結果寫入到索引文件,以倒排索引的結構存儲在磁盤中。從文檔中抽取出的語匯單元被看作是查找關鍵詞,可以快速地執行檢索操作。

3.5 查詢擴展

本文使用局部分析中的相關性反饋技術對翻譯后的檢索提問式進行查詢擴展,根據初始檢索的結果,利用Lucene的評分機制對返回結果中的文檔進行排序,將排名前3的文檔取出,并對這3篇文檔進行詞匯統計,用出現頻率最高的詞匯w_1去擴展翻譯后的檢索式。如果w_1已經出現在翻譯后的檢索式中,則使用出現頻率第二高的詞匯w_2進行擴展,以此類推。

3.6 實驗過程

實驗目的是測試應用查詢擴展技術前后跨語言信息檢索系統的檢索性能,使用查準率和查全率兩個指標來衡量。查準率是指檢出的相關文檔與檢出文檔總數的比值,查全率是指檢出的相關文檔與相關文檔總數的比值[13]。查準率用來衡量系統的檢索精度,查全率用來衡量系統檢出相關文檔的能力。

實驗運行環境如下:CPU:Intel Pentium Dual-Core E5200、內存:4GB、硬盤:希捷250GB、操作系統:Windows 7 Ultimate。實驗所用的檢索文檔全部來源于新華網,共計300篇英文文檔,內容涵蓋科技、健康、體育、經濟等多個類別。針對實驗設計了10個檢索式,先進行一次初始檢索,然后再進行兩次查詢擴展,對比系統的查準率和查全率。

具體的實驗步驟如下:

①輸入中文檢索式,標記為zws;

②對zws進行分詞和去除中文停用詞的處理;

③通過機讀詞典對zws進行翻譯,得到相應的英文檢索式ews0;

④使用ews0進行初始檢索,根據檢索結果計算相應的查準率和查全率;

⑤進行第一次查詢擴展,將擴展結果加入到ews0中得到檢索式ews1;

⑥使用ews1進行檢索,根據檢索結果計算相應的查準率和查全率;

⑦進行第二次查詢擴展,將擴展結果加入到ews1中得到檢索式ews2;

⑧使用ews2進行檢索,根據檢索結果計算相應的查準率和查全率。

3.7 實驗結果

例如,用戶的信息需求是查找手機系統方面的信息,輸入中文檢索式“手機系統”,經分詞處理后系統翻譯得到英文檢索式“cell phone mobile phone system”,進行初始檢索后根據檢索結果計算出查準率為0.5588,查全率為0.95。之后進行第一次查詢擴展,得到檢索式“cell phone mobile phone system android”,再次進行檢索,根據檢索結果計算出查準率為0.5405,查全率為1.0。然后進行第二次查詢擴展,得到檢索式“cell phone mobile phone system android smart”,根據檢索結果計算出查準率為0.5333,查全率為1.0。

對10個檢索式初始檢索結果的查準率和查全率、兩次查詢擴展后檢索結果的查準率和查全率進行對比,如圖2、圖3。

通過檢索結果可以看出,在應用了查詢擴展技術后,系統的查全率得到了提升,同時因為獲取了較多的檢中結果,系統的查準率有所下降,這也是系統表現良好的一個證明。“檢索式10”的查準率在第二次查詢擴展后有明顯的下降,其查全率在第一次查詢擴展后有明顯的上升,這是因為詞典對一些新詞匯沒有完全收錄而產生的噪點數據。另外,當初始查詢得到的文檔在經過排序后,如果排名靠前的文檔與原信息需求相關性不大,在查詢擴展時就會把一些無關的詞加入到新查詢中,也會影響檢索效果。從總體上看,查詢擴展技術在跨語言信息檢索系統中表現出了良好的性能。

4 結語

本文基于Lucene平臺實現了一個跨語言信息檢索系統,通過實驗對初始查詢、一次查詢擴展、二次查詢擴展進行了比較研究,實驗結果表明查詢擴展技術可有效提升跨語言信息檢索的查全率。在一個好的系統中,查準率往往會隨著返回文檔數目的增加而降低[7],怎樣在滿足用戶信息需求的同時控制查準率和查全率之間的平衡是今后需要研究的方向。另外,本文對跨語言信息檢索由中文到英文的翻譯進行了研究,中英文雙向互譯也將作為今后進一步的研究工作。

圖2 應用查詢擴展前后系統的查準率

圖3 應用查詢擴展前后系統的查全率

參考文獻:

[1] 朱培焱,夏棟梁.漢英跨語言信息檢索研究[J].計算機與現代化,2011,08:13~16

[2] 張會平,周寧,陳立孚.跨語言信息檢索可視化研究[J].情報科學,2007,01:134~138

[3] 任成梅.跨語言信息檢索的發展與展望[J].圖書館學研究,2006,04:79~82

[4] 賴茂生,侯艷飛.跨語言檢索技術:策略與方法[J].鄭州大學學報(哲學社會科學版),2005,04:11~14

[5] 王昊.跨語言信息檢索實現方法與關鍵技術探討[J].情報雜志,2005,07:46~49

[6] 劉偉成,孫吉紅.跨語言信息檢索進展研究[J].中國圖書館學報,2008,01:88~92

[7] Manning C D,Raghavan P,Schütze H.Introduction to Information Retrieval[M].Beijing:Posts&Telecom Press,2010

[8] 陳燕紅,黃名選.基于Apriori改進算法的局部反饋查詢擴展[J].現代圖書情報技術,2007,09:84-87

[9] 黃名選,嚴小衛,張師超.查詢擴展技術進展與展望[J].計算機應用與軟件,2007,11:1~4+8

[10] 鄭敏.跨語言信息檢索的理論與實踐[J].情報理論與實踐,2003,03:223~225+212

[11] 于雪麗.Lucene中文分詞在科研文檔全文檢索系統的應用研究[D].青島大學,2011

[12] 鄭榕增,林世平.基于Lucene的中文倒排索引技術的研究[J].計算機技術與發展,2010,03:80~83

[13] Ricardo Baeza-Yates,Berthier Ribeiro-Neto等.王知津,賈福新,鄭紅軍等譯.現代信息檢索[M].北京:機械工業出版社,2005

Applications of Query Expansion in Cross-Language Information Retrieval

YANG Liang
(Department of Library,Guangdong Polytechnic Normal University,Guangzhou 510400)

With the rapid development of the Internet,the network resources have too many forms.Meanwhile,most of them are described in different languages,which has become a mainly obstacle when people get information.People can't get precise results if the information resource uses a language that is unfamiliar to them.Designs and implements a cross-language information retrieval system which uses query translation approach and query expansion technology based on Lucene.The experimental results show that the recall of cross-language information retrieval is improved when query expansion is applied.

Cross-Language Information Retrieval;Query Expansion;Lucene

1007-1423(2015)02-0026-05

10.3969/j.issn.1007-1423.2015.02.007

楊亮(1982-),男,江蘇豐縣人,碩士研究生,館員,研究方向為信息管理、信息檢索

2014-12-02

2014-12-16

廣東技術師范學院2013年校級科研項目(No.13KJY18)

猜你喜歡
信息檢索用戶語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
累積動態分析下的同聲傳譯語言壓縮
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于神經網絡的個性化信息檢索模型研究
我有我語言
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 日韩天堂视频| 国产二级毛片| 亚洲国产91人成在线| 成人自拍视频在线观看| 白浆免费视频国产精品视频| 色婷婷成人| 无码视频国产精品一区二区| 福利在线免费视频| 狠狠色综合久久狠狠色综合| 91免费国产在线观看尤物| 91娇喘视频| 亚洲视频无码| 国产激情影院| 欧美日韩成人| 激情综合网激情综合| 国产精品福利导航| 国产又黄又硬又粗| 国产99在线观看| 伊人色综合久久天天| 成人年鲁鲁在线观看视频| 四虎永久在线精品影院| 东京热一区二区三区无码视频| 尤物视频一区| 国产精品第5页| 国国产a国产片免费麻豆| 成年人久久黄色网站| 在线欧美日韩| 2020精品极品国产色在线观看| 国产在线高清一级毛片| 五月婷婷亚洲综合| 国产高清在线丝袜精品一区| 高清视频一区| 久久这里只有精品23| 精品成人一区二区| 99热国产这里只有精品无卡顿"| 国产一区二区福利| 色网在线视频| 九色视频线上播放| 久久综合一个色综合网| 99re热精品视频中文字幕不卡| 国产久草视频| 久久五月天国产自| 伊人国产无码高清视频| 亚洲无码91视频| 国产区在线观看视频| 亚洲一欧洲中文字幕在线| 97精品久久久大香线焦| 国产视频a| 91破解版在线亚洲| 精品无码视频在线观看| V一区无码内射国产| 欧美日韩福利| 国产欧美又粗又猛又爽老| 无遮挡国产高潮视频免费观看 | 国内毛片视频| 国产成人精品男人的天堂| 国产99视频精品免费视频7| 2024av在线无码中文最新| 国产一区二区三区免费| 日韩人妻精品一区| 色偷偷男人的天堂亚洲av| 欧美日韩国产一级| 国产丰满大乳无码免费播放| 日本午夜三级| 91探花在线观看国产最新| 97se亚洲综合在线| 99热在线只有精品| 黄片在线永久| 午夜在线不卡| 亚洲精品欧美日本中文字幕| 91精品国产综合久久香蕉922| 久久久久久久久18禁秘| 中文字幕日韩欧美| 中文字幕日韩久久综合影院| 欧美中文字幕第一页线路一| 国产香蕉97碰碰视频VA碰碰看| 久久人人妻人人爽人人卡片av| 中文字幕在线永久在线视频2020| 亚洲国产成熟视频在线多多| 国产主播喷水| www.99在线观看| AV在线麻免费观看网站|