999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多語言數字圖書館及其研究淺析

2013-04-11 13:57:50張彥文
河南圖書館學刊 2013年9期
關鍵詞:圖書館語言系統

張彥文

(桂林電子科技大學圖書館,廣西 桂林 541004)

1 引言

多語言數字圖書館是具有一種語言以上館藏資源,或者能夠提供單一語言館藏的多語言查詢訪問的數字圖書館。盡管多語言數字圖書館的大量工作還側重于可行性研究、原型系統開發、設計方案和建設規劃,但也已有投入運行的多語言數字圖書館系統[1]。含有50 種語言的兒童文學館藏的國際兒童數字圖書館(International Children’s Digital Library,ICDL)于2006年4月投入使用。聯合國教科文組織(United Nations Educational,Scientific and Cultural Organization,UNESCO)和美國國會圖書館(United States Library of Congress)共同運營的世界數字圖書館(World Digital Library,WDL),具有西班牙語、英語、中文、葡萄牙語、俄語、法語和阿拉伯語等7 種語言查詢功能,于2009年4月21日開始創建,中國國家圖書館是WDL 的合作伙伴。Europeana 是提供48個歐盟國家及許多研究機構圖書館資源網絡訪問、語言種類達35 種之多的多語言數字圖書館,于2008年11月開始創建。由海地、阿魯巴、巴哈馬群島、伯利茲、牙買加、委內瑞拉、波多黎各、美國佛羅里達大學等36 家單位聯合創建的加勒比海數字圖書館(The digital library of the Caribbean,dLOC),館藏有中文、英語、德語、法語、西班牙語、意大利語、日語、丹麥語、約魯巴語、希伯來語、阿姆哈拉語、拉丁語等語言的加勒比海文化、歷史和科研資料。在線經濟學家(Economists Online)是由20 余家歐盟成員國大學和研究機構聯合創建的專業性質的多語言數字圖書館。它提供了英語、德語、法語和西班牙語共四種語言的查詢,館藏為具有這四種語言表述的學術論文索引、文獻全文和經濟數據庫等。虛擬藝術史典藏(The Virtual Catalogue for Art History)artlibraries.net,提供多個歐洲藝術學院和研究院的書目記錄(或藝術史數據庫)的集成檢索。為了達到歐洲范圍全面合作并服務于國際藝術史團體,合作伙伴將擴展至英國和斯堪的納維亞半島、其他南歐和東歐的歐盟國家的科研機構和學院。

多語言數字圖書館是數字圖書館的一種新的拓展形式。元數據記錄翻譯、多語言主題詞表、實驗系統、原型系統開發、用戶中心研究等都是多語言數字圖書館的研究熱點。文章對此進行討論。

2 跨語言信息檢索

多語言數字圖書館的重要特征在于具備兩種或兩種以上不同語言的信息查詢。為了達到此目的,需要跨越語言障礙實現不同語言表述下信息需求(查詢提問式)和內容(文獻資料)的匹配。從跨語言信息檢索角度講,跨越語言障礙有多種方法??梢詫⑻釂柺椒g成文獻資料的語言,可以將文獻資料翻譯成提問式的語言,也可以將提問式和文獻資源翻譯成中介語言表述。

元數據記錄翻譯方法是多語言數字圖書館研究中提出的一種新的翻譯方法。Lee 等在開發中文、日語、韓語、英語信息資源收集的主題詞網關服務IPL-Asia(Internet Public Library Asia)中,將多語言表述為元數據規范Dublin Core 和IEEE LOM 記錄,元數據記錄用XML 編碼、存儲和顯示,實現了多語言的元數據記錄翻譯。該方法無需翻譯整個文獻資源,元數據記錄翻譯會提高系統的效率。這種方法尤其適用于僅具有條目或元數據描述的圖片和其他非文本館藏。同源詞(兩種語言共享的詞匯,如:專有名詞)匹配是解決多語言障礙另外一種方法,這種方法適合于具有相同語言字母系統的情形。翻譯知識對于各種翻譯方法的實現有非常好的助推作用,這些知識可以來自于多語言詞典、本體和機器翻譯系統,也可以對文本語料庫進行統計分析來抽取。Larson 等對加州大學圖書館的上億條編目進行術語翻譯創建了一個可以定制的多語言詞典。對于多語言內容和域符(標題、主題詞等)的信息資源,Clinchant 和Renders 對傳統語言模型方法進行擴展,將目標館藏文獻資源定義為元詞匯的一個概率分布(元詞匯是英語、法語和德語三種語言詞匯的并集),這樣每一個館藏文獻就對應唯一的索引。對于某源語言的查詢提問式,通過元詞典(含源語言自身),即每一個詞匯在源語言中的概率轉移矩陣,構造該查詢的多語言模型,進而實現目標文獻的多語言模型的比較。

數字圖書館系統的信息資源組織和管理有賴于自身的知識組織系統,它包括分類表、主題標目、標準檔、語義網絡、本體等。關鍵詞和主題詞是信息資源的重要索引詞。關鍵詞出自于書目記錄或信息資源全文,主題詞則是編目人員或主題詞專家對館藏的加注,后者提供了高質量的信息資源訪問接入點。多語言主題詞表是多語言數字圖書館中創建和組織這些知識所必需的組織系統。Schiel 等定義了一個矩形多語言主題詞表,給出了其構造的三個步驟:利用單語言詞典,抽取一個或多個文獻的術語,并確定抽象概念(半自動索引);生成一個或多個矩形;對已有多語言主題詞表最優插入新的矩形。這一多語言主題詞表的半自動創建方法,允許用戶交互式剔除歧義。Yang 等給出了自動構造跨語言主題詞表的一種關聯約束網絡方法,所得到的跨語言主題詞表可以將查詢從一種語言擴展到其他語言,從而實施用戶跨語言搜索。此外,該跨語言主題詞表可用于建立不同語言文本分類項的關聯以支持跨語言文本分類。多語言主題詞表的其他相關研究工作有:Calvanese 等闡述了多語言主題詞表中的概念在查詢處理中的邏輯關系。Nikolai 等給出了多語言異構主題詞表的一種集成框架。這些主題詞表可用于檢索中的索引和瀏覽。在醫學領域,Lu 等開發了醫學主題標目MeSH 的中文翻譯,以對中文用戶提供醫學網站的訪問。Smits 等對能否得到復合各種結構的單一公共本體進行了探討,結果發現創建這樣一個結構是不現實的。Sheridan 等從法律領域的平行語料庫自動創建了一個相似性主題詞表。盡管該結構不是一個嚴格意義上的主題詞表,高度相關的多語言術語組能夠較好地擴展多語言術語的單語言查詢。Monroy 等通過一個多語言詞匯表和一個本體,實現了多語言信息資源的混合翻譯。

3 實驗系統及測評

與多語言數字圖書館相關的多語言信息訪問研究的共性問題是:應用案例評價;更多語言和媒體類型的擴展研究;實際開發中的經驗提升。系統研究人員通過構建實驗系統來研究和驗證所建立的方法。始于1997年的文本檢索會議TREC(Text REtrieval Conference)就開始了跨語言評價,專門用來研究跨語言信息檢索評價的會議是始于1999年的亞洲語言信息檢索評測會議NTCIR(NACSIS Test Collections for IR),以及2000年開始的跨語言評價論壇CLEF(Cross-Language Evaluation Forum)。CLEF使用歐盟國家語言,所開展的工作愈來愈貼近現實和實際。長期的評價研究獲得了大量的可供未來研究參考的科學數據。Agosti 等建議創建一個以所有這些數據為館藏的數字圖書館。系統評價對研究人員來說是個挑戰,激勵人們開展更加專門和深入的研究。多語言數字圖書館開發團隊更樂意于語用評價,因為幾乎不需要修改系統,研究結果就可以直接進入應用。

查詢提問式翻譯是跨越語言障礙的常用方法之一,也非常適合于多語言數字圖書館。Wang 等給出了一個查詢提問式翻譯系統,該系統可連接到任何單語言(中文或英語)內容數字圖書館。該系統通過挖掘網頁來翻譯詞典未出現的術語(新術語、專用名詞)。盡管研究人員認為該系統具有非常好的應用前景,但是目前還沒有出現在任何實際應用系統。Bosca 和Dini 開展了另一項查詢提問式翻譯研究,所開發的系統采用多種方法來擴展查詢提問式的術語,CLEF 測評結果表明:該系統表現出了良好性能。Clinchant 和Renders 在CLE 測評F 實驗中力圖應用多語言查詢提問式翻譯來獲得多語言文檔(含有一種以上語言的文檔),但是并沒有看到改善檢索結果的跡象。相關方面的研究工作還有:Braschler 和Ferro 開展了兩種翻譯方法(查詢或記錄)的選擇及其復合的可行性研究。Kanazawa 等進行了查詢翻譯技術的實驗研究。Yang 等對主題詞表自動構建的兩種算法進行了研究,并同早期技術進行了比較。Azzopardi 等給出了一個生成模擬已知項查詢的模型,并開展了實驗研究,其實驗系統優于實際人工查詢,可用于系統測試和用戶查詢行為模擬。

多語言數字圖書館研究的另一條途徑是對欲建立的最終系統開展原型研究。Smits 和Friis-Christensen 開展了不同本體集的原型實驗研究,驗證了方法的不可行。Larson 等利用原型系統,基于大型圖書館藏目錄的數據挖掘,創建了一個多語言概念影射資源。Bamman 對將結構信息(如:XML 標簽、章節信息)從源文檔轉換為目標(翻譯)文檔的一種方法進行了測評,該方法可以達到更高準確度。Ferber測評了一個基于文檔標題自動加注主題詞的系統,該系統采用了一組含有手工加注主體標目的文檔用以確定新文檔的敘詞,結果表明了方法的可行性。

大量的多語言數字圖書館研究似乎都是從系統角度開展的。盡管如此,也有一些以用戶為中心的研究工作。Bilal 和Bachir 開展了國際兒童數字圖書館兒童用戶的兩方面相關研究。第一項研究是測評界面設計;第二項研究是觀測兒童主體搜索,通過小組會談調查研究主體信息搜索行為。Stafford 等對雙語言主題詞表界面Searchling 進行了定性研究。通過“15個用戶執行3 項結構化任務”實驗設計,測評了系統對查詢表述的輔助作用。Cousins 研究了訪問門戶對用戶的影響。Clough 和Sanderson 對其跨語言圖像檢索系統通過兩項搜索任務開展了用戶實驗研究。

多語言數字圖書館的大量研究出自歐盟,原因在于國家間的協作是歐盟的基礎,跨語言信息交流是他們日常生活中必不可少的部分。為此,歐盟實施了一系列的相關研究計劃。歐盟CACAO(cross-language access to catalogues and online libraries)計劃實現了用戶在線編目的跨語言信息檢索,用戶可以通過一種歐盟國家語言提問查詢,檢索出其他歐盟國家語言的文本資源。這一多語言體系結構集成到了后期的歐盟數字圖書館項目Europeana。DELOS卓越網絡(DELOS Network of Excellence)計劃著力于數字圖書館的全面研究,開發了數字圖書館相關的幾乎所有技術。DelosDLM 就是其中的技術之一,它是一個支持多語言的模塊化數字圖書館管理系統。歐盟LAURIN 計劃創建了數字化多語言報紙剪貼的數字圖書館。報紙文章通過多語言詞典來搜索查詢。MultiMatch 計劃開發了一個多語言多媒體文化遺產的搜索引擎。Rastko 計劃實現了塞爾維亞文化館藏的訪問。MTIR 是一個中英文信息檢索系統,它使用雙語言詞典和翻譯系統來實現查詢提問式翻譯。多翻譯選項通過術語協同出現信息來消除歧義。檢索出的文檔利用機器翻譯進行翻譯。由于系統設計目的在于Web 用戶,機器翻譯基于網頁標簽來實施。該系統采用了HTTP 協議,便于集成到Web 應用,能夠實現雙語言在線搜索。

SPIRIT(Syntactic and Probabilistic Indexing and Retrieval of Information in Texts)是上世紀80年代開發出的一個單語言、英語和法語雙語言系統,目前擴展為跨語言系統。該系統中,采用重描述規則將源語言查詢提問式表述為所有可能的目標語言查詢提問式,通過文獻匯編實現所翻譯查詢的消歧。Eurovision 是一個跨語言圖片檢索系統,它利用機器翻譯將查詢翻譯成英語,并用來查詢圖片的英語圖注說明。SIS-TMS 是一個詞典管理系統,允許用戶存儲和訪問多個多語言詞典??缯Z言信息檢索有時通過多語言詞典實現源語言到目標語言轉換,SIS-TMS對此就非常有用。SyDoM 是一個多語言文檔系統,它使用多語言本體來確定文本索引中術語的選取。

4 結語

多語言數字圖書館是數字圖書館的未來發展方向。作為信息資源與信息技術的融合,多語言數字圖書館研究涵蓋了多語言信息資源管理、多語言數字圖書館門戶、多語言信息檢索、多語言元數據描述、多語言問答系統、多語言文本挖掘、多語言信息翻譯、多語言主題詞表、多語言知識組織等諸多領域。這些研究工作的開展需要計算機、圖書館學、藝術學、語言學、自然語言處理、智能科學以及信息處理等多學科的支持。

多語言數字圖書館的現有數目還不多,但是其數量正在不斷增長。創建一個多語言數字圖書館往往需要不同地區、不同國家、不同組織和不同領域專家的協同合作。建立和健全多語言數字圖書館系統創建中的合作機制及規范,具有非常重要的意義。

[1]Anne Diekema. Multilinguality in the Digital Library:A Review[J]. Electronic Library,2012(2):165-181.

[2]Kazuaki Kishida.Technical issues of cross-language information retrieval:a review[J]. Information Processing & Management,2005(41):433-455.

[3]吳丹,李瑞芬.跨語言信息檢索技術應用與研究進展[J].情報科學,2006(9):1435-1440.

[4]Van Oudenaren J. Connecting the World,Responding to User Needs[J]. Information Outlook,2010(14):10-12.

[5]Lee W,Sugimoto S,Nagamori M,Sakaguchi T,Tabata K. A subject gateway in multiple languages:a prototype development and lessons learned[C]. Proceedings of the 2003 international conference on Dublin Core and metadata applications:supporting communities of discourse and practice——metadata research & applications,2003:1-10.

[6]Larson R R,Gey F,Chen A. Harvesting translingual vocabulary mappings for multilingual digital libraries[C]. Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries.2002.

[7]Clinchant S,Renders J-M.(2009)Multi-language models and meta-dictionary adaptation for accessing multilingual digital libraries[C]. Proceedings of the 9th Crosslanguage evaluation forum conference on Evaluating systems for multilingual and multimodal information access.2009.

[8]Schiel U,Sousa I M S F D. Interactive indexing of documents with a multilingual thesaurus[C].Effective databases for text & document management.IGI Publishing,2003.

猜你喜歡
圖書館語言系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
讓語言描寫搖曳多姿
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
累積動態分析下的同聲傳譯語言壓縮
飛躍圖書館
我有我語言
主站蜘蛛池模板: 国产无码精品在线| 乱人伦99久久| 成人精品视频一区二区在线| 91日本在线观看亚洲精品| 青青青伊人色综合久久| 91人妻日韩人妻无码专区精品| 国产sm重味一区二区三区| 亚洲欧美一区在线| 亚洲精品视频免费看| 成人欧美日韩| 欧美日韩激情在线| 国产在线观看91精品亚瑟| 国产第一页免费浮力影院| 无码人妻热线精品视频| 亚洲视频三级| 中文字幕日韩久久综合影院| 国产成人在线小视频| 欧美一区二区精品久久久| 亚洲男人的天堂久久精品| 欧美国产日韩一区二区三区精品影视| 婷婷综合亚洲| 91福利一区二区三区| 国产99精品视频| 毛片基地视频| 国产尤物jk自慰制服喷水| 91色在线视频| 久久久久中文字幕精品视频| 亚洲区第一页| 丁香综合在线| 中国成人在线视频| av天堂最新版在线| 久久国产精品影院| 中文无码毛片又爽又刺激| 精品免费在线视频| 亚洲乱强伦| www.亚洲一区| 人禽伦免费交视频网页播放| 97人人做人人爽香蕉精品| 国产欧美日韩精品综合在线| 国产精品19p| 免费欧美一级| 欧美成人二区| 美女黄网十八禁免费看| 欧美日韩成人在线观看| 国产精品大白天新婚身材| 狂欢视频在线观看不卡| 91精品啪在线观看国产91| 97国内精品久久久久不卡| 免费 国产 无码久久久| 精品欧美一区二区三区久久久| 中文无码日韩精品| 亚洲国产精品无码久久一线| 国产chinese男男gay视频网| 白浆免费视频国产精品视频| 亚洲福利视频网址| 色婷婷在线影院| 国产97视频在线| 欧美爱爱网| 久久一本日韩精品中文字幕屁孩| 久久综合丝袜长腿丝袜| 亚洲色图欧美激情| 欧美日韩精品在线播放| 欧美无遮挡国产欧美另类| 97成人在线视频| 亚洲熟女偷拍| 国产日韩精品欧美一区灰| 亚洲综合极品香蕉久久网| 亚洲人成影院在线观看| 久久久久久国产精品mv| 在线精品亚洲国产| 青青草国产免费国产| 日韩av电影一区二区三区四区| 欧美一级色视频| 亚洲美女高潮久久久久久久| 国产偷倩视频| 亚洲精品成人7777在线观看| 狠狠做深爱婷婷久久一区| 久久男人视频| 亚洲一本大道在线| 99精品免费欧美成人小视频| 国产成人综合亚洲欧美在| 日韩天堂视频|