999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式檢索在異構科技信息資源中的應用及優化

2017-11-01 17:14:41劉應波文若瑾陳亞杰
計算機應用與軟件 2017年10期
關鍵詞:科技資源用戶

李 城 童 彬 劉應波,* 鄔 平 王 鋒, 文若瑾 陳亞杰

1(昆明理工大學云南省計算機技術應用重點實驗室 云南 昆明 650504)

2(云南省科學技術情報研究院 云南 昆明 650500)

分布式檢索在異構科技信息資源中的應用及優化

李 城1童 彬1劉應波1,2*鄔 平2王 鋒1,2文若瑾2陳亞杰1

1(昆明理工大學云南省計算機技術應用重點實驗室 云南 昆明 650504)

2(云南省科學技術情報研究院 云南 昆明 650500)

為解決使用傳統集中式檢索處理海量異構科技信息資源時存在單點故障、性能低、不易擴展等問題,提出一種在異構科技資源下應用的分布式高性能檢索系統(DHRS),并對其核心技術進行重點研究和分析。針對檢索結果資源訪問開銷大的問題,給出基于訪問代價的評估算法。并結合實際應用場景對算法進行優化,優化后請求數減少了80%,實驗環境下的性能平均提高了68%。同時通過真實數據集的測試,驗證了DHRS檢索海量科技資源的可行性,能夠適用于對檢索和擴展性能要求較高的場景。

科技資源 分布式檢索 海量數據 ElasticSearch 異構資源

0 引 言

科技資源主要是指科技知識信息資源,既包括各種電子或紙質的中外文期刊、雜志、報紙、論文、專利、標準等,也包括一些可發布的科研成果表格、視頻、圖形圖像數據等。近十年來,互聯網技術的飛速發展使科技資源呈爆炸式增長,科技資源的檢索模式也轉向了“瀏覽-檢索”模式[1],對大數據網絡環境下的科技資源進行有效的檢索和管理,提高科技資源的利用率成為了領域內研究的重點。

檢索技術是科技資源管理服務的核心,目前常用的專用檢索系統和搜索引擎,其起步之初都是以集中式的組織架構和檢索技術來實現資源檢索的。通常認為第一代搜索引擎便是以集中式檢索為主要特征。這種集中式的檢索方式資源覆蓋面較窄,資源更新和維護比較困難,檢索速度也比較緩慢。而且,集中式的檢索方式在應對專業度和性能都要求較高的科技資源檢索時,無法達到預期的要求。此外,集中式的檢索方式還存在著中心節點失效的致命缺點。集中式檢索的其他不足和問題參見文獻[1]。

分布式檢索技術克服了集中式檢索的不足,在分布的環境下使用多個中小型搜索引擎協作的分布式工作方式[2-3],可以改善傳統集中式搜索引擎更新和檢索速度較慢的問題,以便滿足廣大用戶的需求。分布式技術的性能優勢使得它在信息資源的檢索中得到了廣泛的研究與應用[4-8]。同時,以分布式技術為基礎的云計算[9]推動了檢索技術的發展。例如:萬方的RMSCloud[10-12]云搜索引擎、清華大學的網絡指南針聯邦搜索引擎[3]都已成功應用了分布式的檢索方式。

當前,科技資源存在異構性、海量性、分布性等特點。由于其物理存儲體系、存儲系統、存儲管理機制、存儲地域、存儲載體、保存方式以及存儲邏輯模型的不同,導致了科技資源存在著異構性。同時,隨著信息獲取手段的提高以及網絡技術的飛速發展,科技資源在這些技術手段的推動下正在高速增長,呈現出海量增長的趨勢。另一方面,各個研究機構和高校自身擁有龐大的科技資源,這些資源存在著交叉重疊,本身具有分布的特征。對具有如上特征的科技資源進行整合,提供統一、高效、精確的檢索服務是一項具有挑戰性的工作[13]。

1 分布式搜索引擎

當前主流的分布式搜索引擎有Solr、Solandra、SolrCloud、Solr+Katta、Elasticsearch等。Solr是由Java開發,基于Lucene的分布式搜索引擎,提供了webserver樣式的編程接口,由于其使用范圍廣,比較成熟,故能很快速、方便地部署。Solandra是一個基于Solr和nosql數據庫的Cassandra的分布式引擎。Cassandra是facebook開源的數據庫,是基于列結構的非關系型數據庫。其有個重要的特性是對外沒有中心節點,所以不存在單點故障問題,倘若主節點掛掉了,剩余節點會自動投票,再次選出主節點。SolrCloud是一個基于Solr的開源項目,使用Zookeeper進行節點通信管理,提供索引分片功能,是一個實時的搜索引擎。Solr+Katta是一個分布式索引建立和管理工具,底層是Hadoop的HDFS分布式文件系統,具備拓展和容錯機制,準實時的搜索方案。

以上調研我們可以看到,當前搜索引擎主要是Solr演化版本以及本文重點講的ElasticSearch。二者都是基于Lucence平臺。Solr相較于ElasticSearch,是最流行的企業級搜索引擎,擁有更大、更加成熟的用戶、開發和貢獻者社區,支持添加多種格式的索引,并且從技術角度講,其更加的成熟、穩定,在傳統的搜索應用中表現好于ElasticSearch。但如果考慮到實時性問題時,ElasticSearch具有優勢。

彈性搜索(ElasticSearch-ES)是一個基于Lucene[16]的開源的分布式搜索引擎,可以提供實時、穩定、可靠的搜索。它是從彈性網絡演化而來,繼承了彈性網絡的思想,使用彈性搜索的方法進行檢索可以大大降低時間復雜度。ES的一個重要的優勢在于它的高可用性、易擴展性以及近實時性,其高可用性和易擴展性都來源于其強大的分布式支持[17]。

目前,對于科技資源檢索這一領域來說,ES從2010年誕生[15]到現在,國內外幾乎沒有任何關于ES在科技資源檢索領域的研究文獻。雖然在全文檢索需求時ES已經對分布式資源提供了通用的檢索支持,但是,由于科技資源本身分布、異構、海量和其領域特性,使用ES進行分布式異構科技資源的檢索還存在著很多限制。例如,需要在ES檢索接口的基礎上研究并開發面向科技資源的檢索接口,來滿足這一領域規范的檢索需求。對于ES目前不支持的數據資源的導入,還需要在其基礎上擴展更多針對科技資源的數據適配器,并且需要對科技資源檢索結果中重復的數據資源進行特殊處理等。

2 基于ES的分布式異構檢索系統

為實現科技資源文獻的高性能檢索,解決科技資源檢索在其異構性、海量性和分布性方面存在的不足,設計并實現了基于ES的分布式異構檢索系統(DHRS),以滿足當前分布式異構科技資源的檢索需求。DHRS系統的主體框架如圖1所示。

圖1 DHRS系統的框架圖

其核心組件主要由查詢解析系統、索引構建、適配系統、索引檢索系統以及檢索結果處理系統各部分構成。由于分布式異構檢索引擎基于ES,所以詳細的ES引擎部分參看文獻[14-15]。除此之外,該系統的三大子系統(異構數據源適配器、查詢解析、結果處理)將在下文中進行介紹。

2.1 異構數據源適配器

當前,科技資源最常用的數據存儲載體是數據庫和文件系統,隨著數據量的增大,一些非關系型數據庫也引入到科技資源的存儲應用中。想要有效構建這些不同數據資源的索引,就要求我們為其提供統一的異構數據源適配器。在ES中可以根據它所提供的River機制來進行不同異構數據源的數據訪問,目前主要能夠訪問關系型數據庫、非關系型數據庫如CouchDB和文件系統等。

對于當前科技資源的存儲來說,關系型數據庫還是主流的科技資源存儲的數據管理工具,科技資源數據位于不同的異構數據庫上。為了支持統一的異構數據資源檢索,需要為所有異構關系型數據庫上的數據資源構建索引。因此,研究過程中,采用并發的ES插件機制來實現從關系型數據庫中提取索引信息。ES沒有提供直接訪問關系型數據庫的接口,所以,本文主要通過使用JDBC的River插件來完成索引信息的構建工作。

2.2 查詢解析系統

由于科技資源本身具有特定的數據存儲約束,則相對應的查詢方式也具有這個領域的獨特特征,所以對此特殊查詢方式的規范處理便構成了整個檢索系統不可或缺的部分。以科技文獻信息資源為例,目前,國內外期刊、文獻、會議檢索系統等都可以使用多種方式進行檢索,歸納起來主要有三種:簡單查詢、高級查詢和專業化查詢。專業查詢是本文研究的重點,它可以很容易地實現前兩種查詢。專業查詢是對用戶要求較高的一種查詢方式,國內的萬方和CNKI都提供了類似的功能,采用了CQL或類似CQL的查詢語言。專業查詢中,系統要求用戶輸入規范的查詢語句,并會為用戶提供可檢索字段,用戶必須嚴格按照系統提供的檢索字段進行檢索,而不能在系統提供的檢索字段之外構造檢索條件。例如在萬方數據的專業檢索中,提供了主題、題名、創作者、作者單位、關鍵詞、摘要、日期、DOI、期刊名、期號等可檢索字段以及“與”、“或”、“非”三種邏輯關系。用戶必須嚴格按照給定的檢索字段和邏輯關系構造規范查詢語句才能夠進行正確檢索。

科技資源的獨特特征決定了其特殊的查詢訪問接口方式,為了能夠向用戶提供透明化的查詢訪問方式,需要對用戶查詢請求做標準化處理。如圖 2所示,用戶無論使用何種查詢方式,其查詢請求在提交到分布式異構檢索引擎之前,都需要經過科技資源的查詢預解析器將查詢條件解析為檢索引擎的標準化查詢格式,其查詢請求才能夠被準確傳遞到ES分布式檢索集群。

圖2 科技資源查詢示意圖

ES并沒有具體給出上述三種查詢方式的規范處理方法,這就需要系統實現查詢應用到ES自身查詢機制接口的轉換,即需要在用戶接口和ES之間引入一層查詢轉換器。基于如下考慮:(1)目前幾乎所有的檢索系統都是基于Web的B/S實現;(2)為了對多種查詢方式進行統一處理;(3)為了便于描述用戶的查詢意圖和對查詢請求進行語法分析和校驗;(4)為了便于多種終端的訪問,能夠跨平臺實現數據交互。因此,設計并實現了一種基于XML和JSON的科技資源統一查詢描述語言(SUDL),圖 3給出了這種查詢語言的基礎DTD規范描述。每一個查詢請求由一個根節點描述,一個由多個構成。為了進行豐富的查詢,通常使用描述主要的查詢需求,該查詢由多個查詢

和多個謂詞構成,查詢段和謂詞之間的順序關系通過
的屬性“order”規定。另外,還可以在中添加輔助查詢。

圖3 科技資源統一檢索描述語言規范(部分)

2.3 檢索結果處理

定義1對于某一特定資源R,可能會存儲在不同的科研機構內,既存在于機構U1中,也存在于機構U2中。即存在于其資源庫L1中也存在于資源庫L2中等。將這種存在資源覆蓋的情況,記為α。

定義2對于某一特定資源R,只存在于機構U1中,或者機構U2中。即存在于資源庫L1或者資源庫L2中,將這種不存在資源覆蓋的情況,記為β。

2.3.1 基于訪問代價的科技資源訪問算法

從ES的檢索結果來看,對于每一個分布的數據資源,相同記錄的訪問存在不同的訪問開銷。例如,某資源同時存儲在D1、D2兩個數據源庫上,但是用戶訪問這兩個庫的時間不同,網絡性能好的數據源能夠極大提高資源的訪問速度。所以,在檢索結果中需要根據資源的訪問時間來對對應的資源進行結果處理,生成排序結果,并利用其他工具為使用者提供建議。如圖4所示,是對各機構擁有的重復資源的訪問示意圖,針對α的情況,當用戶訪問重復資源的時間AC如圖 4中所示時,則AC=19為最終選擇的用戶最優的數據訪問路徑。

圖4 α情況下,冗余結果的最優化訪問示意圖

目前在分布式異構環境下的科技資源檢索中,衡量用戶訪問效率的最好計算方式是用戶訪問資源的時間。當不同機構中存在相同資源時,系統需要為用戶提供一條最優的訪問路徑,即需要將在最短時間內訪問到的指定資源返回給用戶。這就需要從ES訪問存儲有相同資源的不同機構的多個訪問時間中選擇最短訪問時間。

本系統是基于B/S的實現,為了準確計算用戶訪問不同機構數據源的時間,在客戶端用戶可以使用網頁版的ping.js獲取訪問存儲在不同機構的相同資源的時間t,此時得到的t是客戶端直接到機構數據源的訪問時間。算法簡單描述見算法1。

算法1QUserTRequest

Input:R,資源記錄;n,資源記錄數

Output:AC,資源訪問評估時間

1 var array;

2 var AC;

3 for each j in n

4 do

5 var t;

6 ping(j.ip).then(function(delta) {

7 t←delta;

8 array.add(j,t)

9 })

10 Done

11 AC←min(array).t

12 Return AC;

如果訪問機構U1,U2,…,Un中資源的時間分別為t1,t2,…,tn,則訪問存放相同資源的所有機構的時間集合可表示為:

T={t1,t2,…,tn}

(1)

在α情況下,需要找到集合T中的最小值作為用戶的最小訪問時間,將對應機構中的資源返回給用戶,作為用戶的最優訪問路徑。

2.3.2 算法性能分析及優化

假設某一指定查詢記錄的數據為M條,前端檢索按照PageSize分頁,滿足查詢的某一資源最多存在于N個獨立機構內。利用本文設計和實現的檢索系統創建索引,則某科技資源最多存在N條重復的索引項。某一用戶獨立訪問N個遠程機構中同一資源的時間分別為:t1,t2,…,tN。考慮從用戶前端訪問ES索引庫,響應PageSize的平均時間為Tavg,則獲取含有重復索引的一條數據記錄的總時間開銷為(AC+Tavg),發起的請求數等于重復索引數N。假設最壞情況下,PageSize中每一條記錄都具有N個重復索引項,那么需要發起的Ajax請求為PageSize×N,例如分頁PageSize大小為15條每頁,共有3個機構,則請求為45個,這是算法2得到的請求開銷。顯然隨著分頁記錄和多個機構之間的重復數據越來越多,發起的Ajax請求也越來越大。這就需要對該請求方式進行優化,實現過程中的優化算法描述如算法2、算法3所示。

算法2Query

Input: pagesize, 分頁大小

Output:分頁中包含每條記錄所在的位置及評估時間

1 var tmp,array;;

燃燒爐內生成的有機硫是硫磺回收裝置有機硫的主要來源,而常用控制方案是將其在一級克勞斯反應器內最大限度地水解生成H 2 S,殘余有機硫在尾氣處理單元加氫水解反應器中進行轉化。在硫磺回收單元各級反應器中,通常一級反應器床層溫度為280~360℃,后續各級反應器床層溫度略低于此值,而現有工業催化劑性能存在局限性,在較低的反應溫度下對有機硫的水解催化性能均較差。尾氣處理單元加氫水解反應器床層溫度往往在240~330℃,可實現一定的末級催化加氫水解作用,現有主流尾氣處理工藝對加氫反應器后的殘余有機硫幾乎不再進行更深度的轉化,將直接被帶入灼燒爐燃燒轉化為SO2后,通過煙囪排入大氣。

2 for each i in pagesize

3 do

4 tmp.t ←UserTRequest(k,i);

5 tmp.ip ←i.ip;

6 array.push(tmp);

7 Done

算法3QueryOptimizer

Input: T, 超時時間;pagesize, 分頁大小

1 var tmp,array;

2 for each i in pagesize

3 do

4 if(array.contain(tmp)) {

5 get tmp from array;

6 if(tmp && i.ip==tmp.ip && time

7 i.t = tmp.t

8 }else{

9 tmp.t ←UserTRequest(k,i);

10 tmp.ip ←i.ip;

11 array.push(tmp);

12 }

13 } else {

14 tmp.t ←UserTRequest(k,i);

15 tmp.ip ←i.ip;

16 array.push(tmp);

17 }

18 Done

每次檢索返回的PageSize中,若滿足要求的第一條記錄包含N個索引項,則必然需要N次請求。這個請求操作是必須要發生的,用戶在查詢同一分頁中的記錄或者在T時間內發起查詢請求時,如果所查資源在同一IP內,就以第一次訪問的時間t作為當前記錄的訪問時間。這樣,N條重復記錄發起的請求數量最大為N,如前面的15條每頁,在T時間內,無論用戶獲取的記錄數為多少,發起的最大數總是等于3,與未優化之前相比減少了80%的請求數。顯然,這種方式能夠大量減少用戶提交的請求數,而其不足在于,用戶獲取的訪問時間可能因為時延等因素,導致一定的誤差,但是這種方式綜合考慮了訪問代價和性能。

3 實驗及分析

本研究主要設計了兩個實驗,首先驗證DHRS的可行性(記為:實驗一),然后再針對DHRS中資源訪問優化算法的改進性能進行驗證(記為:實驗二)。DHRS基于Java Web實現,Java運行時版本1.7.0_79;ES版本為1.4.2,操作系統為:CentOS release 6.4,系統配置為Quad-Core AMD Opteron(TM) Processor 2352 CPU@2.10 GHz,內存為4 GB,實驗一的測試工具選用JMeter。

3.1 實驗一

3.1.1 實驗數據

本文實驗所使用的數據是由萬方提供的部分科技資源文獻300萬條真實元數據。這些數據來源于不同的服務器、不同的數據庫、不同的數據表,能夠體現資源的異構性,資源組成如表1所示。

表1 測試使用的數據源

從用戶常用查詢角度出發,根據庫中數據所代表的類型,設計了如下幾組常用的科技資源檢索條件,這些條件包括了基礎以及其組合查詢(包含了與、或、非謂詞),同時也具有一定的代表性:

Q1:查詢“1999”年公布的科技成果;

Q2:查詢在2004年1月1日到2004年1月3日申請的專利;

Q3:查詢辦學類型中含有“高等學校”字樣的學校;

Q4:查詢涉及“能源”、“信息”、“資源”或 “資源環境”的項目;

Q5:查詢1959年到1999年成立的,職工總數在50人以上的所有機構;

Q6:查詢在北京舉辦的會議中,作者規范單位名稱中包含“上海交通大學”的中文會議論文;

Q7:查詢“2013”年發表的所有外文論文;

Q8:查詢論文編號在“28737000”與“28738000”之間和 “2111800”與“2112000”之間的所有論文;

Q9:查詢作者姓名中含有“Mariangela”的外文論文。

3.1.2 單節點檢索性能

在單機環境下,根據上述9個不同的查詢條件,分別通過DHRS和ES提交,測得其查詢響應時間如圖5所示。

圖5 DHRS系統和ES查詢的單機響應時間對比

由圖 5可以看出在進行集成測試時,DHRS的整體性能不及ES,但都能夠在50~110 ms內獲取檢索結果,可以滿足用戶需要。這些性能差異的原因是DHRS在查詢時,使用SUDL語言規范來描述查詢請求,而查詢則是基于ES實現。因此,系統需要先將SUDL語言解析成ES的標準查詢指令,查詢解析的時間開銷視查詢文件的大小而定。在DHRS系統中進行測試時,上述9個查詢條件被描述為符合SUDL規范的XML文件,其查詢文件大小都在1 KB以內,解析查詢文件的時間開銷在40~45 ms。由于解析過程占用時間開銷,DHRS系統必然比直接使用ES進行查詢耗費時間。而且對于不同的查詢請求,查詢解析的時間可能會遠大于其實際的查詢時間,例如Q4、Q5,所以與ES相比,系統的時間開銷主要在于查詢文件的解析過程。

3.1.3 多服務器檢索性能

配置DHRS系統的ES分布式檢索集群,集群節點數從1逐漸增加到6,當節點數增加到大于等于2時,數據集的所有分片及副本都將平衡分配在不同節點上。在此過程中,每增加一個節點,ES都會對索引分片和副本進行重新分配以達到負載平衡。每增加一個節點就分別對上述9個查詢請求進行一次測試,測得其查詢響應時間的變化如圖6所示。

圖6 DHRS系統的分布式集群的查詢響應時間

從圖6中可以看出,在集群節點數逐漸增加時,不同查詢條件對應的查詢時間都有不同程度的減少,并且在節點數增加到一定數量時,查詢響應時間會趨于穩定。由此,可以得到如下結論,在ES檢索集群中,上述9個檢索請求基本上都能夠在較短時間內完成。并且隨著集群節點數的增加,檢索響應時間也隨之減少,說明可以通過增加節點來提高性能。當集群數為5時,檢索性能趨于穩定,已達到當前系統軟、硬件配置為當前檢索所能提供的最大性能。

3.2 實驗二

在三臺服務器上分別部署DB1、DB2、DB3(見表1)數據庫,并利用ES分別構建索引,模擬分布式異構文獻資源,客戶端使用Chrome(版本53.0.2763.0)瀏覽器。按照15條記錄分頁,記錄大小平均1 KB,這樣可以減少DOM渲染帶來的影響,每條記錄在本實驗環境下的平均響應時間如表2所示,利用Ping.js的響應時間進行性能比較。

表2 平均響應時間

通過DHRS查詢數據返回15條分頁記錄,在客戶端通過Ajax請求對15條記錄進行數據訪問評估、測試性能如圖7所示。其中,(a)和(c)是在算法2下執行的性能;(b)和(d)在算法3下執行的性能;在(b)中,第2至第15條記錄的響應評估時間由第一條記錄估算。在(d)中第6至第8條記錄,由第5條估算,第10、12和15條以此類推。

(a) 總耗時1 067 ms

(b) 總耗時63 ms

(c) 總耗時1 055 ms

(d) 總耗時626 ms圖7 測試性能結果

本實驗在局域網內模擬不同機構提供相同數據集,通過對比實驗,評估了不同算法實際執行效果。在T=5 s的時間內,算法2每次都要對不同機構的數據訪問,這樣帶來了嚴重的性能問題,從圖7(a)和(c)可以看出總耗時在1 s以上。數據雖然在3臺服務器上都有分布,但是通過UserTRequest選中了Server2,因此數據信息均來自同一IP,所以根據算法3,圖7(b)只需要獲取第一條記錄即可知道其他記錄的訪問時間,即總耗時為63 ms,與(a)相比,性能提高了94%。圖7(d)則根據三臺服務器不同響應時間選中了不同的服務器,一旦后續數據在同一記錄上則可以很大程度減少額外開銷。在本實驗環境下較圖7(c)性能提高了41%,綜合來看性能較未優化前提高了68%,說明優化后算法3的可行性和高效性。

綜上所述,DHRS通過集成ES能夠充分利用ES的分布式檢索優勢,可以方便地整合異構科技資源。在本實驗環境給定的檢索條件下,雖然引入了中間描述語言對整體的檢索性能有一定影響,但查詢條件仍能在較短的時間內處理百萬級數據。當數據在多個機構之間存在重復記錄的時候,通過優化檢索結果訪問時間,可以極大地提高系統的性能。

4 結 語

針對實際應用需求,本文研究了基于彈性搜索技術的分布式異構科技資源的高性能檢索解決方案,重點對分布式異構科技資源檢索中出現的問題進行了分析,并給出了可行的解決方案。設計并實現了基于彈性搜索的分布式異構檢索系統DHRS以及描述異構資源查詢的中間描述語言,解決了異構科技資源的統一整合和規范化查詢問題。通過優化異構科技文獻檢索中的資源訪問算法,提高了異構文獻資源的訪問效率。該研究可為分布式科技資源統一訪問、異構科技資源數據融合提供借鑒和參考。在后續工作中將進一步優化SUDL語言的解析引擎。

[1] 焦玉英,溫有奎,陸偉,等.信息檢索新論[M]. 武漢:武漢大學出版社, 2008:1-17.

[2] Sato N, Uehara M, Sakai Y, et al. Distributed in-formation retrieval by using cooperative meta search engines[C]//IEEE. Distributed Computing Systems Workshop, 2001 International Conference on, 2001:345-350.

[3] 許靜芳. 指南針聯邦:突破集中式搜索之困[J].中國教育網絡, 2007(6):14-16.

[4] 張淵源,張琴燕,蔣關富. 面向Web電子產品信息分布式檢索系統的設計與實現[J].計算機應用, 2013,33(4):1026-1030.

[5] Cacheda F, Carneiro V, Plachouras V, et al. Performance analysis of distributed information retrieval architectures using an improved network simulation model[J]. Information Processing and Management, 2007,43(1):204-224.

[6] Paltoglou G, Salampasis M, Satratzemi M. Collection-integral source selection for uncooperative distributed information retrieval environments[J]. Information Sciences, 2010, 180(14):2763-2776.

[7] Romero-Tris C, Castellà-Roca J, Viejo A. Distributed system for private web search with untrusted partners[J]. Computer Networks, 2014,67(5):26-42.

[8] Das S, Shuster K, Wu C, et al. Mobile Agents for Distributed and Heterogeneous Information Retrieval[J]. Information Retrieval, 2005, 8(3):383-416.

[9] Armbrust M, Fox A, Griffith R, et al. A view of cloud computing[J]. Communications of the Acm, 2010, 53(4):50-58.

[10] 吳廣印.分布式學術搜索引擎研制及其大數據應用[J].數字圖書館論壇, 2013(6):10-18.

[11] 吳廣印. RMSCloud與科技文獻云服務[J].中國科技資源導刊, 2013(5):72-78.

[12] 吳廣印. RMS系統架構與情報檢索系統的功能需求研究[J]. 數字圖書館論壇, 2013(6):31-38.

[13] Baezayates R, Castillo C, Junqueira F, et al. Challenges on Distributed Web Retrieval[C]//IEEE, International Conference on Data Engineering. IEEE, 2007:6-20.

[14] Elasticsearch[EB/OL].[2016-08-11]. http://www.elasticsearch.cn/.

[16] Apache Lucence [EB/OL].2016-08-11]. http://lucene.apach-e.org/.

[17] 陳俊杰,黃國凡. 應用Elasticsearch重構圖書館站內搜索引擎[J]. 情報探索, 2014(11):114-119.

[18] JDBC plugin for Elasticsearch[EB/OL]. [2015-05-21].http-s://github.com/jprante/elasticsearch-jdbc.

[19] 吳廣印,楊奕虹,楊賀. 從知識獲取看知識組織——基于“知識獲取五要素”的知識組織研究與實現[C]//數字圖書館高層論壇2010年年會論文集, 2010:29-36.

[20] 吳廣印. 知識獲取“五要素”的研究與實踐[C]//中國索引學會第三次全國會員代表大會暨學術論壇論文集, 2008:29.

APPLICATIONANDOPTIMIZATIONOFDISTRIBUTEDHETEROGENEOUSRETRIEVALINSCIENTIFICANDTECHNOLOGICALINFORMATIONRESOURCES

Li Cheng1Tong Bin1Liu Yingbo1,2*Wu Ping2Wang Feng1,2Wen Ruojin2Chen Yajie1

1(ComputerTechnologyApplicationKeyLaboratoryofYunnanProvince,KunmingUniversityofScienceandTechnology,Kunming650504,Yunnan,China)2(YunnanAcademyofScientificandTechnicalInformation,Kunming650500,Yunnan,China)

When using the traditional centralized retrieval method to deal with massive heterogeneous technology information resources, there are many problems such as single point of failure, poor performance and extensibility. To solve this problem, a distributed high-performance retrieval system (DHRS) applied to heterogeneous technology resources is proposed. First, key techniques of the DHRS were studied and analyzed. Aiming at the problem of large access cost of retrieval results, an evaluation algorithm based on access cost was proposed. Secondly, the algorithm was optimized according to the practical application scenario. The number of requests after optimization was reduced by 80%, and the performance in the experimental environment was improved by 68%. Finally, the test of real data sets proves the feasibility of DHRS retrieval of large amount of scientific and technological resources. It can be applied to search and extend performance requirements of the scene.

Scientific and technological resources Distributed retrieval Massive data ElasticSearch Heterogeneous resources

TP3

A

10.3969/j.issn.1000-386x.2017.10.013

2017-01-14。國家自然科學基金項目(61462053);中國博士后科學基金項目(2016M602730)。李城,碩士,主研領域:機器學習,人機交互。童彬,碩士。劉應波,博士。鄔平,高工。王鋒,教授。文若瑾,助理研究員。陳亞杰,碩士。

猜你喜歡
科技資源用戶
基礎教育資源展示
一樣的資源,不一樣的收獲
資源回收
科技助我來看云
科技在線
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
科技在線
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 久久久久久高潮白浆| 亚洲av色吊丝无码| 高清不卡一区二区三区香蕉| 亚洲精品第五页| 无码免费试看| 久久99热这里只有精品免费看| 精品国产一区二区三区在线观看 | 精品视频福利| 国产在线观看人成激情视频| 极品国产一区二区三区| 亚洲国产欧美自拍| 欧美一区二区自偷自拍视频| 中文字幕在线播放不卡| 一级毛片在线播放免费观看| 啪啪永久免费av| 国产噜噜噜视频在线观看| 99热这里只有精品久久免费| 欧美午夜理伦三级在线观看| 亚洲av日韩av制服丝袜| 国产精品999在线| 久久黄色视频影| 天天色综网| 国产成人综合网| 国产欧美成人不卡视频| 精品一區二區久久久久久久網站| 亚洲首页在线观看| 国产在线视频福利资源站| 无码高清专区| 欧美有码在线| 中文精品久久久久国产网址| 日本成人福利视频| 狠狠色狠狠色综合久久第一次| 天天躁夜夜躁狠狠躁躁88| 国产精品免费久久久久影院无码| 国产黄在线观看| 国产无码精品在线| 国产精品区视频中文字幕| 成人国产精品一级毛片天堂| 在线观看av永久| 日韩东京热无码人妻| 久久国产精品国产自线拍| 亚洲第一成年人网站| 久久精品国产精品国产一区| 伊在人亚洲香蕉精品播放| 国产午夜人做人免费视频| 亚洲天堂自拍| 国产又粗又猛又爽视频| 无码中字出轨中文人妻中文中| 日韩午夜片| 亚洲精品无码日韩国产不卡| 亚洲av成人无码网站在线观看| 91精品国产自产在线观看| 亚洲综合二区| 国产欧美中文字幕| 亚洲乱伦视频| 欧美自慰一级看片免费| 久久亚洲精少妇毛片午夜无码 | 国产精品亚洲专区一区| 少妇高潮惨叫久久久久久| 亚洲女同欧美在线| 国产精品自在拍首页视频8| 国产人免费人成免费视频| 国产精品欧美激情| 麻豆精品在线视频| 五月天久久综合国产一区二区| 国产99视频免费精品是看6| 中文字幕亚洲第一| 日韩不卡免费视频| lhav亚洲精品| 国产高清在线精品一区二区三区| 国产亚洲精久久久久久久91| 精品国产香蕉在线播出| 国产成人综合日韩精品无码不卡 | 国内精品视频| 日韩毛片视频| 亚洲欧洲一区二区三区| 四虎成人精品| 国产天天射| 亚洲制服丝袜第一页| 一本大道视频精品人妻| 91探花国产综合在线精品| 国产乱子伦无码精品小说|