999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態平衡樹的增量索引合并策略研究

2015-05-30 10:30:46李文杰
中國新通信 2015年1期
關鍵詞:信息檢索

李文杰

【摘要】 本文提出一種基于動態平衡樹的索引構建合并策略,以提高其索引合并和檢索的綜合性能。這種高效的索引文件結構,允許多個子索引同時存在,并在某一特定時間進行索引合并優化,實現高效增量地構建索引。實驗表明,采用類哈夫曼樹的動態合并策略優于LOG和GP方法。

【關鍵詞】 信息檢索 倒排索引 在線索引 動態平衡樹

一、增量子索引空間布局

在線索引環境下基于索引合并的索引管理方法是目前為止效率最高的方法,大致可以分為重建、原地、立即合并和按某種策略進行合并,這些方法區別在于內存耗盡時內存索引寫入磁盤所采用的策略。之前的方法允許合并子索引ip和iq當且僅當p = q + 1 或者q = p + 1,即只允許合并相鄰的子索引。這種模式很不靈活,限制了一些更加靈活的索引更新策略的使用。當文檔刪除導致相鄰的子索引大小相差懸殊時,索引合并的效率大大下降。定義子索引序列I為:

I =,其中,bi (0 ≤i < n) 表示子索引所包含文檔全局編號的基數,di 表示子索引包含的文檔總數,b0 = 0,bi + 1 = bi + di 。子索引 的每個文檔有一個局部編號和全局編號,局部編號以0為基數,全局編號和局部編號的關系為=。

內存索引可以被看作一個子索引,參與磁盤子索引的合并。通過調整子索引的起始編號bi可以調整子索引序列的順序,子索引的局部編號是以0為基數的,因此可以選擇任意子索引進行合并,僅需要在合并前調整bi的值,使各個待合并的子索引全局編號連續,而不必遵循創建順序合并。我們可以任意選擇多個子索引進行合并。每個子索引包含詞一部分posting-list,相當于將詞的posting-list分割成多個子posting-list,分布在各個子索引中且連續存放。檢索需要一次讀入這些posting-list,并依照子索引序列的順序將其首尾相接。

二、基于動態平衡樹的索引合并方法

動態平衡樹是一棵m叉樹,樹的節點是一個數據容器。從離根最遠的葉子節點到樹的根節點,該樹被分為h層,同時滿足下述要求:

1)設第i 層的第j個節點大小為d i , j,則di , j 滿足: di , j = 0 或者ci ≤di , j/s < ci + 1;

2)第i 層節點個數要么為0,要么小于m;

3)第i層合并新節點進入第i + 1層,出現碰撞合并時,將兩次合并合成一次進行。

其中s > 0,0 ≤j < m,s 是子索引的比例因子,假設子索引為Ibi , di , 則di/s為節點大小;特別地,當s取0時,則樹的葉子節點大小均為1,而與該節點容器所包含的數據量無關。c (c ≥m) 是一個關鍵參數, 用于限定各層節點的大小。

三、實驗與分析

3.1實驗分析

從下圖3-1a和b中可以看出,在使用256MB和512MB索引內存的情況下,DBT方法均要優于LOG和GP方法。當m=c=10,s=0時總體性能最好,但不穩定可能時間變化曲線出現局部交叉,這是因為當m值較大時,可能出現局部無索引合并,一次需要合并10個子索引,合并時間較長,當局部無索引合并時性能較好,有索引合并時性能較差。DBT方法可以通過參數c和m控制一次合并子索引的數目,m和c取值越大越能符合條件2,索引合并次數越少,索引數據讀取和寫入次數也越少,因此索引構建性能越優。

3.2試驗結論

實驗表明,基于合并的在線索引構建方法其性能受內存大小的影響,但具有更好的規模可擴展性;每一次合并應盡量選擇較小的子索引進行合并,合并應該按照多路歸并進行,通過減少索引數據反復讀取和寫入的次數來提高索引合并性能;磁盤上多個子索引并存的布局會降低檢索性能,通過有策略地控制索引合并使子索引數目較少,可以控制檢索性能的下降幅度在一個較小的范圍內,索引合并代價也能大幅度降低,提高在線索引構建的總體性能。

參 考 文 獻

[1] 郭瑞杰,程學旗,許洪波,王斌,丁國棟.一種基于動態平衡樹的在線索引快速構建方法[J].計算機研究與發展,2008,10:1769-1775.

猜你喜歡
信息檢索
基于同態加密支持模糊查詢的高效隱私信息檢索協議
基于信息檢索課的大學生信息檢索行為調查研究
高職院校圖書館開設信息檢索課的必要性探討
基于MOOC理念的“翻轉課堂”教學改革探索——以海南大學《文獻信息檢索與利用》課程為例
網絡環境下數字圖書館信息檢索發展
山西青年(2018年5期)2018-01-25 16:53:40
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
地理信息檢索中空間相似性度量的一種模糊方法
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产无码制服丝袜| 国产00高中生在线播放| 久久精品国产免费观看频道| 亚洲日韩精品综合在线一区二区| 精品福利国产| 无套av在线| 久久这里只有精品2| 国产欧美日韩资源在线观看| 1769国产精品视频免费观看| 特级做a爰片毛片免费69| 2022国产无码在线| 国产h视频免费观看| 日韩精品中文字幕一区三区| 四虎在线观看视频高清无码| 日韩小视频网站hq| 午夜福利视频一区| 幺女国产一级毛片| 亚洲综合网在线观看| 久草国产在线观看| 免费女人18毛片a级毛片视频| 为你提供最新久久精品久久综合| av在线人妻熟妇| 国产欧美日韩免费| 日韩人妻精品一区| 91小视频在线| 国产欧美日韩综合一区在线播放| 国产精品精品视频| 网久久综合| 日韩视频精品在线| 国产高清免费午夜在线视频| 国产一区免费在线观看| 久久精品国产电影| 日本精品中文字幕在线不卡 | 成年人久久黄色网站| 日本道综合一本久久久88| 国产精品区网红主播在线观看| 爽爽影院十八禁在线观看| 欧美自拍另类欧美综合图区| www精品久久| 美女扒开下面流白浆在线试听| 久久国产V一级毛多内射| 91精品专区| 国产免费一级精品视频| 国产成人无码综合亚洲日韩不卡| 免费无码一区二区| 福利姬国产精品一区在线| 91九色视频网| 欧美一级专区免费大片| 国产精品观看视频免费完整版| 男女性色大片免费网站| 亚洲AV成人一区二区三区AV| 国产乱人乱偷精品视频a人人澡| 亚洲国产清纯| 国产综合无码一区二区色蜜蜜| 一级一毛片a级毛片| 视频国产精品丝袜第一页 | 国产视频欧美| 欧美精品二区| 成人精品区| 2021最新国产精品网站| 国产精品无码一二三视频| a级毛片视频免费观看| 国产精品久久久久久久久| 国产人前露出系列视频| 中文字幕久久精品波多野结| 国产成人三级| 精品福利国产| 免费又黄又爽又猛大片午夜| 在线中文字幕日韩| 2020精品极品国产色在线观看| 最新无码专区超级碰碰碰| 91精品啪在线观看国产| 午夜久久影院| 国产麻豆精品久久一二三| 免费日韩在线视频| 91精品久久久无码中文字幕vr| 婷婷开心中文字幕| 欧美精品1区2区| 激情午夜婷婷| 亚洲日韩每日更新| 久久精品无码国产一区二区三区| 亚洲性一区|