馬浩銘
(新疆質(zhì)信通工程檢測(cè)技術(shù)有限公司,新疆 烏魯木齊 830011)
-n number 索引指定數(shù)目的文檔后退出。注意:在運(yùn)行index-n number后,運(yùn)行index-D程序。如果用戶使用多線程,索引的文檔數(shù)目會(huì)比預(yù)定的值高一些。
-N number 設(shè)置運(yùn)行索引線程的數(shù)量。只有對(duì)多個(gè)網(wǎng)站進(jìn)行索引時(shí),多線程索引才有意義。兩個(gè)線程或多個(gè)線程不能同時(shí)對(duì)同一站點(diǎn)進(jìn)行索引。
-R number 運(yùn)行解析進(jìn)程的數(shù)目。默認(rèn)是線程數(shù)/5+1。如果用戶的服務(wù)器解析慢的時(shí)候,用戶需要增加默認(rèn)值。
-a 重新索引所有的文檔,并忽略文檔的失效狀態(tài)。默認(rèn)情況下,只有比Period時(shí)間早的文檔才被重新索引。
-m 存儲(chǔ)文檔中詞和超鏈接,忽略文檔的修改狀態(tài)。沒有這個(gè)參數(shù)時(shí),只有修改的文檔才會(huì)被重新索引。
-o 優(yōu)先抓深度淺的文檔。這里的跳躍指的是文檔的深度值。
-M繼續(xù)索引先前索引任務(wù)的URLs。這些URLs會(huì)被存儲(chǔ)在臨時(shí)MySQL數(shù)據(jù)庫(kù)中,這常用于調(diào)試目的。
-T URL索引URL到實(shí)時(shí)數(shù)據(jù)庫(kù)中,需要注意的是,用戶不能增加太多的文檔到實(shí)時(shí)數(shù)據(jù)庫(kù)中,否則檢索實(shí)時(shí)數(shù)據(jù)庫(kù)會(huì)非常地慢。實(shí)際上實(shí)時(shí)數(shù)據(jù)庫(kù)文檔的限制是依賴于硬件的,大約1000個(gè)urls,效果會(huì)比較好。實(shí)時(shí)數(shù)據(jù)庫(kù)的文檔歸并到主數(shù)據(jù)庫(kù)的命令是index-D。這個(gè)參數(shù)選項(xiàng)在重新索引經(jīng)常需要改變的網(wǎng)頁(yè)時(shí)候非常有用。用戶可以及時(shí)地看到結(jié)果,用戶可以使用-A參數(shù)一起使用。
-C清理數(shù)據(jù)庫(kù)。用戶可以控制參數(shù)來限制清理數(shù)據(jù)庫(kù)的范圍。……