馬浩銘
(新疆質(zhì)信通工程檢測技術(shù)有限公司,新疆 烏魯木齊 830011)
-n number 索引指定數(shù)目的文檔后退出。注意:在運行index-n number后,運行index-D程序。如果用戶使用多線程,索引的文檔數(shù)目會比預(yù)定的值高一些。
-N number 設(shè)置運行索引線程的數(shù)量。只有對多個網(wǎng)站進行索引時,多線程索引才有意義。兩個線程或多個線程不能同時對同一站點進行索引。
-R number 運行解析進程的數(shù)目。默認是線程數(shù)/5+1。如果用戶的服務(wù)器解析慢的時候,用戶需要增加默認值。
-a 重新索引所有的文檔,并忽略文檔的失效狀態(tài)。默認情況下,只有比Period時間早的文檔才被重新索引。
-m 存儲文檔中詞和超鏈接,忽略文檔的修改狀態(tài)。沒有這個參數(shù)時,只有修改的文檔才會被重新索引。
-o 優(yōu)先抓深度淺的文檔。這里的跳躍指的是文檔的深度值。
-M繼續(xù)索引先前索引任務(wù)的URLs。這些URLs會被存儲在臨時MySQL數(shù)據(jù)庫中,這常用于調(diào)試目的。
-T URL索引URL到實時數(shù)據(jù)庫中,需要注意的是,用戶不能增加太多的文檔到實時數(shù)據(jù)庫中,否則檢索實時數(shù)據(jù)庫會非常地慢。實際上實時數(shù)據(jù)庫文檔的限制是依賴于硬件的,大約1000個urls,效果會比較好。實時數(shù)據(jù)庫的文檔歸并到主數(shù)據(jù)庫的命令是index-D。這個參數(shù)選項在重新索引經(jīng)常需要改變的網(wǎng)頁時候非常有用。用戶可以及時地看到結(jié)果,用戶可以使用-A參數(shù)一起使用。
-C清理數(shù)據(jù)庫。用戶可以控制參數(shù)來限制清理數(shù)據(jù)庫的范圍。……