張乃靜,鞠洪波,紀(jì) 平
中國林業(yè)科學(xué)研究院 資源信息研究所,北京 100091
基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重模型
張乃靜,鞠洪波,紀(jì) 平
中國林業(yè)科學(xué)研究院 資源信息研究所,北京 100091
現(xiàn)有林業(yè)領(lǐng)域信息檢索方法多是以關(guān)鍵詞匹配為基礎(chǔ)的檢索方式,隨著林業(yè)相關(guān)研究的深入,林業(yè)領(lǐng)域信息總量在不斷增加,傳統(tǒng)的檢索方法已經(jīng)無法滿足檢索需求,例如用戶檢索“櫟樹”的相關(guān)信息,使用關(guān)鍵詞匹配進(jìn)行檢索時無法檢索到“櫟樹”的同義概念“柞樹”和“橡樹”。如何實現(xiàn)高效的林業(yè)領(lǐng)域信息檢索成為一個亟待解決的問題。自Tim Berners-Lee[1]提出語義網(wǎng)以來,許多研究嘗試將領(lǐng)域本體應(yīng)用在信息檢索上,來提高信息檢索的查準(zhǔn)率和查全率。文獻(xiàn)[2]利用語義標(biāo)注來改善檢索系統(tǒng)的性能;文獻(xiàn)[3]提出了一種基于領(lǐng)域本體的語義查詢擴(kuò)展模型,有效提高了農(nóng)業(yè)信息的檢索效率;文獻(xiàn)[4]建立了基于關(guān)鍵詞和基于概念的兩層索引結(jié)構(gòu),使用基于本體的概念擴(kuò)展和基于語義標(biāo)注的概念擴(kuò)展,提高了檢索的查全率和查準(zhǔn)率;文獻(xiàn)[5]利用本體知識庫推理實現(xiàn)了語義搜索;文獻(xiàn)[6]利用本體改進(jìn)了向量空間模型中排名算法;文獻(xiàn)[7]利用本體中概念的語義距離來計算語義檢索相關(guān)度。綜上所述,多數(shù)研究利用領(lǐng)域本體中對象的語義關(guān)系和語義推理機(jī)制來改善信息檢索,獲得了一定的效果,但這些方法仍然存在著一些局限性,例如語義關(guān)系僅考慮了概念間的語義距離,而忽略了概念在本體中的結(jié)構(gòu)因素,語義推理對本體要求較高,完善的本體是實現(xiàn)語義推理的基礎(chǔ),而構(gòu)建這樣的領(lǐng)域本體是一項巨大的知識工程,難以實現(xiàn)。……