武強+邊巴旺堆
信息檢索系統(tǒng)中藏文自動提示的研究與實現(xiàn)
武強,邊巴旺堆
(西藏大學 工學院,西藏 拉薩 850000)
摘要:在當今信息社會,信息檢索已經(jīng)成為人們日常工作的一部分。藏文作為一種古老的文字,也融入了當今的信息時代,越來越多的網(wǎng)頁、電子郵件等電子文檔以藏文形式出現(xiàn)。該文主要探討了藏文的構成、編碼、分詞及藏文相關提示詞的實現(xiàn)原理及方法,對具有重要影響的藏文分詞和排序進行了深入的分析,實現(xiàn)了在信息檢索系統(tǒng)中基于權重的藏文自動提示功能。通過測試分析,該功能能較好地分辨藏文和依據(jù)權重對藏文進行相關詞提示。
關鍵詞:藏文;分詞;信息檢索;相關詞提示;編碼;網(wǎng)頁
中圖分類號:H214 文獻標識碼:A 文章編號:1009-3044(2014)19-4378-03
Research and Implement of Tibetan Term Suggestion in Information Retrieval System
WU Qiang, BianBa Wangdui
(College of Engineering, Tibet University, Lhasa 850000, China)
Abstract: Information retrieval has become a part of people work in todays information society. As one ancient language, Tibetan has blended in with todays information age. There are more and more web pages, e-mails etc. in the form of Tibetan. The paper mainly discusses the structure, encoding, term segmentation of Tibetan and implementation mechanism and method of Tibetan term suggestion, and analyses deeply the Tibetan word segmentation and Tibetan sort, finally implements the function of Tibetan term suggestion based on the value of a Tibetan word in documents. From testing, the function can distinguish Tibetan word and get the Tibetan term suggestion based on value properly.
Key words: Tibetan; word segmentation; term suggestion; information retrieval; encoding; Web page
1 概述
目前,隨著互聯(lián)網(wǎng)和個人電腦的發(fā)展,信息量每天都以指數(shù)級增長,信息檢索[1]成了一種人們獲取日常信息的主要手段。藏文,作為一種古老的書寫文字,其歷史可以追溯到1400多年前。迄今為止,以藏文記載的古典著作浩如煙海,這些書籍在藏民族的傳承和發(fā)展上發(fā)揮著重要的作用。隨著信息時代的到來,以藏文形式記載的各種網(wǎng)頁、文檔也越來越多,利用檢索系統(tǒng)對藏文進行檢索,可以更快地獲取信息,同時也促進了藏文的發(fā)展。
相關詞的自動提示功能(Term Suggestion)在一些常用的網(wǎng)站上可以看到,比如搜索網(wǎng)站谷歌,百度,電子商務網(wǎng)站淘寶,易趣等。相關詞的自動提示功能優(yōu)化了搜索結果,通過系統(tǒng)來猜測檢索人需要的搜索詞語,為檢索人在信息檢索時提供了更多的便利和較準確的檢索結果。……