于文超天津美術(shù)學(xué)院圖書館 天津 300141
高校圖書館多媒體資源庫建設(shè)研究
于文超天津美術(shù)學(xué)院圖書館 天津 300141
利用多媒體搜集器搜集網(wǎng)絡(luò)中的多媒體資源,并從網(wǎng)頁中提取用于描述多媒體資源的文本信息,以構(gòu)建高校圖書館多媒體資源庫,為師生提供多媒體資源檢索服務(wù)。
高校圖書館;多媒體;信息提取
AbstractUsing multimedia resource searcher to collect multimedia resources, extract text of Multimedia resource from webpage, and provide services of searching multimedia resources for teachers and students.
Key wordsacademic library; multimedia; information extraction
高校圖書館是高校師生獲取信息的重要來源,面對(duì)信息技術(shù)多媒體化的發(fā)展趨勢(shì),多媒體資源成為信息交流的主要途徑之一。Web中包含的大量多媒體資源分布過于分散且查找困難。常見的搜索引擎如Google、Baidu、Yahoo!等,都屬于通用搜索引擎,其超大規(guī)模的分布式數(shù)據(jù)源及信息的檢索質(zhì)量不高等問題,使其無法直接為高校師生提供信息服務(wù)。
為了解決這一問題,本文以高校圖書館多媒體數(shù)據(jù)庫的建設(shè)為出發(fā)點(diǎn),設(shè)計(jì)并開發(fā)基于Web的高校圖書館多媒體數(shù)據(jù)庫建設(shè)系統(tǒng),用于構(gòu)建圖書館多媒體數(shù)據(jù)庫,為用戶提供多媒體資源檢索服務(wù)。
該系統(tǒng)主要包括兩大步驟,首先對(duì)Web中存在的多媒體資源進(jìn)行搜索,并將其所在網(wǎng)頁存入相應(yīng)的網(wǎng)頁數(shù)據(jù)庫;對(duì)網(wǎng)頁數(shù)據(jù)庫中的網(wǎng)頁進(jìn)行預(yù)處理與結(jié)構(gòu)分析,從多媒體所在的網(wǎng)頁中提取多媒體資源的相關(guān)文本,再對(duì)相關(guān)文本進(jìn)行處理,提取出用于描述、標(biāo)引多媒體資源的信息,形成對(duì)多媒體資源進(jìn)行描述的信息庫。
2.1 多媒體資源網(wǎng)頁的搜集
利用Web多媒體資源搜集器搜集Web中包含多媒體資源的網(wǎng)頁,并將符合要求的網(wǎng)頁的HTML代碼存入多媒體資源網(wǎng)頁庫,搜索器搜索時(shí)利用網(wǎng)頁