于文超天津美術學院圖書館 天津 300141
高校圖書館多媒體資源庫建設研究
于文超天津美術學院圖書館 天津 300141
利用多媒體搜集器搜集網絡中的多媒體資源,并從網頁中提取用于描述多媒體資源的文本信息,以構建高校圖書館多媒體資源庫,為師生提供多媒體資源檢索服務。
高校圖書館;多媒體;信息提取
AbstractUsing multimedia resource searcher to collect multimedia resources, extract text of Multimedia resource from webpage, and provide services of searching multimedia resources for teachers and students.
Key wordsacademic library; multimedia; information extraction
高校圖書館是高校師生獲取信息的重要來源,面對信息技術多媒體化的發展趨勢,多媒體資源成為信息交流的主要途徑之一。Web中包含的大量多媒體資源分布過于分散且查找困難。常見的搜索引擎如Google、Baidu、Yahoo!等,都屬于通用搜索引擎,其超大規模的分布式數據源及信息的檢索質量不高等問題,使其無法直接為高校師生提供信息服務。
為了解決這一問題,本文以高校圖書館多媒體數據庫的建設為出發點,設計并開發基于Web的高校圖書館多媒體數據庫建設系統,用于構建圖書館多媒體數據庫,為用戶提供多媒體資源檢索服務。
該系統主要包括兩大步驟,首先對Web中存在的多媒體資源進行搜索,并將其所在網頁存入相應的網頁數據庫;對網頁數據庫中的網頁進行預處理與結構分析,從多媒體所在的網頁中提取多媒體資源的相關文本,再對相關文本進行處理,提取出用于描述、標引多媒體資源的信息,形成對多媒體資源進行描述的信息庫。
2.1 多媒體資源網頁的搜集
利用Web多媒體資源搜集器搜集Web中包含多媒體資源的網頁,并將符合要求的網頁的HTML代碼存入多媒體資源網頁庫,搜索器搜索時利用網頁
2.2 多媒體資源網頁分析及多媒體區域定位
有些網頁為UTF-8編碼,在網頁分析之前就需要對這類網頁進行編碼轉換,完成從UTF-8編碼到GB2312編碼的轉化。然后生成網頁結構圖,并判斷多媒體資源所在表格的區域,在多媒體主題區域中的文本內容與該多媒體資源的描述是否顯著相關。另外,一個網頁還存在無關區域,通過區域識別排除這些區域,只保留多媒體主題區域文本。
2.3 多媒體資源相關文本信息提取
下面是在一個以多媒體為主題的網頁中,提取的用以描述多媒體資源的信息文本。
2)周圍文本。在網頁結構分析及多媒體區域識別的基礎上提取多媒體的周圍文本,可以有效減少噪聲的干擾,提高文本提取精確度。本系統最多提取離多媒體資源最近的周圍文本,并且文本長度最多為30個漢字字符。
3)多媒體資源導航文本。Web中很多多媒體主題網頁都提供了多媒體資源導航文本,如某個網頁的多媒體資源導航文本“您現在的位置:小學課堂在線>>在線動畫>>語文課件>>守株待兔”,就可以判斷出該多媒體是一個語文課件,并且其主題為“守株待兔”。
根據上述方法得到的網絡中多媒體資源的相關文本還不能直接入庫,需要進行一系列的處理,直到提取出能描述多媒體資源的>關鍵詞,對所提取的文本做拼音及英文的翻譯轉換、中文分詞、分詞結果的消重過濾以及>關鍵詞提取等處理。
2.4 信息入庫
通過上面的工作,獲得所分析網頁中多媒體資源相關文本,并提取其中的關鍵詞,最后的工作是信息入數據庫。
本文利用多媒體資源搜集器對從10個網站中搜集包含教育資源的網頁進行測試,該方法對Web中多媒體資源的相關文本提取效果較好。但由于部分網頁沒有使用表格來定位頁面元素,并且多媒體資源主題區域可能存在噪音,從而造成極少數的網頁影響結構分析及文本提取效果。
進行網絡中多媒體資源的搜索及其相關文本的提取,對描述網上多媒體資源的信息具有重要意義。將本文提出的方法與多媒體內容分析相結合,能夠更有效地促進多媒體資源更好地利用,從而為高校師生提供更好的多媒體資源檢索服務。
Research on Construction of Multimedia Resource Library in Academic Library//
Yu Wenchao
G258.6
B
1671-489X(2011)06-0088-01
10.3969 /j.issn.1671-489X.2011.06.088
Author’s address Tianjin Academy of Fine Arts, Tianjin, China 300141
作者:于文超,天津美術學院圖書館助理館員。