【摘要】文章分析了信息可視化技術在教學資源檢索與導航系統中應用的可行性和表示機制,提出了一種教學資源可視化檢索與導航模型,并通過開源軟件設計了實驗系統加以驗證,為學科導航系統的研究和建設提供了一個新的思路。
【關鍵詞】信息可視化;學科導航;教學資源;本體
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2011)02—0121—04
網絡信息資源數量龐大、資源豐富,然而其分散、無序、不規范性給讀者的利用帶來了困難。學科導航作為針對特定學科領域網絡資源的深層組織模式,有效解決了網絡信息資源檢準率低、專指性差、可信度弱等突出問題。信息可視化是將抽象數據用可視的形式表示出來,可用于知識發現、信息檢索、文獻信息分析等領域,它不僅給信息以形象的表示,為人們提供直觀的結果以便觀察,而且能夠揭示信息之間的關聯,挖掘隱含的模式和結構,讓用戶有效地利用信息和發現知識。本文嘗試將信息可視化技術應用于學科導航系統,在分析了教學資源檢索與導航可視化的可行性和表示機制之后,提出了一種教學資源可視化檢索與導航模型,最后利用開源軟件進行了實驗驗證。
一 可行性分析
盡管近年來信息可視化技術已經廣泛推廣應用,然而在教學資源導航系統的設計方面還未有相關的應用系統出現。如CALIS重點學科網絡導航庫在檢索結果的顯示方面也只有按題名排序和按訪問次數兩種方式,無益于幫助用戶在第一時間得到最相關的檢索結果[1]。筆者曾提出一種基于本體的智能學科導航系統設計方案,通過構建領域本體,以Nutch為采集平臺、采用JSP+MYSQL為開發平臺,設計并初步實現了一個具備語義檢索和導航功能的教學資源檢索/導航平臺[2],但該試驗系統在檢索結果的展示方面也不盡如人意。
從技術的角度來看,為網絡信息資源提供檢索與導航的學科導航系統存在著信息可視化操作的諸多可行性。首先,面向本體知識庫的可視化檢索研究已經引起了國內外學者的關注,近年來在可視化理論和圖形布局算法等方面取得了很大的進展,同時本體可視化檢索的實現方法和關鍵技術也在不斷的發展之中;第二,基于本體的語義標引技術的研究使得語義標引算法有了較大的進步,更注重從概念層面和屬性層面來區分資源,為語義檢索創造條件,提高了檢索效果。第三,網絡開發技術中的RIA(Rich Internet Application,富互聯網應用)發展日趨成熟,出現了諸如Flex、Ajax、Silverlight、JavaFX等RIA方案和開源軟件,其所具備的交互性和開放性使得信息可視化在學科導航系統上的實現成為現實。
二 教學資源信息檢索可視化的表示機制
1 基于本體的知識檢索呈現技術
在信息檢索可視化過程中,需要將不可見的語義關系轉換成圖形,在一個二維或三維的可視化空間中顯示出來[3]。基于本體的知識檢索呈現是指通過一定的知識表示技術,將領域知識按照一定方式,清晰有序地在一個統一的界面上顯示出來,供檢索者方便地查詢與獲取知識[4]。常見的知識檢索呈現方式主要有概念圖(concept map)、思維導圖(mind map)、認知地圖(cognitive map)、語義網絡(semantic network)、思維地圖(thinking map)等,而這些知識表示技術包括了模式、模型、圖形和圖像等方式。
目前有許多開源的本體應用可視化工具和技術來表達本體,如基于Protégé的TGViz、jambalaya、OntoViz和獨立于本體領域的通用可視化工具Piccolo、Processing、VTK、JUNG等[5]。其中獨立于本題領域的通用可視化工具擁有更強大的可視化功能和擴展接口,較容易應用到本體可視化開發中去。
2 教學資源信息可視化顯示技術
可視化顯示技術主要用于把經過處理過的信息在計算機上以圖形的形式顯示出來,最基本的可視化顯示技術包括Focus+Context(焦點加上下文技術)、Tree-map(樹形圖)、Cone Tree(錐形樹)、Hyperbolic Tree(雙曲線樹)等幾種[6]。
(1)焦點加上下文技術可以將一個信息集合的特定部分的細節視圖,通過某種方式和該信息集合的總體結構視圖混合在一起,也可以認為是在顯示一個大的信息空間的同時,其中的一部分以更細節的方式顯示。它的目的是放大聚焦節點,減小周圍環境影響“聚焦”注意力。
(2)樹形圖可顯示數據層次里面的所有節點,還能在同一視圖顯示單個節點的信息。樹形圖中圖形大小表示了它在整個層次中的相對大小,其他屬性由顏色等方式表示。
(3)錐形樹是一個半透明的錐形三維空間圖,為了讓用戶可以觀察到所有的數據,根結點即能放置在錐形樹的頂端,又可放置在空間(凸輪樹)最左端,子節點均勻地分布在根結點的下方或者右側的錐形延展部分。
(4)雙曲線樹技術將更多的可視化空間用于顯示層次結構中當前被關注的部分,同時又能把整個層次結構顯示出來。它通過一種規范的算法將層次關系顯示在一個雙曲平面上,然后將這個雙曲平面映射到顯示區域。
除了這些基本技術之外,還有如文檔透鏡、透視墻、場景圖等其他的可視化顯示技術。需要說明的是,這些顯示技術都有優缺點,在信息檢索可視化時需要根據實際情況合理選擇一種或者幾種技術組合應用。
三 基于信息可視化的教學信息檢索與導航模型

基于信息可視化的教學資源信息檢索與導航模型根據教學資源的特點和學科導航系統的功能要求分為教學信息采集模塊、教學信息加工標引模塊、教學信息分類保存模塊與教學信息檢索與導航四個模塊,如圖1所示。
1 教學信息采集模塊
教學資源導航與檢索系統實現的第一步就是如何將Web上的教學資源信息內容存儲到本地,繼而為后續的信息抽取、鏈接分析、可視化檢索等工作提供重要的基礎數據。然而網絡資源數量龐大,資源類型復雜多樣,人工采集的方式已不能滿足導航資源更新維護的需要。在常見的幾種開源采集工具中,Nutch具有突出的功能特性和性能指標,并提供了一個完整的搜索引擎框架。然而由于其采用了命令行的操作方式,不便操作,對此可開發圖形化界面來控制配置文件改善操作。
2 教學信息的工標引模塊
Nutch除能夠抓取網頁外,能具有解析網頁、建立鏈接數據庫、對網頁進行評分、建立Lucene索引和提供檢索界面等豐富的功能[7]。通過分析,Nutch采集的物理文件分別存儲在db目錄下的webdb、segments和index三個文件夾中,其中segment內存儲的是爬蟲在單獨一次抓取循環中抓到的網頁以及這些網頁的索引,可編程分析該目錄下的文件并將分析后得到的Version、url、base、contentType、metadata和Content等字段存入數據庫中,用于下一步的標引。
將筆者構建的一個關于圖書館學的簡單領域本體存儲于數據庫中用于本體語義標引的本體解析。在分析segment文件的同時,借助開源軟件Html Parser對網頁進行去噪處理和提取出該Web頁面的核心詞匯集,接著以該核心詞匯集為輸入,利用HP實驗室的Jena引擎提供的本體接口來解析數據庫中的本體,完成核心詞匯集與本體概念的映射,獲取概念對應的屬性,填充核心詞匯集的屬性值,生成Web頁面的語義向量,存儲到數據庫中。至此通過文檔處理、本體解析和向量抽取三步完成教學信息的加工標引[8]。
3 教學信息分類保存模塊
教學信息的分類保存過程相對比較容易實現,一方面,Nutch在抓取過程中存儲了所有網頁及這些網頁之間的索引結構和鏈接結構信息。另一方面,利用程序分析了這些網頁信息并將分析后的內容和標引信息存儲到數據庫中。筆者通過人工的方式來實現信息分類,按照領域本體結構建立一個采集目錄,在采集前預先設定好該批次采集的信息類別。
4 教學信息檢索與導航模塊
檢索與導航是將查詢到的相關Web頁面反饋給用戶,并在信息檢索和導航界面可視化為Flash的過程。運用概念圖和焦點加上下文技術來實現,涉及到具體開發時應用prefuse.flare開源Flex插件來實現檢索和導航結果的可視化展示。
在檢索過程中,對用戶檢索請求進行分詞、關鍵詞提取并規范成本體查詢語言等處理后,通過查詢語句來檢索Oracle數據庫,將查詢到的結果依據圖書館學的領域本體進行相關推理,實現語義擴展查詢。在導航過程中,根據用于請求的領域本體概念或屬性來查詢該概念或屬性所標引的Web頁面,實現可視化導航。
四 模型的系統驗證
1 開發環境及實現工具
采集引擎的配置條件為:JDK1.5+Tomcat5.5+Nutch 1.0。
開發運行環境為:Tomcat5.5+JDK1.5+Java+Oracle9。
本體構建工具為:Protégé4.1。
2 基于本體的教學信息的自動加工標引
自動加工標引流程圖如圖2所示:

(1) 首先分析segment文件得到單個Web頁面的版本、鏈接、元數據、內容等信息后存入數據庫;再對內容進行去噪處理得到純文本;為了簡化驗證過程,僅對title內容進行處理,得到頁面核心詞匯集。
(2) 將構建的圖書館學領域本體存儲到Oracle數據庫中;調用Jena2.6版本引擎提供的Oracle本體存儲接口來解析圖書館學領域本體,將解析出來的本體概念與上一步得到的Web頁面核心詞匯集進行映射,獲取本體概念所對應的屬性,并作為Web頁面核心詞匯集的屬性保存;進一步生成該Web頁面的語義向量,存入Oracle數據庫。
3 可視化檢索與導航的實現
可視化檢索與導航的流程如圖3所示:

(1) 運行系統,用戶可選擇導航或檢索兩種操作。
(2) 系統判定用戶的請求,如果是檢索對輸入的檢索語句則使用中文分詞工具包IKAnalyzer進行分詞處理,對得到的關鍵詞檢索Oracle數據庫中的Web信息和語義向量信息。進而檢索本體數據庫即依據圖書館學領域本體進行相關推理,實現語義擴展查詢,最后用prefuse.flare中的Radial布局圖實現了結果的可視化展示并反饋給用戶。
(3)導航流程與檢索部分相似,不同的是用戶首先得到一個可視化的本體類目結構,點擊類目上的節點后,系統得到該節點(概念或屬性)所對應的Web信息和對應的語義向量。下圖4是用“數字化參考咨詢”檢索后展示出來的可視化結果。

五 結語
本文探索和構建了基于語義的教學資源發現、智能檢索和兼容互換模型及其可視化表現機制,在傳統學科導航系統的基礎上引入了領域本體和信息可視化機制,并開發與構建了實驗系統加以驗證。本實驗系統的目的只是簡單驗證可視化模型的可行性,同時由于條件限制在Nutch采集結果的分析過程中只分析了網頁標題,而許多網頁標題并不完全與內容匹配導致了Web頁面核心詞匯集不準確。未來可在此基礎上,對采集系統進行 Plugin插件開發并對搜索結果的層次化自動聚類等相關技術[9]進行深入研究,制作專題網頁資源采集服務系統。
參考文獻
[1] 夏翠軍. CALIS重點學科網絡資源導航庫的使用情況分析.圖書情報工作[J],2009,(3):75-78.
[2] 朱毅華,郭衛兵.基于本體的教學資源檢索、導航平臺的設計與實現.中國教育信息化[J],2008,(11):68-71.
[3] 張學福.信息檢索可視化基本問題研究.中國圖書館學報[J],2006,(3):37-40.
[4] 王蘭成,曾瓊.基于本體的知識檢索模型及呈現技術研究.圖書情報工作[J],2009,(3):98-102.
[5] 董慧,王超.本體應用可視化研究.情報理論與實踐[J],2009,(12):116-120.
[6] 陳艷.信息檢索可視化技術.情報理論與實踐[J],2006,(5):618-621.
[7] 徐健,張智雄.基于Nutch的Web網站定向采集系統.現代圖書情報技術[J],2009,(4):1-6.
[8] 張功杰,黃穗. 基于本體的語義標引研究與實現[J].計算機工程與設計,2008,(4):2078-2080.
[9] 常智榮,馬自衛,李高虎.基于Nutch的專題網頁資源采集服務系統的設計與實現. 現代圖書情報技術[J].2010,(3):19-26.
Construction and Verification of Teaching Resources Search and Navigation Model Based on Information Visualization
GUO Wei-bing1 ZHU Yi-hua2
(1.Library, Nanjing University of Science and Technology, Nanjing, Jiangsu 210094,China; 2. College of Information Science and Technology, Nanjing Agricultural University, Nanjing, Jiangsu 210095, China)
Abstract:This paper analyzes the feasibility and representation mechanisms of using information visualization technology in the teaching resources searching and navigation systems. Then presents a visual teaching resource search and navigation model and verify it by building a experimental system developed with open source software. It’s a new thinking of researching and building subject navigation system.
Keywords:information visualization; subject navigation; teaching resources; ontology
#61482;本文為南京農業大學教育教學改革研究項目 “基于信息可視化的教學資源檢索與導航研究”(編號:2009Y033)的研究成果。
收稿日期:2010年11月19日
編輯:紅葉