崔 琳(宿州學院信息工程學院,安徽 宿州234000)
汪材印(宿州學院機械與電子工程學院,安徽 宿州234000)
自2003年以來,與Web 2.0相關的技術不斷涌現,其中Blog(博客)是最熱門應用之一,其開放性和易于發布性已吸引了眾多用戶。隨著Blog的發展,Blog頁面的數量呈指數級上升,只靠傳統的搜索引擎有可能查找不到所需要的Blog日志,這促使人們針對Blog搜索引擎進行研究。目前,已經出現了許多頂級的Blog搜索引擎,如Technorati、BlogStreet等,Google也推出了中文Blog搜索引擎,但針對某一領域知識檢索的專業Blog搜索引擎還比較少[1]。為此,筆者基于語義Web思想,對計算機領域的Blog日志進行搜索的智能檢索系統進行了研究。
1998年,萬維網(Web)的奠基人Tim Berners-Lee提出了語義 Web的概念及其技術路線[2]。后來,Tim Berners-Lee又提出了語義 Web的基本體系結構[3],如圖1所示。
若要讓計算機理解Web上的語義,需要為計算機提供描述Web數據的數據,即元數據。資源描述框架RDF(Resource Description Framework,RDF)正是描述資源的元數據模型。RDF是由資源、屬性、屬性值所組成的三元組,在知識表示領域,資源、屬性和屬性值分別稱為主體(Subject)、謂詞(Predicate)和客體(Object),這三者的組合稱為一個陳述(Statement)[4]。

圖1 語義Web的體系結構
為實現語義檢索計算機專業領域Blog日志,設計的系統結構由RSS采集子系統、RSS處理子系統和Blog查詢子系統3個模塊構成,每個大的模塊又詳細劃分為若干個小模塊(見圖2)。具體內容如下:①聚合內容采集子系統。Blog網頁的聚合內容(really simple syndication,RSS)文件中包含該Blog網頁的重要信息,通過RSS的自動 “推送”,用戶可以很及時的獲得Blog網頁的更新信息,是使用最廣泛的XML應用之一[5]。該系統中,網絡蜘蛛抓取的資源是RSS鏈接所指的XML文檔,這一點和傳統搜索引擎有明顯差別。該模塊設計中主要涉及網絡蜘蛛,其設計的好壞將直接影響系統檢索結果。網絡蜘蛛搜索算法如圖3所示。②RSS處理子系統。對抓取的RSS文件在本體庫的指導下進行語義標注,提取出文檔的特征并對原始資源使用RDF描述形成元數據,然后對元數據索引處理,以提供給查詢子系統進行查詢。③Blog查詢子系統。在本體庫的指導下對查詢詞進行語義擴展和語義推理,將經過擴展的查詢詞在系統的索引庫中查詢,最后把查詢結果返回給用戶。

圖2 Blog智能檢索系統詳細功能模塊
本體是概念模型的明確的規范化說明[6]。該系統中,需要利用本體對RSS文件進行語義標注,還要對用戶提交的查詢詞進行語義擴展,所以構建良好的本體是十分重要的。設計時使用OWL語言描述本體,采用本體構建工具Protégé構建本體。

圖3 網絡蜘蛛搜索算法圖
由于所設計的系統是針對計算機專業領域的Blog日志進行語義查詢,所以要構建計算機專業領域的本體庫,將現有的計算機領域分成7類,即Computer science and technology based subjects(計算機科學技術基礎學科)、Computer Software(計算機軟件)、Computer Application(計算機應用)、Computer Architecture(計算機系統結構)、Artificial Intelligence(人工智能)、Computer engineering(計算機工程)、Computer science and technology other subjects(計算機科學技術其他學科)。每個大類包含許多小的分類,每一個小的分類又包含許多個不同的子類,使用rdfs:subClassof表示類之間的上下位關系或父子關系。
定義英語分類的同時,還定義了對應的中文分類,將中英文詞匯用owl:sameas建立同義映射關系,查詢時,借助這種同義關系就可以實現擴展詞義。例如英文 “Database”與中文 “數據庫”之間的同義可表示為:

針對所查詢文檔是RSS文件的特點,定義了用于描述RSS文件的本體Document類,并為Document類定義了若干描述RSS文件的屬性,語句如下:
類定義:

屬性定義:

選擇Java作為開發平臺,后臺數據庫使用MySQL 2000,Web服務器選擇支持JSP服務的Tomcat。因為CSDN網和希賽網下的Blog是目前互聯網上使用最為廣泛的計算機學科類博客,網絡蜘蛛所抓取Blog網頁主要來自于上述網站。首先在檢索項選擇關鍵詞,檢索值輸入 “數據庫”,點擊“查詢”按鈕,結果如圖4所示。“數據庫”經過該系統的語義擴展推理,得到同義詞匯 “database”和下位詞匯 “sql”,除查詢到含有“數據庫”的Blog網頁外,還查詢到包含 “database”和 “sql”的Blog網頁。

圖4 語義擴展查詢結果界面
針對計算機專業領域Blog日志進行語義搜索的智能檢索系統,使用了本體、語義推理等語義Web技術,把對資源信息的語義處理引入到信息檢索領域中。實際運用表明,該系統對網絡蜘蛛所抓取的計算機領域的Blog日志能實現一般查詢和語義擴展查詢,可以提高信息檢索的查全率和查準率。下一步的工作是對本體庫進行細化和完善,以便使計算機學科類本體庫和RSS文檔本體更為合理。
[1]潘冰,徐亮亮 .中文博客搜索引擎研究 [J].計算機工程與設計,2010,31(8):1718-1721.
[2]葉育鑫,歐陽丹彤 .語義Web搜索技術研究進展 [J].計算機科學,2010,37(3):1-5.
[3]Tim Berners-Lee.Semantic Web-XML2000 [EB/OL].http://www.w3.org/2000/Talks/1206-xml2k-tbl/,2000-12-06.
[4]郭志鑫 .基于本體的文檔引文元數據信息抽取 [J].微計算機信息,2006,6(3):304-306.
[5]原舒雨,蔡皖東,李勇軍,等 .面向博客的智能網絡蜘蛛技術及其系統實現 [J].微電子學與計算機,2011,28(1):193-196.
[6]張柳松 .基于本體的智能檢索系統的研究 [J].微計算機信息,2007,12(3):237-238.