摘 要:隨著Internet/Intranet的快速發展和普及,豐富的Web資源構成一個巨大的全球信息倉庫。在海量數據空間中快速、準確地獲取用戶所需成為Web檢索系統研究的焦點。將一種全新的網頁自動分類技術引入WWW信息抽取領域,解決網上信息有效獲取的問題。獲取網站分類體系,設計的Web信息自動歸類算法,可通過Web數據抽取機制以及Web信息分類技術實現檢索結果的分類和層次化展示,使用戶快捷準確地從WWW上獲取所需信息。
關鍵詞:信息檢索;信息歸類;分類體系;層次化展示
中圖分類號:TP393.092 文獻標識碼:A
文章編號:1004-373X(2008)10-076-03
Research of Information Classification in Web Information Retrieval
MA Jiying,ZHU Lijun,ZHANG Yan
(Shenyang Institute of Chemical Technology,Shenyang,110142,China)
Abstract:As Internet/Intranet developing quickly and being popular,affluent Web resources have composed a huge global information warehouse.It becomes more and more important in information retrieval research that how to obtain the Web information what users need among magnanimity data space fast and accurately.In order to improve the performance of search engine,this paper applies a new technology of Web page classification to the existing search engine.We obtain Website classification system and design arithmetic of Web information classification.Result can be classified into groups and displayed hierarchically by Web information extraction mechanism and users obtain what they need on WWW fast.
Keywords:information retrieval;information classification;classification system;hierarchical display
1 引 言
目前,搜索引擎提供的信息往往遠多于用戶所需的信息,原因是基于關鍵詞的搜索會返回包含該關鍵詞的所有網頁,而這些網頁往往跨越多個領域,其中會有許多內容屬于用戶根本不感興趣的范圍。為使因特網用戶快速查詢出感興趣的信息,有必要將分類技術運用到搜索引擎當中。網頁間的超鏈接提供了網頁間內在關系的信息[1],很明顯,如果網頁A指向網頁B,那么網頁A的作者會認為網頁B包含有價值的信息或者他們之間存在某些關系。已經有一些分類工作涉及用超鏈接及HTML結構來提高網頁分類的精確率[2-4]。
與傳統數據相比,Web數據有如下特點[5,6]:數據不由任何組織和個人控制,沒有固定的數據模型;數據的組織是任意的,只要能在Web上展現即可;數據的內容和表現方式是動態變化的;數據量巨大并且增長迅速。雖然搜索引擎已經成為成熟的商業應用,極大地方便Web信息的查找和獲取,但他還存在著以下問題[7,8]:大量非專業用戶,難以使用簡單查詢串準確表達自己的信息需求,從而造成大量查詢結果并不是用戶需要的信息;信息搜索過程和結果集排序對所有用戶使用同一標準,難以使不同知識、工作背景的用戶都滿意;新近提出的自動分類的搜索引擎服務[9]是一種新型的、自動語義匹配、自動抽取主要欄目,二級欄目,模塊化的Web應用,并能通過Web被發布、定位和調用。他著眼于網頁之前間的超連接關系,通過蜘蛛程序獲得網站拓撲結構和分類體系進而完成Web信息的自動歸類,從根本上不同于基于特征向量法的網頁自動分類技術。自動分類的搜索引擎服務能幫助簡化信息搜索,減少用戶自己分類的時間,使合作更容易。
基于這種新型自動分類思想,從底層蜘蛛程序獲得相關分類信息和網站拓撲結構,抽取了網站分類體系,設計了Web信息歸類算法,并將多項信息分類展示,為用戶有效地在WWW上搜索信息提供方便高效的支持。
2 網站分類體系抽取
2.1 研究思路
基于這樣一個基本原則:尊重信息發布者對信息的理解。Web信息通常以Web站點的形式聚集,這是WWW信息空間中信息組織的重要特點。Web站點通常都是遵循網站設計者(信息發布者)的意圖,按照一定的原則對站點層次、欄目進行組織、規劃,而Web信息發布者對Web內容的理解直接體現于Web頁面所歸屬的欄目分類。通過抽取網站本身的欄目層次信息、網頁信息以及其拓撲結構,就能夠實現分類體系的確立及Web信息的自動歸類。當用戶檢索信息時,可以對檢索結果分類組織和展示,使用戶能夠根據信息類別快速定位感興趣的信息。
網站采用的分類體系通過網站導航體系展現。通過網頁分塊、塊導航置信度分析獲取導航欄,進而獲取網站導航體系,在導航體系分類語義分析的基礎上,獲取網站的分類體系。
2.2 獲取網站分類體系
為了方便用戶瀏覽信息,網站通常設有自己的分類體系。網站結構按該體系進行信息的分類組織:在顯要位置給出各類別信息的入口,不同類別的信息處于網站結構中不同位置,同類信息出現在相近的位置,信息發布時根據其類別選擇位置。同時,網站結構的組織,總是從網站首頁開始,通過索引頁面,鏈接到最終信息頁面。
2.2.1 基于網頁分塊的導航欄提取
按照網頁頁面版式,內容相關度等特征,可以將頁面按區域進行分割,這個過程稱為網頁分塊。網頁分塊后,頁面上各個分離的區域稱為塊。同一塊內的內容,聯系比較緊密;而不同塊之間的內容關系則比較松散,在語義上也不連貫。按照作用與功能,塊可以分為導航塊、正文塊和輔助塊。導航塊是指主要完成網頁間導航功能,他所包含的主要內容為超鏈接;正文塊主要功能為表現網頁主體內容,索引頁面的正文塊通常為指向其他頁面的超鏈;輔助塊是指諸如網站版權信息說明等,是對本網頁起到輔助作用的塊。
(1) 網頁分塊:HTML提供了多種控制格式的標簽,其中一些有空間上和邏輯的分隔作用。如,<p>,<br>,<tr>等,他們表現為較大的空行,能夠起分隔段落的作用;<hr>,他表現為水平線,人們習慣用他分隔關系松散的章節;還有一些標記在空間上表現為分隔,同時也被用來表達在意義上比較獨立的文字段,例如:<blockquote>,<form>,<table>等。研究及試驗表明,網頁HTML文件中連續出現多個有空間或邏輯分隔作用標簽是前后內容不相關的標志。
HTML文件中連續出現的,有空間或邏輯分隔作用標簽集合稱為間隔,記為I。其中連續的含義是指在標簽和標簽之間不出現可在網頁上顯示的文本,包括超鏈接文本和普通文本。對于有分隔作用的標簽Ti,按照其分隔內容的程度,賦予權重WTi。間隔I內標簽權重的累加值WI,即WI=∑[DD(]i=n[]i=1[DD)]WTi,稱為間隔權重,Ti,i=1,2,…,n,為I中的有分隔作用的標簽。設定間隔權重閾值為某一常數C,權重大于C的間隔稱為分割,記為D。分割把頁面HTML源文件分成多個段,每段HTML對應了顯示頁面的一個區域,從而網頁頁面被分成若干區域,這樣就實現了網頁分塊,由網頁得到了塊。
分塊過程中,有兩種方式實現分塊的靈活性調控:調整有分隔作用的標簽的權重,可以適應不同的頁面設計風格;通過間隔構成分割閾值大小的設定,可以控制分塊的粒度,滿足不同應用對分塊的需求。
(2) 網頁塊導航置信度分析:完成頁面分塊后,需要從塊中確定哪些是導航塊。研究大量網站發現:導航塊通常位于頁面的上部或左部,對應HTML源文件中前面的部分,所以導航塊必定在前面的塊中;導航塊中的主要內容為超鏈;導航塊中各超鏈的顯示文字比較整齊,簡短;導航塊中各超鏈的URL比較整齊,一般不含query。
2.2.2 導航項分類語義判斷
在得到頁面導航塊后,解析導航塊的HTML代碼,提取各導航項的顯示文字,鏈接地址。分析顯示文字的分類語義:如果有足夠的分類語義,則為分類類別;如果明顯缺乏分類語義,則丟棄;對無法做出明確判斷的,則根據試驗效果做選擇。每個類別都與其對應原導航項的超鏈關聯,這樣每個類別都有對應的類別位置,這是后續Web信息歸類的基礎;類別關聯的超鏈還指明查找下一層類別的頁面。從導航塊中抽取欄目信息的流程如圖1所示。
從分塊程序給出頁面塊集合中的第一個塊開始,逐塊檢查內部各鏈接項的文本、URL特征等,并進行總體分析,直到確定出一個導航塊,返回。
3 Web信息自動分類
Web信息都通過其所在頁面關聯到網站結構中的位置,在獲取網站的分類體系后,通過信息位置和類別位置的對應,可以實現Web信息的歸類[10]。下面先給出幾個基本定義:
[HTH]定義1:信息位置,Web信息所在頁面對應的節點在網站的結構圖中所處位置稱為信息位置。
[HTH]定義2:類別位置,類別都關聯了超鏈,這個超鏈指向頁面對應的節點在網站的網站結構圖中所處位置稱為類別位置。
[HTH]定義3:信息和類別對應關系,如果從某一類別的類別位置出發,沿著網站結構圖,能夠到達某Web信息所在信息位置,則說這個類別和這條信息有對應關系。
[HTH]定義4:信息-類別距離,如果某信息和某類別對應,在網站結構圖中,信息的信息位置到類別的類別位置的最短路徑的長度,稱為該信息到與該類別的信息-類別距離。
網站的組織中,總是從網站首頁開始,通過索引頁面,鏈接到最終信息頁面。網站組織信息有如下特點:不同類別信息處在網站結構中不同位置,同類信息處在相近位置,首頁導航欄給出各大類信息的入口,大類對應的索引頁面指向小類對應的索引頁面,小類對應的索引頁面指向本類其他索引頁面和最終信息頁面。考慮到類別的層次性,與子類對應的信息必然與父類對應。
圖1 頁面導航欄分析流程圖
采用如下策略確定信息歸屬類別:在所有與某一信息對應的類別中,信息類別距離最短的類別,作為信息的歸屬類別;如果有多個與該信息對應的,有相同信息-類別距離的類別,則其中層次最深的類別作為信息歸屬類別;如果有多個信息-類別距離相等,且層次相同的類別與該信息對應,則取其中分類語義最大的類別作為信息的類別。
這種分類的依據是信息發布者對信息類別的判斷,更加準確和權威;分類體系保持了層次性,便于知識學習和表示;分類過程不需要自然語言理解和統計分析,效率更高。設計的算法為:
(1) 根據網站結構圖,找出所有指向信息所在頁面對應節點的頁面,放入集合F;
(2) 判斷F集合中是否包含對應分類體系中某類別得節點;如果有,則找出其中層次最深,包含分類語義最大的類別,將信息歸入該類,程序結束,否則到(3);
(3) 在網站結構圖中,找出所有指向F集中節點的節點,并將這些節點的集合作為新的F集,返回(2)。
4 檢索結果的分類和層次化展示
采用Java以及動態Web技術實現,以Tomcat 5作為JSP/Serlvet容器,Oracle 9為數據庫服務器。以sohu,sina等網站的具體欄目題材實現檢索結果的分類和層次化展示示例如圖2所示。
圖2 檢索“喬丹”得到的分類結果
5 結 語
充分挖掘信息發布者的思想,重點考慮網站內部通過鏈接表現的組織結構;根據網站組織結構提取網站分類體系,通過設計的Web信息歸類算法,完成信息的自動歸類;實現檢索結果的分類和層次化展示。提高查到準確信息的效率,為終端用戶提供更為方便的服務和應用。
參 考 文 獻
[1]Jennifer Farkas.Document Classification and Recurrent Neural Networks [C].Proceedings of the 1995 Conference of the Centre for Advanced Studies on Collaborative Research,1995:21-27.
[2]David Gibson,Jon M Kleinberg,Prabhakar Raghavan.Inferring Web Communities from Link Topology [C].UK Conference on Hypertext,1998:225-234.
[3]Michael B Cline.Using HTML Structure and Linked Pages to Improve Learning for Text Categorization [D].Department of Computer Sciences,University of Texas at Austin,1999.
[4]Yin-Hung Kuo,Man Hon Wong.Web Document Classification Based on Hyperlinks and Document Semantics.PRICAI Workshop on Text and Web Mining,2000:41-44.
[5]Bing Liu,Kevin Chen-Chuan Chang.Editorial:Special Issue on Web Content Mining [J].ACM SIGKDD Explorations Newsletter,2004,6(2):1-4.
[6]Devanshu Dhyani,Wee Keong Ng,Sourav S Bhowmick.A Survey of Web Metrics [J].ACM Comput Survey,2002,34(4):469-503.
[7]Chia-Hui Chang,Ching-Chi Hsu.Integrating Query Expansion and Conceptual Relevance Feedback for Personalized Web Information Retrieval [J].Computer Networks and ISDN Systems,1998,30(7):621-623.
[8]Liu F,Yu C,Meng W.Personalized Web search by mapping user queries to categories [C].Proceedings of the Eleventh International Conference on Information and Knowledge Management,McLean,2002:558-565.
[9]彭彤,張斌,鄭懷遠.WWW上的基于信元模型的信息集成[J].小型微型計算機系統,2002(7):23-27.
[10]Gao Kening,Yang Leiming,Zhang Bin.Automatic Classification of Web information Based on Site Structure [A].CW2005,2005:350-357.
作者簡介
馬紀穎 女,1975年出生,遼寧遼中人,碩士研究生,講師。研究方向為Web信息檢索和集成。
朱力軍 男,1972年出生,碩士,講師。研究方向為軟件工程。
張 顏 女,1979年出生,碩士研究生,講師。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。