基金項目:國家自然科學基金(the National Natural Science Foundation of China under Grant No.10671045)
[摘 要] 針對Html網頁結構的特點,網頁的不同標記信息所轄的特征項包含不同的類別信息,通過抽取網頁不同標記信息內的特征項并賦予不同權重來表明其重要程度。實驗證明該方法比單獨依賴網頁內容信息的分類在效果上有所提高。
[關鍵詞] 網頁分類 特征項 權重計算
一、引言
隨著互聯網技術的不斷發展,web網已經成為一個巨大的信息源,成為人們獲取信息的重要來源。由于Web網頁中蘊藏的信息資源內容廣泛,形式各異,有效組織和管理這些資源尤為重要,通過網頁的自動分類可以更好地對其進行組織和管理,加快信息檢索的速度。然而,web頁面中存在著大量的HTML格式的無結構數據和少量XML格式的半結構數據。一方面,這些結構性信息常是頁面中包含的非主題信息的內容,網頁必須剔除這些無用的信息后才能形成有用的文本信息。另一方面,這些結構性信息又包含著重要的分類信息,利用好這些信息能有效提高分類效果。
本文對網頁的標記進行了分類,對位于不同標記內的特征項賦予不同的權重系數,在分類過程中重新調整其權值,以期改善分類器的性能。
二、網頁特征分析
與純文本數據不同,網頁數據是一種半結構化的數據。在HTML文檔中,正文信息是嵌入在HTML標記中的,HTML文檔的標記具有嵌套結構。仔細分析HTML文件的格式,可以發現其中有一些標記信息對分類是有益的。(1)頁面的標題,無論哪種類型的文本,一般都會有標題,通常標題部分特征信息的量都比文章其余部分要大,標題一般是網頁內容的精煉概括,字數較少,除很少的一些虛詞外基本上都是網頁的特征詞;(2)分級標題,分級標題是網頁內容的基本框架,是網頁局部內容的概括和提煉,在一定程序上強調了網頁內容;(3)字體格式,在一些網頁上,常對重要的文本加以修飾,突出其重要性,如將關鍵詞句的字號加大,對其加粗、加下劃線及加斜,或者附以不同的顏色。
為了精確表示網頁的結構,定義標記集S={TL,HD,FS,FL,FC,UR}。
TL:標記為TL的特征項是文中的標題部分;
HDi:標記為HD的特征項是文中的分級標題;
FSi:標記為FS的特征項為非基準字號;
FL:標記為FL的特征項被字體格式化處理;
FC:標記為FC的特征項為非基準顏色。
說明:標題部分可以看成是零級標題,因此TL和HDi的權重系數可統一處理;FSi的權重系數為字號減去基準字號的絕對值,其中,基準字號l是文本長度最長的標簽部分所用的字號;FL權重系數為3;FC的顏色值為非基準值u時取2,其中,基準值u為文本長度最長的標簽部分所用的顏色值。
三、關鍵技術
1.特征項抽取
本文的特征提取分兩步進行,第一步按常規方法去除結構性標簽,獲取純文本內容,用成熟的特征選擇方法互信息MI得到一個初始特征集合T。互信息MI公式為:(1)
其中:A為t和c同時出現的次數;B為t出現而c沒有出現的次數;C為c出現而t沒有出現的次數。N為所有文檔數。如果t和c不相關,則MI(t,c)值為0。如果有m個類,于是對于每個t會有m 個值,取它們的平均,就可得到特征選取所需的一個線性序。互信息值大的特征被選取的可能性大。
第二步對格式化文本進行提取,抽取格式特征項集合,并按表1模板對特征項進行標記,以備后續處理。
2.特征權重計算
(1)特征表示
文本分類中的文本表示主要采用向量空間模型(vector space mode,VSM)。向量空間模型的基本思想是以(W1,W2,W3,…,Wm)向量來表示文本,其中Wi為第i個特征項的權重 。n個文本組成的文本集合D={d1,d2,…,dn}被m個特征項W1,W2,W3,…,Wm索引,可表示成一個m×n的特征項文本矩陣A,A={d1,d2,…,dn},其中di=(W1,W2,W3,…,Wm),如下所示: (2)
其中:每一列di代表一個文本;一行Yj 代表特征項在各個文本中的權值.特征項權重的計算方法主要運用TF-IDF公式: (3)
式中:W(t,d)表示特征詞t在文本d中的權重,tf(t,d)為特征詞t在文本d中的詞頻,N為訓練集中文本的總數,nt為訓練文本集中出現詞t的文本數,分母為歸一化因子。
(2)特征加權
考慮Web網頁的描述信息中出現的關鍵字包含網頁的重要信息,對分類有較大的作用。因此,對這部分特征項進行加權處理。依此權值信息表,我們對特征詞t在文檔d的權重計算公式(1)做如下改進。
(4)
其中,表示特征項t被k個HTML標記修飾權重之和。
3.特征選擇算法描述
Step One:對網頁預處理,進行分詞及分詞后的預處理,獲取初始特征集;對網頁進行格式特征抽取,獲取格式特征集合;
Step Two:對于初始特征集中的每個詞,利用式(6)計算特征項和類別的互信息值;
Step Three:對互信息值進行排序, 根據設定閾值T對每個類別提取若干個貢獻最大的特征項,刪除大部分對分類意義不大的特征項,得到特征項的最終集合T=(t1,t2,……,tm)(m Step Four:根據式(4)計算每個特征項的權值wi; Step Five:生成特征向量表,每篇文檔表示為向量(tl,wl;t2,w2;……;tn,wn),ti為特征項,wi為對應的權值。 四、試驗分析與結果 1.分類算法 本文采用KNN分類算法進行實驗,該算法的是在給定新文本后,考慮在訓練文本集中與該新文本距離最相近的K篇文本,根據這K篇文本所屬文本所屬的類別判定新文本所屬的類別。計算公式為: (5) 其中,相似度計算公式為:(6) 為類別屬性函數,定義為:(7) 2.實驗結果 實驗數據是從新浪網、雅虎網等多個網站上采集的中文網頁數據集,從中選取了政治、交通、環境、經濟、藝術、娛樂等六個類別共1800篇文章,其中每個類別300篇文章;每類選取200個網頁作為訓練集,其余100個網頁作為測試集。 在相同環境下,我們分別對兩種特征選擇方法進行了對比實驗,結果見表1。其一是采用傳統TF-IDF特征選擇方法直接進行訓練,計算權重;其二是考慮網頁結構特征的重要性,將位于網頁某些結構標簽的特征項進行加權,并將加權處理融合到TF-IDF方法中。實驗結果表明,第二種方法能取得良好的分類效果。 五、結束語 網頁的自動分類在信息檢索領域中均占有十分重要的意義。然而,網頁分類不同于普通文本的分類,網頁中包含大量的網頁標記信息,這些標記信息包含重要的分類信息,充分挖掘這些信息有利于提高網頁的可分性。本文正是在對這些標記對信息研究的基礎上實現正文信息的選取和表示的。實驗已表明所用方法的有效性和可用性。在后續的研究中,將對網頁特殊描述信息中的特征項權值系數確定方法進行研究,以求更加合理的加權方法。 參考文獻: [1]Wang Lian,David Wai-lok Cheung.An efficient and scalable algorithm for clustering XML documents by structure [J].IEEE Trans on Knowledge and Data Engineering,2004,16(1):82~96 [2]初建崇 劉培衛 王衛玲:Web文檔中詞語權重計算方法的改進[J].計算機工程與應用,2007,43(19): 192~194,198 [3]呼聲波 劉希玉:網頁分類中特征提取方法的比較與改進[J].山東師范大學學報(自然科學版),2008,23(3): 35~37 [4]胡 健 陸一嗚 馬范援:基于HTML文檔結構的向量空間模型的改進[J].情報學報,2005(4):433~437 [5]何中市 劉 里:基于上下文關系的文本分類特征描述方法[J].計算機科學,2007,34(5):183~186