摘 要:目前大部分的信息抽取方法都是針對主題信息塊的提取,沒有進一步深入到各個單獨主題信息的抽取。針對這一問題,提出了一種基于啟發(fā)式規(guī)則的網(wǎng)頁主題信息精確定位方法。首先針對各個單獨的主題,分析其多方面的特征,制定出對應的啟發(fā)式規(guī)則;然后利用不同的規(guī)則對定位主題重要度不同的這一特點,得到啟發(fā)式規(guī)則的權(quán)值矩陣;最后利用基于啟發(fā)式規(guī)則的定位算法精確定位各個主題。將該方法用于網(wǎng)頁主題信息抽取系統(tǒng)中,抽取系統(tǒng)能夠有效地對各個單獨的主題進行定位和抽取。實驗結(jié)果表明,該方法具有很好的有效性和準確性。
關(guān)鍵詞:啟發(fā)式規(guī)則; 信息抽取;主題信息定位;模板化網(wǎng)頁
中圖分類號:TP311
文獻標志碼:A
文章編號:1001-3695(2010)02-0494-04
doi:10.3969/j.issn.1001-3695.2010.02.024
Approach of pinpointing subject information in Web
pages based on heuristic rules
HU Jin-zhu, ZHOU Xing, SHU Jiang-bo, XIONG Chun-xiu
(Dept. of Computer Science, Huazhong Normal University, Wuhan 430079, China)
Abstract:At present, most of information extraction methods aim at the extraction of subject information block, not further penetrate into the extraction of each independent subject information. To solve this problem, this article proposed an approach of pinpointing subject information in Web pages based on heuristic rules. Firstly, for each independent subject, it analyzed its various characteristic, and formulated corresponding heuristic rules. Then, it obtained weight matrix of heuristic rules by using the feature that different rules had different importance to locate subject. Finally, according to localization algorithm of heuristic rules, it pinpointed each subject. The method has been applied to an automatic extraction system, and the experimental result shows the effectiveness and accuracy of the method.
Key words:heuristic rules; information extraction; subject information localization; template Web pages
0 引言
信息抽取(information extraction,IE) 是一種直接從自然語言文本中抽取事實信息, 并以結(jié)構(gòu)化的形式描述信息的過程。通常被抽取出的信息以結(jié)構(gòu)化的形式存入數(shù)據(jù)庫中, 可進一步用于信息查詢、文本深層挖掘、Web 數(shù)據(jù)分析、自動問題回答等。Web頁面所表達的主要信息通常隱藏在大量無關(guān)的結(jié)構(gòu)和文字中,使得對Web文檔進行信息抽取十分困難。一般的網(wǎng)頁內(nèi)容包括兩部分,一部分是網(wǎng)頁的主題信息,如一張新聞網(wǎng)頁的新聞標題、新聞正文、發(fā)布時間、新聞來源;另一部分是與主題無關(guān)的內(nèi)容,如廣告信息、導航條,也稱為噪聲信息。如何有效地消除網(wǎng)頁噪聲,提取有價值的主題信息已成為當前信息抽取領(lǐng)域的一個重要課題[1]。
目前在網(wǎng)頁信息抽取方面,國外的相關(guān)研究有:a)文獻[2]提出了從一種網(wǎng)頁中抽取信息塊的方法EIBA,它首先將網(wǎng)頁劃分為語義塊,然后手工標注信息標簽和非信息標簽,被標注的塊用來作為分類模型的訓練數(shù)據(jù)集,最后通過分類模型將信息塊抽取出來。b)文獻[3]利用HTML文檔的文本內(nèi)容與標記的比率特性從網(wǎng)頁中抽取信息,通過計算網(wǎng)頁文本與標記的比率將網(wǎng)頁聚類成內(nèi)容和非內(nèi)容的區(qū)域。國內(nèi)的研究主要有:a)基于模板的方法,采用機器學習來建立模板庫,利用模板來直接提取網(wǎng)頁主題信息,如文獻[1]。b)基于DOM樹的方法,通過將HTML文檔轉(zhuǎn)換成DOM樹,并對DOM樹進行某種擴展,將頁面抽取成具有語義特征或視覺特性的離散的信息條,然后通過遍歷剪枝過的DOM樹來實現(xiàn)信息抽取,如文獻[4,5]。c)基于網(wǎng)頁布局特征的方法,利用標記在布局方面的作用對頁面進行結(jié)構(gòu)分析,區(qū)分主題內(nèi)容和噪聲內(nèi)容,在此基礎上抽取主題信息,如文獻[6,7]。這些方法有一個共同的問題,都是針對主題信息塊的提取,各個主題信息壓縮在一起,沒有進行進一步的處理。本文提出了一種基于啟發(fā)式規(guī)則的主題信息精確定位方法,該方法對提取的主題信息塊進行進一步的定位,分離出單獨的主題信息。
1 啟發(fā)式規(guī)則及定位算法
本文是在模板化網(wǎng)頁主題信息提取的方法[1]基礎上進行進一步討論的,該方法主要是針對同一個站點生成自動的抽取系統(tǒng)。同一個站點的Web文檔基本上都是由同一個模板生成的。同一個模板生成的Web文檔布局基本上一樣,只是主題信息有所不同,其他信息基本一樣。利用這一特點,將同一個站點下的多個Web文檔組成的文檔集轉(zhuǎn)換為對應的DOM樹集合,并對其進行訓練,刪除DOM樹重復內(nèi)容的子樹,得到一個站點的模板樹,即主題信息塊。此時得到的DOM樹中,一方面,主題信息(發(fā)布時間、來源、正文、標題)各個部分壓縮在一起,無法區(qū)分各個單獨的主題;另一方面仍夾雜著少量噪聲,如當前位置、相關(guān)鏈接等。為抽取各個主題信息,就需要利用基于啟發(fā)式規(guī)則的定位算法生成單個主題的抽取規(guī)則。
1.1 啟發(fā)式規(guī)則定義
為了更好地描述啟發(fā)式規(guī)則,定義了如下一些概念。
文本節(jié)點集合:LN={ln|ln是文本節(jié)點}。
標題節(jié)點集合:TN={tn|tn∈LN∧tn的文本是標題內(nèi)容}。
正文節(jié)點集合:CN={cn|cn∈LN∧cn的文本屬于正文內(nèi)容}。
發(fā)布時間節(jié)點集合:TMN={tmn|tmn∈LN∧tmn的文本是時間內(nèi)容}。
來源節(jié)點集合:SN={sn|sn∈LN∧sn的文本是來源內(nèi)容}。
發(fā)布時間特征詞匯集合:Tset={ts|ts具有時間含義的詞},Tset中元素為“時間”“發(fā)布時間”“更新時間”“日期”等。
來源特征詞匯集合:Sset={ss|ss具有來源含義的詞},Sset中元素為“來源”“轉(zhuǎn)自”“來自”“轉(zhuǎn)貼自”等。
節(jié)點偏序關(guān)系:對DOM樹進行先序遍歷,得到的節(jié)點序列為a1a2a3…an,如果i∈{1,2,…,n},j∈{1,2,…,n},且i 文本節(jié)點直接先后關(guān)系:對DOM樹進行先序遍歷,取得文本節(jié)點序列為ln1ln2ln3…lnm,對于i∈{1,2,…,m-1},稱lni直接先于lni+1,記為lniwlni+1。 經(jīng)過對大量Web頁面的分析,針對各個主題(發(fā)布時間、來源、正文、標題)制定了如下啟發(fā)式規(guī)則。 Time規(guī)則。a)對ts∈Tset,如果ln.isContain(ts)=true,則ln∈TMN。x.isContain(y)判斷x是否包含字符串y,包含則返回true,否則返回1。b)如果ln.isContainFormat(\"YYYY-MM-DD\")=true,或ln.isContainFormat(\"YYYY年MM月DD日\")=true,則ln∈TMN。其中x.isContainFormat(y)判斷x是否包含符合y格式的字符串,包含則返回true,否則返回1。 Source規(guī)則。a)對ss∈Sset,如果ln.isContain(ss)=true,則ln∈SN。b)對tmn∈TMN,如果tmnwln,或者lnwtmn,則ln∈SN。 Content規(guī)則。a)如果λ1≤length(ln),則ln∈CN。其中l(wèi)ength(n)是求節(jié)點n的文本長度,λ1為正文文本長度閾值。b)對pn=parent(ln),spn∈{n|n=〈p〉∧n∈sibling(pn)},如果pn=〈p〉,且count(spn)≥ε1,則ln∈CN。其中parent(n)為節(jié)點n的父親節(jié)點,sibling(n)為節(jié)點n在DOM樹中的兄弟節(jié)點集合,count(n)為統(tǒng)計n節(jié)點的個數(shù),ε1為spn節(jié)點個數(shù)的閾值。c)對ps=previousSibling(ln),sps∈{n|n=〈br〉∧n∈sibling(ps)},如果ps=〈br〉,且count(sps)≥ε2,則ln∈CN。其中previousSibling(n)為節(jié)點n前一個兄弟節(jié)點,ε2為sps節(jié)點個數(shù)的閾值。d)對tmn∈TMN,如果tmnln,則ln∈CN。 Title規(guī)則。a)如果λ2≤length(ln),則ln∈TN。其中λ2為標題文本長度閾值。b)對sbn∈sibling(ln),cn∈CN,如果sbn=〈strong〉,或sbn=〈b〉,或fontSize(ln)>fontSize(cn),則ln∈TN。其中fontSize(n)為節(jié)點n的字體大小。c)對pn=parent(ln),sbn∈sibling(ln),ap=attr(pn).class,as=attr(sbn).class。如果ap.isContain(\"title\")=true,或as.isContain(\"title\")=true,則ln∈TN。其中attr(n)為n節(jié)點的屬性。d)對tn∈TN,如果lntn,則ln∈TN。 1.2 初始化權(quán)值矩陣 每個主題都存在各自的啟發(fā)式規(guī)則,每條規(guī)則對定位該主題有不同的重要度。例如,正文啟發(fā)式規(guī)則b)明顯比a)重要度要高很多。所以對于不同的啟發(fā)式規(guī)則,不能等同它們的重要度,必須有所區(qū)分。針對該問題,需要初始化一個權(quán)值矩陣。初始化權(quán)值矩陣算法(IWMA)描述如下: a)賦予每個主題的每條規(guī)則一個經(jīng)驗權(quán)值w。 b)獲得所有的主題,針對每個主題生成該主題的權(quán)值向量Wj=[w1j,w2j,w3j,…,wnj]T。其中∑ni=1wij=1,j為主題的序號,i為啟發(fā)式規(guī)則的序號,n為主題j的啟發(fā)式規(guī)則條數(shù)。 c)將各個主題的權(quán)值向量進行擴展,構(gòu)造出一個n1×n2矩陣A,其中n2為主題的個數(shù),n1為max(d(W1),d(W2),d(W3),…,d(Wn2)),d(X)為向量X的維數(shù)。矩陣的元素滿足如下表達式: Aij=w存在第j主題第i條規(guī)則的權(quán)值w0否則 上述啟發(fā)式規(guī)則定義中涉及到四個主題,分別為發(fā)布時間、來源、標題、正文。針對這些啟發(fā)式規(guī)則使用IWMA,得到上述啟發(fā)式規(guī)則的權(quán)值矩陣A為 A=w11w12w13w14w21w22w23w2400w33w3400w34w44 1.3 基于啟發(fā)式規(guī)則的定位 基于啟發(fā)式規(guī)則的定位算法(HRPA)描述如下: a)對于一棵已經(jīng)去掉重復內(nèi)容被精簡過的DOM樹,按先序遍歷獲得DOM樹中所有文本節(jié)點集合ln_list,|ln_list|=n3;初始化主題集合topic_list,|topic_list|=n2。運用IWMA獲得權(quán)值矩陣A。 b)針對主題,獲得該主題的可能度向量。可能度是用來衡量該節(jié)點能夠成為該主題的可能性。可能度定義如下: Pkj′=Pkj+Aij節(jié)點k滿足主題j的規(guī)則iPkj 否則 其中:Pkj為節(jié)點k成為主題j的可能度,初始時Pkj=0。在啟發(fā)式規(guī)則中,涉及到一些被依賴性主題,該類主題應先定位。例如,標題啟發(fā)式規(guī)則d)依賴于發(fā)布時間,所以發(fā)布時間是被依賴性主題,應先定位。選定一個主題后,ln_list依次通過該主題的啟發(fā)式規(guī)則學習,得到所有文本節(jié)點該主題的可能度,即該主題可能度向量Pj=[P1j,P2j,P3j,…,Pn3j]T。 c)根據(jù)可能度向量定位主題節(jié)點,不同主題對應的節(jié)點個數(shù)不同。例如,發(fā)布時間、來源、標題只可能對應一個節(jié)點,而正文則可以對應多個節(jié)點。針對此類情況本文分為兩種情況討論。首先獲得最大可能度集合maxj={Pkj|Pkj=max(P1j,P2j,…,Pn3j)}={Pa1j,Pa2j,…,Patj}。 如果主題節(jié)點個數(shù)nc>1,則判定公式如下: ξkj=1滿足pkj∈maxj0否則 如果nc=1,則判定式如下: ξkj=1滿足Pkj∈maxj,且k=min(a1,a2,…,at) 0否則 其中:ξkj為第k個節(jié)點第i個主題的判定因子。如果ξkj為1,則判定第k個節(jié)點是第j個主題元素節(jié)點;如果ξkj為0,則判定第k個節(jié)點不是第j個主題元素節(jié)點。 d)判斷topic_list中所有主題是否遍歷完畢,是則轉(zhuǎn)e);否則轉(zhuǎn)b)。 e)定位各個主題節(jié)點后,獲得各個主題節(jié)點在DOM樹中的路徑,作為該主題的抽取規(guī)則。 2 閾值選取及權(quán)值生成 2.1 長度閾值選取 啟發(fā)式規(guī)則中涉及到一些沒有確定的閾值,如標題長度閾值、正文長度閾值,長度閾值選取的好壞在一定程度上影響該條啟發(fā)式規(guī)則的效用,以致影響整個主題的抽取效果。本文以標題長度閾值選取為例,給出整個閾值估計的過程。 標題啟發(fā)式規(guī)則d)以已經(jīng)確定的發(fā)布時間為界限進行區(qū)分,標題位于發(fā)布時間以上的區(qū)域內(nèi),經(jīng)過主題信息塊的提取后,在這個區(qū)域內(nèi)對標題抽取造成影響的噪聲信息主要是當前位置、點擊次數(shù)等。把標題區(qū)域單獨提出討論,假設一篇文檔中只存在標題和影響它的噪聲兩部分。 通過統(tǒng)計的方法得到標題長度和噪聲長度的概率密度函數(shù)。噪聲長度的密度函數(shù)為p1(x)=[1/(2πσ1)]exp[-(x-μ1)2/(2σ12)];標題長度的密度函數(shù)為p2(x)=[1/(2πσ2)]exp[-(x-μ2)2/(2σ22)]。其中μ1、μ2為均值,σ1、σ2為均值的標準偏差。它們的密度函數(shù)的曲線圖如圖1所示。 從圖1中可以看出,標題長度與噪聲長度中間有一個重疊區(qū),而且噪聲的長度較短,而標題長度較長。在這種情況下μ1<μ2,可以定義一個閾值T,使得所有長度小于T的被認為是噪聲,而長度大于T的為標題。此時,將標題誤判為噪聲的概率為E1(T)=∫T-∞p2(x)dx,將噪聲誤判為標題的概率為E2(T)=∫+∞Tp1(x)dx。因此,總的誤判概率為E(T)=P2E1(T)+P1E2(T)。其中P1為噪聲信息的概率,P2為標題出現(xiàn)的概率,并且P1和P2滿足限制條件P1+P2=1。本文假設只存在標題信息和影響它的噪聲信息兩部分,所以P1、P2通過統(tǒng)計后可以得出。 為了找到一個閾值 T使得上述的總誤判率最小,將E(T)對T求微分,并令其結(jié)果等于零,得到P1p1(T)=P2p2(T)。將噪聲長度和標題長度密度函數(shù)代入,取其自然對數(shù),通過化簡可以得到方程:AT2+BT+C=0。其中:A=σ12-σ22;B=2(μ1σ22-μ2σ12);C=μ22σ12-μ12σ22+2σ12σ22ln(σ2P1/σ1P2)。解出T,即為所求的標題長度閾值λ2。本文中計算得出λ2=11。 2.2 權(quán)值動態(tài)生成算法 上述IWMA中權(quán)值的選擇根據(jù)經(jīng)驗人工制定,但固定的權(quán)值很難處理不同類型和不同風格的網(wǎng)頁。對于某些網(wǎng)頁它們符合標題啟發(fā)式規(guī)則b),則標題啟發(fā)式規(guī)則b)權(quán)值比較高,標題提取效果會比較好;對于另一些網(wǎng)頁它們符合標題啟發(fā)式規(guī)則c),則標題啟發(fā)式規(guī)則c)權(quán)值比較高,標題提取效果會比較好。權(quán)值應根據(jù)網(wǎng)頁特征自動進行調(diào)整,從而得到更好的信息提取效果。權(quán)值動態(tài)生成算法如下: weight_produce() 〈輸入〉主題集合topic_list, 其中|topic_list|=n2,由每個主題的啟發(fā)式規(guī)則條數(shù)構(gòu)成的向量J=[j1,j2,…,jn2]。 〈輸出〉權(quán)值矩陣A。 begin for i=1 to n2; {c=1; for w1i=0 to 1 /k∈{1,2,…,ji},wki ∈{0,0.1,0.2,…,0.9,1}/ for w2i=0 to 1-w1i for w(ji-1)i=0 to 1-∑ji-2k=1wki {wjii=1-∑ji-1k=1wki; 投入測試網(wǎng)頁抽取主題i; S=EN/TN,其中EN為抽取成功頁面數(shù),TN為進行測試的總的頁面數(shù); Vc=[w1i,w2i,…,wjii,S]T; c=c+1;} 比較向量Vc中S的大小,取得最大的S值的向量,將該向量中的權(quán)值賦予權(quán)值矩陣A中對應的元素;} end 3 實驗結(jié)果及分析 實驗包括兩個部分:檢驗長度閾值估計方法的準確性;測試HRPA的效果。前者主要是使用標題啟發(fā)式規(guī)則a)抽取標題信息,驗證該閾值估計方法的準確性;后者主要是將HRPA應用到抽取系統(tǒng)中,使用多條規(guī)則抽取多個主題,評測該算法的有效性。 為了考察算法的效果,避免單種網(wǎng)站風格帶來的影響,本文選取了四種代表性網(wǎng)站的6 293個頁面進行測試(基本類型及其數(shù)據(jù)如表2所示)。使用標題啟發(fā)式規(guī)則a)抽取標題信息,根據(jù)長度閾值λ2取值變化,實驗結(jié)果如表1所示。 表1 λ2對誤判率的影響 λ2E1E2E 70.0760.250 90.426 9 80.095 70.158 20.353 9 90.118 30.098 90.317 2 100.141 30.047 00.288 3 110.169 30.022 30.066 4 120.204 70.008 10.067 1 130.245 60.004 20.076 7 140.296 70.002 40.090 7 其中:E1為標題誤判為噪聲信息的概率;E2為噪聲信息誤判為標題的概率;E為總的誤判概率,E= P2E1+ P1E2 。其中P1=0.7為噪聲信息出現(xiàn)的概率, P2=0.3為標題出現(xiàn)的概率。 通過表1所示的標題實驗結(jié)果,可以得出E1與E2成反比,E1隨著λ2的增大而逐漸增大,而E2隨著λ2的增大而逐漸減小。但由于噪聲信息在頁面中占的比例P1比標題占的比例P2大很多,導致E主要受E2的影響。雖然在T=11時,E1=0.169 3,標題誤判為噪聲信息占到了一個比較大的比例,但是總的誤判率是最小的,所以T=11是最佳的分割點。這與長度閾值估計方法計算出的T值是一致的,證明了該方法的準確性。 將HRPA應用到抽取系統(tǒng)中,抽取結(jié)果如表2所示。 表2 抽取結(jié)果 網(wǎng)站類型網(wǎng)頁數(shù)目tpc/%tipc/%cpc/%spc/%dc/% 大型新聞類門戶網(wǎng)站18299195909589 政府類門戶網(wǎng)站17959499939890 事業(yè)機關(guān)類門戶網(wǎng)站14579297899686 學校部門網(wǎng)站121295100949792 其中:tpc為標題抽取正確率;Tipc為發(fā)布時間抽取正確率;cpc為正文抽取正確率;spc為來源抽取正確率;dc為總體抽取正確率。 對各個主題的抽取結(jié)果的分析如下: a)發(fā)布時間抽取正確率。tipc相對較高,平均達到97%。主要是發(fā)布時間特征比較明顯,定位比較精確,但是并不是所有網(wǎng)站都達到了100%。影響發(fā)布時間定位的因素主要有:當前時間、正文中的時間、相關(guān)鏈接中的時間三類。通過對出錯頁面分析,發(fā)現(xiàn)影響發(fā)布時間抽取的主要是當前時間、正文中的時間,相關(guān)鏈接中的時間由于其位置特性,并沒有對抽取效果造成影響。 b)來源抽取正確率。Spc平均達到了96%。導致來源抽取錯誤的因素有兩類:來源沒有明顯的標記,且位置未與發(fā)布時間相鄰;發(fā)布時間的抽取錯誤,導致來源的抽取錯誤。 c)標題抽取正確率。Tpc平均達到了93%。導致標題抽取錯誤因素也有兩類:當前位置等噪聲信息對其造成的影響,這種情況在上面已經(jīng)討論了;發(fā)布時間抽取錯誤,導致標題的抽取錯誤。 d)正文抽取正確率。Cpc最低,平均達到91.5%。導致內(nèi)容抽取錯誤因素也有兩類:部分噪聲信息夾雜在段落文字中,也就是說存在〈p〉或〈br〉等認為是段落文字的標簽中,這樣導致誤把噪聲信息當做正文抽取出來,造成抽取過度;部分正文內(nèi)容以超鏈接的形式出現(xiàn),這部分信息沒有被抽取出來,造成抽取不足。 e)總體抽取正確率。理論上總體抽取正確率的計算如下:設WS為某一網(wǎng)站的測試網(wǎng)頁集,|WS|=N;Wi為第i個主題信息正確抽取的網(wǎng)頁集,|Wi|=Xi。 那么,第i個主題信息抽取的正確率Pi =|Wi|/|WS|= Xi /N;總體抽取正確率P=|∩4i=1Wi|/|WS|。 設minP=min{P1, P2, P3, P4},因為|∩4i=1Wi|≤min|Wi|,i=1,2,3,4,故P≤minP。 又因為|∩4i=1Wi|≥∑4i=1|WS-Wi|,所以P≥1-∑4i=1(1-Pi)P≥∑4i=1Pi-3,所以P∈[∑4i=1Pi-3,minP]。當P越接近minP時,說明總體抽取效果越好。 從實驗結(jié)果可以看出,大型新聞類門戶網(wǎng)站、事業(yè)機關(guān)類門戶網(wǎng)站的dc相對較低,政府類門戶網(wǎng)站和學校部門網(wǎng)站的dc相對較高。通過對頁面進行分析發(fā)現(xiàn),大型新聞類門戶網(wǎng)站夾雜的噪聲信息比較多,而事業(yè)機關(guān)類門戶網(wǎng)站不太規(guī)范,政府和學校的網(wǎng)站比較規(guī)范。同時,總體抽取效果也比較接近理論上的最好水平。 4 結(jié)束語 從目前的研究來看,學者們對網(wǎng)頁信息抽取的研究大多集中在主題信息塊的抽取。因為未見針對各個主題精確定位并提取的研究文獻,所以無法進行針對性比較。但是,從各個主題的抽取效果以及總體抽取正確率來看,本文提出的基于啟發(fā)式規(guī)則的網(wǎng)頁主題信息精確定位方法能夠有效地、準確地分離主題信息塊,為網(wǎng)頁信息抽取提供了一種有效的處理算法,并為Web挖掘中半結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換提供了方法。 有待進一步研究的內(nèi)容是:a)本文算法中的閾值選取方法仍需進一步改進,以提高自適應程度和準確性;b)本文算法中制定的啟發(fā)式規(guī)則并不適用于所有的主題信息的提取,還需進一步研究提高啟發(fā)式規(guī)則的通用性。 參考文獻: [1]歐健文,董守斌,蔡斌.模板化網(wǎng)頁主題信息的提取方法[J].清華大學學報:自然科學版,2005,45(S1):1743-1747. [2]CAO Yu-juan, NIU Zhen-dong, DAI Liu-ling, et al. Extraction of informative blocks from Web pages[C]//Proc of International Confe-rence on Advanced Language Processing and Web Information Technology. Washington DC:IEEE Computer Society,2008:544-549. [3]WEMINGER T, WILLIAM H. Text extraction from the Web via text-to-tag ratio[C]//Proc of the 19th International Conference on Database and Expert Systems Application. Washington DC:IEEE Computer Society,2008:23-28. [6]常育紅,姜哲,朱小燕.基于標記樹表示方法的頁面結(jié)構(gòu)分析[J].計算機工程與應用,2004,40(16):129-133. [4]王琦,唐世渭,楊冬青,等.基于DOM的網(wǎng)頁主題信息自動提取[J].計算機研究與發(fā)展,2004,41(10):1787-1792. [5]王磊,蔣建中,郭軍利.基于擴展 DOM樹的Web頁面信息抽取[J].計算機應用與軟件,2007,25(6):137-139. [7]時達明,林鴻飛,楊志豪.基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[J].計算機工程,2007,33(19):276-278. [8]石倩,陳榮,魯明羽.基于規(guī)則歸納的信息抽取系統(tǒng)實現(xiàn)[J].計算機工程與應用,2008,44(21):166-170. [9]孫承杰,關(guān)毅.基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J].中文信息學報,2008,22(1):22-28. [10]WANG Ji-ying, LOCHOVSKY F H. Data-rich section extraction from HTML pages[C]//Proc of the 3rd International Conference on Web Information Systems Engineering. Washington DC:IEEE Computer Society, 2002:313-322.