摘要:目前主流的網頁抽取方法存在兩大問題:提取信息類型單一,難以獲取多種類新聞信息;多依賴HTML標簽,難以擴展至不同來源。為此提出一種基于多維度文本特征的新聞網頁信息提取方法,利用新聞文本的寫作特點劃分出寫作、語義和位置特征,通過多通道卷積神經網絡融合為多維度文本特征,用于提取多種類新聞網頁信息;僅需少量數據集訓練,就可提取新來源的新聞網頁信息。實驗結果表明,該方法在性能上高于當前最優方法。
關鍵詞:網頁信息提取; 卷積神經網絡; Web挖掘; 文本特征
中圖分類號:TP391.1文獻標志碼:A
文章編號:1001-3695(2022)04-014-1043-06
doi:10.19734/j.issn.1001-3695.2021.10.0407
NEMTF:method of news Web content extraction based on multi-dimensional text features
Weng Binyue1,2, Qin Yongbin1,2, Huang Ruizhang1,2, Ren Lina1,2,3, Tian Yuelin1,2
(1.College of Computer Science amp; Technology, Guizhou University, Guiyang 550025, China; 2.Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025, China; 3.Guizhou Light Industry Technical College, Guiyang 550025, China)
Abstract:At present, there are two major problems in the mainstream webpage extraction methods: the extraction information type is single, and it is difficult to obtain multiple kinds of news information. More reliance on HTML tags, its difficult to extend to different sources. Therefore, this paper proposed an information extraction method of news Web pages based on multidimensional text features. It divided writing, semantic and location features into writing features by using the writing features of news texts. And it used multi-channel convolutional neural network to fuse multi-dimensional text features to extract multiple types of news Web pages. Only a small amount of data set training was required to extract news Web page information from new sources. Experimental results show that the performance of this method is better than the current optimal method.
Key words:Web content extraction; convolutional neural network(CNN); Web mining; text feature
0引言
互聯網的發展促使人們越來越習慣于從網絡上獲取新聞信息,隨著新聞網站數量的不斷增加,單一來源的新聞網頁已無法滿足用戶的使用需求。如何從多個新聞來源中提取出新聞的標題、時間、來源、正文和相關新聞等新聞文本要素信息成為眾多學者的重要研究任務之一。傳統的新聞網頁信息抽取方法均存在一定的局限性,具體表現在:
a)提取的信息類型單一,忽略了多種類新聞有效信息。新聞內容是由不同的文本要素構成的,承擔不同的意義和功能,可運用于新聞可信度判斷、事件追蹤、輿情監督和相關推薦[1]等工作,因此獲取多種類新聞網頁信息具有很高的實用價值。傳統的新聞網頁信息抽取方法只能將新聞信息整體提取,無法結構化地以新聞的標題、時間、來源、正文和相關新聞的形式提取。
b)依賴HTML網頁標簽,難以擴展到不同來源的新聞網頁信息提取。HTML語言對于使用者而言是不具有標準格式的,新聞網頁制作者使用HTML的習慣偏好不同,套用的CSS(cascading style sheets)布局相異,造成了新聞網頁之間的異構性[2],因此依托HTML標簽構建的新聞網頁提取方法受限于固定的網頁版式標簽[3],在面對新來源的新聞網頁提取任務時,只能重新訓練模板提取目標信息,需要耗費更多的成本代價,無法滿足多來源新聞信息提取任務。
本文通過新聞網頁中存在的文本要素歸納出文本特征,從而代替不穩定的HTML標簽結構,解決傳統模型難以擴展到不同來源新聞網頁中使用的問題和難以提取多種類新聞網頁信息的問題。以圖1中兩篇不同來源的新聞網頁為例,新聞文本要素的寫作方式、語義內容和相對位置在不同來源的網站中都具有相似之處,具有穩定的文本特征。這類文本特征是新聞文本自身固有的特征,不以網頁中HTML標簽結構的改變而改變,有利于在不同來源的新聞網頁提取任務中使用,作為擴展學習的有效特征。
單一類型的文本特征無法解決提取多種類新聞信息的問題,需要語義內容、寫作方式和相對位置等多個維度的文本特征相互補充。自然語言處理領域中最常用的文本特征就是語義特征,語義特征指新聞內容行塊中文字表達的特征。然而在新聞網頁中,標題是新聞正文內容凝練的表達,標題的語義信息與正文的語義信息呈現包含關系;相關新聞是新聞正文內容的同類事件,或者是同一事件的后續發展,在語義上兩者具有相似性。這造成不同的文本內容會有相似的文本特征, 從而降低了模型的性能[4,5],所以新聞的標題、正文、相關新聞彼此之間語義特征相互粘連、重疊,單靠語義特征難以區分。為了更為直觀地看出新聞網頁中的內容信息存在文本結構上的其他文本特征,本文構建了同一來源的文本分布的分析圖,如圖2所示。多種類型的新聞信息在網頁中的位置相對穩定,在新聞網頁中有效信息(標題、時間、來源、正文和相關新聞)變化的幅度遠遠大于噪聲信息(導航欄、廣告和責任聲明等)的變化,且變化來源于新聞自身文本信息內容的不同。因此,歸納出新聞網頁的寫作特征和位置特征,位置特征指新聞內容在網頁文本中的相對位置的特征,寫作特征指不同類型新聞內容的字符長度及其變化的特征。這三類不同維度的文本特征共同使用,互為補充,可利于提取多種類新聞信息。
具體來說,本文提出了一種基于多維度文本特征的新聞網頁內容提取方法。該方法從少量的新聞網頁中獲取三種基礎的文本特征,通過多通道卷積神經網絡將離散的文本特征訓練成一個多維度文本特征,根據對新聞網頁中不同內容的多維度文本特征的表達提取出多種類新聞信息。
本文提出基于文本特征的內容提取方法,利用新聞網頁自身的文本特征取代HTML標簽結構,為新聞網頁中的每段純文本信息學習一個特有的文本特征表示。該方法通過多維度的文本特征,從寫作模式、位置結構、語義內容三個角度考慮了不同種類新聞內容的相關性和各自的區別,有效地解決了難以提取多種類新聞網頁信息的問題,從而提高了該方法的預測效果。本文在10個真實數據集上進行了一系列的實驗,實驗結果表明本文方法能廣泛運用于不同來源的新聞網頁信息提取任務中,并有效地提取出多種類型的新聞信息。
1相關工作
新聞頁面的挖掘與分析一直是信息抽取領域的研究熱點,傳統的新聞網頁信息抽取方法包括:
a)基于HTML標簽的模型。Lin等人[6]于2002年提出將HTML的閉合標簽對或起分割作用的標簽用于規則匹配,從而提取網頁信息內容。同年,Bar-Yossef等人[7]第一次提出根據HTML標簽制定新聞網頁提取模板。2007年趙欣欣等人[8]通過標記窗提取了新聞類網頁的內容信息,之后加入一定的統計學理論。Weninger等人[9]提出一種啟發式技術,通過逐行計算標簽比率進行內容提取。隨后Wu等人[10]和廖建軍[11]提出設計一系列HTML標簽路徑的特征。這類模型都是對HTML標簽進行淺層使用,是一種內容區域抽取[12]的方法,過度依賴HTML閉合標簽,無法適應現代網頁構建技術的不斷更新。
b)基于DOM樹的模型。2008年Prasad 等人[13]提出根據網頁HTML標簽結構,構建新聞網頁的DOM樹提取網頁信息內容。張瑞雪等人[14]提出從部分目標信息開始分別向后順序和向前逆序解析DOM樹,同時定位并獲取目標信息。隨后吳共慶等人[15]將統計學理論和DOM樹結合,提出了標簽路徑特征融合的在線新聞網頁內容抽取方法,進一步提高網頁信息提取的效率。近年提出將簡化的DOM樹結構與語義特征相結合的模型[16,17],可以提取出網頁中各種商品的信息,但依舊無法消除對HTML標簽的依賴。
c)基于視覺模塊的模型。2007年Zheng等人[18]從網頁圖像入手,提出一種新的基于視覺一致性的、與模板無關的新聞抽取方法;王衛紅等人[19]在可視塊提取模型的基礎上,通過對關鍵區域聚焦、噪聲過濾及可視塊篩選實現網頁中的信息提取。這類利用圖像識別的方法實現起來復雜,同時圖像處理計算開銷巨大,實際應用成本過高。
d)其他特征學習的模型方法。2011年Sun等人[20]提出通過統計新聞網頁文本密度進行內容提取的方法。隨后Sun等人[21]提出一種最大連續文本密度總和方法,該方法可以有效地從不同網頁中提取網頁內容。Huang等人[22]提出了一種模糊序列模式發掘的方法,該方法利用網頁文本內容的行塊分布趨勢和特征來提取新聞的標題、正文和相關新聞。該方法可以提取除新聞正文之外的其他信息,但正確率不高。Tan等人[23]提出的基于標題的網頁內容抽取模型,利用標題信息進行定位,便于提高提取新聞網頁內容的準確率。以上方法均無法準確地提取出多種類型的新聞信息。
將一篇新聞的多種有效信息以條理清晰的格式化結構呈現,可以方便用戶快速有效地利用新聞信息數據構建適用的研究樣本,從而能進行新聞動態、輿論導向、事件追蹤[24]等新聞的相關研究[25]。上述模型都具有良好的正文提取性能,但容易漏掉網頁新聞中蘊涵的其他重要內容,并引入許多噪聲,無法形成結構化體系。其次,新聞網頁信息抽取技術是形成模板包裝器的關鍵,但是上述傳統方法構建包裝器的代價昂貴。最后,在擴展到不同來源的新聞網頁內容的使用中,由于HTML標簽結構的不同或網頁布局的變化,包裝器通常會失效。
2模型設計
基于對新聞文本特征的分析,本文提出的NEMTF方法由三個階段構成,具體流程如圖3所示。第一階段通過結合訓練集數據的標記和文本內容來學習每個文本行塊的不同文本特征獨立的表示。這種表示用于訓練分類器,以預測行塊對應的目標新聞信息。在這個階段文本行塊之間會有某一類文本特征呈現出相似的特征結構。比如新聞標題和相關新聞的標題,在語義特征的表示會很相似。第二階段通過卷積神經網絡將三種文本特征學習出一個新聞文本行塊的多維度文本特征,并以此作為衡量新聞文本行塊的屬性關系的強弱。第三階段通過分類器進行文本行塊和新聞信息對應關系的匹配,預測新聞網頁文本行塊的屬性為標題、時間、來源、正文、相關新聞或噪聲信息,最終以結構化的方式將多種類新聞信息呈現出來。
根據上述流程分析構建出NEMTF的模型結構,其由多維度新聞文本特征模塊、多通道卷積神經網絡模塊和分類識別信息模塊構成。
2.1多維度新聞文本特征模塊
多維度新聞文本特征模塊獲取新聞網頁文檔,進行資源解析,刪除文檔中所有的HTML標簽和格式標簽,從而獲得新聞網頁的純文本信息。以純文本信息中的自然行為最小劃分單位,對寫作特征、位置特征和語義特征進行分析提取,得到行文本信息不同特征的表達。
1)寫作特征表達同一來源網頁中的版式文本字符長度相對固定,有效的新聞信息文本則會有不同的變化。根據此特征,如圖4中寫作特征所示,將一組少量標記好屬性的新聞網頁純文本,根據行文本的字符長進行相似性分析對比,并記錄不同屬性相似行行字符長的最小值和最大值。網頁文本中的每一行根據當前行的字符長匹配記錄中最為相似的屬性,由當前行的字符長、相似行字符長的最小值和最大值,三個數值共同構成當前行的寫作特征值。這三個數值各自代表的意義不同,相互獨立,通過embedding生成三個表示ewi、ewmin和ewmax,都是預設的dw維的向量,連接這三個表示得到寫作特征的表達:
ew=[ewi;ewmin;ewmax](1)
需注意寫作特征表達ew是一個3dw維的向量。
2)位置特征表達不同來源新聞網頁中新聞文本的絕對位置相異,但由于新聞寫作的特性,有效新聞網頁信息的相對位置會呈現規律性分布。如圖4中位置特征所示,根據新聞網頁的文本中的自然分行,行文本所在位置的行號作為該行塊的位置特征,通過embedding生成位置特征表示ep,ep是一個預設的dp維向量。
3)語義特征表達自然語言處理中的最小粒度是詞語,詞語組成句子,句子再組成段落、篇章、網頁文本,在新聞網頁中不同功能部分的用詞具有一定的偏好。相較于傳統的詞袋模型、One-Hot模型等數據處理的方式,word2vec模型可以將語義近似的詞匯映射為相鄰的數據點,更利于進行新聞文本語義特征的分析。因此,如圖4中語義特征所示,將純文本內容分詞后放入word2vec進行訓練分析,得到和上下文相關的詞向量表達,輸入到多通道卷積學習模塊中得到語義特征表示es。
2.2多通道卷積神經網絡模塊
此模塊基于多維度文本特征通過多通道卷積神經網絡的學習,充分發揮2.1節中描述的三種文本特征的優勢,彌補各自不足,將多個不同的文本特征融合為一個綜合的多維度文本特征。多維度文本特征成為劃分有效信息和噪聲信息之間的重要依據,以及辨別不同種類有效信息的重要指標。不同維度的特征是相互獨立的,需要各自學習。如圖4中多通道卷積神經網絡所示,寫作特征、語義特征、位置特征這三類文本特征本質已經是句子結構信息的抽象特征表示,如果將其直接作為CNN模型的輸入數據,在經過卷積和池化操作后反而會遺失更多的信息,不利于數據信息的充分使用。因此本文將這三類特征各自進行映射embedding生成對應的不同維度向量表示。
2.1節語義特征中得到詞語的向量表示作為卷積層中的輸入,卷積層通過不同窗口大小的filter從輸入矩陣中抽取不同尺度的序列信息。然后,最大池化層對每個filter向量取各自其中的最大值來捕獲當前行塊最重要的特征,從內容語義方面,避免因缺少使用HTML標簽而導致識別新聞網頁關鍵信息正確率下降的問題。寫作特征和位置特征在進行embedding映射后生成對應的向量表示,與語義特征經過CNN模型中最大池化層生成的語義向量表示進行拼接,輸入全連接層中得到多維度的綜合文本特征en,其維度為dn維:
en=[ew;ep;en];dn=dW+dP+M(2)
為了防止模型出現過擬合現象,NEMTF方法在全連接層中加入了dropout策略,在訓練過程中對于神經網絡單元,按照一定的概率將其暫時從網絡中丟棄。
2.3分類識別信息模塊
分類識別信息模塊將2.2節中學習出的綜合文本特征連接到多層感知器(MLP)上進行多分類,如圖4中分類識別信息所示,并為每個屬性類型計算一個分數h:
h=MLP(en),h∈m+1(3)
本文用softmax函數規范化h,并選擇其最大值作為預測:
Pi=ehi∑M+1j=1ehj,=argmaxi Pi(4)
而后,使用損失函數loss優化真實標簽y和標準化概率分數P之間的交叉熵:
loss=-∑|X|n=1∑M+1m=1ym,nlog Pm,n(5)
最終將獲取到的多種類有效信息按照預測的屬性對其進行結構化呈現。
3實驗與分析
3.1數據集
在自然語言處理領域中,對于新聞信息提取的語料資源目前還非常匱乏,尤其是包含多個新聞來源的多類型語料資源,因此構建一個相關的可以衡量新聞提取效果的語料庫是有必要的。本文根據引言中提出實際問題的總結與分析,并依據構建語料庫的要求,收集了10個常用的新聞網站,共計2 720篇新聞報道的標注工作,數據集的信息具體如表1所示。本文數據集充分考慮到新聞網頁結構的多樣性和新聞網頁信息的豐富性,使實驗結果更加客觀公正,新聞主題廣泛包含實時熱點、財經、軍事、教育、國際、公益等12個不同的類型,且不同主題類型的新聞網頁的數量不盡相同。在每個數據集中都人工標注了標題、時間、來源、正文、相關新聞等有效信息的標簽,以便用于實驗結果分析。實驗結果能充分觀察出NEMTF方法解決傳統方法難以擴展到新的新聞網頁信息提取的問題,在模型訓練中以新浪新聞和新華網來源的數據為主,其余8個來源新聞網頁僅用少量數據訓練。
3.2實驗設置
a)評價指標。本文采用在數據挖掘、機器學習和信息檢索的領域最常用的評價指標,即查準率precision、查全率recall和F1值作為評判標準。
b)對比實驗組。為充分驗證NEMTF方法的有效性,本文選擇了CETR[9]、CETD[20]、MCSTD[21]、FSP[22]和TWCEM[23],這六種在各自不同類型中表現結果最好的方法作為對比算法。其中:CETR是基于HTML標簽規則提取的模型方法;CETD是基于DOM樹提取新聞網頁正文內容的模型方法;MCSTD和TWCEM是兩種其他特征學習提取新聞正文模型中具有代表性的方法;FSP是可以提取網頁新聞標題、正文和相關新聞三類有效信息的方法,可作為提取多種有效信息提取的部分對照實驗組。
c)參數設置。在NEMTF方法中,所使用的詞嵌入維度為128維,設置了15層的卷積神經網絡,隱含單元數為1 024,批次大小為128以及dropout值為0.5,卷積核大小為k,k的取值分別為k={1,2,3,4,5}。而對比算法中的模型參數本文遵循其對應原論文中的描述進行設置。
3.3實驗結果分析
本部分設計三個實驗,全方位對NEMTF方法的性能進行驗證。第一部分是NEMTF方法提取多種有效信息的結果對比,驗證NEMTF方法提取信息的能力、提取信息的種類,和是否能擴展到新的未被訓練過的新聞網頁中使用以及使用的效果。第二部分是文本特征有效性對比,通過控制變量的方式,驗證本文提出的寫作特征、語義特征和位置特征這三類特征是否有效。第三部分是通過NEMTF方法提取新聞網頁成套有效信息的結果展示和性能評估,驗證該方法是否能成套提取出新聞信息,且能否具有良好的性能。
3.3.1NEMTF方法提取多種有效信息的擴展性結果對比
在五種不同的對比方法中,僅有FSP模型進行了提取標題和相關新聞的工作,而剩余的四種方法沒有研究做成體系的新聞信息提取工作。因此,新聞網頁正文提取涵蓋五種不同的對比方法與NEMTF方法,標題和相關新聞部分提取結果只與FSP模型作對比。由于騰訊新聞網和中國青年網的新聞網頁中缺少相關新聞推薦部分,所以相關新聞提取部分的結果對比只涉及其余8個新聞來源數據集。
1)正文部分提取結果對比
正文部分提取評價指標F1值得分情況如表2所示(優勝者標記為粗體),可直觀地橫向對比出NEMTF方法提取正文的性能效果。NEMTF方法整體提取正文的F1值明顯優于其他六種算法,特別是在新華網數據集上, F1值得分高達97.71%。網易新聞數據集實驗結果稍差,是因為網易新聞數據集中存在非常規的時間書寫格式,以及部分圖片標題與新聞正文類似,易與相鄰的正文混淆,影響了最終結果的質量。值得關注的是,無訓練的8個來源數據集的實驗結果中,MCSTD方法在對比實驗中取得了比較良好的正文提取效果,相比于有訓練的新浪新聞數據集和新華網數據集,F1值得分下降幅度為11.34%,但NEMTF方法的表現更為優異,對比有訓練數據集實驗結果,F1值得分下降幅度不超過3.51%,是擴展到新的新聞網頁使用中提取效果最好的。NEMTF方法能夠在大多數情況下比同目的的主流研究方法更為有效地提取出網頁新聞正文。
2)標題和相關新聞部分提取結果對比
從表3標題部分和表4相關新聞部分提取結果的對比來看,NEMTF方法在10個數據集上提取標題和相關新聞的F1值實驗結果都遠遠高于FSP模型的實驗結果。NEMTF方法在非訓練的8個數據集中評價指標無明顯下降,部分數據集的F1值還高于有訓練來源的兩個數據集的實驗結果。而FSP模型在非訓練來源的8個數據集上的評價指標均有大幅度下降。
其中標題部分NEMTF方法在新華網數據集的F1值得分高達99%,在無訓練的數據集中騰訊新聞和南方網也獲得較高的F1值。而新浪新聞提取結果較弱,原因是新浪新聞中存在大量的圖片標題與新聞標題類似的現象,不可避免地導致提取標題的正確率下降。從相關新聞部分的提取結果中可以發現,NEMTF方法在無訓練的測試集中,光明網、網易新聞和新京報的提取F1值都高于有訓練的數據集提取結果。在提取標題和相關新聞的能力上,NEMTF方法的正確率更高,能有效適應不同來源的網頁標題和相關新聞變化。
3)時間和來源部分提取結果
對于時間、來源部分的提取,NEMTF方法取得的結果更為出彩。如表5所示,新聞時間提取的F1值趨近于100%,新聞來源提取的平均F1值也達到了95.76%,非訓練來源的8個測試數據集的評價指標也是相對穩定的。可以證明NEMTF方法能準確獲取各種樣式的時間和來源數據,并具有較高的精確度。
就整體的新聞網站的多種類有效信息提取結果來看,NEMTF方法能夠解決傳統新聞網頁提取信息類型單一的問題,且能更進一步提高提取信息的正確率,在10個來源的數據實驗中具有較高的有效性、穩定性和通用性。
3.3.2文本特征有效性對比
此部分實驗主要為驗證本文提出的三類文本特征的有效性。實驗中通過控制變量對比了CNN模型,即:不使用多維度新聞文本特征模塊,僅僅將新聞文本分詞后直接投入卷積神經網絡模塊進行后續分析;僅含語義特征的NEMTF模型(NEMTF-S),即在多維度新聞文本特征模塊中僅調用語義特征模塊;僅含寫作特征的NEMTF模型(NEMTF-W) ,即在多維度新聞文本特征模塊中僅調用寫作特征模塊;僅含位置特征的NEMTF模型(NEMTF-L) ,即在多維度新聞文本特征模塊中僅調用位置特征模塊;包含三類文本特征的NEMTF模型(NEMTF-ALL) ,即完全調用多維度新聞文本特征模塊。
如圖5所示,以CNN模型為基準對比,NEMTF-S模型同樣存在不同行塊語義重疊和相似的問題,無法提取出新聞的標題部分,證明僅憑語義特征無法有效地完成新聞多種類信息提取。同樣不可否認的是,NEMTF-S與NEMTF-W在時間提取部分的效果最好,在來源、正文和相關新聞提取部分也有良好的表現,證明語義特征和寫作特征是有效文本特征。NEMTF-L則能很好地提取出新聞的標題,F1值高達99.00%,來源和相關新聞部分也取得較高的F1值,證明位置特征是有效的文本特征。NEMTF-ALL博取眾長在各個部分的新聞網頁有效信息提取都有優秀的表現。以此可證明融合三類文本特征對于提取新聞網頁有效信息是行之有效的。
3.3.3NEMTF提取新聞網頁成套有效信息的結果展示和性能評估
從新聞網頁有效信息提取角度來看,NEMTF的整體提取能力全面而準確,如圖6所示,它能成套地提取出新聞網頁中的標題、時間、來源、正文和相關新聞,充分滿足新聞動態、輿論導向、事件追蹤等研究項目的數據需求。
從訓練角度來看,NEMTF具有快速高效的性能,如圖7所示。NEMTF在訓練6輪之后accuracy的值就趨于平緩,最終數值在0.97左右波動。而loss函數值在訓練10輪之后下降趨勢放緩,逐漸接近于0.16的數值。不同來源的新聞環境中的適用性都是穩定和高效的,且針對各類新聞網站都能有很強的可移植性。這里主要的原因在于NEMTF采用新聞網頁文本的多維度特征作為輸入數據,從多個角度對同一內容進行分析,挖掘不同種類有效信息的特點,使有效信息之間互為補充,模型效果更加準確。
從卷積核大小的角度來看,卷積核取值不同也會對NEMTF的提取性能產生影響。如圖8所示以新華網的數據集為例,當卷積核取不同值時,對應提取不同種類新聞網頁信息的F1分數也會產生變化。綜合五類新聞網頁信息提取的結果來看,當卷積核k=5時,NEMTF的提取效果最好。
從信息提取時間的角度來看,如圖9所示,與其他對比實驗相比,NEMTF雖然不是速度最快的,但也快于大多數的新聞信息提取模型。這里要明確一個重要的前提,除FSP模型,其他對比實驗僅僅將新聞網頁信息整體提取未作分類,耗時最短的TWCEM則將標題作為已知條件進行新聞網頁信息提取,而NEMTF是提取出新聞的多種類信息,導致耗時略長,工作量相對較多。
總體而言,比較NEMTF方法與其他五類方法,在新聞網頁信息抽取任務上,NEMTF方法能做到高準確率地抽取多種類新聞信息;能以結構化、成體系的方式呈現新聞信息;易擴展到新的新聞網頁信息提取,能適用于大多數新聞類網站;不受HTML標簽影響,具有較高的有效性、穩定性和通用性。
4結束語
傳統的新聞網頁信息抽取方法多數以HTML標簽為基礎,構建同質新聞網頁的信息抽取模板,難以擴展使用于風格迥異的新聞網頁中,并且,其提取出的信息種類單一,無法滿足新聞熱點發掘、輿論分析和新聞溯源分析等相關工作的數據需求。本文提出的NEMTF方法是一種不受制于HTML標簽的、多來源通用的新聞網頁信息抽取方法,該方法利用多維度文本特征有效地緩解了傳統的新聞網頁信息抽取技術運用到不同來源新聞網頁中產生偏差的問題,為后續的相關工作提供多種類體系化的數據支撐。實驗結果表明,NEMTF方法在提取信息的正確率、提取信息種類的多樣性和提取方法的可移植性上都有良好的效果。
參考文獻:
[1]Wang Hongwei, Zhang Fuzheng, Zhao Miao, et al. Multi-task feature learning for knowledge graph enhanced recommendation[EB/OL].(2019-01-23).https://arxiv.org/abs/1901.08907.
[2]Reis D D C, Golgher P B, Silva A S, et al. Automatic Web news extraction using tree edit distance[C]//Proc of the 13th International Conference on World Wide Web.2004:502-511.
[3]Lockard C, Shiralkar P, Dong X L, et al. ZeroShotCeres: zero-shot relation extraction from semi-structured webpages[C]//Proc of the 58th Association for Computational Linguistics.2020:8105-8117.
[4]Zhou Yichao, Jiang J Y, Chang K W, et al. Learning to discriminate perturbations for blocking adversarial attacks in text classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.2019:4906-4915.
[5]Majumder B P, Potti N, Tata S, et al. Representation learning for information extraction from form-like documents[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.2020:6495-6504.
[6]Lin S H, Ho J M. Discovering informative content blocks from Web documents[C]//Proc of the 8th ACM SIGKDD International Confe-rence on Knowledge Discovery and Data Mining.New York:ACM Press,2002:588-593.
[7]Bar-Yossef Z, Rajagopalan S. Template detection via data mining and its applications[C]//Proc of the 11th International Conference on World Wide Web.2002:580-591.
[8]趙欣欣,索紅光,劉玉樹.基于標記窗的網頁正文信息提取方法[J].計算機應用研究, 2007,24(3):144-145.(Zhao Xinxin, Suo Hongguang, Liu Yushu. Web content information extraction method based on tag window[J].Application Research of Computers,2007,24(3):144-145.)
[9]Weninger T, Hsu W H, Han J. CETR: content extraction via tag ratios[C]//Proc of the 19th International Conference on World Wide Web. New York:ACM Press,2010:971-980.
[10]Wu Gongqing, Li Lei, Li Li, et al. Web news extraction via tag path feature fusion using ds theory[J].Journal of Computer Science and Technology,2016,31(4):661-672.
[11]廖建軍.基于標簽樣式和密度模型的網頁正文自動抽取[J].情報科學,2018,36(7):123-129.(Liao Jianjun. Automatic Web content extraction based on tag-class and density model[J].Information Science,2018,36(7):123-129.)
[12]Sleiman H A, Corchuelo R. A survey on region extractors from Web documents[J].IEEE Trans on Knowledge and Data Enginee-ring,2012,25(9):1960-1981.
[13]Prasad J, Paepcke A. Coreex: content extraction from online news articles[C]//Proc of the 17th ACM Conference on Information and Knowledge Management.New York:ACM Press,2008:1391-1392.
[14]張瑞雪,宋明秋,公衍磊.逆序解析DOM樹及網頁正文信息提取[J].計算機科學,2011,38(4):213-215,225.(Zhang Ruixue, Song Mingqiu, Gong Yanlei. Parsing DOM tree reversely and extracting Web main page information[J].Computer Science,2011,38(4):213-215,225.)
[15]吳共慶,胡駿,李莉,等.基于標簽路徑特征融合的在線Web新聞內容抽取[J].軟件學報,2016,27(3):714-735.(Wu Gongqing, Hu Jun, Li Li, et al. Online Web news extraction via tag path feature fusion[J].Journal of Software,2016,27(3):714-735.)
[16]Lin B Y, Sheng Ying, Vo N, et al. FreeDOM: a transferable neural architecture for structured information extraction on Web documents[C]//Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2020:1092-1102.
[17]Zhou Yichao, Sheng Ying, Vo N, et al. Simplified DOM trees for transferable attribute extraction from the Web[EB/OL].(2021-01-07).https://arxiv.org/abs/2101.02415.
[18]Zheng Shuyi, Song Ruihua, Wen Jirong. Template-independent news extraction based on visual consistency[C]//Proc of the 22nd International Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2007:1507-1513.
[19]王衛紅,梁朝凱,閔勇.基于可視塊的多記錄型復雜網頁信息提取算法[J].計算機科學,2019,46(10):63-70.(Wang Weihong, Liang Chaokai, Min Yong. Multi-recording complex webpage information extraction algorithm based on visual block[J].Computer Science,2019,46(10):63-70.)
[20]Sun Fei, Song Dandan, Liao Lejian. Dom based content extraction via text density[C]//Proc of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2011:245-254.
[21]Sun Kai, Li Miao, Du Jinhua, et al. Web content extraction based on maximum continuous sum of text density[C]//Proc of International Conference on Asian Language Processing.Piscataway,NJ:IEEE Press,2016:288-292.
[22]Huang Ting, Huang Ruizhang, Liu Bowei, et al. Extracting various types of informative Web content via fuzzy sequential pattern mining [C]//Proc of Asia-Pacific Web and Web-Age Information Management Joint Conference on Web and Big Data.Cham:Springer,2017:230-238.
[23]Tan Zhen He Chunhui, Fang Yang, et al. Title-based extraction of news contents for text mining[J].IEEE Access,2018,6:64085-64095.
[24]Zhang Congle, Soderland S, Weld D S. Exploiting parallel news streams for unsupervised event extraction[J].Trans of the Association for Computational Linguistics,2015,3:117-129.
[25]Wu Xindong, Xie Fei, Wu Gongqing, et al. News filtering and summarization on the Web[J].IEEE Intelligent Systems,2010,25(5):68-76.
收稿日期:2021-10-12;
修回日期:2021-12-02
基金項目:國家自然科學基金通用聯合基金重點資助項目(U1836205);國家自然科學基金重大研究計劃資助項目(91746116);國家自然科學基金資助項目(62066007,62066008);貴州省科技重大專項計劃資助項目(黔科合重大專項字[2017]3002);貴州省科學技術基金重點資助項目(黔科合基礎[2020]1Z055)
作者簡介:翁彬月(1996-),女,貴州貴陽人,碩士研究生,主要研究方向為自然語言處理、文本挖掘和機器學習;秦永彬(1980-),男(通信作者),山東人,教授,博導,博士,主要研究方向為智能計算、機器學習和算法設計(ybqin@gzu.edu.cn);黃瑞章(1979-),女,天津人,教授,博導,博士,主要研究方向為數據挖掘、文本挖掘、機器學習和信息檢索;任麗娜(1987-),女,遼寧阜新人,博士研究生,主要研究方向為自然語言處理、文本挖掘和機器學習;田悅霖(1997-),女,河北深州人,碩士研究生,主要研究方向為網頁信息抽取、自然語言處理.