基于文本密度的藏文網頁正文提取方法

2017-08-24 15:23:09洛松求培安見才讓

計算機時代 2017年8期

洛松求培+安見才讓

摘要：互聯網的發展帶動了另一種形式的信息傳播，人們越來越多地依賴于電子產品，Web網頁也隨之變為了最大的信息源，利用好這些資源便涉及信息提取。為了從Web網頁中獲取關鍵藏文信息，文章提出了基于文本密度的藏文網頁正文提取方法，利用半結構化的HTML網頁中正文內容的連續性特點，結合正則表達式過濾HTML標簽。此方法針對主題型網頁，類似新聞類網頁中的正文提取具有較高的準確率。

關鍵詞：藏文信息；藏文網頁正文提??； HTML； Web網頁

中圖分類號：TP391 文獻標志碼：A 文章編號：1006-8228（2017）08-46-02

Abstract： The development of the Internet has led to another form of information dissemination， people are increasingly relying on electronic products， Web also become the largest source of information， and the use of these resources will involve the extraction of information. In order to obtain the key Tibetan information from the Web， this paper proposes a method to extract the Web text based on text density， which uses the continuity characteristics of semi-structured text content in HTML pages and the regular expression. This method has higher accuracy for text extraction in theme pages and similar news pages.

Key words： Tibetan information； Tibetan Web content extraction； HTML； Web

0 引言

隨著互聯網的迅速發展，計算機應用技術在藏族地區的不斷普及應用，出現了大量的藏文網頁，為廣大藏族群眾提供了極其豐富的藏文信息資源。目前搜索引擎能幫助人們快速地搜索到想要的信息，但每個網頁除了正文內容外還摻雜了很多用戶不需要的信息。如網頁中的導航鏈接、廣告鏈接、版權信息和相關主題閱讀推薦鏈接等。這些信息在網頁中出現，影響了用戶對主題內容的瀏覽。按照現在的發展情況，藏文網頁的數量呈現上升趨勢，用戶的數量也在逐年增加。

因此，從大量噪音信息的網頁中將正文信息準確、完整地提取出來，顯得尤為重要。Web信息提取是將Web作為信息源的一類信息提取，就是從半結構化的Web文檔中抽取數據。國內外在這方面關注的時間比較早，研究提出的方法也很多，技術已趨于成熟。目前藏文網頁正文提取研究較少，西藏大學提出了一種基于

標簽分段的藏文網頁正文提取[1]，利用HTML標記用途分析提到的此方法對標簽的依賴性高，加之HTML語言的規范性不是很好，網頁設計人員的語言風格也不盡相同，如遇未使用

標記的網頁很難實現有效提取。有些論文中提到了關于網頁除噪[2]的問題，但是沒有進一步研究與之結合及提出行之有效的藏文網頁正文提取。本文提出的方法意在避免復雜的算法，利用簡單可行的方法將其實現。

1 基于文本密度的藏文網頁提取

藏文網頁大部分都是以國內外新聞、藏族文化歷史、藏族風土人情、藏文論壇等為主要內容。由于大量的藏文網頁中多數是以文字內容為主體，本文針對此類主題型網頁進行分析，實現基于文本密度的正文提取算法?；ヂ摼W上藏文網頁常用的標記語言主要包含HTML和XML等格式，其中HTML語言是大部分網頁的基礎。由于HTML存儲的網頁信息資源是半結構化，用戶使用和提取信息無法直接操作，因此，需要對其結構進行分析。

1.1 正文內容的結構特征

一個網頁的正文內容具有很好的連續性，結構都非常相似，在HTML格式中正文出現在標簽中，如圖1所示。通過對大量的主題型網頁進行分析，我們發現正文內容的連續性和集中性的特點普遍的存在。HTML標簽使用上也存在著很多的共性，例如對于篇幅較長、文字較多的內容，利用

標簽將其段落分明。鑒于此，在標簽中找到文本密集的連續段落就能準確獲取正文內容。

1.2 正文提取

按照HTML語言的規范，標簽通常都成對出現，基于這個規范，將每對標簽內容作為基本處理單位，存儲于字符數組lines以便分析。接著循環字符數組中的元素對其進行HTML標簽過濾，這樣做是為了降低干擾，因為我們關注的只是正文內容。HTML標簽過濾直接使用正則表達式替換，其表達式為：Regex.Replace（html， "（？is）<.*？>"， ""），表達式中字符串html是數組中的元素，即每對標簽的內容?？紤]到非正文的噪音信息也摻雜在其中，因此必須在數組中找到除去噪音信息的正文文本的起止行號。但是如何判斷行號的起始與終止，從正文內容的結構來看，發現了都有這么一個特征：正文部分的文本密度要高出非正文部分很多。本文按照這個特征將方法實現，其原理就是基于閾值分析正文所在位置。通過字符限定數來確定閾值，根據藏文網頁通過統計分析得出一個比較好的取值，在實際處理過程中，發現這個值取550是比較適合的。在分析文本時，如果分析文本超過設定的閾值，我們就判斷出正文所在位置。鑒于正文內容不可能為一行，逐行分析不可行，因此確定按行分析的深度Depth為6，將字符累加后判斷是否達到預定的閾值。具體算法如下。

1 [2] 存入我的閱覽室

算法1 （藏文網頁正文提取算法）

輸入：字符數組lines

輸出：網頁中的正文

算法步驟：

⑴ 循環字符數組lines；

⑵ 從當前數組下標開始連續統計6個元素的字符數量；

⑶ 統計字符數達到字符限定數（閾值），確定正文開始的行號即數組下標；

⑷ 從lines正文開始行號的元素賦值給最終返回值；

⑸ 賦值的同時判斷統計字符是否少于文章結束字符數，如是則完成正文提取。

2 實驗與分析

2.1 數據選取

驗證其實驗效果，進行了細致的實驗工作。保證測試的正常運行，做了如下的前期工作。

⑴ 從主流藏文網站中選取4家具有代表性的網站，主要是新聞網頁。

⑵ 利用爬蟲工具隨機下載了500個網頁，并從每個網站選取與其數量相對的網頁作為測試集。

⑶ 人工提取了測試集中所有網頁的正文，作為對照文本集。

⑷ 利用C#程序實現了該文所述方法，并自動取出測試集中所有的網頁正文。

2.2 實驗結果

由表1可知，用基于文本密度的藏文網頁正文提取的最高為98%，最低為92%，平均為94.75%，此方法適用于絕大多數的新聞類等偏重內容的網站，并且保持了較高的正文提取準確性。

3 結論

本文提出藏文網頁正文提取，是基于文本密度的判斷，實現過程也沒有過于復雜，對大量網頁進行實驗并將其結果與之人工提取做對比發現，結果具有非常好的召回率和查全率，在Web信息提取方面具有較高的使用價值。本文提出的方法僅是針對主題型網頁，有一定的局限性，有待進一步研究對互聯網上出現的各式各類網頁的信息抽取。

參考文獻（References）：

[1] 才讓叁智，趙棟材.基于DIV標簽分段的藏文網頁正文提取研究[J].西藏大學學報（自然科學版），2016.3.

[2] 付濤.藏文網頁除噪技術研究[D].西北民族大學碩士學位論文，2010.

[3] 蒲宇達，關毅，王強.基于數據挖掘思想的網頁正文抽取方法[C].第三屆學生計算語言學研討會論文集，2006.

[4] 胡波.基于視覺語義塊的網頁正文提取算法研究[J].浙江大學，計算機應用技術，2013.

[5] 劉匯丹，諾明花，馬龍龍，吳建，賀也平.Web藏文文本資源挖掘與利用研究[J].中文信息學報，2015.1.

[6] 張云洋，劉芳.基于Unicode的藏文網頁搜索探討[J].科技情報開發與經濟，2014.11.

[7] 高定國，朱杰.藏文信息處理的原理與應用[M].西南交通大學出版社，2013.

[8] 安見才讓.藏語句子相似度算法的研究[J].中文信息學報，2011.4.

計算機時代2017年8期

計算機時代的其它文章: 信息化教學環境下的計算機類通識課教學設計; 構建“VC++程序設計”課程的三維立體教學模式; C語言程序設計課程中應用能力的培養; 基于“互聯網+”的公選課辦公軟件高級應用教學模式研究; MOOCs：中醫藥遠程教育適應性的思考; Moodle課程的教學模式對學生成績的影響研究