基于Python的通用論壇正文提取的研究

2019-02-14 13:10:42趙光亮令狐雨薇朱德孫趙順燕陳鳳楊陶

科學與技術 2019年1期

關鍵詞：分析研究

趙光亮令狐雨薇朱德孫趙順燕陳鳳楊陶

摘要：本文首先分析了研究背景、研究主題、研究工具與研究意義，同時闡述了研究方式，最后總結了研究流程，僅供參考。

關鍵詞：Python;通用論壇;正文提取;分析研究

本文在BBS類論壇網頁基礎上，開展文本數據爬取與分析，開展通用論壇正文提取研究，借助HTML、Python工具，構建BBS類論壇網頁文本數據抓取算法，詳細分析如下。

1 研究背景與研究意義

1.1 研究背景

在大數據背景下，直接帶動了各行各業的發展。互聯網內網頁數據是以半結構形式存在，部分信息被廣告、垃圾鏈接遮擋。采取何種手段，實現網頁文本信息的有效提出，為用戶提供合理的閱讀信息，成為當前急需解決的問題。

1.2 研究意義

一般情況下，網頁采取的是超文本標記語言表達方式，簡稱HTML。在網頁信息提取階段，需要先獲取BBS類論壇網頁，借助Python語言，實現相關內容提取。

2 研究方式

2.1 正則表達式

正則表達式屬于一種模糊匹配所需網頁信息，屬于模糊匹配文字的最佳工具，具備很強的功能性特點，借助簡單快捷的方式，可實現復雜字符串的控制，以此精準獲取所需文本內容。

2.2 Python語言

Python本身屬于一款免費應用的軟件，本身融合了多項功能，自帶的各項技術，通過加載相應插件，可實現網絡平臺的搭建。借助Python語言與正則表達式能夠實現網頁信息的有效提取^[1]。

3 研究流程

3.1 流程分析

論壇正文提取流程主要包括：參照已知樣本數據，鎖定網頁網址—開展數據預處理—應用正則表達式，判定現階段網頁內容是否屬于提取內容—依據正則表達式，匹配網頁信息需求—確定匹配模型—分析預期結果，給出最優解決方案。

3.2 數據分析

3.2.1 HTML結構與解析

HTML本身屬于一種標準的標記語言，主要是為Web頁面創建提供依據。HTML文檔本身屬于一種純文本文檔，可實現對象文檔的形象描述，凸顯出各個細胞在瀏覽器內的顯性特征。

3.2.2 BBS網頁結構分析

基于BBS與URL分析，能夠發現BBS網頁內具備很多核心結構信息，頁面上不同元素的特定標記不同，不同特定標記之間，借助Python語言可為網頁信息挖掘提供方向。

3.2.3 DOM樹與HTML文檔解析

DOM、HTML文檔獲取、修改、刪除或添加，均需要遵循HTML元素標準。就具備價值的信息，提取出來可為企業、政府的決策提供指導。

3.3 數據處理

BBS類網頁文本會榨取網頁自身的語言結構與語言標簽，站在網頁視覺分塊特征基礎上，開展各項分析與闡述。一般情況下，網頁內的文本數據均位于標簽[table]節點內，為實現頁面“噪聲”的去除，一般需要對每個節點開展相應處理，以此獲取不含標簽的純文字符串^[2]。

為實現數據的有效抓取，需要對整體數據開展相應剔除。比如：以Web網頁為例，若網頁無法正常打開，或指定的主題內容不存在，則需要對整體數據開展非正常剔除。或在網頁無法打開，指定主題不存在或已刪除，彈出返回操作指令，也需要非正常剔除整體數據。

通過研究BBS類網頁HTML文檔結構，在網頁源代碼階段，為實現主貼內容的抽取、保障回帖信息的精準，需要構建對應的算法，實現目標信息的有效抓獲。借助正則表達式中的匹配功能，可實現URL信息的快速抽取。為避免同一鏈接重復訪問的情況出現，需要將已經訪問過的URL備份到已經訪問的隊列中。作為網頁內的“源”，網絡爬蟲需要將種子網頁內的有效鏈接提取出來，并將其納入到后補爬行隊列中，參照用戶希望的規定，實現URL的精準提取^[3]。

3.4 建模挖掘

互聯網本身就如同一張巨大的蜘蛛網，Crawler則如同一只蜘蛛，在大網上自由掃蕩，實現互聯網內各種文本信息的偵探，精準獲取其中的有效文本信息。為實現輿情的有效獲取，論壇正文提取方式主要如下。

3.4.1 獲取任意類型BBS類網站內的URL信息。

3.4.2 就任意類型的BBS類網頁，在正文提取階段，需要在相關數據項上精準回帖，主貼置頂。本文研究中，通過在網頁正文提出基礎上，借助html標簽對正文內容、正文發布時間、正文作者等開展深入分析，以此保障網頁正文內容的有效提取^[4]。

3.4.3 就BBS論壇網頁信息抓取，需要先對網頁內的信息開展聚類處理。

3.4.4 爬取用戶需要的數據項信息，針對主貼發表作者、主貼主題、主貼內容、主貼發表時間等資料詳細的網頁。采取BBS類論壇網頁開展信息抓取，借助論壇內的網絡爬蟲，通過不斷沖擊，在超鏈接地址上獲取更多的網頁^[5]。

3.5 結果分析

就模型挖掘，經過數據處理之后，最終結果如下：

標題信息

{標題信息：從這一案例中，你明白了什么道理？-人生哲理-大師}

題主信息

{題主信息：“夏天有點冷”}

題主發帖內容

{題主發帖內容：[{在網上看到一則信息，大概內容是：“某山區一對年輕情侶，準備年底結婚”}，{“但是，在通知所有親朋好友之后，女方要求給12萬，寓意“月月紅”，為新娘購買三金。”}，{“男方認為要求有點過分，已經買車買房，酒席錢全部由男方出，還要12萬與三金不合理，與女方商議不果，直接退婚”}{“男人不是百萬富翁就別談婚論嫁！”}}

回帖信息

{回帖信息：這就是中國光棍那么多的原因}，{回帖信息：看來以后還得多生女兒！}

回帖作者

{回帖作者：老兄頂住}

回帖時間

{回帖時間：2017-12-11，22：16：40}

3.6 算法分析

本文應用的一種固定算法，研究的是與BBS類似的網頁，就任意類型的BBS網站，在網頁信息提取過程中未能達到預期效果。在算法使用與算法匹配階段，需要參照相關原則，開展實時更新。本文使用的算法，并不適用不斷更新的網頁源代碼。

4 結束語

綜上所述，就論壇正文提取研究，本文以BBS為例，借助正則表達方式，匹配網頁代碼需要的信息，并將其提取出來，以此保障正則表達式的精準應用。在使用之前，使用者需要充分了解網頁源代碼的結構，參照所需內容，在各個標簽基礎上開展多網頁分析。通過應用最大相似度的正則表達方式，能夠實現網頁源代碼匹配標記。但本文研究存在著一定的局限性，還需要廣大專家學者開展深入研究。

參考文獻

[1]趙光亮，令狐雨薇，朱德孫，趙順艷，楊陶，陳鳳.基于Python的通用論壇正文提取研究[J].電腦知識與技術，2018，14（24）：259-260.

[2]劉銳，譚文韜，付園斌，王紅.一種通用論壇信息提取方法[J].小型微型計算機系統，2018，39（07）：1398-1404.

[3]范媚琳，司明皎，孟媛.論壇正文內容提取通用方法的研究[J].科技風，2017，26（14）：81-87.

[4]李文強. 基于多特征融合的網頁正文提取及雙語網站探測[D].哈爾濱工業大學，2014，22（02）：41-45.

[5]李媛. 輿情系統中web信息抽取子系統的設計與實現[D].電子科技大學，2013，22（25）：60-64.

貴州師范學院2017年度學生科研項目自主研究項目“基于Python的通用論壇正文提取的研究”（項目編號：2017DXS047）;“ 貴州師范學院大學生互聯網+創新創業訓練中心”（項目編號：黔教高發[2015]337號、黔教高發（2017）158號）;貴州省高技術產業示范工程專項項目（黔發改投資[2015] 1588號）;貴州省教育廳創新群體重大研究項目（合同編號：黔教合KY字[2016]040）;貴州省普通高等學校工程研究中心（合同編號：黔教合KY字[2016]015）