趙光亮 令狐雨薇 朱德孫 趙順燕 陳鳳 楊陶
摘要:本文首先分析了研究背景、研究主題、研究工具與研究意義,同時闡述了研究方式,最后總結了研究流程,僅供參考。
關鍵詞:Python;通用論壇;正文提取;分析研究
本文在BBS類論壇網頁基礎上,開展文本數據爬取與分析,開展通用論壇正文提取研究,借助HTML、Python工具,構建BBS類論壇網頁文本數據抓取算法,詳細分析如下。
1 研究背景與研究意義
1.1 研究背景
在大數據背景下,直接帶動了各行各業的發展。互聯網內網頁數據是以半結構形式存在,部分信息被廣告、垃圾鏈接遮擋。采取何種手段,實現網頁文本信息的有效提出,為用戶提供合理的閱讀信息,成為當前急需解決的問題。
1.2 研究意義
一般情況下,網頁采取的是超文本標記語言表達方式,簡稱HTML。在網頁信息提取階段,需要先獲取BBS類論壇網頁,借助Python語言,實現相關內容提取。
2 研究方式
2.1 正則表達式
正則表達式屬于一種模糊匹配所需網頁信息,屬于模糊匹配文字的最佳工具,具備很強的功能性特點,借助簡單快捷的方式,可實現復雜字符串的控制,以此精準獲取所需文本內容。
2.2 Python語言
Python本身屬于一款免費應用的軟件,本身融合了多項功能,自帶的各項技術,通過加載相應插件,可實現網絡平臺的搭建。借助Python語言與正則表達式能夠實現網頁信息的有效提取[1]。
3 研究流程
3.1 流程分析
論壇正文提取流程主要包括:參照已知樣本數據,鎖定網頁網址—開展數據預處理—應用正則表達式,判定現階段網頁內容是否屬于提取內容—依據正則表達式,匹配網頁信息需求—確定匹配模型—分析預期結果,給出最優解決方案。
3.2 數據分析
3.2.1 HTML結構與解析
HTML本身屬于一種標準的標記語言,主要是為Web頁面創建提供依據。HTML文檔本身屬于一種純文本文檔,可實現對象文檔的形象描述,凸顯出各個細胞在瀏覽器內的顯性特征。
3.2.2 BBS網頁結構分析
基于BBS與URL分析,能夠發現BBS網頁內具備很多核心結構信息,頁面上不同元素的特定標記不同,不同特定標記之間,借助Python語言可為網頁信息挖掘提供方向。
3.2.3 DOM樹與HTML文檔解析
DOM、HTML文檔獲取、修改、刪除或添加,均需要遵循HTML元素標準。就具備價值的信息,提取出來可為企業、政府的決策提供指導。
3.3 數據處理
BBS類網頁文本會榨取網頁自身的語言結構與語言標簽,站在網頁視覺分塊特征基礎上,開展各項分析與闡述。一般情況下,網頁內的文本數據均位于標簽[table]節點內,為實現頁面“噪聲”的去除,一般需要對每個節點開展相應處理,以此獲取不含標簽的純文字符串[2]。
為實現數據的有效抓取,需要對整體數據開展相應剔除。比如:以Web網頁為例,若網頁無法正常打開,或指定的主題內容不存在,則需要對整體數據開展非正常剔除。或在網頁無法打開,指定主題不存在或已刪除,彈出返回操作指令,也需要非正常剔除整體數據。
通過研究BBS類網頁HTML文檔結構,在網頁源代碼階段,為實現主貼內容的抽取、保障回帖信息的精準,需要構建對應的算法,實現目標信息的有效抓獲。借助正則表達式中的匹配功能,可實現URL信息的快速抽取。為避免同一鏈接重復訪問的情況出現,需要將已經訪問過的URL備份到已經訪問的隊列中。作為網頁內的“源”,網絡爬蟲需要將種子網頁內的有效鏈接提取出來,并將其納入到后補爬行隊列中,參照用戶希望的規定,實現URL的精準提取[3]。
3.4 建模挖掘
互聯網本身就如同一張巨大的蜘蛛網,Crawler則如同一只蜘蛛,在大網上自由掃蕩,實現互聯網內各種文本信息的偵探,精準獲取其中的有效文本信息。為實現輿情的有效獲取,論壇正文提取方式主要如下。
3.4.1 獲取任意類型BBS類網站內的URL信息。
3.4.2 就任意類型的BBS類網頁,在正文提取階段,需要在相關數據項上精準回帖,主貼置頂。本文研究中,通過在網頁正文提出基礎上,借助html標簽對正文內容、正文發布時間、正文作者等開展深入分析,以此保障網頁正文內容的有效提取[4]。
3.4.3 就BBS論壇網頁信息抓取,需要先對網頁內的信息開展聚類處理。
3.4.4 爬取用戶需要的數據項信息,針對主貼發表作者、主貼主題、主貼內容、主貼發表時間等資料詳細的網頁。采取BBS類論壇網頁開展信息抓取,借助論壇內的網絡爬蟲,通過不斷沖擊,在超鏈接地址上獲取更多的網頁[5]。
3.5 結果分析
就模型挖掘,經過數據處理之后,最終結果如下:
標題信息
{標題信息:從這一案例中,你明白了什么道理?-人生哲理-大師}
題主信息
{題主信息:“夏天有點冷”}
題主發帖內容
{題主發帖內容:[{在網上看到一則信息,大概內容是:“某山區一對年輕情侶,準備年底結婚”},{“但是,在通知所有親朋好友之后,女方要求給12萬,寓意“月月紅”,為新娘購買三金。”},{“男方認為要求有點過分,已經買車買房,酒席錢全部由男方出,還要12萬與三金不合理,與女方商議不果,直接退婚”}{“男人不是百萬富翁就別談婚論嫁!”}}
回帖信息
{回帖信息:這就是中國光棍那么多的原因},{回帖信息:看來以后還得多生女兒!}
回帖作者
{回帖作者:老兄頂住}
回帖時間
{回帖時間:2017-12-11,22:16:40}
3.6 算法分析
本文應用的一種固定算法,研究的是與BBS類似的網頁,就任意類型的BBS網站,在網頁信息提取過程中未能達到預期效果。在算法使用與算法匹配階段,需要參照相關原則,開展實時更新。本文使用的算法,并不適用不斷更新的網頁源代碼。
4 結束語
綜上所述,就論壇正文提取研究,本文以BBS為例,借助正則表達方式,匹配網頁代碼需要的信息,并將其提取出來,以此保障正則表達式的精準應用。在使用之前,使用者需要充分了解網頁源代碼的結構,參照所需內容,在各個標簽基礎上開展多網頁分析。通過應用最大相似度的正則表達方式,能夠實現網頁源代碼匹配標記。但本文研究存在著一定的局限性,還需要廣大專家學者開展深入研究。
參考文獻
[1]趙光亮,令狐雨薇,朱德孫,趙順艷,楊陶,陳鳳.基于Python的通用論壇正文提取研究[J].電腦知識與技術,2018,14(24):259-260.
[2]劉銳,譚文韜,付園斌,王紅.一種通用論壇信息提取方法[J].小型微型計算機系統,2018,39(07):1398-1404.
[3]范媚琳,司明皎,孟媛.論壇正文內容提取通用方法的研究[J].科技風,2017,26(14):81-87.
[4]李文強. 基于多特征融合的網頁正文提取及雙語網站探測[D].哈爾濱工業大學,2014,22(02):41-45.
[5]李媛. 輿情系統中web信息抽取子系統的設計與實現[D].電子科技大學,2013,22(25):60-64.
貴州師范學院2017年度學生科研項目自主研究項目“基于Python的通用論壇正文提取的研究”(項目編號:2017DXS047);“ 貴州師范學院大學生互聯網+創新創業訓練中心”(項目 編號:黔教高發[2015]337號、黔教高發(2017)158號);貴州省高技術產業示范工程專項項目(黔發改投資[2015] 1588號);貴州省教育廳創新群體重大研究項目(合同編號:黔教合KY字[2016]040);貴州省普通高等學校工程研究中心(合同編號:黔教合KY字[2016]015)