999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向BBS的通用提取算法的分析與設計

2018-03-30 12:01:56鄧良聰晏先政
科技創新與應用 2018年9期

鄧良聰 晏先政

摘 要:BBS型網站作為整個互聯網生態中的重要一環,其中蘊含著海量的數據,也是我們獲取信息的重要來源。如何針對這些不同類型的論壇網頁,設計一種通用的算法,對其主題貼和回帖等有價值的信息進行提取,是文章所研究的主要內容。文章在基于對不同類型網頁結構的深入分析,并充分考慮了論壇網頁類型的不一致性、單個網站的易爬取性及通用爬蟲的不可靠性,設計了一種基于網頁縱向分析的提取方案,并詳細敘述了主題爬蟲的算法方案。

關鍵詞:BBS; 噪音處理; 聚類分析; 符號匹配

中圖分類號:F724.6 文獻標志碼:A 文章編號:2095-2945(2018)09-0132-02

Abstract: As an important part of the whole Internet ecology, BBS-type website contains a huge amount of data, and it is also an important source of information. How to design a general algorithm for these different types of forum pages to extract valuable information such as theme posts and reply posts is the main concern of this paper. In this paper, based on the in-depth analysis of different types of web pages, the inconsistency of web page types, the accessibility of individual web sites and the unreliability of common crawlers are fully considered. An extraction scheme based on longitudinal analysis of web pages is designed, and the algorithm of topic crawler is described in detail.

Keywords: BBS; noise processing; cluster analysis; symbol matching

引言[1]

在當今的大數據時代里,伴隨著互聯網和移動互聯網的高速發展,人們產生的數據總量呈現急劇增長的趨勢,當前大約每六個月互聯網中產生的數據總量就會翻一番。互聯網產生的海量數據中蘊含著大量的信息,已成為政府和企業的一個重要數據來源,互聯網數據處理也已成為一個有重大需求的熱門行業。借助網絡爬蟲技術,我們能夠快速從互聯網中獲取海量的公開網頁數據,對這些數據進行分析和挖掘,從中提取出有價值的信息,能幫助并指導我們進行商業決策、輿論分析、社會調查、政策制定等工作。而大部分網頁數據是以半結構化的數據格式呈現的,我們需要的信息在頁面上往往淹沒在大量的廣告、圖標、鏈接等“噪音”元素中。如何從網頁中有效提取所需要的信息,一直是互聯網數據處理行業關注的重點問題之一。

但是,不同網站甚至網頁所使用的網頁格式、網頁結構和標簽體系可能是不一樣的,對于從互聯網中獲取的海量網頁的批量處理,如果還利用傳統的方法去對每個有差異的網頁逐一做人工分析,是不可行的。因此,如何從這些存在差異的網頁中快速有效的提取所需信息,就成為互聯網數據處理中一個急需解決的問題。盡管在傳統的網頁結構化數據提取智能分析實踐中,已經有很多開源的智能提取算法來分析新聞、文章類數據,然而這些方法只適用于提取有大段文本的頁面結構數據信息,如只包含網頁作者、標題、正文內容及發布時間等內容的網頁。而對于BBS論壇型網頁,由于文本在網頁上相對分散且要提取的字段較多,傳統的算法不再適用,需要重新設計通用提取算法,針對帖子內容進行有效地分析提取。

基于上述背景,本文提出一種新的算法,并詳細描述了該算法的具體實現過程和原理

1 整體思路分析

通過對論壇網頁結構的深入分析,發現不同類型的論壇網頁具有一定的共性,比如所有網頁都有發回帖時間,且所有網頁的有效信息均散落在噪聲中。如果能先對噪聲做預處理,把主題帖和回帖從頁面結構中抽離出來,然后再對帖子內部的噪聲做處理,最后得到的文本信息即是需要提取的信息。

2 算法過程

2.1 外部噪聲處理

通過對網頁結構的深入分析,可以發現在需要提取的有效信息周圍,有很多的噪聲。由于本題對圖片音頻視頻不作考慮,因此,本文只討論對文本噪聲的處理[2]。對文本噪聲的具體處理步驟為:

首先,噪聲分類。按照網頁自上而下的分布規律,將這些文本噪聲大分為以下幾類:(1)導航條列表類噪聲;(2)廣告類噪聲;(3)側邊欄列表類噪聲;(4)帖子內部無用文本類噪聲;(5)底部欄文本類噪聲。

其次,噪聲處理[3]。在分析了所有樣本論壇的頁面結構后,可發現幾乎所有的主題貼都有發帖時間,所有的回帖都有回帖時間。而上面所提到的5類噪聲中除了第4類帖子內部無用文本噪聲包含著時間格式,其他類別的噪聲大多都不含時間格式文本。因此,利用正則時間匹配方式,就可以匹配掉除帖子內部噪聲之外的大多數噪聲。除此之外,有的論壇在底部欄也會有網站系統時間,為了防止此類噪聲的干擾,可提前去掉此類標簽。由此即可從圖2所示的整個網頁盒子中分離出主題帖及回帖的盒子。

至此,主題帖盒子和回帖盒子還是緊密相連的,為了達到最終提取網頁有效信息的目的,還需將這兩個盒子分開。因此,本文擬采用下一步中利用id聚類分析的方法來對主題帖和回帖進行分離。

2.2 基于主帖和回帖id的聚類分析

2.2.1 思路分析

在提取到帶有文本噪聲的主題帖和回帖文本信息后,確定哪部分是主題帖信息、哪部分是回帖信息是該部分要解決的關鍵問題。本文考慮將主題帖和回帖進行分塊,不斷縮小盒子模型,以獲取最終的有效信息。

各不同類型論壇網頁的結構大體相同,大部分網頁的HTML語法都是以

布局的。在這種布局方式下,存在標簽的嵌套問題,即一個
下面有多個
,且最里層
的文本內容有可能才是我們要提取的信息。通過對樣本網頁的
內id屬性值的分析,可知每個帖子塊都有一個固定的id屬性值,而且這些id屬性值都存在一定的線性規律(如圖1所示)。如果能把這些有規律的id聚在一起,那么主貼和回帖就能被分離開來。因此,可利用系統聚類分析法[4]對主題帖和回帖進行分離。

2.2.2 id屬性值轉換成ASCII做聚類分析

考慮到id屬性值一般由數字、下劃線、字母組成,我們無法直接對它們進行聚類。因此,在這里統一把它們轉換成相同格式的ASCII碼,利用上面介紹的系統聚類分析法,并結合Python和R語言的相關函數對這些ASCII碼做最短距離計算,即差值小的被聚為一類,差值大的自成一類。

2.2.3 從各類中確定主題帖類和回帖類

通過系統聚類分析方法,帖子的回帖信息被聚為一類,根據主題帖id屬性值與回帖id屬性值的差異大小,主題帖有可能會和回帖被分為一類,也有可能被單獨分成一類。在主題帖和回帖類的上面還有若干嵌套類,這些嵌套類一環套一環,主題帖和回帖id也在這些嵌套類中。

接下來即要提取主題帖id和回帖id,自上而下的辦法就是刪除嵌套類,自下而上的解決方法就是直接取回帖類,核心的解決思想就是判斷倒數第二個類中是否含有回帖屬性(文本內容,時間)具體實施方法是,取最后一個類的的第一個id中的文本信息看其是否在倒數第二個類中出現,若出現,就是主題帖和回帖在一個類,最后一個類的第一個id即為主題帖。若不出現,主題帖和回帖不在一個類,倒數第二個類的id即為主題帖,此時主題帖和回帖盒子被分開。

接下來,還需要對帖子內部的噪聲信息進行處理,以提取最終的有效信息。

2.3 內部噪聲處理

主題帖和回帖被分開后,其內部還有諸多無用文本噪聲,對于該部分噪聲,本文決定采用一種符號匹配的方法。即采用逗號進行正則匹配,只要帶有逗號的文本信息即是有用信息。對于大部分包含有價值信息的帖子內容而言,逗號出現的頻率最高,而且其他文本噪聲一般情況下是不會含有逗號等標點符號的。為了提高提取的精度和內容完整性,還可采用以下兩種方法對其進行改進:(1)建立標點符號的模型庫。例如句號、省略號、感嘆號這些常見的且不含在其他文本噪聲的中出現的符號,以提高提取的精度。(2)利用回帖結構的一致性,遍歷回帖類,記錄每個id中文本信息的個數,通過符號匹配找到文本信息的位置,即處于第幾個文本信息,通過這個位置去查詢該類其他id中回帖的正文信息。這樣做的好處是,只要全部回帖只要有一個符號例如逗號,就可以查詢所有回帖內容,因為回帖結構固定。

2.4 信息提取

經過上述的噪音處理和聚類分組之后,即可把主題帖和回帖從頁面中抽離出來,接下來就可以從中提取相關信息。各個字段的提取方法如下:

標題:從標簽中提取。</p><p>主題貼作者:從已經分好的主題帖類中進行檢索,遇到第一個帶超鏈接的文本信息即是作者。</p><p>主題帖:通過符號正則匹配提取。</p><p>主題帖時間:通過時間正則匹配提取。</p><p>回帖作者:從已經分好的主題帖類中進行檢索,遇到第一個帶超鏈接的文本信息即是作者。</p><p>回帖內容:遍歷回帖類,第一個匹配到標點符號模型庫的文本內容,即是回帖內容。記錄該回帖內容在單個回帖塊中的位置信息,根據該位置信息取出所有回帖塊中的回帖內容。</p><p>3 結束語</p><p>BBS論壇系統包含有大量信息,也一直為大量用戶所喜愛,其信息量必然還會持續增加,因此如何設計相關提取算法去提取有價值信息也非常有必要。本文提出的算法更具有通用性,并沒有只針對已有的一些大型開源論壇做信息提取。</p><p>將系統聚類分析的思想應用到分析網頁結構上,很好的解決了論壇網頁結構復雜,噪聲過多的情況。但由于部分網頁結構比較特殊,因此該算法還有許多可完善的地方。</p><p>參考文獻:</p><p>[1]劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007,24(10):26-29.</p><p>[2]蔣琴琴,宮哲,辛陽.基于HTML Parser的BBS信息抽取系統的設計與實現[J].自動化技術與應用,2012(01):32-37.</p><p>[3]鄧墾,胡勇.基于DOM樹的通用論壇抽取技術[J].網絡安全技術與應用,2015(01):20.</p><p>[4]胡雷芳.五種常用系統聚類分析方法及其比較[J].浙江統計,2007(04):11-13.</p><p>

創新前沿
一種供暖系統地下管道滲漏的檢測技術
基于光學檢測方法的霍普金森壓桿技術綜述
吸濕性多孔材料介電特性表征
葉片姿態可變水輪機實驗數據分析
水下電纜敷設技術專利綜述
輸電線路除冰雪專利技術分析
基于SWP—SIM技術的移動終端身份認證及使用授權的實現方法
青島市農業科技進步貢獻率測算研究
一種智能導盲杖的設計
跑道視程計算及統計的對比分析
基于Zigbee的幼兒園兒童體溫實時監控系統
舞臺威亞基于CAN總線的直線運動防搖控制
眾創空間
航空發動機點火系統的能量計算研究
恒溫恒濕凈化中央空調的網絡一體化監控系統
家用噴水式窗戶玻璃清潔器的設計
水利工程設計創新發展前景
新時代對我國材料基因組計劃科技創新應用基礎研究的一些思考
國內O2O停車模式發展突破點探究
基于專利知識輔助激發靈感的機械產品創新設計
一種新型三維磁場傳感器及其性能研究
技術創新
汽車焊裝工藝測控自動化控制技術研究
航空用磁電式轉速傳感器測速系統匹配技術研究
水利水電工程中土石方施工技術的相關探討
高速公路路基高液限黏土施工改良技術
直升機高原滑跑起飛性能試飛技術研究
水利工程堤圍加固施工技術研究
鉆修機配套設備改造技術
高清視頻會議系統與關鍵技術
結冰對飛機飛行安全的影響與防護技術分析
工藝創新
廠、段修轉向架及輪軸檢修工藝優化研究
噴射沉積Mg—12.55Al—3.33Zn—0.58Ca—1.0Nd合金力學性能研究
船體修理改裝中的變形控制工藝研究
車床加工高密度海綿的探索
一種五氟丙烷廢氣處理工藝仿真設計
試析薄壁曲面鋁合金折疊器數控加工難點與解決方法
方法創新
建筑給排水工程施工中節能減排的措施研究
發動機吊掛接頭強度分析方法研究
一種磨煤機油站電氣控制回路的設計改造方法
原子吸收光譜儀常見故障的排除
建筑工程給排水施工常見問題與優化
鍋爐壓力容器的檢測
自動化儀表的檢測與維護探討
中波發射臺電磁及抗干擾措施
火電廠大氣污染物綜合控制技術的優化對策
機場地面勤務節能減排方法探索
翼板減薄刀具方案
交互應用鏡像命令和旋轉命令對CAD圖形轉動至任意位置的方法
煤礦通風安全影響因素及防范措施的研究
基于電力系統短路的潮流計算方法分析
雷神雷達通過視頻時鐘板進行正北校準的方法
設計創新
基于PLC下智能倉儲控制系統設計的研究
一種直流力矩電機伺服驅動器的設計與研究
電動行李牽引車車架設計與優化
內燃機車膨脹水箱設計
基于逆向設計方法的潛水器設計研究
建筑結構工程抗震設計的作用及其要點
面向BBS的通用提取算法的分析與設計
汽車零部件參數化逆向設計研究
人機工程學與情感設計
非標準設備參數化三維設計二次開發初探
科技管理
城市二次供水住宅小區巨額水損責任承擔的管理與研究
中波廣播發射系統結構與管理維護技術
煤礦井下開采作業安全技術與安全管理
水利工程施工管理的質量控制
應用科技
鋼絞線斜拉索防護應用分析
SolidWorks二次開發在壓縮機連桿類零件中的應用與研究
水利工程中水閘加固施工技術的應用
AR技術應用于3D互動科普讀物的研究
風力發電系統中大功率變流器的應用初探
微信在氣象服務中的應用及發展
鎳基合金管道對接焊縫超聲檢測技術的應用
中波廣播發射臺UPS設備的應用與維護
水利工程中防滲施工技術的應用
研究與展望
汽車前保險杠設計可行性研究
多繩摩擦提升機鋼絲繩張力不平衡問題探研
高速動車組電動內端門關鍵部件壽命研究
兩相位T型交叉口通行安全分析
氣象部門防雷減災工作及問題分析
加強房屋建筑工程質量研究
液相色譜法檢測糧油農殘的研究進展
灘淺海油田人工舉升設備的發展
“新形式”下我國城市集中供熱發展的思考
國內城市地下綜合管廊建設模式探討
暖通空調工程安裝施工中的質量控制問題研究
ZY4800/06/16.5型液壓支架力學分析
FANUC系統數控車床宏程序解析
水力機械檢測與質量評定研究

主站蜘蛛池模板: 久久午夜夜伦鲁鲁片无码免费| 亚洲第一视频网| 国产成人一二三| 欧美视频在线不卡| 亚洲人成亚洲精品| 日韩欧美亚洲国产成人综合| 国产精品太粉嫩高中在线观看 | 亚洲人成影院在线观看| 狠狠综合久久久久综| 国产精品jizz在线观看软件| 青青青视频蜜桃一区二区| 国产一区在线观看无码| 亚洲区第一页| 自拍偷拍欧美日韩| 亚洲成年人片| 蜜桃视频一区| 香蕉在线视频网站| 男人的天堂久久精品激情| 国产jizz| 国产精品成人免费视频99| 亚洲国产欧洲精品路线久久| 99久久精品国产麻豆婷婷| 亚洲成人福利网站| 久久亚洲国产视频| 台湾AV国片精品女同性| 思思热精品在线8| 永久在线精品免费视频观看| 黄色网站不卡无码| 国产精品亚洲精品爽爽| 噜噜噜久久| 国产三级a| 亚洲欧洲日韩国产综合在线二区| 五月天综合婷婷| AV在线天堂进入| 久久精品女人天堂aaa| 91精品国产麻豆国产自产在线| 人人艹人人爽| 成色7777精品在线| 波多野结衣久久高清免费| 久久特级毛片| 日韩精品毛片人妻AV不卡| 亚洲中文字幕97久久精品少妇| 欧美一级黄片一区2区| 亚洲av无码人妻| 亚洲A∨无码精品午夜在线观看| 波多野结衣国产精品| 免费看a毛片| 久久久无码人妻精品无码| 成人欧美在线观看| jizz在线观看| 无码AV动漫| 国产又色又爽又黄| 国产丝袜一区二区三区视频免下载| 中文字幕无码av专区久久| 午夜日本永久乱码免费播放片| 久久综合五月| 国产在线观看一区精品| 亚洲中文字幕无码爆乳| 欧美日韩精品一区二区在线线 | 天天爽免费视频| 国产精品视频导航| 日韩东京热无码人妻| 欧美日本激情| 久久国产免费观看| 中国一级毛片免费观看| 日韩欧美国产成人| 日本一区二区三区精品AⅤ| 无码一区18禁| 亚洲天堂网在线播放| www.av男人.com| 亚洲成年网站在线观看| 國產尤物AV尤物在線觀看| 精品久久777| 国产福利小视频在线播放观看| 天天综合色网| 国产精品页| 91精品情国产情侣高潮对白蜜| 无码福利日韩神码福利片| 欧美有码在线| a级毛片网| 中文字幕无码av专区久久| 国产自在自线午夜精品视频|