999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本密度的網頁抽取研究

2021-11-18 14:58:46謝俊宇
科學與生活 2021年20期
關鍵詞:數據采集

謝俊宇

摘要:面對海量的信息庫,如何從網頁中將與網頁主題相關度較高的正文信息抽取出來是比較困難的。本文針對新聞網頁,提出基于文本密度的網頁抽取算法,這是一種快速、準確通用的網頁提取算法。通過與現有的一些算法對比,該算法可以較好的支持大數據量網頁正文提取操作。

關鍵詞:數據采集;網頁抽取;智能頁面解析

1 引言

隨著Web技術的發展,人類的日常生活方式已經發生了巨大的變化。這些變化使得許多傳統的紙質載體都被電子載體取而代之,許多信息都通過互聯網上的網頁來傳遞和展示。新聞網站是實時新聞發布的主要平臺,也是獲取實時新聞的關鍵平臺,要及時、全面地獲取新聞實時信息并作為后續研究的基礎信息,對新聞站點進行實時采集很有必要。因此,如何從大量的半結構化網頁信息中快速抽取用戶感興趣的內容是需要研究的重要課題。

2 國內外研究現狀

目前較為成熟的信息抽取方法為基于統計的方法。主要有統計文本密度、標簽密度和行塊分布等方法。Weninger等提出CETR算法,利用聚類方法并基于網頁源代碼的標簽比特征值來進行網頁信息抽取。Mehta 等在DOM樹的基礎上提出閾值和數據過濾器的概念,用于檢測和刪除網頁中不相關和冗余的數據,從而動態消除不同結構化網頁的噪聲內容,來提取網頁關鍵內容。吳共慶等根據DOM樹標簽路徑特征,提出將不同特征融合得到融合特征值的方法,然后在利用融合后的特征對新聞網頁進行內容抽取。

3 網頁抽取算法

本文通過對新聞網頁的正文頁進行分塊,提出基于標簽文本密度的網頁抽取算法??s小了抽取新聞標題、正文、發布時間的范圍,并結合符號密度,計算最終文本密度得分,提高了抽取正文的準確率。

在新聞網頁的正文頁面中:

1. 文本字數較多

2. <a>標簽文本字數較少

3. 標點符號(尤其是句號等)使用較多

4. 段落較多

正文標題通常會用<h*></h> (*:1-6) 標簽包含,而正文通常會使用<p></p>標簽包含。有可能在<p></p>標簽中還會包含<a>鏈接或者<span>標簽等,但是只需要找到包含正文內容的<p></p>,無論<p></p>標簽內會包含什么標簽,都可以視為新聞正文內容。例如以下是新聞正文頁html代碼示例:

<body>

<h1 class="post_title">習近平談為基層減負 </h1>

<div class="post_info">2021-02-03 08:18:37 來源:黨建網微平臺</div>

<div class="post_body">

<p>2020年歲末,一份名為《關于持續解決形式主義問題深化拓展基層減負工作情況的報告》……</p>

<p>要堅決整治形式主義、官僚主義,讓基層干部從繁文縟節、文山會海、迎來送往中解脫出來。</p>

<p>在疫情防控工作中,有些地方出現了形式主義、官僚主義現象……</p>

<p>要控制各級開展監督檢查、索要材料報表的總量和頻次,同類事項可以合并的要合并進行…… </p>

</div>

</body>

我們首先需要初始化html,將html文件解析為document對象,并且拆分取出每一個標簽。如圖所示:

接著獲取每個div盒子中的標簽文本統計信息,分別計算每個div中的標簽文本密度,再計算每個div中的標點符號密度,最終結合標簽文本密度和標點符號密度,使用不同底數的對數函數對數據進行壓縮,調整權重占比,計算每個div中的文本密度得分,文本密度得分最高的div盒子即為我們的正文內容。

4 驗證實驗

4.1 數據集的選取

為驗證算法性能,我們采集了來自不同大型新聞網站、時間跨度30天的9313篇新聞網頁作為算法的性能評測樣本數據集。實驗最后將新聞樣本的使用人工方法抽取的正文字符與算法自動抽取的結果作對比,以此來衡量算法的抽取準確率。

4.2 評測指標及實驗結果

本文對提取內容和標準內容進行對比,采用Precision、Recall、F1值這3個通用的評測指標來衡量通用網頁新聞標題自動抽取算法的性能。文本對比過程采用改進的LCS(Longest Common Sequence)算法,LCS算法是將兩個給定字符串分別刪去零個或者多個字符,但不改變剩余字符的順序后得到的長度最長的相同字符序列。

F1值是Precision和Recall調和平均數。它綜合了P和R的結果,當F1值較高時,則能說明算法性能較好。若實驗數據量越大,數據集分布越平衡,則評測指標的可信度也會越高。最后通過計算,可以得出自動抽取算法在整個樣本數據集上的平均準確率P、平均召回率R以及平均F1值分別為98.3、99.2和98.75。

實驗結果發現通過算法提取的網頁正文內容與人工提取的標準結果吻合度較高,所以該算法對于國內的新聞網站的智能提取還是較為不錯的。

參考文獻:

[1]?WENINGER T,HSU W H,HAN J. CETR:content extraction via tag ratios[C]// Proc of the 19th International Conference on World Wide Web. New York:ACM,2010:971-980.

[2]?MEHTA B,NARVEKAR M. DOM tree based approach for web content extraction[C]// 2015 International Conference on Communication,Information & Computing Technology. Mumbai:IEEE,2015:1-6.

[3]?吳共慶,胡駿,李莉,等. 基于標簽路徑特征融合的在線Web新聞內容抽取[J]. 軟件學報,2016,27 (3) :714-735.WU Gongqing,HU Jun,LI Li,et al. Online Web news extraction via tag path feature fusion[J]. Journal of Software,2016,27 (3) :714-735.

[4] 王永新,王秋芬,梁道雷.一種高效LCS算法[J].南陽理工學院學報,2013 (6) :67-70.

猜你喜歡
數據采集
Web網絡大數據分類系統的設計與改進
CAN總線通信技術在電梯監控系統中的應用
基于大型嵌入式系統的污水檢測系統設計
社會保障一卡通數據采集與整理技巧
基于AVR單片機的SPI接口設計與實現
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 国产成人喷潮在线观看| 美女无遮挡免费网站| 国产午夜精品鲁丝片| 久久精品人人做人人爽97| 高清免费毛片| 麻豆精品在线视频| 免费国产一级 片内射老| 亚洲人成网站18禁动漫无码| 亚洲天堂免费观看| 欧美日韩国产高清一区二区三区| 99久久精品国产综合婷婷| 国产成人亚洲毛片| 伊人久久久久久久久久| 亚洲另类国产欧美一区二区| 亚洲福利视频一区二区| 国产超碰一区二区三区| 亚洲一区毛片| 国产网站在线看| 国产特级毛片| 久久人妻系列无码一区| 黄色网站不卡无码| 婷婷色狠狠干| 亚洲妓女综合网995久久| 中文字幕久久亚洲一区| 国产啪在线91| 午夜丁香婷婷| h视频在线播放| 国产高清在线观看91精品| 蜜臀AVWWW国产天堂| 久久国产高清视频| 色综合久久无码网| 青青青草国产| 久久精品国产精品青草app| 亚洲综合专区| 亚洲精品欧美重口| 国产欧美视频综合二区 | 亚洲黄色成人| www.日韩三级| 国产不卡一级毛片视频| 久久人搡人人玩人妻精品一| 蜜芽一区二区国产精品| 欧美一区二区三区不卡免费| 成人va亚洲va欧美天堂| 国内丰满少妇猛烈精品播| 国产情侣一区| 日韩不卡高清视频| 91久草视频| 日韩欧美高清视频| 亚洲视频免| www.亚洲一区| 国产精品熟女亚洲AV麻豆| 久久久久九九精品影院| 国产极品粉嫩小泬免费看| 久久精品人人做人人综合试看| 国产一区二区丝袜高跟鞋| 自慰网址在线观看| 亚洲伦理一区二区| 国产内射一区亚洲| 国产乱码精品一区二区三区中文| 波多野结衣中文字幕一区二区| 久久五月天综合| 日本免费a视频| 国产精品无码AⅤ在线观看播放| 又爽又大又黄a级毛片在线视频 | 毛片网站观看| 国产成人精品一区二区三区| 国产精彩视频在线观看| 思思热在线视频精品| 国产福利小视频在线播放观看| P尤物久久99国产综合精品| 国产永久免费视频m3u8| 一本一本大道香蕉久在线播放| 人妻无码中文字幕一区二区三区| 永久毛片在线播| 国产真实乱人视频| 麻豆a级片| 九九精品在线观看| 日韩第九页| 国产女人在线| 99ri国产在线| 亚洲Av综合日韩精品久久久| 高清欧美性猛交XXXX黑人猛交 |