999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網頁去噪算法研究與應用

2018-11-08 03:47:26孫竹君
信息記錄材料 2018年11期
關鍵詞:頁面內容信息

孫竹君

(中北大學信息商務學院 山西 太原 030000)

1 引言

伴隨著因特網的快速發(fā)展、網絡日益廣泛的應用與社會信息化的大步推進,給自然語言處理的研究帶來新的機遇和挑戰(zhàn)。Web已經成為獲取信息的主要平臺,而恰恰日前的網站目錄主要是以人工識別歸類或電腦自動區(qū)分歸類來完成,這種方式下文字檔案的區(qū)分歸類、歸類體系等很多方面有很多不便于人工識別搜索信息的困難存在。同時,在瀏覽Web上的網頁時,會出現與文檔主要內容沒有關聯(lián)的“導航信息”、廣告消息欄目等內容,這就可以認為做“噪音”。 網絡頁面上的“噪音”不單單制約著以網絡頁面內容信息為基礎的Web應用系統(tǒng)的應用開發(fā),而且也帶給基于網頁超鏈接指向應用系統(tǒng)很多難題。因此,如何高效準確地從WWW中獲取有用信息,如何迅捷精準地查找并去除網絡頁面上的噪音信息就成了提高Web應用程序整合處置結果精確性的一類重要技術,也是當前信息檢索的一項值得研究的工作。

2 開展網頁去噪研究的重要性

在網頁的處理中應用自然語言處理技術,把網絡中的信息進行深入、細致的處理,如何快捷準確的從大量的信息資源中提取所用的各種各樣知識,獲取人們需要的有效信息,已經成為很多專業(yè)人員的研究對象和目標。根據所用用途不同,可以把web中的內容分為兩種,一種是瀏覽器所用的標記信息,另一類是為使用者提供的閱讀信息,對于后一類需要處理自然語言。所以,去掉網頁中的標記信息就成了運用自然語言處理技術處理網頁中的內容的先決條件。自然語言處理技術適用于網頁正文,所以,怎樣查找并抽取網絡頁面上的正文內容,進而把它轉化為文字文本的技術是連接自然語言處理技術和網絡頁面內容的紐帶。

3 關于網頁去噪的算法研究

基于現有技術,可行的網頁去噪技術大致分為以下三種。

3.1 基于分塊的網頁去噪算法。在互聯(lián)網信息檢索方面,一般采用兩方面的指標來考評一個Web的檢索系統(tǒng),即完成檢索所用時間的長短和反饋檢索的相關度,如果噪音去除的技術不夠成熟,不能有效地將噪音刪除,索引系統(tǒng)就會建立一個噪音目錄。從而使得資源樹的一些節(jié)點出現噪音索引,當完成搜索結果后,反饋給用戶的內容相應也會有噪音內容。降低了搜索效率,浪費了寶貴的時間。

基于分塊的網頁去噪算法,第一步是按照table標簽,把整個網頁進行分塊處理;第二步是進行對數據的統(tǒng)計處理,運用一個模板對生成一個網頁集,然后對網頁集的內容數據進行統(tǒng)計,出現次數較多且內容松散的一般是廣告等等的噪音,需要濾除。大量的研究表明此方法是可行的。

3.2 基于統(tǒng)計的網頁正文信息的網頁去噪算法?;诮y(tǒng)計的網頁正文信息的網頁去噪算法應用到文摘系統(tǒng)上,可以把網絡頁面進行文摘處理;應用到文本處理系統(tǒng)中,可以對網頁進行自動化的處理和分類。照此,對網絡也沒的整理處置和對純文本的處置相同,擴大了之前技術的應用范圍。所以,研究網絡頁面內容提取技術對于把自然語言技術的應用范圍拓展到網絡頁面處理有著非常重大的意義。

3.3 基于網頁框架和規(guī)則的網頁去噪算法。網絡頁面中的噪音定義其實是該網絡頁面里面與本頁面的重要內容不存在直接關系的區(qū)域及具體項目。我們搜索查看的網頁大多遵循下圖的方式進行對網頁排版,不僅符合用戶的瀏覽習慣,而且也是設計者的用意。同時,網絡噪音部分(例如作者、廣告、版權信息等)大多是存在于那些非主要的地方和比較細長的方式地方,這就使得我們在編輯算法是可以輕易的去除網絡噪音內容。如圖1顯示。

實現此算法依據的規(guī)則:

依據通常網頁的格式和HTML文檔,基本匯總出以下這樣啟發(fā)式的規(guī)則:

(1)標簽

(2)標簽

(3)對于多層嵌套的標簽

(4)對于沒有標簽

4 去噪算法應用方面

以上幾種網頁去噪的算法,可普遍應用于針對當前互聯(lián)網信息的處理,這些算法可以較為高效精準地從網頁中篩選凝練出主要內容,同時將所謂的噪音除去濾掉,并且過濾這樣噪音的精準率比較高。搜索引擎中應用上述算法,可很大程度提升搜索引擎的查找搜索的速度、減少差搜數量和提高檢索的精準度和成功率;在分類上運用這樣算法,便可以將主要內容從網絡頁面中的提煉出來,并文本存儲到對應文檔中,這樣的話就能夠很快速的使用現有的分類措施實現自動分類處理的效果。不過,以上算法局限性還是不同程度存在的,例如它只能處理有明顯的主題正文特征的網頁,就像新聞類的網頁等等,但是在處置那些綜合性內容較多的頁面,或者頁面中的重點內容不容易區(qū)分的,例如重點內容就是一句話的描述,或是圖片信息作為主題內容的等等頁面,它處理的能力不帶為或可以說無法識別處理,因為閾值這種算法里的重要依據是通過不間斷地實驗,不斷的累積,從中得出的,所以說算法閾值的合理性仍然需要在今后的試驗中進一步得出結論。

猜你喜歡
頁面內容信息
大狗熊在睡覺
刷新生活的頁面
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 沈阳少妇高潮在线| 蜜桃视频一区二区三区| 国产乱人视频免费观看| 精品99在线观看| 国产欧美亚洲精品第3页在线| 欧美日韩国产在线播放| 大香伊人久久| 国产一区二区三区夜色| 白浆免费视频国产精品视频 | 婷婷色一二三区波多野衣| 亚洲日韩每日更新| 日韩欧美国产三级| 91精选国产大片| 国产99在线| 亚洲Av综合日韩精品久久久| 91av国产在线| 综合人妻久久一区二区精品 | 欧美日韩亚洲国产| 91麻豆久久久| 一级毛片中文字幕| 成年女人a毛片免费视频| 91精品视频在线播放| 亚洲侵犯无码网址在线观看| 国产va在线观看| 久久精品人人做人人爽电影蜜月| 欧美日韩亚洲综合在线观看 | 亚洲成人一区在线| 久久国产精品波多野结衣| 制服丝袜在线视频香蕉| 精品无码日韩国产不卡av| 真人高潮娇喘嗯啊在线观看| 中文字幕在线观看日本| 国产区福利小视频在线观看尤物| 久久96热在精品国产高清| 国产靠逼视频| 欧美日韩国产在线人| 无码精品国产dvd在线观看9久| 日韩精品成人网页视频在线| 精品免费在线视频| 国产精品性| 免费在线看黄网址| 色综合热无码热国产| 久久精品女人天堂aaa| 亚洲精品在线影院| 韩国自拍偷自拍亚洲精品| 国产爽妇精品| 91久久偷偷做嫩草影院电| 亚洲中文字幕日产无码2021| 免费人成网站在线高清| 精品国产污污免费网站| 亚洲成人一区二区三区| 国产精品偷伦视频免费观看国产 | 伊人91视频| 成人国产免费| 免费观看国产小粉嫩喷水| 国外欧美一区另类中文字幕| 亚洲无码精彩视频在线观看| 日本免费精品| 美女高潮全身流白浆福利区| 亚洲高清免费在线观看| 97综合久久| yjizz视频最新网站在线| 精品久久久久久久久久久| 欧美丝袜高跟鞋一区二区| 日韩精品无码不卡无码| 国产精品视频导航| 亚洲无码高清一区二区| 国产91丝袜| 无码福利视频| 三上悠亚一区二区| 欧美在线综合视频| 国产精品久久自在自线观看| 欧美性色综合网| 91成人在线免费观看| 久久99精品久久久久久不卡| 亚洲va视频| 毛片免费高清免费| 欧美一级黄片一区2区| www.狠狠| 日本a∨在线观看| 青青极品在线| 第一页亚洲|