999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DOM和神經網絡的網頁凈化應用

2012-06-01 02:55:02
電子科技 2012年1期
關鍵詞:內容實驗

李 劍

(南昌陸軍學院戰斗實驗室,江西南昌 330103)

互聯網規模的幾何級數增長和萬維網的缺乏規范性,使網絡信息檢索與傳統信息檢索相比呈現出明顯的不同之處:互聯網絡信息檢索面向的對象為海量數據[1];互聯網絡信息檢索所提供的信息內容包羅萬象,形式多樣。在這種情況下,網頁凈化技術成為網絡信息檢索特有的一個研究領域,受到越來越多研究人員的關注。對于有主題的網頁,文中提出了基于DOM和神經網絡的網頁凈化方法。

1 網頁凈化系統的模型

文中網頁凈化系統模型分為3個模塊,分別對應系統處理網頁的3個不同階段:在第一個模塊中,是把整個網頁的文檔分割成不同的內容塊,然后對這些塊進行分析;第二個模塊是將內容塊樹中的按照給定標準選擇出固定數量的子樹,作為模塊三的輸入數據;模塊三是神經網絡的運行部分,能夠選擇出網頁的主要內容塊,模型圖如1 所示[2-3]。

圖1 整個模型框架圖

2 網頁凈化方法

HTML文檔是一種半結構化的文檔,這里運用了HTML Parser工具對它進行解析。HTML DOM是一種樹形的結構,通常被稱為HTML DOM樹。它的每個結點都代表一個塊單元,這里把DOM樹的結點分為兩種[4]:(1)組織結點,例如:<table>,<tr>,<div>,<ui>等,是被用以劃分整個網頁的結構或組織網頁的內容。(2)作非組織結點,展示網頁內容,例如:<td>,<Ii>,<p>,<img>等。通常非組織結點包含在組織結點內。

2.1 建立內容塊樹

通過對大量帶有主題的網頁進行研究分析,發現這類的網頁有著鮮明的特征,內容基本都是被按照所處位置不同被分割成幾個內容塊,幾個內容塊在視覺上都有區別,并且網頁大部分都用 <table>或者<div>劃分頁面內容。因此,可借用這個特征,把一個網頁轉化成一個內容塊樹,而內容塊樹又是由子內容塊樹構成,子內容塊樹是由它所在的塊中的一些相關DOM結點組成。這樣,就方便地把一些有相關信息和有相似布局的DOM結點集中在一起,從而為下面去除噪音信息做好準備工作[5-6]。對此,設計算法如下:

(1)建立HTML文檔的DOM樹,然后把DOM樹轉化成DOM結點屬性,同時把組織結點和非組織結點分別標上對應的標簽。

(2)建立一個空的以<body>為根結點的內容塊樹,再把所有的組織結點給放進一個結點池里。

(3)從結點池中取一個結點。

1)如該結點的左孩子是組織結點,則跳到2),否則跳到3);如該結點沒有孩子,則跳到4)。

2)如該結點是<table>,<tbody>,<div>并且它的后代結點包含<p>,<li>結點的話,就把該結點和它所有的后代結點都放進到一個新的隊列中去;否則就把該結點的左孩子給讀進來,然后跳向1)。

3)如該結點的其它孩子結點都不是組織結點,則把該結點和它的后代結點都放進到一個新隊列中去;否則,把它的其它孩子給讀進來,然后跳向1)。

4)如該結點沒有父結點或者它是<h1~h2>,<hr>,則把該結點標注成S(j++);否則把該結點,它的父結點和它所有的兄弟結點都放進一個新的列表中。

5)從結點池中取出下一個結點。

6)for((3)中建立的所有隊列)。

7)檢查每個隊列中的父結點的所有屬性,比如,fontsize,fontcolor等。若有一個孩子結點和父結點有相同的屬性,這個父結點就將被作為一個分離結點從它的隊列中移除。

(4)如果隊列中的父結點中包含<h1~h6>的話,該父結點也會被作為分離結點從隊列中移除。

高情千古一真隱——陶淵明的隱逸思想和隱逸生活探析………………………………………………………………………李蘭東(3.49)

(5)根據建立隊列的順序在<body>結點下把所有的子內容塊樹線建立起來,最終一個完整對應于網頁的內容塊樹也就建成了。

2.2 初步選擇子內容塊

在對主題型網頁分析研究中,還發現一些網頁內容在網頁的展示中需要較多的HTML標簽去進行修飾編碼,特別是標題、邊欄、廣告欄、眉頭和頁腳等。從中可以統計出,與網頁主題關系度較小的網頁信息塊,它所包含的HTML編碼都較多。因此,為了從內容塊樹中抽取得網頁的主要內容塊,把冗余的不相關的或者相關度低的信息過濾凈化掉,文中參考了子塊中文本內容和HTML編碼的比例特征對子塊進行初步篩選:

(1)設定子內容塊占總內容文本比例的臨界值和子內容塊和它對應的HTML編碼的比例的臨界值。

(2)計算整個內容塊樹的文本大小。

(3)計算各個內容塊子樹的文本大小,并得出各文本占內容塊樹文本的比例。

(5)計算出各個內容子塊和它對應的HTML編碼的比例。

(6)通過上面的臨界值,來綜合選出用于作為神經網絡的訓練輸入子內容塊。

2.3 選擇出主要內容塊

本模塊以BP神經網絡為基礎構建,整個模塊分成兩個階段:訓練階段和測試階段。

文中運用的神經網絡由3層結構組成:輸入層、隱含層和輸出層。實驗證明,多層神經元并不會使結果更優化,反而增加了計算的復雜度,因此采用標準3層結構。作用函數為非線性的Singmod型函數,表達式為

3 實驗及分析

從新浪博客、網易體育和百度知道網上分別獲取了3個不同類型的網頁,數量都為600個,其中各自的500個網頁用作訓練,另外各自的100個網頁用來測試。實驗結果的分析通過3個指標來衡量,分別是正確率CR,誤取率ER和漏取率LR。

其中,CB是提取出的正確的內容塊數;TB是總的主要內容塊數;EB是誤取的內容塊數;LB是漏取的主內容塊數。

在運用上述3個模塊對實驗數據進行實驗后,依據實驗結果計算出各自的3個指標數據,用柱狀圖表示如下。

圖2 實驗結果

如圖2所示,無論從正確率、錯誤率和漏測率都能夠比較正確地把網頁中的冗余信息去除掉,通過從3類網頁的分析和實驗結果中,得出網易體育的主題性最強,其次是百度知道及新浪博客。而且網易體育的凈化效果在3個指標中也是最好的。從而說明,該方法是對主題越突顯的網頁效果越好,適合用于網頁分類應用中,比如搜索引擎。在搜索引擎按照一定的主題和算法爬取到網頁后,要對這些網頁進行分類和建立索引,這個凈化方法就會為網頁的分類提供較大的幫助。

4 結束語

在改進的DOM樹和BP神經網絡理論的基礎上,設計了一種新的中文網頁凈化方法,通過實驗結果,看到了該方法對于有主題網頁凈化的效果良好,且網頁主題越清晰,效果越好。

[1]張志剛,陳靜,李曉明.一種HTML網頁凈化方法[J].情報學報,2004(4):387-393.

[2]王建冬,王繼民,田飛佳.一種基于內容規則的網頁去噪算法[J].現代圖書情報技術,2008(3):51-54.

[3]萬樂,左萬利,高金.基于主題的網頁去噪音機制[J].計算機工程與技術,2008(8):2072-2084.

[4]劉亞清,陳榮.基于隱馬爾可夫模型的 Web信息抽取[J].計算機工程,2009(18):25 -27.

[5]HIROSHI S,JUN R,MITSURU N.Modified minimum classification error learning and its application to neural networks[C].SSPR/SPR,1998,1451:785 -794.

[6]SHEN Dou,YANG Qiang,CHEN Zheng.Noise reduction through summarization for Web - page classification[J].Science Direct,Inf.Process.Manage,2007,43(6):1735-1747.

猜你喜歡
內容實驗
記一次有趣的實驗
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
微型實驗里看“燃燒”
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
做個怪怪長實驗
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
《實驗流體力學》征稿簡則
主站蜘蛛池模板: 午夜毛片免费观看视频 | аv天堂最新中文在线| 玖玖精品视频在线观看| 亚洲成年网站在线观看| 久久99国产乱子伦精品免| 成人永久免费A∨一级在线播放| 国产欧美日韩另类精彩视频| 色婷婷综合在线| 亚洲日本一本dvd高清| 国产在线一二三区| 午夜性刺激在线观看免费| 少妇被粗大的猛烈进出免费视频| 国产黄色爱视频| 久久 午夜福利 张柏芝| 久久人妻xunleige无码| 72种姿势欧美久久久大黄蕉| 亚洲人成高清| 美女国产在线| 欧美一级专区免费大片| 国产99精品久久| 久久影院一区二区h| 中字无码精油按摩中出视频| 最新国语自产精品视频在| 91精品国产自产91精品资源| 亚洲天堂网2014| 国产91九色在线播放| 97久久精品人人做人人爽| 国产小视频a在线观看| 精品视频福利| 精品福利一区二区免费视频| 丝袜国产一区| 五月婷婷综合在线视频| 久久精品波多野结衣| 亚洲欧美另类专区| 夜夜操天天摸| 欧美日韩亚洲综合在线观看| 欧美成人精品在线| 尤物亚洲最大AV无码网站| 国产 在线视频无码| 日本在线国产| 亚洲无线一二三四区男男| 国产女同自拍视频| 亚洲午夜国产片在线观看| 99热这里只有免费国产精品| 人妻中文久热无码丝袜| 国产xx在线观看| 香蕉eeww99国产在线观看| 欧美日韩免费观看| 91亚洲精品第一| 女人18毛片一级毛片在线| 日韩成人免费网站| 国产精品永久久久久| 视频在线观看一区二区| 日韩欧美国产中文| 国产精品主播| 91娇喘视频| 亚洲综合第一区| 亚洲黄网在线| 国产一区二区三区日韩精品 | 国产精品无码作爱| 福利片91| 91小视频在线| 亚洲Va中文字幕久久一区| 中文字幕 日韩 欧美| 亚洲第一黄片大全| 亚洲一区国色天香| 日本免费a视频| 成人免费午夜视频| 国产亚洲欧美在线专区| 亚洲精选无码久久久| 国产人成午夜免费看| 免费一级大毛片a一观看不卡| 国产精品妖精视频| 国产成人久久777777| 国产又粗又猛又爽视频| 久久久久久高潮白浆| 99re精彩视频| 丁香婷婷久久| 成人国产一区二区三区| 欧美日韩精品在线播放| 色婷婷国产精品视频| 国产精品视频久|