999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間頻率加權DOM的Web信息抽取方法

2011-02-10 01:56:54馬瑞民東北石油大學計算機與信息技術學院黑龍江大慶163318
長江大學學報(自科版) 2011年1期
關鍵詞:頁面定義規則

馬瑞民,錢 浩 (東北石油大學計算機與信息技術學院,黑龍江大慶163318)

當前,Web已經成為人們獲取信息的主要渠道。怎樣對Web上大量的數據信息進行抽取成了現今數據挖掘研究的熱點。Web信息抽取是從網絡中獲得用戶需要的信息的過程[1],目前已有的技術有基于歸納學習的信息抽取、基于DOM的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取、基于模型的信息抽取和基于本體的信息抽取[1]等。其中基于DOM的Web信息抽取的特點是,將Web文檔轉換成反映HTML/XML文件層次結構的DOM樹,通過自動或半自動的方式產生抽取規則。

以上的方法在技術方面都比較成熟,但均沒有考慮到時間因素。為此,筆者結合DOM的Web信息抽取加上時間因素,提出了一種基于TFW-DOM的Web信息抽取方法。該方法考到多次抽取的情況,通過對頁面DOM樹加權,利用公式計算每次的抽取時間,結合基于DOM的抽取方法完成每次的信息抽取。

1 基本定義

圖1 DOM樹

定義1(抽取項) 抽取項即用戶想在頁面中抽取的文本內容[2]。

定義2(抽取規則) 抽取規則是對抽取項在整個文檔中的定位,表現在DOM樹上就是由根節點到抽取項路過的節點序列所表示的路徑信息。假設DOM樹中的節點用element(i)(i=0,1,2,…)表示,抽取項的路徑信息就是一組element(i)(j)序列 (其中i≠j,i<j)。如圖 1所示,如果要定位Text:“My link”節點,它的路徑就應該是element(0)element(2)element(4)。

定義3(T加權) T加權是對DOM樹中每個元素添加時間屬性的過程,這2個屬性分別是最近一次(假設是第n次)抽取該節點信息的時間e-time和第n次抽取與第n-1次抽取的時間間隔et-interval。

定義4(F加權) F加權是對DOM樹中每個元素添加頻率的過程,表示調用信息抽取模塊用到該屬性的頻率。

圖2 TFW-DOM抽取流程

定義5(TFW-DOM) 經過了T、F加權后得到的DOM樹。TFW-DOM樹的每個元素至少有3個屬性:e-time、et-interval、frequcency。

2 TFW-DOM抽取算法

基于 TFW-DOM的 Web信息抽取方法(簡稱 TFW-DOM抽取)考慮的是多次抽取的情況,用戶無需手動抽取,系統通過抽取時間計算公式計算出每次的抽取時間,然后按照基于DOM的抽取方法進行抽取。該方法適用于多級管理層,每級管理層對數據的實時性要求不一,在時間上具有很大的靈活性。基于TFW-DOM的Web信息抽取方法的處理流程如圖2所示。

首先根據用戶的需求,獲得相關Web頁面URL,通過頁面清理把不規則的源代碼變為符合W3C標準的 HTML/XML文檔;對于規則庫中沒有現成規則的URL,進入DOM樹加權,然后在基于DOM的Web信息抽取方法[3]的基礎上,通過抽取時間計算得到抽取規則,將生成的抽取規則分別輸入規則庫和抽取的執行模塊,下次再遇到類似的抽取任務就可以直接從規則庫中調取抽取規則;根據抽取規則在執行模塊完成抽取后,結果進入數據處理部分,最后生成結構化數據。生成的數據結構可根據用戶的實際需要選擇,具有很大的靈活性。

1)頁面清理模塊 在頁面清理模塊中,利用Tidy庫提供的功能對Web頁面進行標準化處理,得到符合W3C的HTML/XML文檔,部分糾錯過濾代碼如下:

2)計算抽取時間算法 在這個模塊主要使用一個循環利用2個計算公式,完成抽取時間的計算,算法步驟如下:

其中,frequency是原頻率;frequency是新產生的頻率;time為系統當前時間。

3 試 驗

選取中國石油化工股份有限公司企業網站對其化工產品進行實驗,對于抽取方法主要從抽取速度、時間準確性、召回率和準確率4方面來檢驗,試驗數據比較結果如表1。

因為針對專門的領域,所以TFW-DOM抽取法有很好的準確率和召回率;同時試驗結果表明TFW-DOM抽取法對多次抽取的效率明顯高于文獻 [4]的方法;因為受抽取時間計算公式中各計算因子影響,在抽取時間準確率上不能達到100%,但基本能夠滿足用戶各管理級的時間要求。

表1 試驗比較結果

4 結 語

筆者提出的抽取方法在初次抽取后得到的抽取規則存入規則庫中,可重復使用,避免了抽取規則的重用,在整個抽取過程中不需要人工參與,在提高效率的同時也減輕了用戶的操作負擔。基于TFWDOM的Web信息抽取方法通過抽取規則文件得到抽取任務的相關信息和執行抽取的條件,因此,用戶只需改變輸入的頁面URL,完成初次抽取時的抽取規則文件生成,即可完成全新的抽取任務,并且最終得到的數據在數據結構上有相應的靈活性,這些使得基于TFW-DOM的Web信息抽取方法具備良好的可用性、易用性和通用性。

[1]色菲,王佳,潘超.基于XML描述的WEB信息抽取技術研究[J].計算機與信息技術,2007,34(2):403,380.

[2]陳曉鋒,張凌,董守斌.基XPath比較Web數據抽取方法[J].鄭州大學學報,2007,39(2):161-166.

[3]李效東,顧毓清.基于DOM的Web信息提取 [J].計算機學報,2002,25(5):526-533.

[4]于靜,李森.基于信息抽取的主動服務技術研究[J].計算機系統應用,2008,(1):54-56,60.

猜你喜歡
頁面定義規則
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
撐竿跳規則的制定
數獨的規則和演變
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 中文字幕日韩久久综合影院| 色婷婷色丁香| 国产免费网址| 一本大道香蕉中文日本不卡高清二区| 国内丰满少妇猛烈精品播| 成人av手机在线观看| 国内精品视频在线| 国产亚洲精品无码专| 高h视频在线| 亚洲精品自产拍在线观看APP| 一级香蕉人体视频| AV在线天堂进入| 热这里只有精品国产热门精品| 亚洲Va中文字幕久久一区 | 亚洲一级毛片免费看| 午夜精品福利影院| 欧美一区二区三区欧美日韩亚洲| 欧美在线中文字幕| 国产亚洲一区二区三区在线| 成人欧美日韩| 人人妻人人澡人人爽欧美一区| 91在线丝袜| 亚洲精品人成网线在线 | 免费国产在线精品一区| 亚洲91在线精品| 呦女亚洲一区精品| 久久免费视频6| 91黄视频在线观看| 日日拍夜夜操| 亚洲Av综合日韩精品久久久| 青青草国产免费国产| 国产精品成人一区二区不卡| 亚洲妓女综合网995久久| 国产自在线播放| 国产性生交xxxxx免费| 久久精品亚洲热综合一区二区| 国产微拍精品| 91啦中文字幕| 天堂网国产| 99在线视频网站| 久久综合亚洲色一区二区三区| 97国内精品久久久久不卡| 国产拍在线| 日韩 欧美 小说 综合网 另类| 欧美日本在线| 久热中文字幕在线观看| 久草网视频在线| 亚洲欧美日韩精品专区| 成人中文在线| 毛片在线看网站| 中文天堂在线视频| 九九热精品在线视频| 亚洲最新地址| 国产免费网址| 国产成人综合在线视频| 国产精品无码翘臀在线看纯欲| 麻豆精品久久久久久久99蜜桃| 久久久久国色AV免费观看性色| 超碰免费91| 欧美啪啪网| 久久久久亚洲Av片无码观看| 亚洲啪啪网| 国产91九色在线播放| 亚洲精品午夜无码电影网| 天天摸天天操免费播放小视频| 热这里只有精品国产热门精品| 毛片手机在线看| 麻豆精选在线| 2019国产在线| 一级毛片a女人刺激视频免费| 亚洲欧美日韩中文字幕在线| 超级碰免费视频91| 另类欧美日韩| 日韩国产黄色网站| 国产日韩av在线播放| 夜夜操狠狠操| 国产美女精品在线| 色综合激情网| 亚洲色欲色欲www网| 午夜一区二区三区| 成年人国产视频| 国产对白刺激真实精品91|