999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于樹型結構的包裝器生成算法研究

2018-01-25 10:44:31李丹
電子測試 2017年24期
關鍵詞:頁面結構信息

李丹

(沈陽城市建設學院,遼寧沈陽,110167)

0 引言

大數(shù)據時代的到來,網絡數(shù)據激增,Web信息抽取技術成為新興熱點,作為信息抽取技術核心的包裝器也迎來了春天。所謂包裝器(Wrapper),就是一個能夠將數(shù)據從HTML網頁中抽取出來并且將它們還原為結構化的數(shù)據(例如XML數(shù)據)的軟件程序。[1]

Web信息抽取技術的分類方式有多種,根據所用的原理和方式,將這些原型系統(tǒng)所使用的包裝器分為三類:手工構造的包裝器,如 TSIMMIS[2];機器學習方式的包裝器,如RoadRunner[3];可視化交互式的包裝器,如W4F[4]等。

1 傳統(tǒng)RoadRunner算法

1.1 UFRE表達式

RoadRunner 使用 UFRE(Union-Free Regular Expression)表達式來描述HTML頁面包裝器。

定義1.1 union-free正則表達式(UFRE)[5]

給定符號的字母表∑,和不在∑中的特殊符號PCDATA,一個在∑上的union-free正則表達式是在字母表∑∪{PCDATA,.,+,?,(,)}上的字符串,定義如下:

(1)空串ε及所有∑∪{PCDATA}中的元素是UFRE;

(2)如果 A 和 B 是 UFRE,那么 A·B,(A)?是 UFRE,(A)?表示(A|ε)(表示選擇);

(3)如 果 A是 UFRE,(A)+也 是 UFRE,(A)+表 示 A、AA、……,+閉包(表示迭代)。

1.2 RoadRunner算法

RoadRunner的匹配算法稱為ACME(Align,Collapse under Mismatch,and Extract)[3]。算法思想:輸入兩個符號化的頁面,指定一個作為包裝器,一個作為樣本,通過樣本與包裝器之間的比較,尋找不匹配,得到一個能同時適用兩個頁面的正則表達式。逐步修正求精,得到最終的包裝器(符合UFRE表達式)。

2 一種基于樹型結構的包裝器生成算法

算法改進之處:(1)使用軟件工具將樣本集中的頁面處理為符合XHTML規(guī)范的頁面;(2)將訓練樣本轉化為樹型結構;(3)在遍歷和比較過程中采用先序遍歷。遍歷和匹配過程中存在兩種類型的不匹配:字符串不匹配,是由于一個數(shù)據庫字段的不同數(shù)值造成的,標記為#PCDATA;標識符不匹配:包括標識符不匹配和標識符與字符串不匹配兩種,出現(xiàn)這種情況的原因是出現(xiàn)了迭代項(+)或可選項(?)。設樹的高度為h,樹中每層的最大結點數(shù)為n,則算法的時間復雜度為O(h*n*n)。

舉例,圖1為張三同學的樹型信息頁面,作為包裝器;圖2為李四同學的樹型信息頁面,作為訓練樣本;圖3為通過算法比較后得到符合UFRE規(guī)則的包裝器樹。

基于樹型結構的包裝器生成算法流程如下:

輸入:頁面樣本集合Q

輸出:最優(yōu)包裝器樹baseP

(1)從樣本集合Q中任選一個作為基準,記為baset 。

圖1 張三同學的樹型信息頁面

圖2 李四同學的樹型信息頁面

圖3 包裝器樹

(2.2.3)若 Pm為空,則令 Pbase.N ame=“”? 。

(2.3)當 Pbase和 Pm中僅有一個為葉結點時,

(2.3.1)若 Pm非空,則令 Pm指向其第一右兄弟結點,重復(2.3.1),否則執(zhí)行(2.3.2);

(2.3.2)若 Pm為空,則令 Pbase.N ame=“”? ,否則轉(2.1);

(2.4)若baseP 非空,令baseP 指向其第一右兄弟結點,重復(2.1),否則,轉(3)。

(3)重新遍歷baseP ,對相同的子樹進行合并。

3 結論

本文提出一種基于樹型結構的包裝器生成算法,該算法不需要特殊指定訓練樣本,不需要目標樣本的先驗知識,包裝器生成是自動的。在對輸入的兩個訓練樣本進行匹配過程中引入樹型結構,有效降低了算法的時間復雜度,對迭代項和可選項的識別也更加準確、高效。

[1]Kushmerick N. Wrapper induction: Efficiency and expressiveness[J].Artificial Intelligence, 2000, 118(1–2):15-68.

[2]Hammer J, Nestorov S, Yerneni R, et al. Template-based wrappers in the TSIMMIS system[C].ACM, 1997:532-535.

[3]Crescenzi V, Mecca G, Merialdo P. RoadRunner: Towards Automatic Data Extraction from Large Web Sites[J].Vldb Issn –3455 Sistedes, 2001:109--118.

[4]Sahuguet A, Azavant F. Building intelligent Web applications using lightweight wrappers[J].Data &Knowledge Engineering, 2001, 36(3):283-316.

[5]張玉良.一種基于后綴樹的包裝器自動生成方法的研究[D].吉林大學, 2005.

猜你喜歡
頁面結構信息
大狗熊在睡覺
刷新生活的頁面
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
論《日出》的結構
創(chuàng)新治理結構促進中小企業(yè)持續(xù)成長
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
主站蜘蛛池模板: 日韩人妻精品一区| 亚洲av无码片一区二区三区| 久久99精品久久久久久不卡| 国产成人高精品免费视频| 伊在人亚洲香蕉精品播放| 91无码人妻精品一区| 热re99久久精品国99热| 91年精品国产福利线观看久久| 国产成人久久777777| 免费毛片全部不收费的| 国产亚洲欧美日韩在线一区二区三区| 久久无码av三级| 毛片在线播放网址| 欧美另类第一页| 久久精品无码一区二区国产区| 国产99精品视频| 无码高清专区| 亚洲精品国产成人7777| 久久精品66| 亚洲第一色网站| 国产不卡在线看| 人妻21p大胆| 自拍偷拍欧美日韩| 亚洲国产系列| 国产不卡在线看| 欧美日韩理论| 中文字幕在线视频免费| 在线色国产| 午夜视频在线观看免费网站| 成人午夜免费观看| 国产在线观看91精品亚瑟| 在线观看的黄网| 亚洲国产日韩一区| 色综合中文| 国产99久久亚洲综合精品西瓜tv| 超清无码一区二区三区| 亚洲黄色成人| 精品久久久久久成人AV| 欧美精品导航| 无码免费视频| 亚洲综合极品香蕉久久网| 成人在线综合| 一级一级特黄女人精品毛片| 麻豆AV网站免费进入| 国产精品一区二区不卡的视频| 亚洲大学生视频在线播放 | 国产午夜福利片在线观看| 伊人福利视频| 午夜a视频| 午夜国产精品视频黄| 亚洲品质国产精品无码| 日韩美一区二区| 全部无卡免费的毛片在线看| 亚洲高清中文字幕在线看不卡| 国产又大又粗又猛又爽的视频| 日韩精品一区二区三区中文无码| 亚洲性视频网站| 高清码无在线看| 亚洲高清无码精品| 亚洲综合色婷婷| 五月婷婷丁香色| 操美女免费网站| 国内自拍久第一页| 国产乱人伦AV在线A| 香蕉视频在线观看www| 久久人搡人人玩人妻精品一| 欧美黄网在线| 国产欧美日韩18| 欧美国产菊爆免费观看| 99免费在线观看视频| 亚洲第一网站男人都懂| 综1合AV在线播放| 一级成人a做片免费| 国产精品一区在线观看你懂的| 亚洲精品成人片在线观看 | 亚洲最大福利视频网| 在线视频97| 国产成人久久综合777777麻豆 | 香蕉久人久人青草青草| 99精品在线看| 小13箩利洗澡无码视频免费网站| 2048国产精品原创综合在线|