999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談web信息抽取

2010-08-15 00:49:59
大眾科技 2010年4期
關(guān)鍵詞:文本信息系統(tǒng)

李 斌

(中國醫(yī)科大學(xué)附屬第一醫(yī)院,遼寧 沈陽110001)

淺談web信息抽取

李 斌

(中國醫(yī)科大學(xué)附屬第一醫(yī)院,遼寧 沈陽110001)

文章闡述了web信息抽取的定義、抽取過程、Web信息抽取方法的分類,并指明了web信息抽取的應(yīng)用領(lǐng)域和發(fā)展方向。

web信息抽取;自然語言;包裝器;web查詢;抽取對(duì)象

隨著Internet的迅猛發(fā)展,Web已經(jīng)成為一個(gè)巨大的信息源。曾幾何時(shí),人們開始習(xí)慣于使用網(wǎng)絡(luò)搜索引擎來查找自己所需要的有用信息,但隨著Web信息數(shù)量的快速增長(zhǎng),各網(wǎng)絡(luò)搜索引擎所能覆蓋的范圍比例卻逐漸減小,因此如何從Web中抽取出所需要的信息,就成為了互聯(lián)網(wǎng)信息搜索研究領(lǐng)域中一個(gè)重要的研究課題。

(一)什么是web信息抽取

Web信息抽取是指從Web頁面所包含的無結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識(shí)別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式的Web頁面信息抽取的過程[1]。

(二)Web信息抽取技術(shù)涉及的內(nèi)容

因特網(wǎng)提供了一個(gè)巨大的信息源。這種信息源往往是半結(jié)構(gòu)化的,并且中間夾雜著結(jié)構(gòu)化和自由文本。網(wǎng)上的信息還是動(dòng)態(tài)的,包含超鏈接,都以不同的形式出現(xiàn)。

1.Web信息抽取的內(nèi)容一般可以分為幾個(gè)方面:

命名實(shí)體的抽取、與模板有關(guān)的內(nèi)容信息抽取、各個(gè)實(shí)體之間關(guān)系的抽取和預(yù)置事件的信息抽取。

信息抽取的方法主要可以分為以下兩類:一類是基于層次結(jié)構(gòu)的信息抽取歸納方法,另一類是基于概念模型的多記錄信息抽取方法。

Web信息抽取工作主要包裝器(Wrapper)來完成[1]。包裝器是一種軟件過程,這個(gè)過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡(luò)中Web頁面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個(gè)包裝器一般針對(duì)某一種數(shù)據(jù)源中的一類頁面。包裝器運(yùn)用規(guī)則執(zhí)行程序?qū)?shí)際要抽取的數(shù)據(jù)源進(jìn)行抽取。

2.抽取過程一般包括以下幾個(gè)步驟[2]:

(1)將Web網(wǎng)頁進(jìn)行預(yù)處理。預(yù)處理的目的是將半結(jié)構(gòu)化HTML頁面去掉無用的信息以及對(duì)不規(guī)則的HTML標(biāo)識(shí)進(jìn)行修正,為下一步標(biāo)記信息做準(zhǔn)備。

(2)用一組信息模式描述所需要抽取的信息。通常可以針對(duì)某一領(lǐng)域的信息特征預(yù)定義好一系列的信息模式,存放在模式庫中供用戶選用。

(3)對(duì)文本進(jìn)行合理的詞法、句法及語義分析,通常包括識(shí)別特定的名詞短語和動(dòng)詞短語。

(4)使用模式匹配方法識(shí)別指定的信息模式的各個(gè)部分。

(5)進(jìn)行上下文分析和推理,確定信息的最終形式。

(6)將結(jié)果輸出成結(jié)構(gòu)化的描述型式以便由網(wǎng)絡(luò)集成系統(tǒng)進(jìn)行查詢分析。

(三)Web信息抽取方法的分類

把所有網(wǎng)頁都?xì)w入半結(jié)構(gòu)化文本是不恰當(dāng)?shù)摹H裟芡ㄟ^識(shí)別分隔符或信息點(diǎn)順序等固定的格式信息正確抽取出來,那么該網(wǎng)頁是結(jié)構(gòu)化的。半結(jié)構(gòu)化的網(wǎng)頁則可能包含缺失的屬性,或一個(gè)屬性有多個(gè)值,或一個(gè)屬性有多個(gè)變體等例外的情況。若需要用語言學(xué)知識(shí)才能正確抽取屬性,則該網(wǎng)頁是非結(jié)構(gòu)化的。

網(wǎng)頁的結(jié)構(gòu)化程度總是取決于用戶想要抽取的屬性是什么。通常機(jī)器產(chǎn)生的網(wǎng)頁是非常結(jié)構(gòu)化的,手工編寫的則結(jié)構(gòu)化程度差些,當(dāng)然有很多例外。

按照Web信息抽取對(duì)象的結(jié)構(gòu)化程度,大體上可以分為三種類型:結(jié)構(gòu)化文本;自由文本;半結(jié)構(gòu)化文本。

1.根據(jù)Web信息抽取對(duì)象劃分,可以分為三種類型:

(1)從自由格式的文本中抽取出所需要的信息內(nèi)容。自由文本的抽取技術(shù)可分為三類:基于自然語言處理(NPL)的方式;基于規(guī)則的方式;基于統(tǒng)計(jì)學(xué)習(xí)的方式。

(2)從半結(jié)構(gòu)化的文本中,抽取出所需要的信息內(nèi)容。

2.根據(jù)自動(dòng)化程度可以分為

人工方式的信息抽取、半自動(dòng)方式的信息抽取和全自動(dòng)方式的信息抽取三大類。

3.根據(jù)現(xiàn)有Web信息抽取系統(tǒng)和模型實(shí)現(xiàn)原理的不同,分為以下幾類:

(1)基于歸納學(xué)習(xí)的信息抽取[2]。通過對(duì)若干個(gè)待抽取實(shí)例網(wǎng)頁進(jìn)行結(jié)構(gòu)特征學(xué)習(xí),歸納出抽取規(guī)則,然后使用抽取規(guī)則自動(dòng)分析待抽取信息在網(wǎng)頁中的結(jié)構(gòu)特征并實(shí)現(xiàn)信息抽取。采用這種原理的典型的系統(tǒng)有STALKER,SOHTMEALY,WIEN。

(2)基于HMM(Hidden Markov Model)的信息抽取[3][4]。是最近幾年應(yīng)用最廣泛的抽取知識(shí)表達(dá)模型。它是一種隨機(jī)的有限狀態(tài)自動(dòng)機(jī),由于HMM有成熟的學(xué)習(xí)算法和堅(jiān)實(shí)的統(tǒng)計(jì)基礎(chǔ),所以在信息抽取中是一種成功的模型。

(3)基于特征模式匹配的信息抽取[2]。通過大量學(xué)習(xí)實(shí)例,歸納學(xué)習(xí)出待抽取信息的語法結(jié)構(gòu)模式,并根據(jù)這些模式從待抽取網(wǎng)頁中抽取出相匹配的信息,適用于復(fù)雜結(jié)構(gòu)信息的抽取。

(4)基于網(wǎng)頁結(jié)構(gòu)特征分析的信息抽取[2]。將Web文檔轉(zhuǎn)換成反映HTML文件層次結(jié)構(gòu)的解析樹,通過自動(dòng)或半自動(dòng)的方式產(chǎn)生抽取規(guī)則。采用該類技術(shù)的典型系統(tǒng)有LIXTO等。

(5)基于Ontology的Web信息抽取。本體的構(gòu)建是這類抽取的基礎(chǔ)與核心,如何構(gòu)造出良好的面向應(yīng)用領(lǐng)域的Ontology對(duì)提高信息抽取的精確度有直接的影響。該方法主要是利用對(duì)數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取,對(duì)網(wǎng)頁結(jié)構(gòu)依賴較少。由Brigham Yong University信息抽取小組開發(fā)的信息抽取工具中采用了這種方式,另外QUIXOTE也采用了這種方式。

(6)基于自然語言處理(Natural Language Processing,NLP)。這類信息抽取主要適用于源文檔中包含大量文本的情況(特別針對(duì)于合乎文法的文本),在一定程度上借鑒了自然語言處理技術(shù),利用子句結(jié)構(gòu)、短語和子句間的關(guān)系建立基于語法和語義的抽取規(guī)則實(shí)現(xiàn)信息抽取。目前采用這種原理的典型的系統(tǒng)有RAPIER,SRV,WNISK。

(7)基于Web查詢的信息抽取。將Web信息抽取轉(zhuǎn)化為使用標(biāo)準(zhǔn)的Web查詢語言對(duì)Web文檔的查詢,具有通用性。采用該類技術(shù)的典型的系統(tǒng)有:Web-OQL以及自主開發(fā)的原型系統(tǒng)PQAgent。

查看數(shù)據(jù)流(圖7)發(fā)現(xiàn),在發(fā)動(dòng)機(jī)熄滅前,燃油修正值達(dá)到-40%以上;高速時(shí)燃油修正值在±5%之間,屬于正常。由于之前已確認(rèn)進(jìn)氣流量數(shù)據(jù)正常,因此可以基本判定發(fā)動(dòng)機(jī)在低速時(shí)有額外的汽油蒸汽進(jìn)入汽缸參與燃燒。接著,又對(duì)PCV閥進(jìn)行檢測(cè),也未發(fā)現(xiàn)異常,其關(guān)閉和開啟動(dòng)作均正常。

(四)國內(nèi)外Web信息抽取技術(shù)的研究和應(yīng)用

上世紀(jì)80年代以來,國內(nèi)外許多大學(xué)、公司和研究機(jī)構(gòu)對(duì)信息抽取技術(shù)展開了有計(jì)劃的、長(zhǎng)期系統(tǒng)的研究與應(yīng)用工作,取得了一些成果并有許多相關(guān)的應(yīng)用。也使信息抽取研究蓬勃開展起來,這主要有兩個(gè)因素對(duì)其發(fā)展有重要的影響:一是在線和離線文本數(shù)量的幾何級(jí)增加,另一個(gè)是“消息理解研討會(huì)”(MUC,Message Understanding Conference)從1987年開始到1998年共舉行了七屆會(huì)議對(duì)該領(lǐng)域的關(guān)注和推動(dòng)。MUC由美國國防高級(jí)研究計(jì)劃委員會(huì)(DARPA,the Defense Advanced Research Projects Agency)資助,其顯著特點(diǎn)并不是會(huì)議本身,而在于對(duì)信息抽取系統(tǒng)的評(píng)測(cè)。近些年來,信息抽取技術(shù)的研究與應(yīng)用更為活躍。

在研究方面,主要側(cè)重于以下幾方面:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文本處理能力、WEB信息抽取(Wrapper)以及對(duì)時(shí)間信息的處理等等。

在應(yīng)用方面,信息抽取應(yīng)用的領(lǐng)域更加廣泛,除自成系統(tǒng)以外,還往往與其他文檔處理技術(shù)結(jié)合建立功能強(qiáng)大的信息服務(wù)系統(tǒng)。

至今,已經(jīng)有不少以信息抽取技術(shù)產(chǎn)品為主的公司出現(xiàn),比較著名的有Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。

目前,除了強(qiáng)烈的應(yīng)用需求外,正在推動(dòng)信息抽取研究進(jìn)一步發(fā)展的動(dòng)力主要來自美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)組織的自動(dòng)內(nèi)容抽取(ACE, Automatic Content Extraction)評(píng)測(cè)會(huì)議。這項(xiàng)評(píng)測(cè)從1999年7月開始醞釀,2000年12月正式開始啟動(dòng),從2000年到2007年已經(jīng)舉辦過好幾次評(píng)測(cè)。這項(xiàng)評(píng)測(cè)旨在開發(fā)自動(dòng)內(nèi)容抽取技術(shù)以支持對(duì)三種不同來源(普通文本、由自動(dòng)語音識(shí)別ASR得到的文本、由光學(xué)字符識(shí)別OCR得到的文本)的語言文本的自動(dòng)處理,研究的主要內(nèi)容是自動(dòng)抽取新聞?wù)Z料中出現(xiàn)的實(shí)體、關(guān)系、事件等內(nèi)容,即對(duì)新聞?wù)Z料中實(shí)體、關(guān)系、事件的識(shí)別與描述。與MUC相比,目前的ACE評(píng)測(cè)不針對(duì)某個(gè)具體的領(lǐng)域或場(chǎng)景,采用基于漏報(bào)(標(biāo)準(zhǔn)答案中有而系統(tǒng)輸出中沒有)和誤報(bào)(標(biāo)準(zhǔn)答案中沒有而系統(tǒng)輸出中有)為基礎(chǔ)的一套評(píng)價(jià)體系,還對(duì)系統(tǒng)跨文檔處理(Cross-document processing)能力進(jìn)行評(píng)測(cè)。這一新的評(píng)測(cè)會(huì)議將把信息抽取技術(shù)研究引向新的高度。

國內(nèi)對(duì)中文信息提取系統(tǒng)的研究起步較晚,還集中在命名實(shí)體識(shí)別方面,遵照MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。Intel中國研究中心在ACL-2000上演示了他們開發(fā)的一個(gè)抽取中文命名實(shí)體以及實(shí)體間關(guān)系的系統(tǒng)。在MUC-6和MUC-7上,增加了中文系統(tǒng)的評(píng)測(cè)項(xiàng)目,國立臺(tái)灣大學(xué)(National Taiwan University)和新加坡肯特崗數(shù)字實(shí)驗(yàn)室參加了MUC-7中文命名實(shí)體識(shí)別任務(wù)的評(píng)測(cè),測(cè)試了中文命名實(shí)體(人名、地名、時(shí)間、事件等名詞性短語)的識(shí)別,取得了與英文命名實(shí)體識(shí)別系統(tǒng)相近的性能。當(dāng)然這只是對(duì)中文信息提取作了比較初步的工作,并不能真正進(jìn)行中文信息提取。另外,北京大學(xué)計(jì)算語言所對(duì)中文信息提取也作了比較早的和比較系統(tǒng)的探討,承擔(dān)了兩個(gè)有關(guān)中文信息提取項(xiàng)目的工作,即自然科學(xué)基金項(xiàng)目“中文信息提取技術(shù)研究”和IBM——北大創(chuàng)新研究院項(xiàng)目“中文信息提取系統(tǒng)的設(shè)計(jì)與開發(fā)”。其目標(biāo)是研究中文信息提取中的一些基礎(chǔ)性和關(guān)鍵性的問題,為開發(fā)實(shí)用的信息提取技術(shù)提供理論指導(dǎo),并具體探討信息提取系統(tǒng)設(shè)計(jì)的各個(gè)環(huán)節(jié)。

(五)研究的熱點(diǎn)和趨勢(shì)

從目前的研究和應(yīng)用情況看,信息抽取系統(tǒng)的性能和可移植性仍然是制約web信息抽取技術(shù)廣泛應(yīng)用的兩個(gè)主要瓶頸。信息抽取的準(zhǔn)確率,對(duì)不同語言和不同類別的文本的適應(yīng)性還有待提高,在自然語言處理中的核心問題仍未完全解決,而且與國外相比,我們?cè)谛畔⒊槿∠到y(tǒng)的研究上仍存在很大的差距。

因此,以下問題將是今后Web信息抽取技術(shù)研究的熱點(diǎn)問題:

1.如何提高Web信息抽取系統(tǒng)抽取范圍的全面性。

2.如何簡(jiǎn)化學(xué)習(xí)過程,提高自動(dòng)化程度。

3.如何提高系統(tǒng)對(duì)新網(wǎng)頁的適應(yīng)性,增強(qiáng)系統(tǒng)對(duì)Web信息抽取的適應(yīng)性。

4.如何加強(qiáng)對(duì)已有抽取規(guī)則的歸納,提高系統(tǒng)的抽取效率和準(zhǔn)確性。

5.Web上的信息和網(wǎng)頁結(jié)構(gòu)處于不斷的更新和變化中,因此應(yīng)如何感知Web信息和結(jié)構(gòu)的更新變化。

6.目前的Web信息抽取工具一般都是通過學(xué)習(xí)之后可以對(duì)結(jié)構(gòu)相似的一類網(wǎng)頁進(jìn)行抽取,因此應(yīng)如何判斷結(jié)構(gòu)相似,如何提高系統(tǒng)的性能、可移植性的設(shè)計(jì)以及適應(yīng)多語種的能力。

7.在中文Web信息抽取系統(tǒng)的研究方面,應(yīng)如何借鑒國外比較成熟的系統(tǒng)構(gòu)建技術(shù),并結(jié)合漢語的特殊性,充分利用一些基礎(chǔ)的漢語研究成果來構(gòu)建高效、精確的中文Web信息抽取系統(tǒng)。

(六)結(jié)束語

Web信息抽取是目前最活躍的研究領(lǐng)域之一,特別是經(jīng)過最近十幾年的發(fā)展,Web信息抽取作為一種能幫助人們?cè)诤A啃畔⒅醒杆僬业剿栊畔⒌募夹g(shù)越來越受到重視。盡管目前該領(lǐng)域研究已經(jīng)取得了一定的進(jìn)展,但仍然存在一些問題有待解決。相信隨著領(lǐng)域?qū)<覍?duì)Web信息抽取領(lǐng)域的研究的逐漸深入,難題逐漸被解決,越來越多的好技術(shù)應(yīng)用到該領(lǐng)域,Web信息抽取技術(shù)必將得到更大的發(fā)展和更廣泛的應(yīng)用。

[1] 劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(7):6-9.

[2] 柳佳剛,劉高嵩,賀令亞,陳山.基于Web 的信息抽取技術(shù)現(xiàn)狀與發(fā)展[J].福建電腦,2007(7):48-49.

[3] Ping Zhong; Jinlin Chen; Cook T.;“Web Information Extraction Using Generalized Hidden Markov Model”, Hot Topics in Web Systems and Technologies, 2006. HOTWEB'06. 1st IEEE Workshop on 13-14 Nov.2006 Page(s):1-8

[4] Ping Zhong; Jinlin Chen;“A Generalized Hidden Markov Model Approach for Web Information Extraction”Web Intelligence, 2006. WI 2006. IEEE/WIC/ACM International Conference on18-22 Dec. 2006 Page(s):709-718.

TP393.02

A

1008-1151(2010)04-0048-02

2010-01-20

李斌(1980-),男,遼寧西豐人,中國醫(yī)科大學(xué)附屬第一醫(yī)院(遼寧沈陽)信息中心助理工程師,研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)交換路由技術(shù)、數(shù)據(jù)倉庫等。

猜你喜歡
文本信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
主站蜘蛛池模板: 亚洲激情区| 波多野结衣在线se| 无码中文AⅤ在线观看| 国产成人av一区二区三区| 亚洲av无码久久无遮挡| 国产又大又粗又猛又爽的视频| 久久窝窝国产精品午夜看片| 人妻中文字幕无码久久一区| 综合色区亚洲熟妇在线| 亚洲精品在线91| 青草视频在线观看国产| 国国产a国产片免费麻豆| 少妇精品在线| 亚洲国产综合自在线另类| 欧美一区二区精品久久久| 久久亚洲精少妇毛片午夜无码| 女人18一级毛片免费观看| 亚洲精品另类| 免费啪啪网址| 国产激情国语对白普通话| 日本高清在线看免费观看| 大学生久久香蕉国产线观看 | 国产欧美精品专区一区二区| 亚洲天堂免费| AV网站中文| 国产靠逼视频| 激情视频综合网| 久久国产毛片| 国产精品人人做人人爽人人添| 国产无吗一区二区三区在线欢| 亚洲男人的天堂网| WWW丫丫国产成人精品| 亚洲精品自产拍在线观看APP| 99热最新网址| 青青青草国产| 高清国产在线| 国产福利在线免费| 爆操波多野结衣| 久久精品国产精品青草app| 精品久久久久久中文字幕女 | 国产伦精品一区二区三区视频优播 | 国产尤物在线播放| 欧美午夜在线观看| 久久综合丝袜长腿丝袜| 永久在线播放| 九九热这里只有国产精品| 在线观看热码亚洲av每日更新| 国产三级视频网站| 一级看片免费视频| 在线国产资源| 情侣午夜国产在线一区无码| 狠狠色综合久久狠狠色综合| 亚洲一区二区成人| 国产乱人伦偷精品视频AAA| 色综合天天综合中文网| 久久精品亚洲中文字幕乱码| 青青草91视频| 亚洲av无码牛牛影视在线二区| 成人在线综合| 91在线视频福利| 亚洲午夜福利精品无码| 波多野结衣亚洲一区| 一级一级一片免费| 日本欧美成人免费| 中文字幕在线一区二区在线| 精品免费在线视频| 亚洲AV无码久久精品色欲| 中文字幕免费播放| 91香蕉国产亚洲一二三区| 91一级片| 最新国产成人剧情在线播放| 无码在线激情片| 午夜国产精品视频黄| 久久婷婷综合色一区二区| 最新国产麻豆aⅴ精品无| 99在线国产| 偷拍久久网| 久无码久无码av无码| 免费国产一级 片内射老| 国产美女精品人人做人人爽| 看你懂的巨臀中文字幕一区二区 | 91网址在线播放|