999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息抽取技術的發展現狀及構建方法的研究

2007-12-31 00:00:00賈惠波
計算機應用研究 2007年7期

摘要:介紹了信息抽取(IE)技術的基本概念、信息抽取系統的抽取過程。對現有的信息抽取系統構建方法進行了分類和介紹,并對這些方法進行了討論和比較,同時指出了構建中文信息抽取系統所需要解決的關鍵的基礎問題。

關鍵詞:自然語言處理; 信息抽??; 構建信息抽取系統方法

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2007)07-0006-04

隨著計算機在各個領域的廣泛普及和Internet的迅猛發展,社會的信息總量呈指數級增長。信息總量的量級,從20世紀90年代初的MB(106)過渡到GB(109)再到現在的TB(1012)。進入21世紀后,全世界信息總量更是以每三年增加一倍的速度遞增。據統計,在這些海量信息中,有60%~70%是以電子文檔的形式存在。為了應對信息爆炸帶來的挑戰,迫切需要一些自動化的技術幫助人們在海量信息中迅速找到自己真正需要的信息。信息抽取(Information Extraction,IE)正是解決這個問題的一種方法。

1信息抽取的定義和任務

信息抽取技術是指從一段文本中抽取指定的事件、事實等信息,形成結構化的數據并存入一個數據庫,供用戶查詢和使用的過程。也就是從文本中抽取用戶感興趣的事件、實體和關系,被抽取出來的信息以結構化的形式描述,然后存儲在數據庫中,為情報分析和檢測、比價購物、自動文摘、文本分類等各種應用提供服務。廣義上信息抽取技術的抽取對象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對象,而抽取的結果則變為相應的結構化數據。廣義上信息抽取的過程如圖1所示。

信息抽取技術的最終目的就是開發實用的信息抽取系統,從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取技術在軍事、經濟、醫學、科學研究等領域有著極大的應用空間。

與信息抽取密切相關的一項研究是信息檢索(Information Retrieval,IR)技術。但是信息抽取與信息檢索又有區別,其主要區別如表1所示。

表1信息抽取與信息檢索的區別

雖然信息抽取與信息檢索有區別,但兩種技術是互補的。在海量文本的處理過程中,信息抽取系統往往是以信息檢索系統的輸出為輸入,而信息抽取技術又可以用來提高信息檢索系統的性能。

2信息抽取技術的研究對象及信息抽取過程

信息抽取技術的研究對象主要分為三種[1]:①結構化文本(Structured Text)。它是指按照一定格式嚴格生成的文本,如數據庫中的文本信息等。對此類文本的信息抽取非常容易,準確率也非常高。

②自由文本(Free Text)。它是指文本中文字合乎于自然語法規則的文本,如新聞報道、科技文獻、政府文件等。

③半結構化文本(Semi-structured Text)。它是介于結構化文本和自由文本之間、文本的文字不完全符合自然語法規則的文本。這類文本一般比較簡短,沒有固定的形式,如電報報文、分析報表、簡短廣告文等。隨著Internet的普及,出現了大量的網頁。其中需要運用NLP(自然語言處理)技術才能實現信息抽取的網頁也屬于非結構化文本[2]。處理這類文本的信息抽取技術叫Web信息抽取技術,目前已經成為了信息抽取技術的一個重要分支。

信息抽取可以理解為一個從待處理文本中抽取信息,并依次填入輸出模板(Template)相應的槽(Slot)中的過程。輸出模板是由多個槽組成,它是信息抽取系統結構化的輸出結果。運用完全(深層)句法分析(Full Syntactic Analysis)或淺層句法分析(Shallow Syntactic Analysis)的信息抽取系統的結構會有一些不同,但是它們的主要結構都可以由圖2所示的結構表示。

這個通用的信息抽取系統結構是由C. Cardie[3]提出的。該結構由五個步驟組成:①符號化和標注(Tokenization and Tagging)。輸入文檔首先經過分段、分句后進行詞性標注,有些系統還會加入語義標注。對于中文文檔而言,在文檔完成了分句后還要進行自動分詞的處理。由于漢語本身的特點,該步驟的處理對于中文信息抽取系統的性能起著比較關鍵的作用。②句法分析(Sentence Analysis)。信息抽取系統將識別待處理文本的名詞短語、動詞短語等各種語法結構,并選擇一步或多步策略進行句法分析,以識別與抽取任務相關的各類命名實體(NE)。③抽?。‥xtraction)。系統利用與領域相關的抽取模式來識別待處理文本中各個命名實體間的關系,根據抽取任務將需要抽取的信息抽取出來,并填入到輸出模板的槽中。④指代合并(Merging)。它主要解決待處理文本中命名實體的指代重復問題(Coreference Resolution)。系統如果發現兩個指代都指向同一個命名實體,則將兩個指代合并。讓信息抽取系統識別待處理文本中相同命名實體的不同表達式,并將它們合并是一項比較艱巨的任務。這個問題解決的好壞直接影響著信息抽取系統的性能。⑤模板生成(Template Generation)。這一步主要完成推理和新模板生成的工作。推理是根據抽取任務并結合領域知識來對待處理文本進行推斷以得出抽取信息。當待處理文檔中包含多個事件(Event)時,則需要生成多個模板分別對這些事件進行信息抽取。

3信息抽取系統的構建方法

3.1自由文本信息抽取系統的構建方法

在信息抽取技術的三種處理對象中,對自由文本進行信息抽取需要運用許多自然語言處理(NLP)知識,所以自由文本信息抽取系統的構建是比較復雜和困難的。在信息抽取系統的構建過程中,最重要的是如何實現抽取模式(Extraction Pattern)的獲得[4]。根據抽取模式獲得的方式的不同,信息抽取系統的構建主要有兩種方法[5],即知識工程方法(Knowledge Engineering Approach)和機器學習方法(Machine Learning Approach)。知識工程(KE)方法依靠人工編寫抽取模式,使系統能處理特定知識領域的信息抽取問題。這種方法要求編寫抽取模式的知識工程師對該知識領域有深入的了解。機器學習(ML)方法是利用機器學習技術讓信息抽取系統通過訓練文本來獲得抽取模式,實現特定領域的信息抽取功能。任何對該知識領域比較熟悉的人都可以根據事先約定的規則來標記訓練文本。利用這些訓練文本訓練后,系統能夠處理沒有標記的新的文本。知識工程方法的設計初始階段較容易,但是要實現較完善的規則庫的過程往往比較耗時耗力。自動學習方法抽取規則的獲取是通過學習自動獲得的,但是該方法需要足夠數量的訓練數據,才能保證系統的抽取質量。

早期出現的信息抽取系統[6]往往是通過知識工程方法建立的。這些信息抽取系統依賴于人們手工建立的抽取模式,而這些規則很難保證具有整體的系統性和邏輯性。并且這些規則領域相關性較高?;谥R工程方法建立的信息抽取系統移植性較差。因此,尋找一種更加快速有效的方法讓信息抽取系統自動獲取抽取模式變得十分迫切和重要。這種形勢使得機器學習方法在信息抽取領域的研究受到了廣泛的關注[7,8]。

機器學習方法根據訓練文本是否經過人工標注,又可分為[5]有指導的機器學習方法(Supervised Machine Learning,S-ML)和無指導的機器學習方法(Un-supervised Machine Lear-ning)。其中有指導的機器學習方法的研究起步較早。經過十幾年的研究和發展,目前利用這種方法國外已經開發出不少實用的信息抽取系統。這些系統中的S-ML方法可以分為以下幾類:

(1)基于特征向量的機器學習方法。這類方法將信息抽取問題轉換為一個分類問題。首先將訓練語料和測試語料都轉換為特征向量,通過給定的訓練數據構造一個分類函數,使得這個分類函數能夠對新數據進行正確分類,以實現信息抽取。常用的基于特征向量的機器學習方法有支持向量機(SVM)[9]和Winnow[10]等。

(2)基于統計模型的機器學習方法。這類方法是根據統計學原理,首先構造一個模型以模擬信息抽取的過程,應用統計學方法從訓練語料中得出模型的參數;然后用訓練好的模型對待抽取語料進行信息抽取。基于統計模型的機器學習方法就是從訓練數據中構造一個抽取模型,模型的各個參數都是從訓練數據中估算獲得??梢钥吹?,這類方法是對訓練數據進行歸納和總結,然后將歸納和總結的結果運用于待處理語料來完成信息抽取的方法。這類方法所利用的統計學模型主要有隱馬爾可夫模型(Hidden Markov Model)、最大熵模型(Maximum Entropy Model)和條件隨機場模型(Conditional Random Fields Model)。

上述兩種方法均需要將語料數據轉換成特征向量形式。但在有些情況下,語料中的文本數據不易于通過特征向量形式表示出來,所以就產生了基于Kernel的機器學習方法。

(3)基于Kernel的機器學習方法。該方法最早在支持向量機(SVM)方法中被引入[11]。經過后來的發展發現多種學習方法都可以使用Kernel形式來表示,這些學習方法又被稱為Kernel(核函數)的學習方法。這種方法是建立在核函數理論基礎上的,其出現使得模式分析能夠進行高維計算,同時也很好地解決了非線性問題。在自然語言處理領域中基于Kernel的機器學習方法與基于特征向量的機器學習方法不同,它無須將待處理的文本數據構造成特征向量,而只需直接使用字符串的原始形式作為處理對象,通過計算對象間的Kernel(Similarity)函數來實現信息抽取。Zelenko[12]利用基于Kernel的機器學習方法實現了實體關系的抽取問題。他們首先在文本淺層解析表示的基礎上定義了核函數,并設計了一個用于計算核的動態規劃算法,然后分別應用SVM和表決感知器(Voted Perceptron)算法來實現實體關系的自動抽取。在處理大量數據時如何提高訓練和預測的速度,是基于Kernel的機器學習方法所需要解決的。

(4)多種機器學習方法的集成。這類方法是將不同的機器學習方法集成為一個系統,使信息抽取系統的性能得到良好的改善。這種性能的改善是因為不同的機器學習方法都有著自身的優缺點,將不同的機器學習方法集成,則可以取得這些方法的合力以提升系統的性能。當前比較熱門的集成技術有Boosting技術、Bagging技術和Stacking技術等[13~15]。但是由于集成技術的采用,在提高了信息抽取系統性能的同時,也使得估計參數的計算量加大?;谟兄笇У臋C器學習方法實現了抽取模式的自動獲得,比基于知識工程方法有一定的優越性。但是,S-ML方法需要大量的標注訓練語料的支持,而創建新的標注語料庫的代價也是較高的。所以近年來有許多研究集中于無指導學習(或稱弱指導學習)。基于這種方法的信息抽取系統不需要標注過的訓練語料便可完成抽取模式的獲得。這類方法主要可以分為以下兩種:①主動學習方法(Active Learning)。它是由Thompson等人[16]提出的。這種方法是從未標注的語料中選擇測試例子,并將這些例子以一定的方式加入到訓練集中。當某個例子產生不同的標注時,則將那個例子反饋給人進行標注。主動學習的核心思想就是一種篩選出對標注結果重要的文檔,并將這類文檔提交給人進行標注選擇的策略。②互訓練方法(Co-Training)。它是由Blum等人[17]提出的。這種方法將量相對少的手工標注語料與大量未標注語料組合,通過小規模的已標注語料自擴展(Bootstrapping)方法生成大規模的標注語料庫,以實現抽取任務的需要。

基于無指導學習的機器學習方法的研究目前還處于實驗階段,還有許多問題需要解決,如特征空間冗余性的問題等。

3.2半機構化文本信息抽取系統的構建方法

上述信息抽取系統的構建方法都是以自由文本為處理對象。隨著因特網的普及,網上提供了海量的包括半結構化數據的信息源——網頁。網頁與傳統的自由文本相比有許多特點,即數據量大、更新快、變化快、形式多樣,還包括超鏈接且跨平臺和網站共享,處理自由文本的信息抽取技術不太適用于對網頁的信息抽取。因此需要開發一種合適的信息抽取技術來從大量不同的網頁中抽取信息。

這種需求造就了分裝器(Wrapper,也稱包裝器)生成研究技術的發展。分裝器是一個程序,用于從特定信息源中抽取相關內容,并以特定形式加以表示。在數據庫環境下,分裝器是軟件的組成部分,負責把數據和查詢請求從一種模式轉換成另外一種模式。在因特網環境下,分裝器的目的是把網頁中儲存的信息用結構化的形式儲存起來,以方便下一步的處理。

分裝器實質上是針對某一特定信息源的信息抽取應用系統。分裝器生成(Wrapper Generation,WG)技術已經成為了信息抽取技術的一個重要分支。分裝器生成方法分為人工方法[18]和自動生成方法[19]。在人工方法中,分裝器可由程序員直接編寫,或手工指定網站結構再由程序自動生成規則和代碼。這兩個過程都是費時費力的,而且網頁的結構經常變化,新網頁層出不窮,因而必須建造新的分裝器以適應這些變化。因此WG方法轉向了自動生成方法的研究上。在這種方法中,分裝器的自動生成是通過機器學習中的歸納學習方法來實現的。歸納學習法是從一些實例中完成未知目標概念的計算任務,是對現象的一種概括。歸納學習法是通過推論來完成的。推論是一種從部分到整體、從個別到一般、從個體到普遍的推理過程。

目前國外已經出現了許多基于分裝器生成技術的商業化網站。其中比較出色的是比價購物系統,如Jango[20]和Junglee[21]。其中Jango系統在線進行信息抽??;Junglee系統先抽取數據并將其儲存在數據庫中,然后用數據庫作為比價系統的信息源??梢灶A見,隨著網上結構化數據的不斷增加,WG技術的研究將越來越受到重視。

近年來,基于本體(Ontology)的信息集成技術受到了大量的關注,并廣泛應用于半結構化信息抽取技術中[22]。本體論是哲學的分支,是研究客觀事物存在的本質,它與認識論(Epistemology)是相對的。在自然語言處理中,Ontology被認為是“特定領域內概念及概念之間關系的集合”[23],它能夠有效地表達特定領域內的概念、實體、關系等通用知識,能夠幫助提高信息抽取系統的抽取性能。更為重要的是基于Ontology的信息抽取模型非常適合作為下一代Web技術的通用語義抽取模型,因為下一代Web技術——Semantic Web[24]是基于本體的Web技術。

4中文信息抽取技術的發展情況

中文信息抽取方面的研究起步較晚,并且由于中文本身的特殊性,構建中文信息抽取系統要比構建英文等其他西文信息抽取系統要困難得多。目前的主要研究工作還集中在對中文命名實體的識別及其他的簡單抽取任務,設計實現完整的中文信息抽取系統方面還處在探索階段。我國臺灣的國立臺灣大學(National Taiwan University)和新加坡肯特崗數字實驗室(Kent Ridge Digital Labs)[25]參加了MUC7中文命名實體識別任務的評測。Intel中國研究中心的ZHANG Yimin等人[26]在ACL2000上演示了他們開發的一個抽取中文命名實體及其關系的信息抽取系統。該系統利用基于記憶學習(Memory-Based Learning,MBL)算法獲取規則從而實現信息抽取。這些系統在中文命名實體的自動識別方面取得了一些成績。車萬翔等人[27]使用基于特征向量的有監督的機器學習算法(SVM和Winnow)對實體關系進行抽取。兩種算法都選擇命名實體左右兩個詞為特征詞,并得出結論:信息抽取系統若需要追求抽取的高性能,則選擇SVM算法;若需要追求高的學習效率,則選擇Winnow算法。

5結束語

信息抽取作為一種能幫助人們在海量信息中迅速找到所需信息的技術越來越受到重視。目前國外出現了許多實用化、商業化的信息抽取系統,也有許多公司以此為經營項目,如美國的Cymfony公司(http://www.cymfony.com)等。信息抽取技術同時也是實現基于內容檢索、自動文摘等其他文本信息處理技術的一個強有力的工具。

信息抽取系統的構建有兩種方法,目前基于機器學習的方法是主要的研究熱點,其相對于基于知識工程的信息抽取系統構建方法有著許多優點。但是同時也面臨著如無法快速獲取大規模標注語料等困難?;诜侵笇У臋C器學習方法在一定程度上解決了這個困難,但是這種方法的研究目前還處在起步階段。隨著因特網的普及,網上信息抽取技術成為了信息抽取技術的一個重要分支,目前也得到了廣泛的關注。

中文相對于英文等其他西方文字有著自身獨有的特點,如書面漢語書寫習慣、漢語詞的形態缺乏和語法靈活多變等。這些特點使得中文信息抽取中語義和句法分析變得更加復雜和困難。信息抽取的第一步,即符號化和標注中的分詞處理及詞性標注的結果對中文信息抽取系統最終的性能起著非常關鍵的作用。因此中文信息抽取系統的構建相對于英文等其他西文信息抽取系統的構建來說需要面對更大的挑戰。

參考文獻:

[1]EIKVIK L. Information extraction from World Wide Web: a survey[M]. Norway: Norweigan Computing Center, 1999:8-9.

[2]HSU C H, DUNG M T. Generating finite-sate transducers for semi-structured data extraction from the Web[J]. Information Systems, 1998,23(8):521-538.

[3]CARDIE C. Empirical methods in information extraction[J]. AI Magazine, 1997,18(4):65-78.

[4]MUSLEA I. Extraction patterns for information extraction tasks: a survey: proc.of AAAI Workshop on Machine Learning for Information Extraction[C]. Orlando, Florida:[s.n.], 1999.

[5]APPELT D D . Introduction to information extraction[J]. AI Commun. 1999,12(3):161-172.

[6]AONE C, HALVERSON L, HAMPTON T, et al. SRA: description of the IE2 system used for MUC-7: proc.of MUC-7[C].Fairfax,Virginia:[s.n.], 1998.

[7]MILLER S, CRYSTAL M, FOX H, et al. Algorithms that learn to extract information-BBN: description of the SIFT system as used for MUC-7: proc.of MUC-7[C].Fairfax,Virginia:[s.n.], 1998.

[8]CIRAVEGNA F. Adaptive information extraction from text by rule induction and generalization: proc.of the 17th International Joint Conf.on Artificial Intelligence[C].Seattle:[s.n.], 2001.

[9]CRISTIANINI N, SHAWE J T. An introduction to support vector machines[M]. Cambridge: Cambridge University Press, 2000:35-38.

[10]ZHANG T. Regularized winnow methods: Neural Information Proces-sing Systems[C].[S.l.]:[s.n.], 2001:703-709.

[11]HAUSSLER D. Convolution kernels on discrete structures[R].California: University of California, 1999:7-10.

[12]ZELENKO D, AONE C, RICHARDELLA A. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2003,3:1083-1106.

[13]THOMAS G D. An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and rando-mization[J]. Machine Learning, 2000,40(2):139-157.

[14]ALLWEIN E L, SCHAPIRE R E, SINGER Y. Reducing multi class to binary: a unifying approach for margin classifiers[J]. Journal of Machine Learning Research, 2000,1:113-141.

[15]FLORIAN R, ITTYCHERIAH A. Named entity recognition through classifier combination: proc.of the 7th Co NLL Conference[C]. Edmonton:[s.n.], 2003:168-171.

[16]THOMPSON C A, CALIFF M E, MOONEY R J. Active learning for natural language parsing and information extraction: proc.of the 16th International Machine Learning Conference[C]. Slovenia:[s.n.], 1999:406-414.

[17]AVRIM B, MITCHELL T. Combining labeled and unlabeled data with co-training: proc.of the Workshop on Computational Learning Theory[C].Amsterdam:Morgan Kaufmann Publishers, 1998.

[18]CHAWATHE S, GARCIA-MOLINA H, HAMMER J, et al. The TSIMMIS project: integration of heterogeneous Information sources: proc.of IPSJ Conference[C]. Tokyo, Japan:[s.n.], 1994:7-18.

[19]MUGGLETON S, FENG C. Efficient induction of logic programs: proc.of the 1st Conference on Algorithmic Learning Theory[C].New York:[s.n.], 1990.

[20]DORRENBOS R B, ETZIONI O, WELD D S. A scalable comparison-shopping agent for the World Wide Web[M]. CA, USA: ACM Press, 1997:39-48.

[21]PRASAD S, RAJARAMAN A. Virtual database technology, XML, and the evolution of the Web[J]. Data Engineering, 1998,21(2):48-52.

[22]FENSEL D, HARMELEN V F, HORROCKS I, et al. OIL: an onto-logy infrastructure for the semantic Web[J]. Intelligent Systems, 2001,16(2):38-44.

[23]NECHES R, FIKES R E, GRUBER T R, et al. Enabling technology of knowledge sharing[J]. AI Magazine, 1991,12(3):35-36.

[24]Semantic Web[EB/OL].[2006-01].http://www.w3.org/2001/sw/.

[25]CHINCHOR N, MARSH E. MUC-7 information extraction task definition(version 5.1): proc.of the 7th Message Understanding Confe-rence[C].[S.l.]:[s.n.], 1998.

[26]ZHANG Yimin, ZHOU J F. A trainable method for extracting Chinese entity names an their relations: proc.of the 2nd Chinese Language Processing Workshop[C].Hong Kong:[s.n.], 2000.

[27]車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報,2005,19(2):1-6.

注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 国产在线日本| 亚洲美女操| 亚洲无卡视频| 国产精品内射视频| 亚洲无码日韩一区| 伊人色天堂| av色爱 天堂网| 日韩成人高清无码| 亚洲V日韩V无码一区二区| 精品国产毛片| 亚洲国产成人无码AV在线影院L| 日韩黄色在线| 区国产精品搜索视频| 国产青榴视频| 国产精品成人免费视频99| 本亚洲精品网站| 激情综合激情| 91福利免费| 2021国产精品自拍| 欧美.成人.综合在线| 国产欧美日韩另类精彩视频| 2020精品极品国产色在线观看| 日本久久网站| 亚洲中文精品人人永久免费| 老司机aⅴ在线精品导航| 99热这里只有精品在线观看| 国产精品无码影视久久久久久久| 亚洲欧美色中文字幕| 亚洲综合中文字幕国产精品欧美 | 日韩av无码精品专区| 国产成人久久综合777777麻豆| 91精品人妻互换| 亚洲精品成人7777在线观看| 日本成人福利视频| 中文字幕免费视频| 日本一区二区三区精品国产| 欧美在线导航| 精品国产乱码久久久久久一区二区| 激情无码视频在线看| 久久夜夜视频| 成人a免费α片在线视频网站| 亚洲欧美另类视频| 一级毛片在线播放免费观看| 国产在线91在线电影| 亚洲视频在线青青| 亚洲欧美成人在线视频| 亚洲人精品亚洲人成在线| 2021最新国产精品网站| 精品国产www| 免费人成视网站在线不卡| 色成人亚洲| 欧美日韩亚洲综合在线观看| 国产精品自拍合集| 亚洲日韩高清在线亚洲专区| 一级毛片免费的| 国产福利不卡视频| 亚洲欧美激情小说另类| 亚洲欧洲日韩综合色天使| 国产区在线观看视频| 色婷婷综合激情视频免费看| 日韩高清一区 | 国产美女一级毛片| 久久精品66| 国产成人啪视频一区二区三区| 欧美色视频日本| 亚洲最大综合网| 免费国产好深啊好涨好硬视频| 91色综合综合热五月激情| 国内毛片视频| 99热最新网址| 夜夜操国产| 国产清纯在线一区二区WWW| 女同国产精品一区二区| 久久久亚洲色| 一级片免费网站| 国产69囗曝护士吞精在线视频| 日韩区欧美区| 亚洲天堂久久新| 久久狠狠色噜噜狠狠狠狠97视色| 日韩视频免费| 国产亚洲欧美日韩在线一区| 欧美精品亚洲精品日韩专区|