999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識抽取國內研究現狀分析

2017-05-17 03:28:54馮青文
常州信息職業技術學院學報 2017年2期
關鍵詞:概念文本信息

馮青文

(鄭州大學信息管理學院 河南鄭州 450001)

?

知識抽取國內研究現狀分析

馮青文

(鄭州大學信息管理學院 河南鄭州 450001)

知識抽取在網絡資源組織與建設中不可或缺。在知網上選取2008—2016年知識抽取研究的文獻期刊共計100篇,并對其進行分類,分為技術工具、概念理論、應用和其他相關4類。通過對各類進行歸納總結,分析其數據和內容上的差異和趨勢,從而對知識抽取國內研究的整體現狀進行評估和分析。

知識抽取; 技術; 應用; 理論; 現狀

0 引言

知識抽取是信息資源建設中的關鍵環節,一直以來被眾多學者所關注,研究方向多種多樣,包括概念理論的研究、技術方法、應用等多個方面。通過文獻計量分析和對文獻內容的研究,揭示了知識抽取研究的現狀,尤其是近兩年,熱點多集中在知識融合、知識庫的建立、在各個領域中的應用等。通過對國內知識抽取研究的現狀進行分析,同時提出了知識抽取未來研究的重點。

1 知識抽取概念及研究意義

知識抽取(Knowledge Extraction)是指把蘊含于信息源中的知識經過識別、理解、篩選、歸納等過程抽取出來,存儲形成知識元庫。即是指基于給定的本體從文本中抽取與既定本體相匹配的知識內容。

隨著網絡和計算機的發展,信息資源更新速度快且數量龐大,其中蘊含著豐富的可用知識和很高的研究價值。在這樣的大數據且信息資源低密度的前提下,知識抽取具有很大的研究意義。這些網絡化、數字化的信息資源的存在形式大多是自由、半結構化或者非結構化的,信息數量繁雜且實時更新,而知識抽取則能夠利用相關技術和方法從信息中抽取出用戶所需要的知識,從而實現信息資源的有效利用。首先,知識抽取也是重點研究的領域之一,如自然語言處理、語義web、機器學習、知識工程、知識發現、文本挖掘等相關領域。其次,文獻處理的力度可以通過知識抽取從篇章層次細分到句段層次,從而實現文獻在知識單元上的組織、管理以及利用。由于知識抽取的應用廣泛性,不管是人們日常生活中所接觸的輿情監測、自動問答、知識導航,還是具有專業性的領域描繪、安防計算機網絡系統等,知識抽取都有著不可替代的影響作用。從海量信息中抽取知識是人們運用知識和創造知識的基礎和不竭的動力,也是各類信息機構和人才邁向知識服務和知識共享服務進步的階梯[1-2]。

知識是以不特定的形式存在于知識源中的,所以知識抽取難處在于對知識源里的數據處理分析,如何發掘知識源中的有用知識?方法就是對知識源中存在的數據進行分析、識別、解析、聯系等處理。但是這一類的數據處理經常由于知識源里的數據形態的不同而在難度上表現出不同。數據庫或文本數據中的知識雖然有顯式的數據表達形式,但機器學習技術依舊不可以實現自動獲取。

當前知識抽取的獲取方式還是手工以及機器輔助。例如,在獲得這部分領域專家經驗時,知識工程師與專家直接交流、深入討論是必不可少的,現場解決問題也需要領域專家經過長時間的交流學習,需要知識工程師真正明白專家口述或行為中所包含的隱性知識,并通過對其“經驗”的數學分析,建立數學模型,將知識形式表示出來,最終進入計算機里。

2 相關研究歸類分析

本文在知網上選取2008—2016年的與知識抽取相關的期刊文獻,并將其進行歸類,技術工具相關為27篇,理論相關為15篇,應用為17篇,其他相關為41篇,共計100篇。對相關文獻期刊進行分類統計如表1所示。

表1 2008-2016年知識抽取文獻分類統計表

由表1可知,2013—2016年有關知識抽取研究的期刊文獻總共35篇,2008—2012年65篇。可見,近四年知識抽取研究內容較少,尤其是2014年和2015年。而相比之下,2016年的研究較多且多為技術工具類和其他相關類。

本文對知識抽取2008—2016年的100篇期刊文獻進行分類研究如下。

2.1 知識抽取概念理論研究方面

在15篇概念理論研究中,主要分為以下幾個方面:知識抽取在某種概念或環境下的特點;其發展趨勢和應用前景;知識抽取系統研究;技術綜述和文本抽取等。

傳統的抽取方式大多以規則和學習為基礎,而隨著大數據時代的到來,網絡環境下信息數量大,密度低,知識抽取的對象多且復雜,國內外逐漸開始采用機器學習和自然語言分析技術相結合的方法進行信息的抽取。網絡環境下知識抽取開始表現出技術采納集成化、本體應用基礎化、處理對象整合化、覆蓋范圍擴大化和終端服務人性化的新特點。模板挖掘擁有廣泛的應用前景,通過對自然語言文本進行模式識別和模式匹配的利用,從而從各類型數據庫以及數字文獻里抽取各種各樣的信息,以及通過知識抽取從網絡自由文本里獲取結構化信息與數值數據。

在MUC相關會議的促進下,知識抽取技術在國外得到了快速的發展壯大。系統的知識抽取功能應運而生:① 自適應信息抽取系統是由謝菲爾德大學計算機系Fabio Ciravegna開發研究的,這個系統的核心在于語義網框架的文本標注。② Pythor是Sergey Brin設計的一個基于DIPR方法的知識抽取系統。③ TEXTRUNNER是圖靈中心在2007年研發的一種信息抽取系統,該系統采用開放信息抽取的方法。④TEXT2Onto是Philipp Cimiano 等人開發的基于本體學習方法的信息抽取系統。相比較而言,國內知識抽取起步較晚,毛永吉等設計出了一種基于SELD的語言的知識抽取系統SELKAS。知識抽取系統會用到本體和自然語言處理技術。任何的抽取方式,知識抽取都會在全程中體現本體,在知識抽取中起到重要作用的還有自然語言處理技術。知識抽取方法也是相互融合的,知識抽取研究的擴大也會在知識抽取系統中發揮各自的優勢。

2.2 知識抽取技術方法研究方面

在27篇技術工具文獻研究中,主要研究技術方向有以下幾類:概念格技術(2013年之前);NLP(自然語言處理技術);基于本體的知識抽取技術;機器學習(近兩年較多);XML(Extensible Markup Language)可擴展標記語言及去停用詞處理技術等。

以下對主要技術進行闡述[3-7]。

2.2.1 概念格技術

互聯網上網站的增加使信息資源增長,“信息爆炸”是個不能忽略的問題,即信息粗放發展但是知識貧乏。

概念格的思想是具有強烈的數學屬性的,在序理論和完備格理論的基礎上,基于數據庫的信息建立反映其對象和屬性關系的數學結構。這個過程有特征的建立、特征集縮減、知識的提取和模型質量評價。概念格技術可以幫助用戶高效地抽取隱含在網站信息資源中潛在的以及有價值的知識。其次,概念格還能反映概念層次結構。數據庫中的知識挖掘很適用于此,它是數據分析和規則提取的有效工具。除此之外,在知識工程、數據挖掘、信息檢索、軟件工程等相關領域已被大范圍應用。

Web文本生成概念格是一種概念聚類的過程,Web文本的建立是一個有意義的集合看清概念的層次結構,從而在Web文本和概念之間挖掘它們的關系,從概念格中可以得到形式概念及它們之間的關系,可以解決搜索引擎檢索Web文本信息時出現的一系列問題。

2.2.2 自然語言處理技術

自然語言處理(NLP)是計算機科學、人工智能、語言學關注計算機和人類語言之間的相互作用的領域。其在知識抽取系統中都占據著十分重要的地位。機器學習最早起源在20世紀60年代,國外有大量的學者機構進行機器翻譯研究。但直到20世紀90年代才有了一些突破性的進展。

由于知識抽取的文本來源十分廣泛,主要有結構化文本、半結構化文本和非結構化文本。運用自然語言處理技術進行知識抽取時,通常要經過分詞、詞性標注、句法分析和語義分析,并從其信息語段中抽取出概念、屬性、事實及其相關關系、約束條件等,最后將提取出來的知識通過自然語言描述轉換為計算機可識別的分析形式并存入知識庫中。

例如在基于知識庫的半自動知識抽取中,運用詞典把自然語言實體翻譯成概念實體,并用背景知識庫建立新的知識庫;在基于本體的知識抽取系統架構中,從PubMed中選取文獻,用敘詞表(包括 WordNet、醫學主題詞表、基因本體)標注文獻中的術語,然后用模式匹配對術語進行義項標注。最后把句型語法映射成領域本體的語義結構,在期刊文獻里抽取知識。在這些知識抽取的過程中,自然語言處理技術是不可或缺的,它實現人機間的自然語言通信。

從現有的理論和技術的發展水平來看,自然語言處理貼合生活,如全文信息檢索系統、谷歌、百度等機器翻譯軟件系統的大規模應用。但是仍面臨著一系列的技術問題:語法還是限定在單句中;處理后的語言很難滿足專業性的要求;對于某些語言的表達停留在表面。這需要專業的語言專家和技術人員共同努力。

2.2.3 基于本體的知識抽取技術

隨著人工智能的發展,很多學者都進行本體的研究。在研究早期,Neches給出了一個定義,即本體(Ontology)定義了組成主題領域的詞匯表的基本術語及其關系,以及結合這些術語和關系來定義詞匯表外延的規則。

本體是一種元模型,提供各個領域的標準術語和要領。本體能將知識體系化、結構化、標準化,也使存在于客觀世界的無意識的隱性知識形式化。本體的分析澄清了領域知識的結構,確定該領域內共同認可的詞匯術語,通過構建統一的規范模型來縮小概念和術語上的差異性,同時使不同領域人員之間實現信息的共享和交換。

歸納了4種主要的技術方法:基于實例的OBIE、基于規則的OBIE、基于機器學習的OBIE和Ontology驅動OBIE。

基于本體的知識抽取技術解決了句子中的詞匯與本體中的詞匯不容易進行映射的問題,同時也不再需要同義詞表或其他語言知識庫。同時能將待解析的句子和其屬性、主題實現相互映射,從而依照需求抽取實體關系。這種主題思想還可以讓領域專家更清楚地組織領域本體概念,為實現快速有效的知識抽取提供了保證。

2.3 知識抽取應用研究方面

知識抽取作為一項重要的技術在生活的各個領域廣泛應用,對17篇知識抽取應用類進行歸類,可發現其應用非常廣泛,包含醫學領域應用、聊天工具、自動翻譯、地理、情報等多個領域。在國外應用也十分豐富,如英國的AKT(Advanced Knowledge Technologies)項目、DELOS的知識抽取和語義互操作(Knowledge Extraction and Semantic Inter Oper Ability)項目、歐盟的SEKT(Semantically Enabled Knowledge Technologies)項目和美國的AKDS(Automated Knowledge Discovery System)項目等。基于遺傳算法的知識抽取項目,如西班牙和阿根廷聯合開展的KEEL(Knowledge Extraction based on Evolutionary Learning)項目等[8-12]。

3 研究述評與展望

3.1 研究評述

由2008—2016年的知識抽取計量分析比較,國內對其研究起步較晚,研究內容也較少。在100篇期刊文獻中,其他相關性的文章占據41篇,而切實圍繞知識抽取的文獻中,技術工具僅27篇。可見,國內對知識抽取研究的深度還不夠。在技術研究和應用研究層面來看,沒有一定的突破性,其借鑒國外參考文獻較少,也具有一定的局限性。除此之外,2016年研究文獻的數量與2014年和2015年相比,呈爆發式增長,可見知識抽取在國內研究中正引起了廣泛的重視。

從內容方面來看,由于信息組織環境的改變,尤其是網絡環境的改變,近兩年,知識抽取的研究方向也出現了新的方向。包括知識融合、大數據下的知識融合、知識庫的構建、知識發現以及多源異構數據的知識庫的建立等。

知識融合是這兩年較為熱門的研究方向,而知識抽取則是其關鍵過程。迄今為止對于知識融合沒有一個確切的概念定義,眾多學者對此有各自不同的定義,雖然定義有不同的側重,但是其本質卻是一樣的,即都是將分布異構的信息、知識元素或信息源中的知識通過知識抽取、實時的集成和融合形成新的知識組合或知識體等。各個領域都需要大量的數據為決策作支撐,尤其是在圖書情報領域,服務的對象是不同層次的人,若想提供個性化、深層次的高質量服務,知識融合便是必不可少的,即為用戶提供高質量的知識單元。

大數據環境下多源異構知識庫建立。目前大部分知識庫都是針對某一領域建立的,通過對近幾年文獻的研究表明,通過不同的信息源獲取知識構建知識庫已取得了一定階段性的成果。王功孝等[13]提出了構建RDF三元組的算法,即在資源描述框架RDF下,針對知識抽取分別從半結構化知識抽取和非結構化知識抽取這兩方面做了深入研究,最后將抽取得到的知識存儲為RDF/XML格式作為知識庫。由此可見,在數量和內容質量上來看,近兩年的研究都有了大的發展。

3.2 未來研究重點

3.2.1 跨語言異構信息資源的知識抽取

互聯網技術擴展了溝通的廣度和深度,當用一種語言進行提問而想得到另一種語言的答案時,當利用搜索引擎獲得重要信息時,大量的異構的信息資源影響用戶對信息的實時使用與共享,這便使得跨語言異構信息資源的知識抽取技術變得極其重要。這不僅要求對其屬性抽取的深層研究,對不同語言交互的深入研究,對異構信息資源格式上進行統一,更重要的是對知識抽取技術上的改進,這便需要與計算機學科進行有效的融合。

3.2.2 知識庫構建

隨著理論研究和技術的發展,在信息描述和揭示來看,信息組織逐漸向知識組織轉變,信息單元也向知識單元發展。在大眾的環境下,以知識元為存儲單位的知識庫卻仍然很缺乏。要從知識資源中獲取知識元,則需要知識抽取這種有效的手段,這給知識抽取技術帶來了嚴峻的挑戰。知識庫的構建一直是學者近幾年研究的熱門方向,其也存在較大的可質變的發展空間,這也是未來研究的重點之一。

3.2.3 以用戶需求為中心的知識抽取系統的構建

在各個領域,尤其是情報領域,為用戶提供高質量服務是最終的目標。知識抽取系統的構建已經有了較為成熟的發展,但是也存在很多的問題,如成本較高、適應性差、可移植性差等。為了更好更快地提供個性化的服務,便要構建以用戶需求為中心的知識抽取系統,構建自適應、能夠自動選取的知識抽取方法,同時通過技術的發展,與多學科有效地融合來解決系統移植性差的現狀,從而促進其長足的發展[14]。

4 結束語

知識抽取在國內引起了廣泛的重視,這也是實現其技術、應用等飛速發展的良好階段,因此,有關學者借鑒國外的相關研究及成果對其進行創新性研究。知識抽取除了其自身的關鍵技術外,由于它的廣泛應用性,其研究也需要結合知識工程、文本挖掘、知識發現等其他領域的技術和方法來使其全面科學地發展。

[1] 汪景梁,李波.網絡環境下知識抽取的特點與應用前景[J].情報科學,2010(6):859-862.

[2] 化柏林, 張新民.從知識抽取相關概念辨析看知識抽取的特點和發展趨勢[J].情報科學,2010(2):311-315.

[3] 于波,于慧娜,孫立鐫.基于概念格的網站信息資源的知識抽取[J].科技資訊,2007(2):10.

[4] 化柏林.知識抽取中的停用詞處理技術[J].現代圖書情報技術,2007(8):48-51.

[5] 洪娜,張智雄,劉建華.基于 Ontology 的信息抽取技術方法分析[J].情報理論與實踐,2009(2):109-112、116.

[6] 周運,牟占生.一種基于 Domain Ontology 的 Web 文檔抽取機制[J].河南師范大學學報(自然版),2009(3):124-126.

[7] 車海燕,馮鐵,張家晨,等.面向中文自然語言文檔的自動知識抽取方法[J].計算機研究與發展,2013(4):834-842.

[8] 吳友蓉.國內外知識抽取系統解析[J].科技情報開發與經濟,2010(7):89-90.

[9] 龔立群,孫潔麗.國外主要知識抽取項目介紹與評析[J].圖書館論壇,2007(4):11-15.

[10] 張麗林,李茂西,肖文艷,等.機器翻譯自動評價中領域知識復述抽取研究[J].北京大學學報(自然科學版),2017(2):230-238.

[11] 朱玲,朱彥,楊峰.基于中醫疾病相關語義關系的正則表達式及知識抽取研究[J].世界科學技術-中醫藥現代化,2016(8):1241-1250.

[12] 王功孝,吳渝,李偉生.基于粗糙集和集成學習的聊天知識抽取算法[J].廣西師范大學學報(自然科學版),2008(3):88-91.

[13] 張曦.大數據下的異構知識融合方法研究[J].信息與電腦,2016(13):172-173.

[14] 秦渴.知識抽取研究現狀與未來研究重點[J].創新科技,2015(5):30-32.

[責任編輯:李娟]

Analysis on Status of Knowledge Extraction in China

FENG Qingwen

(School of Information Management, Zhengzhou University, Zhengzhou 450001, China)

Knowledge extraction plays an important role in the construction and source organization. A total of 100 online journals articles about knowledge extraction during 2008 and 2016 were extracted. They can be divided into technical tools, conceptual theory, application and others. Based on their differences and trend in data and content, this paper makes an evaluation and analysis on the overall status of knowledge extraction.

knowledge extraction; technology; application; theory; status

2017-03-14

馮青文(1990-),女,碩士,主要研究方向:機器學習、網絡資源組織與建設

G 202

A

1672-2434(2017)02-0032-05

猜你喜歡
概念文本信息
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品第一区在线观看| 国产女人水多毛片18| 99这里精品| 国产成人精品综合| 亚洲国产精品一区二区高清无码久久 | 亚洲无线视频| 亚洲综合久久成人AV| 国产在线八区| 91精品国产无线乱码在线| 亚洲swag精品自拍一区| 国产综合精品日本亚洲777| 成人综合久久综合| 日本免费精品| 日韩av无码DVD| www中文字幕在线观看| 国产精品永久久久久| 国产美女91呻吟求| 亚洲天堂网在线视频| 亚洲动漫h| 亚洲综合激情另类专区| 欧美一区精品| 日韩激情成人| 一级一毛片a级毛片| 99999久久久久久亚洲| 成人免费一级片| 亚洲AV无码一区二区三区牲色| 国产老女人精品免费视频| 日韩高清中文字幕| 天天做天天爱天天爽综合区| 国产swag在线观看| 色久综合在线| 国产精品原创不卡在线| 乱系列中文字幕在线视频| 亚洲视频一区在线| a毛片在线免费观看| 久久www视频| 毛片视频网址| 青青草原国产一区二区| 久久久久夜色精品波多野结衣| 丰满人妻被猛烈进入无码| 国产高清色视频免费看的网址| 久久综合干| 亚洲日韩欧美在线观看| 亚洲AⅤ波多系列中文字幕| 国产精品午夜电影| 青青青国产视频手机| 国产在线日本| 国产日韩欧美视频| 六月婷婷激情综合| 欧美狠狠干| 国产正在播放| 精品国产网| 精品丝袜美腿国产一区| 国产午夜无码片在线观看网站 | 另类重口100页在线播放| 91精品国产综合久久香蕉922| 无码精品福利一区二区三区| 国产在线自乱拍播放| 一本久道热中字伊人| 亚洲国产AV无码综合原创| 亚洲第一天堂无码专区| 国产高清不卡视频| 福利姬国产精品一区在线| 一本大道香蕉中文日本不卡高清二区| 国产成人无码综合亚洲日韩不卡| 国产欧美专区在线观看| 日韩123欧美字幕| 国产性猛交XXXX免费看| 狠狠色狠狠色综合久久第一次 | 麻豆精品在线视频| 麻豆国产精品视频| 伊人久久精品无码麻豆精品| 爆操波多野结衣| 国产成人精品一区二区不卡| 天天干伊人| 热久久综合这里只有精品电影| 欧美日韩在线第一页| 国产亚洲精品97在线观看| 国产主播福利在线观看| 国产日韩精品欧美一区喷| 欧美日韩国产高清一区二区三区| 久久天天躁狠狠躁夜夜2020一|