知識(shí)抽取研究現(xiàn)狀與未來研究重點(diǎn)

2015-12-22 18:31:58秦渴

創(chuàng)新科技 2015年5期

秦渴

（鄭州大學(xué)信息管理學(xué)院，河南鄭州 450001）

隨著互聯(lián)網(wǎng)的普及、計(jì)算機(jī)技術(shù)的發(fā)展，每天都會(huì)產(chǎn)生海量的信息，然而，人們真正需要的知識(shí)卻很匱乏。為了解決這種信息泛濫與知識(shí)相對(duì)匱乏的矛盾，知識(shí)抽取這一研究領(lǐng)域開始被專家學(xué)者們廣泛關(guān)注。知識(shí)抽取（Knowledge eXtraction KX）是對(duì)蘊(yùn)涵于文獻(xiàn)中的知識(shí)進(jìn)行識(shí)別、理解、篩選和格式化，從而把文獻(xiàn)中的各個(gè)知識(shí)點(diǎn)（包括常識(shí)知識(shí)和專家知識(shí)）抽取出來，以一定形式存入知識(shí)庫(kù)中［1］。常常與之混淆的概念有數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、知識(shí)獲取、信息抽取等，然而知識(shí)抽取研究對(duì)象是顯性的、已有的知識(shí)，與數(shù)據(jù)挖掘有很大的區(qū)別，其是知識(shí)獲取的有效方式之一，是信息獲取的進(jìn)一步發(fā)展。本文對(duì)知識(shí)抽取的研究現(xiàn)狀進(jìn)行了梳理和分析，并探討了其未來研究重點(diǎn)。

1 知識(shí)抽取研究的意義

首先，網(wǎng)絡(luò)的發(fā)展帶來了海量的信息資源，其蘊(yùn)含著豐富的知識(shí)，具有很高的研究?jī)r(jià)值。然而，這些網(wǎng)絡(luò)化、數(shù)字化的信息資源大多是以自由、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的形式存在的，無法直接從中獲取人們需要的、重要的知識(shí)，這就造成了信息過載、資源浪費(fèi)與知識(shí)困乏等現(xiàn)象。知識(shí)抽取能夠利用相關(guān)技術(shù)和方法從這些非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息中抽取出用戶所需要的知識(shí)，將這些過載的信息資源轉(zhuǎn)換成用戶可以使用的知識(shí)，很好地實(shí)現(xiàn)資源的有效利用，同時(shí)促進(jìn)相關(guān)科學(xué)研究的進(jìn)一步發(fā)展。

其次，隨著用戶認(rèn)知程度的不斷加深，日益?zhèn)€性化的知識(shí)需求已成為專家學(xué)者們關(guān)注的重點(diǎn)。目前，基于知識(shí)單元層面上的研究及其服務(wù)已成為學(xué)術(shù)研究的趨勢(shì)，其能夠很好地解決用戶復(fù)雜的知識(shí)需求問題，如圖書情報(bào)界不斷強(qiáng)調(diào)著由信息服務(wù)向知識(shí)服務(wù)邁進(jìn)，從為用戶提供以文獻(xiàn)為單位的信息檢索服務(wù)向以知識(shí)點(diǎn)及其之間的關(guān)系為單位的知識(shí)檢索發(fā)展，這些目標(biāo)的實(shí)現(xiàn)都要以知識(shí)抽取為基礎(chǔ)。通過知識(shí)抽取將文獻(xiàn)處理的粒度從篇章層次細(xì)分到句段層次（以篇章為單位轉(zhuǎn)換成以知識(shí)單元為單位），真正實(shí)現(xiàn)文獻(xiàn)在知識(shí)單元上的組織、管理和利用，實(shí)現(xiàn)信息組織從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識(shí)單元轉(zhuǎn)換［2］，從而實(shí)現(xiàn)知識(shí)組織、管理及其服務(wù)的創(chuàng)新發(fā)展。

最后，知識(shí)抽取是當(dāng)前自然語言處理、語義Web、機(jī)器學(xué)習(xí)、知識(shí)工程、知識(shí)發(fā)現(xiàn)、文本挖掘等相關(guān)領(lǐng)域共同關(guān)注的重點(diǎn)研究之一［3］，是開展知識(shí)導(dǎo)航、知識(shí)檢索、知識(shí)評(píng)價(jià)以及知識(shí)發(fā)現(xiàn)等知識(shí)服務(wù)的重要基礎(chǔ)技術(shù)之一，也是實(shí)現(xiàn)知識(shí)獲取的有效途徑，能夠促進(jìn)學(xué)科領(lǐng)域研究的進(jìn)一步發(fā)展。

2 相關(guān)研究分析

2.1 知識(shí)抽取實(shí)現(xiàn)方法和技術(shù)方面

知識(shí)抽取實(shí)現(xiàn)方法和技術(shù)方面的研究呈現(xiàn)以下特點(diǎn)：

2.1.1 機(jī)器學(xué)習(xí)和自然語言處理是目前知識(shí)抽取的兩大主要技術(shù)，并且這兩大技術(shù)思路正在相互融合、相互借鑒，各自都得到了較大的發(fā)展［3］。如2007年化柏林研究了基于自然語言處理（Natural Language Processing,NLP）的知識(shí)抽取模式和方法，其嘗試著運(yùn)用NLP 技術(shù)，在經(jīng)過分詞、詞性標(biāo)注、句法分析等過程后從科學(xué)文獻(xiàn)的句段中抽取知識(shí)，然后再轉(zhuǎn)換成計(jì)算機(jī)可理解的形式，并存入知識(shí)庫(kù)中［4］。葉鵬探討了機(jī)器學(xué)習(xí)方法在期刊論文的自動(dòng)分類方面的可行性，為進(jìn)一步對(duì)電子期刊論文進(jìn)行知識(shí)抽取奠定了基礎(chǔ)［5］。

2.1.2 開放信息抽取技術(shù)與語義技術(shù)被廣泛地應(yīng)用與研究是進(jìn)行知識(shí)抽取的有效方法。開放信息抽取技術(shù)是由美國(guó)華盛頓大學(xué)圖靈中心于2004年提出的一種新型的抽取范式，我國(guó)學(xué)者劉振、張智雄認(rèn)為其具有領(lǐng)域獨(dú)立性、無監(jiān)督抽取和對(duì)大量文本的可伸縮性等特點(diǎn)，并對(duì)其研究現(xiàn)狀進(jìn)行了梳理，分析了開放信息抽取系統(tǒng)的改進(jìn)方法和發(fā)展趨勢(shì)［6］。語義標(biāo)注實(shí)現(xiàn)了對(duì)語義內(nèi)容的挖掘，使知識(shí)抽取得結(jié)果更精確，如OntotextLab 的KIM 系統(tǒng)采用了大規(guī)模自動(dòng)語義標(biāo)注，更好地實(shí)現(xiàn)了知識(shí)抽取。

2.1.3 基于本體的知識(shí)抽取技術(shù)成為研究的新方向和重點(diǎn)。洪娜等人對(duì)基于Ontology的信息抽取技術(shù)方法進(jìn)行了分析，并歸納了4種主要的技術(shù)方法：基于實(shí)例的OBIE，基于規(guī)則的OBIE 以及基于機(jī)器學(xué)習(xí)的OBIE 和Ontology驅(qū)動(dòng)的OBIE［7］。

2.1.4 除了以上的知識(shí)抽取技術(shù)外，從不同的角度、立足于中文知識(shí)抽取角度進(jìn)行相關(guān)研究也逐漸發(fā)展，如張智雄等人在其社會(huì)科學(xué)基金項(xiàng)目“從數(shù)字信息資源中實(shí)現(xiàn)知識(shí)抽取的理論和方法研究”中提出了以關(guān)鍵詞為處理單元的抽取技術(shù)方法，并給出了相關(guān)的實(shí)證研究，化柏林在其自然科學(xué)基金項(xiàng)目“基于句子匹配分析的知識(shí)抽取研究與實(shí)現(xiàn)”中提出了以句子為處理單元的抽取方法，并且認(rèn)為有些知識(shí)并不能用詞或短語來完整地表達(dá)，要想完整地表達(dá)一條知識(shí)，句子是比較合適的單位［8］。

2.2 知識(shí)抽取應(yīng)用實(shí)踐方面

國(guó)外開展知識(shí)抽取研究比國(guó)內(nèi)相對(duì)較早，對(duì)于知識(shí)抽取的應(yīng)用實(shí)踐也比較成熟。意大利的ONTOTEXT（From Text to Knowledge for the Semantic Web）項(xiàng)目基于本體技術(shù)開展知識(shí)抽取的實(shí)踐研究，其大量經(jīng)過語義標(biāo)注的文本資源為更多的科研用戶提供了有利條件。而DELOS 的知識(shí)抽取和語義互操作（Knowledge Extraction and Semantic Interoperability）項(xiàng)目經(jīng)過實(shí)踐研究解決數(shù)字圖書館中數(shù)據(jù)和描述性元數(shù)據(jù)日益增長(zhǎng)的問題，其研究并開發(fā)了知識(shí)抽取和知識(shí)建模技術(shù)，完成對(duì)數(shù)字圖書館中數(shù)據(jù)的分析，挖掘和建模，從而使數(shù)字圖書館中存在的大量的知識(shí)可以被用戶所使用［9］。最近幾年，隨著國(guó)內(nèi)對(duì)于知識(shí)抽取研究的不斷深入，不少專家學(xué)者們也嘗試著從不同角度進(jìn)行知識(shí)抽取系統(tǒng)的構(gòu)建。2007年化柏林提出了一個(gè)基于NLP（Natural Language Processing）的知識(shí)抽取系統(tǒng)的詳細(xì)設(shè)計(jì)方案，其認(rèn)為知識(shí)抽取過程包括論文類型分析、篇章結(jié)構(gòu)分析、知識(shí)抽取、知識(shí)表示4 大模塊，并通過小規(guī)模的實(shí)驗(yàn)研究不斷完善分析算法，并為實(shí)現(xiàn)構(gòu)建一個(gè)通用的自然語言處理平臺(tái)的目標(biāo)奠定了基礎(chǔ)［4］。陳春霖設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)多知識(shí)抽取系統(tǒng)，該系統(tǒng)可以為用戶提供數(shù)據(jù)預(yù)處理、屬性約簡(jiǎn)、規(guī)則獲取等一系列的功能，根據(jù)系統(tǒng)不同的需要，采用靈活的方式實(shí)現(xiàn)不同功能，較好地解決了多知識(shí)復(fù)雜理論的透明性，為用戶方便有效地從數(shù)據(jù)中獲取多知識(shí)提供較為完整的功能［10］。此外，中國(guó)知網(wǎng)的學(xué)術(shù)定義功能就是基于知識(shí)抽取技術(shù)實(shí)現(xiàn)的。

3 國(guó)內(nèi)外研究述評(píng)與未來研究重點(diǎn)

3.1 相關(guān)研究述評(píng)

通過對(duì)上文研究現(xiàn)狀的梳理，我們可以發(fā)現(xiàn)知識(shí)抽取研究存在以下幾點(diǎn)不足：

3.1.1 相比國(guó)外的知識(shí)抽取研究，國(guó)內(nèi)對(duì)其研究起步較晚，研究的深度不夠，大多集中于理論研究，實(shí)踐應(yīng)用方面比較少，而國(guó)外更重視知識(shí)抽取在實(shí)踐中的應(yīng)用，許多研究都是針對(duì)某一特定的應(yīng)用進(jìn)行開展的，從而有效地解決生活實(shí)踐中的問題。

3.1.2 雖然國(guó)外對(duì)于知識(shí)抽取的研究方法和技術(shù)比較成熟，值得我們學(xué)習(xí)和借鑒，但是，由于中英文自身語法結(jié)構(gòu)等的差異，國(guó)外的一些技術(shù)和方法并不適應(yīng)中文知識(shí)的抽取，一些對(duì)于英文知識(shí)進(jìn)行抽取的技術(shù)和方法在應(yīng)用中文知識(shí)抽取中出現(xiàn)了不匹配或者不適合的情況，而國(guó)內(nèi)對(duì)于從中文角度出發(fā)進(jìn)行相關(guān)的研究還是比較少的，相應(yīng)的知識(shí)抽取實(shí)踐也不多。

3.2 未來研究重點(diǎn)

通過對(duì)研究現(xiàn)狀分析與述評(píng)，本文探討和歸納了未來知識(shí)抽取研究的發(fā)展趨勢(shì)：

3.2.1 以科學(xué)文獻(xiàn)為主要研究對(duì)象。網(wǎng)絡(luò)化、數(shù)字化的發(fā)展促進(jìn)了數(shù)字化期刊、論文、學(xué)術(shù)報(bào)告、學(xué)術(shù)會(huì)議、專利報(bào)告等的發(fā)展，這些海量的數(shù)字資源中蘊(yùn)含著豐富的、有價(jià)值的科學(xué)知識(shí)，包括各學(xué)科領(lǐng)域的科學(xué)前沿和研究熱點(diǎn)、專家學(xué)者們新的發(fā)現(xiàn)或論點(diǎn)、科學(xué)實(shí)驗(yàn)的結(jié)果等，將這些知識(shí)點(diǎn)抽取出來并存入知識(shí)庫(kù)中，不僅可以服務(wù)于科研工作者的科學(xué)研究，同時(shí)也會(huì)促進(jìn)整個(gè)科學(xué)領(lǐng)域的發(fā)展。因此，未來的知識(shí)抽取研究工作將以這種非結(jié)構(gòu)化的科學(xué)文獻(xiàn)為主要研究對(duì)象，通過一定的技術(shù)和方法準(zhǔn)確地識(shí)別實(shí)體及其之間的關(guān)系，以一定的形式抽取出來，形成知識(shí)庫(kù)，從而更好地服務(wù)于用戶。

3.2.2 基于本體和語義模型的知識(shí)抽取技術(shù)的研究。本體能夠提供特定領(lǐng)域中存在的對(duì)象類型或概念及其屬性相互關(guān)系，而語義模型是用來表達(dá)復(fù)雜結(jié)構(gòu)和豐富語義的數(shù)據(jù)模型，從本體和語義的角度可以能夠?qū)崿F(xiàn)基于知識(shí)層面進(jìn)行相關(guān)的研究。目前，基于本體的信息抽取系統(tǒng)的相關(guān)研究已越來越被學(xué)者們關(guān)注，其良好的知識(shí)結(jié)構(gòu)組織能夠有效地識(shí)別實(shí)體及其之間的關(guān)系，解決了傳統(tǒng)知識(shí)抽取在非結(jié)構(gòu)文本方面的不足。本體和語義技術(shù)將成為未來知識(shí)抽取發(fā)展不可缺少的輔助技術(shù)。

3.2.3 構(gòu)建以用戶需求為中心、自適應(yīng)、可移植的知識(shí)抽取系統(tǒng)。知識(shí)抽取研究的最終目的是應(yīng)用于實(shí)踐、服務(wù)于用戶、解決現(xiàn)實(shí)生活中的問題等，國(guó)外對(duì)于知識(shí)抽取系統(tǒng)的研究已經(jīng)比較成熟，因此，國(guó)內(nèi)在未來知識(shí)抽取研究中，要能夠圍繞用戶需求開展知識(shí)抽取系統(tǒng)的構(gòu)建研究，實(shí)現(xiàn)系統(tǒng)根據(jù)用戶的需求自動(dòng)適應(yīng)、自動(dòng)選擇抽取方法、自動(dòng)構(gòu)建抽取路徑的目標(biāo)。應(yīng)用先進(jìn)的技術(shù)和方法解決目前大多系統(tǒng)移植性差、移植成本高的問題，只有這樣，知識(shí)抽取研究才能實(shí)現(xiàn)理論與實(shí)踐相結(jié)合的要求。

4 結(jié)語

隨著科學(xué)研究的不斷發(fā)展，知識(shí)抽取的相關(guān)研究被越來越重視。然而，國(guó)內(nèi)對(duì)于知識(shí)抽取的理論和方法研究還不夠成熟，知識(shí)抽取的應(yīng)用相較于國(guó)外還有一定的差距，通過對(duì)相關(guān)研究的梳理與分析可以看出，未來知識(shí)抽取的研究重點(diǎn)集中在以科學(xué)文獻(xiàn)為主要研究對(duì)象，基于本體和語義模型的知識(shí)抽取技術(shù)的研究以及構(gòu)建以用戶需求為中心、自適應(yīng)、可移植的知識(shí)抽取系統(tǒng)。最后，知識(shí)抽取的研究需要結(jié)合知識(shí)工程、文本挖掘、知識(shí)發(fā)現(xiàn)等研究領(lǐng)域的技術(shù)和方法以及情報(bào)學(xué)、管理學(xué)、文獻(xiàn)學(xué)等學(xué)科領(lǐng)域的理論知識(shí)才能全面地、科學(xué)地發(fā)展。

［1］化柏林.國(guó)內(nèi)外知識(shí)抽取研究進(jìn)展綜述［J］.情報(bào)雜志，2008（2）：60-62.

［2］化柏林，張新民.從知識(shí)抽取相關(guān)概念辨析看知識(shí)抽取的特點(diǎn)和發(fā)展趨勢(shì)［J］.情報(bào)科學(xué)，2010（2）：311-315.

［3］張智雄，吳振新，等.當(dāng)前知識(shí)抽取的主要技術(shù)方法解析［J］.現(xiàn)代圖書情報(bào)技術(shù)，2008（8）：2-11.

［4］化柏林.基于NLP的知識(shí)抽取系統(tǒng)架構(gòu)研究［J］.現(xiàn)代圖書情報(bào)技術(shù)，2007（10）：38-41.

［5］葉鵬.基于機(jī)器學(xué)習(xí)的中文期刊論文自動(dòng)分類研究［D］.南京大學(xué)，2013.

［6］劉振，張智雄.開放信息抽取技術(shù)的現(xiàn)狀研究［J］.情報(bào)雜志，2013（11）：145-148、186.

［7］洪娜，張智雄，劉建華.基于Ontology 的信息抽取技術(shù)方法分析［J］.情報(bào)理論與實(shí)踐，2009（2）：109-112、116.

［8］鄭彥寧，化柏林.句子級(jí)知識(shí)抽取在情報(bào)學(xué)中的應(yīng)用分析［J］.情報(bào)理論與實(shí)踐，2011（12）：1-4.

［9］龔立群，孫潔麗.國(guó)外主要知識(shí)抽取項(xiàng)目介紹和評(píng)析［J］.圖書館論壇，2007（8）11-15.

［10］陳春霖.多知識(shí)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)［D］.大連海事大學(xué)，2014.