秦 渴
(鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450001)
隨著互聯(lián)網(wǎng)的普及、計(jì)算機(jī)技術(shù)的發(fā)展,每天都會(huì)產(chǎn)生海量的信息,然而,人們真正需要的知識(shí)卻很匱乏。為了解決這種信息泛濫與知識(shí)相對(duì)匱乏的矛盾,知識(shí)抽取這一研究領(lǐng)域開始被專家學(xué)者們廣泛關(guān)注。知識(shí)抽取(Knowledge eXtraction KX)是對(duì)蘊(yùn)涵于文獻(xiàn)中的知識(shí)進(jìn)行識(shí)別、理解、篩選和格式化,從而把文獻(xiàn)中的各個(gè)知識(shí)點(diǎn)(包括常識(shí)知識(shí)和專家知識(shí))抽取出來,以一定形式存入知識(shí)庫(kù)中[1]。常常與之混淆的概念有數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、知識(shí)獲取、信息抽取等,然而知識(shí)抽取研究對(duì)象是顯性的、已有的知識(shí),與數(shù)據(jù)挖掘有很大的區(qū)別,其是知識(shí)獲取的有效方式之一,是信息獲取的進(jìn)一步發(fā)展。本文對(duì)知識(shí)抽取的研究現(xiàn)狀進(jìn)行了梳理和分析,并探討了其未來研究重點(diǎn)。
首先,網(wǎng)絡(luò)的發(fā)展帶來了海量的信息資源,其蘊(yùn)含著豐富的知識(shí),具有很高的研究?jī)r(jià)值。然而,這些網(wǎng)絡(luò)化、數(shù)字化的信息資源大多是以自由、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的形式存在的,無法直接從中獲取人們需要的、重要的知識(shí),這就造成了信息過載、資源浪費(fèi)與知識(shí)困乏等現(xiàn)象。知識(shí)抽取能夠利用相關(guān)技術(shù)和方法從這些非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息中抽取出用戶所需要的知識(shí),將這些過載的信息資源轉(zhuǎn)換成用戶可以使用的知識(shí),很好地實(shí)現(xiàn)資源的有效利用,同時(shí)促進(jìn)相關(guān)科學(xué)研究的進(jìn)一步發(fā)展。
其次,隨著用戶認(rèn)知程度的不斷加深,日益?zhèn)€性化的知識(shí)需求已成為專家學(xué)者們關(guān)注的重點(diǎn)。目前,基于知識(shí)單元層面上的研究及其服務(wù)已成為學(xué)術(shù)研究的趨勢(shì),其能夠很好地解決用戶復(fù)雜的知識(shí)需求問題,如圖書情報(bào)界不斷強(qiáng)調(diào)著由信息服務(wù)向知識(shí)服務(wù)邁進(jìn),從為用戶提供以文獻(xiàn)為單位的信息檢索服務(wù)向以知識(shí)點(diǎn)及其之間的關(guān)系為單位的知識(shí)檢索發(fā)展,這些目標(biāo)的實(shí)現(xiàn)都要以知識(shí)抽取為基礎(chǔ)。通過知識(shí)抽取將文獻(xiàn)處理的粒度從篇章層次細(xì)分到句段層次(以篇章為單位轉(zhuǎn)換成以知識(shí)單元為單位),真正實(shí)現(xiàn)文獻(xiàn)在知識(shí)單元上的組織、管理和利用,實(shí)現(xiàn)信息組織從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識(shí)單元轉(zhuǎn)換[2],從而實(shí)現(xiàn)知識(shí)組織、管理及其服務(wù)的創(chuàng)新發(fā)展。
最后,知識(shí)抽取是當(dāng)前自然語言處理、語義Web、機(jī)器學(xué)習(xí)、知識(shí)工程、知識(shí)發(fā)現(xiàn)、文本挖掘等相關(guān)領(lǐng)域共同關(guān)注的重點(diǎn)研究之一[3],是開展知識(shí)導(dǎo)航、知識(shí)檢索、知識(shí)評(píng)價(jià)以及知識(shí)發(fā)現(xiàn)等知識(shí)服務(wù)的重要基礎(chǔ)技術(shù)之一,也是實(shí)現(xiàn)知識(shí)獲取的有效途徑,能夠促進(jìn)學(xué)科領(lǐng)域研究的進(jìn)一步發(fā)展。
知識(shí)抽取實(shí)現(xiàn)方法和技術(shù)方面的研究呈現(xiàn)以下特點(diǎn):
2.1.1 機(jī)器學(xué)習(xí)和自然語言處理是目前知識(shí)抽取的兩大主要技術(shù),并且這兩大技術(shù)思路正在相互融合、相互借鑒,各自都得到了較大的發(fā)展[3]。如2007年化柏林研究了基于自然語言處理(Natural Language Processing,NLP)的知識(shí)抽取模式和方法,其嘗試著運(yùn)用NLP 技術(shù),在經(jīng)過分詞、詞性標(biāo)注、句法分析等過程后從科學(xué)文獻(xiàn)的句段中抽取知識(shí),然后再轉(zhuǎn)換成計(jì)算機(jī)可理解的形式,并存入知識(shí)庫(kù)中[4]。葉鵬探討了機(jī)器學(xué)習(xí)方法在期刊論文的自動(dòng)分類方面的可行性,為進(jìn)一步對(duì)電子期刊論文進(jìn)行知識(shí)抽取奠定了基礎(chǔ)[5]。
2.1.2 開放信息抽取技術(shù)與語義技術(shù)被廣泛地應(yīng)用與研究是進(jìn)行知識(shí)抽取的有效方法。開放信息抽取技術(shù)是由美國(guó)華盛頓大學(xué)圖靈中心于2004年提出的一種新型的抽取范式,我國(guó)學(xué)者劉振、張智雄認(rèn)為其具有領(lǐng)域獨(dú)立性、無監(jiān)督抽取和對(duì)大量文本的可伸縮性等特點(diǎn),并對(duì)其研究現(xiàn)狀進(jìn)行了梳理,分析了開放信息抽取系統(tǒng)的改進(jìn)方法和發(fā)展趨勢(shì)[6]。語義標(biāo)注實(shí)現(xiàn)了對(duì)語義內(nèi)容的挖掘,使知識(shí)抽取得結(jié)果更精確,如OntotextLab 的KIM 系統(tǒng)采用了大規(guī)模自動(dòng)語義標(biāo)注,更好地實(shí)現(xiàn)了知識(shí)抽取。
2.1.3 基于本體的知識(shí)抽取技術(shù)成為研究的新方向和重點(diǎn)。洪娜等人對(duì)基于Ontology的信息抽取技術(shù)方法進(jìn)行了分析,并歸納了4種主要的技術(shù)方法:基于實(shí)例的OBIE,基于規(guī)則的OBIE 以及基于機(jī)器學(xué)習(xí)的OBIE 和Ontology驅(qū)動(dòng)的OBIE[7]。
2.1.4 除了以上的知識(shí)抽取技術(shù)外,從不同的角度、立足于中文知識(shí)抽取角度進(jìn)行相關(guān)研究也逐漸發(fā)展,如張智雄等人在其社會(huì)科學(xué)基金項(xiàng)目“從數(shù)字信息資源中實(shí)現(xiàn)知識(shí)抽取的理論和方法研究”中提出了以關(guān)鍵詞為處理單元的抽取技術(shù)方法,并給出了相關(guān)的實(shí)證研究,化柏林在其自然科學(xué)基金項(xiàng)目“基于句子匹配分析的知識(shí)抽取研究與實(shí)現(xiàn)”中提出了以句子為處理單元的抽取方法,并且認(rèn)為有些知識(shí)并不能用詞或短語來完整地表達(dá),要想完整地表達(dá)一條知識(shí),句子是比較合適的單位[8]。
國(guó)外開展知識(shí)抽取研究比國(guó)內(nèi)相對(duì)較早,對(duì)于知識(shí)抽取的應(yīng)用實(shí)踐也比較成熟。意大利的ONTOTEXT(From Text to Knowledge for the Semantic Web)項(xiàng)目基于本體技術(shù)開展知識(shí)抽取的實(shí)踐研究,其大量經(jīng)過語義標(biāo)注的文本資源為更多的科研用戶提供了有利條件。而DELOS 的知識(shí)抽取和語義互操作(Knowledge Extraction and Semantic Interoperability)項(xiàng)目經(jīng)過實(shí)踐研究解決數(shù)字圖書館中數(shù)據(jù)和描述性元數(shù)據(jù)日益增長(zhǎng)的問題,其研究并開發(fā)了知識(shí)抽取和知識(shí)建模技術(shù),完成對(duì)數(shù)字圖書館中數(shù)據(jù)的分析,挖掘和建模,從而使數(shù)字圖書館中存在的大量的知識(shí)可以被用戶所使用[9]。最近幾年,隨著國(guó)內(nèi)對(duì)于知識(shí)抽取研究的不斷深入,不少專家學(xué)者們也嘗試著從不同角度進(jìn)行知識(shí)抽取系統(tǒng)的構(gòu)建。2007年化柏林提出了一個(gè)基于NLP(Natural Language Processing)的知識(shí)抽取系統(tǒng)的詳細(xì)設(shè)計(jì)方案,其認(rèn)為知識(shí)抽取過程包括論文類型分析、篇章結(jié)構(gòu)分析、知識(shí)抽取、知識(shí)表示4 大模塊,并通過小規(guī)模的實(shí)驗(yàn)研究不斷完善分析算法,并為實(shí)現(xiàn)構(gòu)建一個(gè)通用的自然語言處理平臺(tái)的目標(biāo)奠定了基礎(chǔ)[4]。陳春霖設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)多知識(shí)抽取系統(tǒng),該系統(tǒng)可以為用戶提供數(shù)據(jù)預(yù)處理、屬性約簡(jiǎn)、規(guī)則獲取等一系列的功能,根據(jù)系統(tǒng)不同的需要,采用靈活的方式實(shí)現(xiàn)不同功能,較好地解決了多知識(shí)復(fù)雜理論的透明性,為用戶方便有效地從數(shù)據(jù)中獲取多知識(shí)提供較為完整的功能[10]。此外,中國(guó)知網(wǎng)的學(xué)術(shù)定義功能就是基于知識(shí)抽取技術(shù)實(shí)現(xiàn)的。
通過對(duì)上文研究現(xiàn)狀的梳理,我們可以發(fā)現(xiàn)知識(shí)抽取研究存在以下幾點(diǎn)不足:
3.1.1 相比國(guó)外的知識(shí)抽取研究,國(guó)內(nèi)對(duì)其研究起步較晚,研究的深度不夠,大多集中于理論研究,實(shí)踐應(yīng)用方面比較少,而國(guó)外更重視知識(shí)抽取在實(shí)踐中的應(yīng)用,許多研究都是針對(duì)某一特定的應(yīng)用進(jìn)行開展的,從而有效地解決生活實(shí)踐中的問題。
3.1.2 雖然國(guó)外對(duì)于知識(shí)抽取的研究方法和技術(shù)比較成熟,值得我們學(xué)習(xí)和借鑒,但是,由于中英文自身語法結(jié)構(gòu)等的差異,國(guó)外的一些技術(shù)和方法并不適應(yīng)中文知識(shí)的抽取,一些對(duì)于英文知識(shí)進(jìn)行抽取的技術(shù)和方法在應(yīng)用中文知識(shí)抽取中出現(xiàn)了不匹配或者不適合的情況,而國(guó)內(nèi)對(duì)于從中文角度出發(fā)進(jìn)行相關(guān)的研究還是比較少的,相應(yīng)的知識(shí)抽取實(shí)踐也不多。
通過對(duì)研究現(xiàn)狀分析與述評(píng),本文探討和歸納了未來知識(shí)抽取研究的發(fā)展趨勢(shì):
3.2.1 以科學(xué)文獻(xiàn)為主要研究對(duì)象。網(wǎng)絡(luò)化、數(shù)字化的發(fā)展促進(jìn)了數(shù)字化期刊、論文、學(xué)術(shù)報(bào)告、學(xué)術(shù)會(huì)議、專利報(bào)告等的發(fā)展,這些海量的數(shù)字資源中蘊(yùn)含著豐富的、有價(jià)值的科學(xué)知識(shí),包括各學(xué)科領(lǐng)域的科學(xué)前沿和研究熱點(diǎn)、專家學(xué)者們新的發(fā)現(xiàn)或論點(diǎn)、科學(xué)實(shí)驗(yàn)的結(jié)果等,將這些知識(shí)點(diǎn)抽取出來并存入知識(shí)庫(kù)中,不僅可以服務(wù)于科研工作者的科學(xué)研究,同時(shí)也會(huì)促進(jìn)整個(gè)科學(xué)領(lǐng)域的發(fā)展。因此,未來的知識(shí)抽取研究工作將以這種非結(jié)構(gòu)化的科學(xué)文獻(xiàn)為主要研究對(duì)象,通過一定的技術(shù)和方法準(zhǔn)確地識(shí)別實(shí)體及其之間的關(guān)系,以一定的形式抽取出來,形成知識(shí)庫(kù),從而更好地服務(wù)于用戶。
3.2.2 基于本體和語義模型的知識(shí)抽取技術(shù)的研究。本體能夠提供特定領(lǐng)域中存在的對(duì)象類型或概念及其屬性相互關(guān)系,而語義模型是用來表達(dá)復(fù)雜結(jié)構(gòu)和豐富語義的數(shù)據(jù)模型,從本體和語義的角度可以能夠?qū)崿F(xiàn)基于知識(shí)層面進(jìn)行相關(guān)的研究。目前,基于本體的信息抽取系統(tǒng)的相關(guān)研究已越來越被學(xué)者們關(guān)注,其良好的知識(shí)結(jié)構(gòu)組織能夠有效地識(shí)別實(shí)體及其之間的關(guān)系,解決了傳統(tǒng)知識(shí)抽取在非結(jié)構(gòu)文本方面的不足。本體和語義技術(shù)將成為未來知識(shí)抽取發(fā)展不可缺少的輔助技術(shù)。
3.2.3 構(gòu)建以用戶需求為中心、自適應(yīng)、可移植的知識(shí)抽取系統(tǒng)。知識(shí)抽取研究的最終目的是應(yīng)用于實(shí)踐、服務(wù)于用戶、解決現(xiàn)實(shí)生活中的問題等,國(guó)外對(duì)于知識(shí)抽取系統(tǒng)的研究已經(jīng)比較成熟,因此,國(guó)內(nèi)在未來知識(shí)抽取研究中,要能夠圍繞用戶需求開展知識(shí)抽取系統(tǒng)的構(gòu)建研究,實(shí)現(xiàn)系統(tǒng)根據(jù)用戶的需求自動(dòng)適應(yīng)、自動(dòng)選擇抽取方法、自動(dòng)構(gòu)建抽取路徑的目標(biāo)。應(yīng)用先進(jìn)的技術(shù)和方法解決目前大多系統(tǒng)移植性差、移植成本高的問題,只有這樣,知識(shí)抽取研究才能實(shí)現(xiàn)理論與實(shí)踐相結(jié)合的要求。
隨著科學(xué)研究的不斷發(fā)展,知識(shí)抽取的相關(guān)研究被越來越重視。然而,國(guó)內(nèi)對(duì)于知識(shí)抽取的理論和方法研究還不夠成熟,知識(shí)抽取的應(yīng)用相較于國(guó)外還有一定的差距,通過對(duì)相關(guān)研究的梳理與分析可以看出,未來知識(shí)抽取的研究重點(diǎn)集中在以科學(xué)文獻(xiàn)為主要研究對(duì)象,基于本體和語義模型的知識(shí)抽取技術(shù)的研究以及構(gòu)建以用戶需求為中心、自適應(yīng)、可移植的知識(shí)抽取系統(tǒng)。最后,知識(shí)抽取的研究需要結(jié)合知識(shí)工程、文本挖掘、知識(shí)發(fā)現(xiàn)等研究領(lǐng)域的技術(shù)和方法以及情報(bào)學(xué)、管理學(xué)、文獻(xiàn)學(xué)等學(xué)科領(lǐng)域的理論知識(shí)才能全面地、科學(xué)地發(fā)展。
[1] 化柏林.國(guó)內(nèi)外知識(shí)抽取研究進(jìn)展綜述[J].情報(bào)雜志,2008(2):60-62.
[2] 化柏林,張新民.從知識(shí)抽取相關(guān)概念辨析看知識(shí)抽取的特點(diǎn)和發(fā)展趨勢(shì)[J].情報(bào)科學(xué),2010(2):311-315.
[3] 張智雄,吳振新,等.當(dāng)前知識(shí)抽取的主要技術(shù)方法解析[J].現(xiàn)代圖書情報(bào)技術(shù),2008(8):2-11.
[4] 化柏林.基于NLP的知識(shí)抽取系統(tǒng)架構(gòu)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(10):38-41.
[5] 葉鵬.基于機(jī)器學(xué)習(xí)的中文期刊論文自動(dòng)分類研究[D].南京大學(xué),2013.
[6] 劉振,張智雄.開放信息抽取技術(shù)的現(xiàn)狀研究[J].情報(bào)雜志,2013(11):145-148、186.
[7] 洪娜,張智雄,劉建華.基于Ontology 的信息抽取技術(shù)方法分析[J].情報(bào)理論與實(shí)踐,2009(2):109-112、116.
[8] 鄭彥寧,化柏林.句子級(jí)知識(shí)抽取在情報(bào)學(xué)中的應(yīng)用分析[J].情報(bào)理論與實(shí)踐,2011(12):1-4.
[9] 龔立群,孫潔麗.國(guó)外主要知識(shí)抽取項(xiàng)目介紹和評(píng)析[J].圖書館論壇,2007(8)11-15.
[10] 陳春霖.多知識(shí)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].大連海事大學(xué),2014.