999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識(shí)抽取研究現(xiàn)狀與未來研究重點(diǎn)

2015-12-22 18:31:58
創(chuàng)新科技 2015年5期
關(guān)鍵詞:語義用戶信息

秦 渴

(鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450001)

隨著互聯(lián)網(wǎng)的普及、計(jì)算機(jī)技術(shù)的發(fā)展,每天都會(huì)產(chǎn)生海量的信息,然而,人們真正需要的知識(shí)卻很匱乏。為了解決這種信息泛濫與知識(shí)相對(duì)匱乏的矛盾,知識(shí)抽取這一研究領(lǐng)域開始被專家學(xué)者們廣泛關(guān)注。知識(shí)抽取(Knowledge eXtraction KX)是對(duì)蘊(yùn)涵于文獻(xiàn)中的知識(shí)進(jìn)行識(shí)別、理解、篩選和格式化,從而把文獻(xiàn)中的各個(gè)知識(shí)點(diǎn)(包括常識(shí)知識(shí)和專家知識(shí))抽取出來,以一定形式存入知識(shí)庫(kù)中[1]。常常與之混淆的概念有數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、知識(shí)獲取、信息抽取等,然而知識(shí)抽取研究對(duì)象是顯性的、已有的知識(shí),與數(shù)據(jù)挖掘有很大的區(qū)別,其是知識(shí)獲取的有效方式之一,是信息獲取的進(jìn)一步發(fā)展。本文對(duì)知識(shí)抽取的研究現(xiàn)狀進(jìn)行了梳理和分析,并探討了其未來研究重點(diǎn)。

1 知識(shí)抽取研究的意義

首先,網(wǎng)絡(luò)的發(fā)展帶來了海量的信息資源,其蘊(yùn)含著豐富的知識(shí),具有很高的研究?jī)r(jià)值。然而,這些網(wǎng)絡(luò)化、數(shù)字化的信息資源大多是以自由、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的形式存在的,無法直接從中獲取人們需要的、重要的知識(shí),這就造成了信息過載、資源浪費(fèi)與知識(shí)困乏等現(xiàn)象。知識(shí)抽取能夠利用相關(guān)技術(shù)和方法從這些非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息中抽取出用戶所需要的知識(shí),將這些過載的信息資源轉(zhuǎn)換成用戶可以使用的知識(shí),很好地實(shí)現(xiàn)資源的有效利用,同時(shí)促進(jìn)相關(guān)科學(xué)研究的進(jìn)一步發(fā)展。

其次,隨著用戶認(rèn)知程度的不斷加深,日益?zhèn)€性化的知識(shí)需求已成為專家學(xué)者們關(guān)注的重點(diǎn)。目前,基于知識(shí)單元層面上的研究及其服務(wù)已成為學(xué)術(shù)研究的趨勢(shì),其能夠很好地解決用戶復(fù)雜的知識(shí)需求問題,如圖書情報(bào)界不斷強(qiáng)調(diào)著由信息服務(wù)向知識(shí)服務(wù)邁進(jìn),從為用戶提供以文獻(xiàn)為單位的信息檢索服務(wù)向以知識(shí)點(diǎn)及其之間的關(guān)系為單位的知識(shí)檢索發(fā)展,這些目標(biāo)的實(shí)現(xiàn)都要以知識(shí)抽取為基礎(chǔ)。通過知識(shí)抽取將文獻(xiàn)處理的粒度從篇章層次細(xì)分到句段層次(以篇章為單位轉(zhuǎn)換成以知識(shí)單元為單位),真正實(shí)現(xiàn)文獻(xiàn)在知識(shí)單元上的組織、管理和利用,實(shí)現(xiàn)信息組織從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識(shí)單元轉(zhuǎn)換[2],從而實(shí)現(xiàn)知識(shí)組織、管理及其服務(wù)的創(chuàng)新發(fā)展。

最后,知識(shí)抽取是當(dāng)前自然語言處理、語義Web、機(jī)器學(xué)習(xí)、知識(shí)工程、知識(shí)發(fā)現(xiàn)、文本挖掘等相關(guān)領(lǐng)域共同關(guān)注的重點(diǎn)研究之一[3],是開展知識(shí)導(dǎo)航、知識(shí)檢索、知識(shí)評(píng)價(jià)以及知識(shí)發(fā)現(xiàn)等知識(shí)服務(wù)的重要基礎(chǔ)技術(shù)之一,也是實(shí)現(xiàn)知識(shí)獲取的有效途徑,能夠促進(jìn)學(xué)科領(lǐng)域研究的進(jìn)一步發(fā)展。

2 相關(guān)研究分析

2.1 知識(shí)抽取實(shí)現(xiàn)方法和技術(shù)方面

知識(shí)抽取實(shí)現(xiàn)方法和技術(shù)方面的研究呈現(xiàn)以下特點(diǎn):

2.1.1 機(jī)器學(xué)習(xí)和自然語言處理是目前知識(shí)抽取的兩大主要技術(shù),并且這兩大技術(shù)思路正在相互融合、相互借鑒,各自都得到了較大的發(fā)展[3]。如2007年化柏林研究了基于自然語言處理(Natural Language Processing,NLP)的知識(shí)抽取模式和方法,其嘗試著運(yùn)用NLP 技術(shù),在經(jīng)過分詞、詞性標(biāo)注、句法分析等過程后從科學(xué)文獻(xiàn)的句段中抽取知識(shí),然后再轉(zhuǎn)換成計(jì)算機(jī)可理解的形式,并存入知識(shí)庫(kù)中[4]。葉鵬探討了機(jī)器學(xué)習(xí)方法在期刊論文的自動(dòng)分類方面的可行性,為進(jìn)一步對(duì)電子期刊論文進(jìn)行知識(shí)抽取奠定了基礎(chǔ)[5]。

2.1.2 開放信息抽取技術(shù)與語義技術(shù)被廣泛地應(yīng)用與研究是進(jìn)行知識(shí)抽取的有效方法。開放信息抽取技術(shù)是由美國(guó)華盛頓大學(xué)圖靈中心于2004年提出的一種新型的抽取范式,我國(guó)學(xué)者劉振、張智雄認(rèn)為其具有領(lǐng)域獨(dú)立性、無監(jiān)督抽取和對(duì)大量文本的可伸縮性等特點(diǎn),并對(duì)其研究現(xiàn)狀進(jìn)行了梳理,分析了開放信息抽取系統(tǒng)的改進(jìn)方法和發(fā)展趨勢(shì)[6]。語義標(biāo)注實(shí)現(xiàn)了對(duì)語義內(nèi)容的挖掘,使知識(shí)抽取得結(jié)果更精確,如OntotextLab 的KIM 系統(tǒng)采用了大規(guī)模自動(dòng)語義標(biāo)注,更好地實(shí)現(xiàn)了知識(shí)抽取。

2.1.3 基于本體的知識(shí)抽取技術(shù)成為研究的新方向和重點(diǎn)。洪娜等人對(duì)基于Ontology的信息抽取技術(shù)方法進(jìn)行了分析,并歸納了4種主要的技術(shù)方法:基于實(shí)例的OBIE,基于規(guī)則的OBIE 以及基于機(jī)器學(xué)習(xí)的OBIE 和Ontology驅(qū)動(dòng)的OBIE[7]。

2.1.4 除了以上的知識(shí)抽取技術(shù)外,從不同的角度、立足于中文知識(shí)抽取角度進(jìn)行相關(guān)研究也逐漸發(fā)展,如張智雄等人在其社會(huì)科學(xué)基金項(xiàng)目“從數(shù)字信息資源中實(shí)現(xiàn)知識(shí)抽取的理論和方法研究”中提出了以關(guān)鍵詞為處理單元的抽取技術(shù)方法,并給出了相關(guān)的實(shí)證研究,化柏林在其自然科學(xué)基金項(xiàng)目“基于句子匹配分析的知識(shí)抽取研究與實(shí)現(xiàn)”中提出了以句子為處理單元的抽取方法,并且認(rèn)為有些知識(shí)并不能用詞或短語來完整地表達(dá),要想完整地表達(dá)一條知識(shí),句子是比較合適的單位[8]。

2.2 知識(shí)抽取應(yīng)用實(shí)踐方面

國(guó)外開展知識(shí)抽取研究比國(guó)內(nèi)相對(duì)較早,對(duì)于知識(shí)抽取的應(yīng)用實(shí)踐也比較成熟。意大利的ONTOTEXT(From Text to Knowledge for the Semantic Web)項(xiàng)目基于本體技術(shù)開展知識(shí)抽取的實(shí)踐研究,其大量經(jīng)過語義標(biāo)注的文本資源為更多的科研用戶提供了有利條件。而DELOS 的知識(shí)抽取和語義互操作(Knowledge Extraction and Semantic Interoperability)項(xiàng)目經(jīng)過實(shí)踐研究解決數(shù)字圖書館中數(shù)據(jù)和描述性元數(shù)據(jù)日益增長(zhǎng)的問題,其研究并開發(fā)了知識(shí)抽取和知識(shí)建模技術(shù),完成對(duì)數(shù)字圖書館中數(shù)據(jù)的分析,挖掘和建模,從而使數(shù)字圖書館中存在的大量的知識(shí)可以被用戶所使用[9]。最近幾年,隨著國(guó)內(nèi)對(duì)于知識(shí)抽取研究的不斷深入,不少專家學(xué)者們也嘗試著從不同角度進(jìn)行知識(shí)抽取系統(tǒng)的構(gòu)建。2007年化柏林提出了一個(gè)基于NLP(Natural Language Processing)的知識(shí)抽取系統(tǒng)的詳細(xì)設(shè)計(jì)方案,其認(rèn)為知識(shí)抽取過程包括論文類型分析、篇章結(jié)構(gòu)分析、知識(shí)抽取、知識(shí)表示4 大模塊,并通過小規(guī)模的實(shí)驗(yàn)研究不斷完善分析算法,并為實(shí)現(xiàn)構(gòu)建一個(gè)通用的自然語言處理平臺(tái)的目標(biāo)奠定了基礎(chǔ)[4]。陳春霖設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)多知識(shí)抽取系統(tǒng),該系統(tǒng)可以為用戶提供數(shù)據(jù)預(yù)處理、屬性約簡(jiǎn)、規(guī)則獲取等一系列的功能,根據(jù)系統(tǒng)不同的需要,采用靈活的方式實(shí)現(xiàn)不同功能,較好地解決了多知識(shí)復(fù)雜理論的透明性,為用戶方便有效地從數(shù)據(jù)中獲取多知識(shí)提供較為完整的功能[10]。此外,中國(guó)知網(wǎng)的學(xué)術(shù)定義功能就是基于知識(shí)抽取技術(shù)實(shí)現(xiàn)的。

3 國(guó)內(nèi)外研究述評(píng)與未來研究重點(diǎn)

3.1 相關(guān)研究述評(píng)

通過對(duì)上文研究現(xiàn)狀的梳理,我們可以發(fā)現(xiàn)知識(shí)抽取研究存在以下幾點(diǎn)不足:

3.1.1 相比國(guó)外的知識(shí)抽取研究,國(guó)內(nèi)對(duì)其研究起步較晚,研究的深度不夠,大多集中于理論研究,實(shí)踐應(yīng)用方面比較少,而國(guó)外更重視知識(shí)抽取在實(shí)踐中的應(yīng)用,許多研究都是針對(duì)某一特定的應(yīng)用進(jìn)行開展的,從而有效地解決生活實(shí)踐中的問題。

3.1.2 雖然國(guó)外對(duì)于知識(shí)抽取的研究方法和技術(shù)比較成熟,值得我們學(xué)習(xí)和借鑒,但是,由于中英文自身語法結(jié)構(gòu)等的差異,國(guó)外的一些技術(shù)和方法并不適應(yīng)中文知識(shí)的抽取,一些對(duì)于英文知識(shí)進(jìn)行抽取的技術(shù)和方法在應(yīng)用中文知識(shí)抽取中出現(xiàn)了不匹配或者不適合的情況,而國(guó)內(nèi)對(duì)于從中文角度出發(fā)進(jìn)行相關(guān)的研究還是比較少的,相應(yīng)的知識(shí)抽取實(shí)踐也不多。

3.2 未來研究重點(diǎn)

通過對(duì)研究現(xiàn)狀分析與述評(píng),本文探討和歸納了未來知識(shí)抽取研究的發(fā)展趨勢(shì):

3.2.1 以科學(xué)文獻(xiàn)為主要研究對(duì)象。網(wǎng)絡(luò)化、數(shù)字化的發(fā)展促進(jìn)了數(shù)字化期刊、論文、學(xué)術(shù)報(bào)告、學(xué)術(shù)會(huì)議、專利報(bào)告等的發(fā)展,這些海量的數(shù)字資源中蘊(yùn)含著豐富的、有價(jià)值的科學(xué)知識(shí),包括各學(xué)科領(lǐng)域的科學(xué)前沿和研究熱點(diǎn)、專家學(xué)者們新的發(fā)現(xiàn)或論點(diǎn)、科學(xué)實(shí)驗(yàn)的結(jié)果等,將這些知識(shí)點(diǎn)抽取出來并存入知識(shí)庫(kù)中,不僅可以服務(wù)于科研工作者的科學(xué)研究,同時(shí)也會(huì)促進(jìn)整個(gè)科學(xué)領(lǐng)域的發(fā)展。因此,未來的知識(shí)抽取研究工作將以這種非結(jié)構(gòu)化的科學(xué)文獻(xiàn)為主要研究對(duì)象,通過一定的技術(shù)和方法準(zhǔn)確地識(shí)別實(shí)體及其之間的關(guān)系,以一定的形式抽取出來,形成知識(shí)庫(kù),從而更好地服務(wù)于用戶。

3.2.2 基于本體和語義模型的知識(shí)抽取技術(shù)的研究。本體能夠提供特定領(lǐng)域中存在的對(duì)象類型或概念及其屬性相互關(guān)系,而語義模型是用來表達(dá)復(fù)雜結(jié)構(gòu)和豐富語義的數(shù)據(jù)模型,從本體和語義的角度可以能夠?qū)崿F(xiàn)基于知識(shí)層面進(jìn)行相關(guān)的研究。目前,基于本體的信息抽取系統(tǒng)的相關(guān)研究已越來越被學(xué)者們關(guān)注,其良好的知識(shí)結(jié)構(gòu)組織能夠有效地識(shí)別實(shí)體及其之間的關(guān)系,解決了傳統(tǒng)知識(shí)抽取在非結(jié)構(gòu)文本方面的不足。本體和語義技術(shù)將成為未來知識(shí)抽取發(fā)展不可缺少的輔助技術(shù)。

3.2.3 構(gòu)建以用戶需求為中心、自適應(yīng)、可移植的知識(shí)抽取系統(tǒng)。知識(shí)抽取研究的最終目的是應(yīng)用于實(shí)踐、服務(wù)于用戶、解決現(xiàn)實(shí)生活中的問題等,國(guó)外對(duì)于知識(shí)抽取系統(tǒng)的研究已經(jīng)比較成熟,因此,國(guó)內(nèi)在未來知識(shí)抽取研究中,要能夠圍繞用戶需求開展知識(shí)抽取系統(tǒng)的構(gòu)建研究,實(shí)現(xiàn)系統(tǒng)根據(jù)用戶的需求自動(dòng)適應(yīng)、自動(dòng)選擇抽取方法、自動(dòng)構(gòu)建抽取路徑的目標(biāo)。應(yīng)用先進(jìn)的技術(shù)和方法解決目前大多系統(tǒng)移植性差、移植成本高的問題,只有這樣,知識(shí)抽取研究才能實(shí)現(xiàn)理論與實(shí)踐相結(jié)合的要求。

4 結(jié)語

隨著科學(xué)研究的不斷發(fā)展,知識(shí)抽取的相關(guān)研究被越來越重視。然而,國(guó)內(nèi)對(duì)于知識(shí)抽取的理論和方法研究還不夠成熟,知識(shí)抽取的應(yīng)用相較于國(guó)外還有一定的差距,通過對(duì)相關(guān)研究的梳理與分析可以看出,未來知識(shí)抽取的研究重點(diǎn)集中在以科學(xué)文獻(xiàn)為主要研究對(duì)象,基于本體和語義模型的知識(shí)抽取技術(shù)的研究以及構(gòu)建以用戶需求為中心、自適應(yīng)、可移植的知識(shí)抽取系統(tǒng)。最后,知識(shí)抽取的研究需要結(jié)合知識(shí)工程、文本挖掘、知識(shí)發(fā)現(xiàn)等研究領(lǐng)域的技術(shù)和方法以及情報(bào)學(xué)、管理學(xué)、文獻(xiàn)學(xué)等學(xué)科領(lǐng)域的理論知識(shí)才能全面地、科學(xué)地發(fā)展。

[1] 化柏林.國(guó)內(nèi)外知識(shí)抽取研究進(jìn)展綜述[J].情報(bào)雜志,2008(2):60-62.

[2] 化柏林,張新民.從知識(shí)抽取相關(guān)概念辨析看知識(shí)抽取的特點(diǎn)和發(fā)展趨勢(shì)[J].情報(bào)科學(xué),2010(2):311-315.

[3] 張智雄,吳振新,等.當(dāng)前知識(shí)抽取的主要技術(shù)方法解析[J].現(xiàn)代圖書情報(bào)技術(shù),2008(8):2-11.

[4] 化柏林.基于NLP的知識(shí)抽取系統(tǒng)架構(gòu)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(10):38-41.

[5] 葉鵬.基于機(jī)器學(xué)習(xí)的中文期刊論文自動(dòng)分類研究[D].南京大學(xué),2013.

[6] 劉振,張智雄.開放信息抽取技術(shù)的現(xiàn)狀研究[J].情報(bào)雜志,2013(11):145-148、186.

[7] 洪娜,張智雄,劉建華.基于Ontology 的信息抽取技術(shù)方法分析[J].情報(bào)理論與實(shí)踐,2009(2):109-112、116.

[8] 鄭彥寧,化柏林.句子級(jí)知識(shí)抽取在情報(bào)學(xué)中的應(yīng)用分析[J].情報(bào)理論與實(shí)踐,2011(12):1-4.

[9] 龔立群,孫潔麗.國(guó)外主要知識(shí)抽取項(xiàng)目介紹和評(píng)析[J].圖書館論壇,2007(8)11-15.

[10] 陳春霖.多知識(shí)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].大連海事大學(xué),2014.

猜你喜歡
語義用戶信息
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認(rèn)知范疇模糊與語義模糊
如何獲取一億海外用戶
展會(huì)信息
語義分析與漢俄副名組合
主站蜘蛛池模板: 亚洲视频欧美不卡| 亚洲天堂久久| 又粗又硬又大又爽免费视频播放| 日韩小视频网站hq| 久草热视频在线| 国产成人综合在线视频| 国产系列在线| 国产亚洲精品自在线| 国产精品午夜电影| 欧美午夜视频在线| 色综合久久久久8天国| 国产亚洲欧美在线中文bt天堂| 国产av无码日韩av无码网站| 国产97视频在线观看| 日韩麻豆小视频| 亚洲中文字幕国产av| 人人澡人人爽欧美一区| 亚洲天天更新| 71pao成人国产永久免费视频| 一级毛片免费观看久| 欧美日韩资源| 无码区日韩专区免费系列| 亚洲IV视频免费在线光看| 免费无遮挡AV| a级毛片毛片免费观看久潮| 91精品专区| 亚洲妓女综合网995久久| 国产亚洲精品91| 一级黄色片网| 国产一区在线观看无码| 国产精品永久免费嫩草研究院| 国产91麻豆免费观看| 欧美一级片在线| 操操操综合网| 天天爽免费视频| 特级毛片8级毛片免费观看| 人妻少妇久久久久久97人妻| 91丝袜在线观看| 无码区日韩专区免费系列| 91在线一9|永久视频在线| 91美女视频在线| 色婷婷丁香| 中美日韩在线网免费毛片视频| 动漫精品中文字幕无码| 国产日韩欧美精品区性色| 久久久久无码精品| 99re热精品视频中文字幕不卡| 亚洲人成网址| 孕妇高潮太爽了在线观看免费| 免费国产福利| 91极品美女高潮叫床在线观看| 九色视频最新网址| 国产爽妇精品| 日韩最新中文字幕| 国产日本视频91| 欧美中文字幕在线二区| 一本大道无码高清| 国产精品成人观看视频国产| 欧美国产在线一区| 亚洲区视频在线观看| 亚洲天堂精品视频| 伊在人亞洲香蕉精品區| 大陆精大陆国产国语精品1024| 91在线一9|永久视频在线| 国产日韩精品欧美一区灰| 毛片最新网址| 91视频区| a级毛片毛片免费观看久潮| yjizz视频最新网站在线| 青青久在线视频免费观看| 国产打屁股免费区网站| 日韩人妻精品一区| 国产自在线播放| 午夜a级毛片| 澳门av无码| 亚洲视频在线青青| 国产一区二区精品高清在线观看| 欧美亚洲另类在线观看| 在线视频精品一区| 香蕉久久国产超碰青草| 男女男精品视频| 久久中文字幕av不卡一区二区|