百華睿 張路



摘要:基于開(kāi)放域的知識(shí)服務(wù)系統(tǒng)已較為成熟,但是對(duì)于傳統(tǒng)出版領(lǐng)域,尤其是專(zhuān)業(yè)出版領(lǐng)域而言,它還是一個(gè)非常新鮮的技術(shù)。在分析行業(yè)現(xiàn)狀及需求的基礎(chǔ)上,設(shè)計(jì)專(zhuān)業(yè)出版領(lǐng)域知識(shí)服務(wù)系統(tǒng),構(gòu)建專(zhuān)業(yè)領(lǐng)域知識(shí)體系,對(duì)專(zhuān)業(yè)出版領(lǐng)域的資源進(jìn)行知識(shí)化加工及標(biāo)引,形成知識(shí)庫(kù),并基于知識(shí)庫(kù)提供面向不同用戶的個(gè)性化定制服務(wù)。
關(guān)鍵詞:專(zhuān)業(yè)出版;知識(shí)服務(wù);知識(shí)標(biāo)引;知識(shí)庫(kù)構(gòu)建;語(yǔ)義檢索
DOIDOI:10.11907/rjdk.161078
中圖分類(lèi)號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)005-0062-04
0 引言
20世紀(jì)80年代,信息服務(wù)產(chǎn)生并在世界范圍內(nèi)廣泛普及,成為社會(huì)信息化的重要標(biāo)志之一。隨著信息技術(shù)打破摩爾定律繼續(xù)以超高速迅猛發(fā)展,信息給人們的科研和決策也帶來(lái)了諸多麻煩。信息元作為信息傳播的最小單位,可以不斷地連接、組合形成新的結(jié)構(gòu)。信息元的這種無(wú)窮組合能力促使新信息不斷產(chǎn)生,導(dǎo)致信息爆炸,形成信息煙霧。在眾多信息和數(shù)據(jù)庫(kù)面前,科研工作者和決策者卻感到獲取有用信息變得更加困難。為了讓人們從“信息超載”和“知識(shí)饑渴”的困境中走出來(lái),在知識(shí)密集型服務(wù)行業(yè)中出現(xiàn)了一個(gè)新的服務(wù)領(lǐng)域——知識(shí)服務(wù)。知識(shí)服務(wù)從各種顯性和隱性知識(shí)資源中按照人們的需要有針對(duì)性地提煉知識(shí),是一種用來(lái)解決用戶問(wèn)題的高級(jí)階段的信息服務(wù)過(guò)程,它是一種面向知識(shí)內(nèi)容和解決方案的服務(wù)。
區(qū)別于傳統(tǒng)的信息服務(wù),知識(shí)服務(wù)是用戶目標(biāo)驅(qū)動(dòng)的服務(wù),面向知識(shí)內(nèi)容的服務(wù),它非常重視用戶需求分析,根據(jù)問(wèn)題和問(wèn)題環(huán)境確定用戶需求,通過(guò)信息的析取和重組來(lái)形成符合需要的知識(shí)產(chǎn)品,并能夠?qū)χR(shí)產(chǎn)品的質(zhì)量進(jìn)行評(píng)價(jià)。此外,知識(shí)服務(wù)是面向解決方案的服務(wù),它關(guān)心并致力于幫助用戶找到或形成解決方案。同時(shí),知識(shí)服務(wù)是為用戶解決問(wèn)題工程的過(guò)程性服務(wù),幫助用戶進(jìn)行知識(shí)的捕獲、分析、重組及應(yīng)用,根據(jù)用戶需求來(lái)動(dòng)態(tài)和連續(xù)地組織服務(wù)。
1 行業(yè)現(xiàn)狀與需求
在當(dāng)前語(yǔ)境下,專(zhuān)業(yè)知識(shí)服務(wù)[1]工作的開(kāi)展,無(wú)論是對(duì)出版企業(yè)還是技術(shù)提供方都提出了較高要求,尤其是在專(zhuān)業(yè)知識(shí)領(lǐng)域[2],具體要求主要體現(xiàn)在如下幾個(gè)方面:一是對(duì)資源的要求,區(qū)別于無(wú)體系、無(wú)規(guī)范及無(wú)專(zhuān)業(yè)保證的互聯(lián)網(wǎng)資源,出版社具備專(zhuān)業(yè)的編輯團(tuán)隊(duì)及知識(shí)來(lái)源,是開(kāi)展知識(shí)服務(wù)的最佳基礎(chǔ);二是對(duì)技術(shù)的要求,只有依托于先進(jìn)的技術(shù)手段及產(chǎn)品設(shè)計(jì)理念,才能實(shí)現(xiàn)合理的知識(shí)呈現(xiàn)、提供良好的解決方案;三是對(duì)知識(shí)服務(wù)的理解程度,在知識(shí)服務(wù)開(kāi)展過(guò)程中,知識(shí)服務(wù)提供方要結(jié)合自身的資源優(yōu)勢(shì)及用戶特點(diǎn),基于對(duì)知識(shí)服務(wù)內(nèi)涵及外延的了解,建立行業(yè)及專(zhuān)業(yè)的知識(shí)譜系及服務(wù)模型[3]。
近年來(lái),國(guó)外學(xué)界對(duì)知識(shí)服務(wù)概念及范圍的研究甚囂塵上,與知識(shí)服務(wù)概念研究熱潮形成鮮明對(duì)比的是知識(shí)服務(wù)實(shí)踐開(kāi)展卻相對(duì)滯后,能真正系統(tǒng)開(kāi)展知識(shí)服務(wù)的機(jī)構(gòu)很少。但是,眾多數(shù)字出版企業(yè)并沒(méi)有停下前進(jìn)的腳步,國(guó)內(nèi)外眾多出版機(jī)構(gòu)都開(kāi)展了在該領(lǐng)域的探索,并在探索的基礎(chǔ)之上依托多元化的產(chǎn)品形態(tài)及運(yùn)營(yíng)模式,為用戶提供基于知識(shí)的服務(wù),為我國(guó)出版界開(kāi)展知識(shí)服務(wù)建設(shè)提供了寶貴經(jīng)驗(yàn)[2]。
本課題的主要研究目標(biāo)是提供一套可行的解決方案,滿足專(zhuān)業(yè)出版領(lǐng)域的知識(shí)體系構(gòu)建、知識(shí)加工及標(biāo)引、知識(shí)庫(kù)構(gòu)建以及對(duì)外提供知識(shí)服務(wù)的需求。
2 系統(tǒng)架構(gòu)設(shè)計(jì)
2.1 系統(tǒng)總體架構(gòu)
系統(tǒng)總體架構(gòu)如圖1所示。
2.2 資源采集及管理
專(zhuān)業(yè)出版領(lǐng)域的資源是專(zhuān)業(yè)出版社最核心的資產(chǎn),將這些資源進(jìn)行數(shù)字化、結(jié)構(gòu)化及知識(shí)化,結(jié)合構(gòu)建的知識(shí)體系形成知識(shí)庫(kù),再對(duì)外提供知識(shí)服務(wù)[3],這是本解決方案要實(shí)現(xiàn)的目標(biāo),也是整體框架設(shè)計(jì)的依據(jù)。
存量資源以圖書(shū)、期刊等出版物為主,這些資源由于出版時(shí)期不同,其存儲(chǔ)介質(zhì)也不盡相同。早期出版物以紙質(zhì)為主,到了20世紀(jì)80~90年代,出現(xiàn)了排版軟件,例如方正書(shū)版、InDesign等,這時(shí)資源存儲(chǔ)的介質(zhì)已經(jīng)數(shù)字化,基本上以方正書(shū)版文件、PDF、WORD等形式出現(xiàn)。
對(duì)于存量的紙質(zhì)圖書(shū),可以通過(guò)掃描、OCR識(shí)別形成PDF文件實(shí)現(xiàn)其數(shù)字化。但是數(shù)字化只是第一步,想要獲取到知識(shí),還必須將資源進(jìn)行結(jié)構(gòu)化,本方案中結(jié)構(gòu)化的數(shù)據(jù)采用XML來(lái)描述,XML的標(biāo)準(zhǔn)以國(guó)際通用標(biāo)準(zhǔn)配以國(guó)內(nèi)標(biāo)準(zhǔn)的擴(kuò)展。例如,國(guó)際通用的DOCBOOK5.0標(biāo)準(zhǔn),并擴(kuò)展中文圖書(shū)特有的一些屬性,從而形成本方案的圖書(shū)結(jié)構(gòu)化標(biāo)準(zhǔn)。
WORD結(jié)構(gòu)化加工工具是基于微軟Office提供的API接口開(kāi)發(fā)的基于WORD的插件,安裝后直接在WORD面板中出現(xiàn)一個(gè)新的面板,其提供的功能可以對(duì)WORD文本進(jìn)行自動(dòng)化及人工加工。對(duì)于方正書(shū)版文件,采用方正經(jīng)典可以直接導(dǎo)出DOCBOOK標(biāo)準(zhǔn)的結(jié)構(gòu)化資源包;對(duì)于PDF,可以通過(guò)集成業(yè)內(nèi)成熟的數(shù)字加工技術(shù)來(lái)實(shí)現(xiàn)結(jié)構(gòu)化。結(jié)構(gòu)化的數(shù)據(jù)需要存儲(chǔ)管理起來(lái),對(duì)外提供瀏覽、下載、導(dǎo)出等服務(wù),也可以參與重新加工的業(yè)務(wù)流程,這也是目前專(zhuān)業(yè)出版社內(nèi)資源管理系統(tǒng)的常見(jiàn)功能。
2.3 知識(shí)體系構(gòu)建
專(zhuān)業(yè)領(lǐng)域知識(shí)體系是知識(shí)的框架,它有效揭示了知識(shí)的內(nèi)在關(guān)聯(lián)和組織方式。領(lǐng)域知識(shí)體系是知識(shí)資源構(gòu)建的基礎(chǔ),是知識(shí)組織的核心框架,它將知識(shí)和資源通過(guò)各種方式關(guān)聯(lián)在一起,形成龐大的知識(shí)網(wǎng)絡(luò),通過(guò)知識(shí)體系的作用實(shí)現(xiàn)領(lǐng)域內(nèi)容基于知識(shí)主體的內(nèi)在連接、關(guān)聯(lián)和關(guān)系推理,從而為使用對(duì)象提供精準(zhǔn)的知識(shí)服務(wù)及知識(shí)延伸服務(wù)。
知識(shí)體系構(gòu)建[4]是一項(xiàng)基礎(chǔ)性工作,對(duì)資源進(jìn)行知識(shí)提取之前,知識(shí)體系就必須先建立起來(lái)。本系統(tǒng)中知識(shí)體系包含3種,包括多維度主題分類(lèi)、領(lǐng)域主題詞表以及領(lǐng)域本體。多維度主題分類(lèi)目前已得到廣泛應(yīng)用,多個(gè)領(lǐng)域內(nèi)也都有了比較成熟的分類(lèi)體系。領(lǐng)域主題詞表是目前知識(shí)服務(wù)應(yīng)用的主要知識(shí)體系,也是目前出版單位正在或者準(zhǔn)備構(gòu)建的知識(shí)體系,由于詞表中的詞數(shù)量眾多龐大,因而需要花費(fèi)相當(dāng)?shù)娜肆ξ锪?lái)進(jìn)行此項(xiàng)構(gòu)建工作。領(lǐng)域本體在目前國(guó)內(nèi)出版單位涉及得非常少,它是最復(fù)雜的一種知識(shí)體系,相比主題詞表,它需要構(gòu)建者對(duì)領(lǐng)域內(nèi)的知識(shí)有更充分的理解,并且所需要構(gòu)建的內(nèi)容也更為多樣。
從分類(lèi)體系到主題詞表再到領(lǐng)域本體,可以采取循序漸進(jìn)的方式進(jìn)行構(gòu)建,主題詞表可以基于資源管理系統(tǒng)的分類(lèi)體系、關(guān)鍵詞、概念等內(nèi)容進(jìn)行構(gòu)建,而領(lǐng)域本體則可以基于主題詞表,將其關(guān)系擴(kuò)展后得到。領(lǐng)域本體通過(guò)提取領(lǐng)域內(nèi)的抽象實(shí)體以及實(shí)體之間的關(guān)系而形成,可以構(gòu)建豐富的概念間的語(yǔ)義關(guān)系,其形成的知識(shí)圖譜[4]是計(jì)算機(jī)智能技術(shù)最主要分支之一,這也是提供語(yǔ)義檢索、智能問(wèn)答的基礎(chǔ)[3]。
本系統(tǒng)提供的領(lǐng)域本體構(gòu)建界面如圖2所示。
2.4 知識(shí)加工
對(duì)于知識(shí)服務(wù)而言,結(jié)構(gòu)化的內(nèi)容資源一般不能算作是可靠的知識(shí)點(diǎn)。例如拆分圖書(shū)得到的章節(jié)片斷,其內(nèi)容一般與前后章節(jié)存在上下文關(guān)聯(lián),因而不能直接作為一個(gè)獨(dú)立的知識(shí)點(diǎn)存在,需要從中進(jìn)行提煉,而有些內(nèi)容并不包含任何知識(shí)點(diǎn)。另外,一些圖書(shū)的插圖及描述也可以作為獨(dú)立的知識(shí)點(diǎn)存在。因此,需要對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)加工與標(biāo)引并形成知識(shí)。知識(shí)加工模塊業(yè)務(wù)架構(gòu)如圖3所示。
知識(shí)發(fā)現(xiàn)指從結(jié)構(gòu)化內(nèi)容資源中根據(jù)預(yù)置的規(guī)則和算法自動(dòng)抽取出知識(shí)點(diǎn)的過(guò)程,規(guī)則和算法都是為了實(shí)現(xiàn)自動(dòng)提取這個(gè)動(dòng)作。
發(fā)現(xiàn)規(guī)則指系統(tǒng)預(yù)置的用于提取知識(shí)點(diǎn)的規(guī)則。對(duì)于不同類(lèi)型、不同領(lǐng)域、不同載體的內(nèi)容資源,提取規(guī)則可能存在根本性不同。本系統(tǒng)中,發(fā)布規(guī)則模塊采用組件模塊方式實(shí)現(xiàn),通過(guò)接口向外部提供規(guī)則調(diào)用服務(wù)。這種設(shè)計(jì)思路方便基于接口進(jìn)行復(fù)雜規(guī)則的擴(kuò)展。
系統(tǒng)預(yù)置一些常用規(guī)則如下:
(1)末級(jí)章節(jié)規(guī)則。將圖書(shū)、期刊等結(jié)構(gòu)化后的最深章節(jié)提取出來(lái)作為知識(shí)點(diǎn)。這種規(guī)則是目前應(yīng)用最廣泛的規(guī)則,適用于詞典、論文集、科技期刊等專(zhuān)業(yè)出版領(lǐng)域常見(jiàn)的出版物類(lèi)型。
(2)圖表提取規(guī)則。將結(jié)構(gòu)化后得到的圖表、屬性及其文字說(shuō)明提取出來(lái)作為知識(shí)點(diǎn)。適用于人物、地點(diǎn)、事件等專(zhuān)業(yè)知識(shí)。
(3)位置模板提取規(guī)則。制定針對(duì)文本內(nèi)容的位置模板,例如第一段或者某些固定的詞語(yǔ)之后。數(shù)學(xué)中的“公理”之后一般緊跟著該公理的描述。通過(guò)這樣的規(guī)則就可以提取到某些固定格式的知識(shí)點(diǎn)。
(4)摘要提取規(guī)則。通過(guò)語(yǔ)義分析技術(shù)[5]及數(shù)據(jù)挖掘技術(shù)[5],可以從大段文本中提取出摘要信息作為知識(shí)點(diǎn)。
發(fā)現(xiàn)算法指將發(fā)布規(guī)則、內(nèi)容資源按照一定的邏輯進(jìn)行處理。每種算法都可以集成多個(gè)發(fā)現(xiàn)規(guī)則,例如將圖書(shū)拆分的末級(jí)章節(jié)提取摘要后作為知識(shí)點(diǎn),其中就集成了末級(jí)章節(jié)規(guī)則和摘要提取規(guī)則。也可以對(duì)多條內(nèi)容資源進(jìn)行一個(gè)知識(shí)點(diǎn)的提取,例如多個(gè)章節(jié)描述了一個(gè)知識(shí)點(diǎn)的多個(gè)屬性,則可以直接將其內(nèi)容資源合并之后進(jìn)行提取。
知識(shí)標(biāo)引是將待標(biāo)引的知識(shí)納入到知識(shí)體系網(wǎng)絡(luò)內(nèi),將其與知識(shí)體系關(guān)聯(lián)。不同的知識(shí)體系對(duì)應(yīng)有不同的標(biāo)引方法,包括分類(lèi)標(biāo)引、主題詞標(biāo)引以及知識(shí)本體標(biāo)引。由于知識(shí)標(biāo)引的數(shù)據(jù)量龐大,因而一般采用自動(dòng)標(biāo)注結(jié)合人工干預(yù)的方式來(lái)實(shí)現(xiàn)。以主題詞標(biāo)引為例,進(jìn)行標(biāo)引分類(lèi)后,基于分類(lèi)進(jìn)行主題詞標(biāo)引會(huì)更加簡(jiǎn)單,自動(dòng)化標(biāo)引結(jié)果也會(huì)更加準(zhǔn)確。主題詞標(biāo)引也分為手動(dòng)標(biāo)引、自動(dòng)標(biāo)引結(jié)合人工修正兩種方式。
(1)手動(dòng)標(biāo)引。先標(biāo)引分類(lèi),然后點(diǎn)擊該分類(lèi),在主題詞區(qū)域顯示出該分類(lèi)下所有的主題詞列表,選擇一個(gè)或多個(gè)主題詞后,點(diǎn)擊“確定”,則知識(shí)和選中的主題詞之間建立了關(guān)聯(lián)關(guān)系。選擇主題詞也可以通過(guò)檢索主題詞表來(lái)實(shí)現(xiàn)。
(2)自動(dòng)標(biāo)引+人工修正。當(dāng)知識(shí)進(jìn)入待標(biāo)引知識(shí)庫(kù)后,系統(tǒng)自動(dòng)調(diào)用自動(dòng)化標(biāo)引工具,將知識(shí)內(nèi)容作為參數(shù)傳入工具,工具經(jīng)過(guò)處理后返回推薦的主題詞。自動(dòng)標(biāo)引后的知識(shí)將進(jìn)入待審核狀態(tài),專(zhuān)業(yè)人員可以點(diǎn)擊審核按鈕,進(jìn)行審核,如果確認(rèn)標(biāo)引錯(cuò)誤,可以進(jìn)行人工調(diào)整,方法等同于手動(dòng)標(biāo)引。
自動(dòng)化標(biāo)引工具是實(shí)現(xiàn)知識(shí)自動(dòng)化標(biāo)引的載體,通過(guò)提供接口來(lái)集成到系統(tǒng)中。該工具提供的功能也可以通過(guò)接口描述來(lái)體現(xiàn),在本系統(tǒng)中包括知識(shí)體系同步接口、自動(dòng)化標(biāo)引接口以及反饋修正信息接口。知識(shí)體系同步接口將分類(lèi)體系、主題詞表及本體導(dǎo)入并同步更新。自動(dòng)化標(biāo)引接口提取內(nèi)容文本特征和關(guān)鍵詞頻率,綜合內(nèi)容特征和關(guān)鍵詞頻率并對(duì)照知識(shí)組織方案規(guī)則實(shí)現(xiàn)內(nèi)容自動(dòng)分類(lèi)和知識(shí)點(diǎn)標(biāo)引??刹捎萌缦聝?nèi)容特征方式實(shí)現(xiàn)自動(dòng)化分類(lèi)標(biāo)引:
(1)基于元數(shù)據(jù)屬性特征。在進(jìn)行資源加工時(shí),對(duì)于每個(gè)資源都會(huì)標(biāo)引比較多的元數(shù)據(jù),包括標(biāo)題、作者、關(guān)鍵詞、來(lái)源等。可以通過(guò)這些標(biāo)引的元數(shù)據(jù)屬性特征實(shí)現(xiàn)內(nèi)容自動(dòng)分類(lèi)和知識(shí)點(diǎn)標(biāo)引,例如相同來(lái)源的、相同作者的、關(guān)鍵詞相同的。
(2)基于文本內(nèi)容特征。首先,對(duì)已經(jīng)入庫(kù)的文本內(nèi)容提取其關(guān)鍵詞作為其特征向量;然后,在獲取到用戶錄入的檢索內(nèi)容時(shí),自動(dòng)提取該內(nèi)容的關(guān)鍵詞作為特征向量,在自動(dòng)標(biāo)引時(shí),查詢與其特征向量最接近的知識(shí)主題分類(lèi)、主題詞表等作為其標(biāo)引項(xiàng)。
(3)基于知識(shí)體系。在構(gòu)建知識(shí)體系時(shí),會(huì)構(gòu)建知識(shí)體系之間的關(guān)聯(lián)關(guān)系,作為知識(shí)體系下的內(nèi)容會(huì)自動(dòng)繼承這種關(guān)聯(lián)關(guān)系,在獲取到一個(gè)資源時(shí),將相關(guān)知識(shí)分類(lèi)下的資源作為該資源的標(biāo)引項(xiàng)。通過(guò)這種方式建立的關(guān)聯(lián)關(guān)系,知識(shí)的相關(guān)性程度比較高。
反饋修正信息接口主要用于機(jī)器學(xué)習(xí)方面。自動(dòng)化標(biāo)引結(jié)果存在一定的誤差與謬誤概率,需要人工修正。對(duì)于錯(cuò)誤標(biāo)引的處理結(jié)果,需要通過(guò)反饋修正信息接口將其反饋給自動(dòng)化標(biāo)引服務(wù),自動(dòng)化標(biāo)引服務(wù)會(huì)據(jù)此對(duì)標(biāo)引算法進(jìn)行自我完善,進(jìn)一步提高自動(dòng)化標(biāo)引的準(zhǔn)確率??梢允褂秘?fù)面標(biāo)引清單的方法來(lái)實(shí)現(xiàn),將錯(cuò)誤的知識(shí)提取放入負(fù)面標(biāo)引清單,同時(shí)在服務(wù)內(nèi)置的知識(shí)關(guān)聯(lián)表中,降低知識(shí)所標(biāo)引的錯(cuò)誤主題詞和正確主題詞之間的關(guān)聯(lián)度。這樣,下次進(jìn)行知識(shí)標(biāo)引時(shí),同時(shí)出現(xiàn)錯(cuò)誤主題詞和正確主題詞的概率就會(huì)降低,再結(jié)合其它正確主題詞,便可提高自動(dòng)化標(biāo)引的正確率。
對(duì)標(biāo)引完成后的知識(shí),需要專(zhuān)業(yè)數(shù)據(jù)人員介入,結(jié)合系統(tǒng)自動(dòng)化功能,對(duì)知識(shí)進(jìn)行再次驗(yàn)證、校對(duì)處理,保證知識(shí)化加工和標(biāo)引的準(zhǔn)確性與規(guī)范性。
2.5 知識(shí)管理與發(fā)布
知識(shí)資源庫(kù)[1]是基于內(nèi)容資源庫(kù)而構(gòu)建的,專(zhuān)為知識(shí)服務(wù)和知識(shí)內(nèi)容產(chǎn)品化抽取整合的帶有知識(shí)特征的知識(shí)化內(nèi)容資源庫(kù),是具備知識(shí)服務(wù)目標(biāo)屬性的內(nèi)容資源庫(kù)?;趦?nèi)容資源庫(kù)可以創(chuàng)建多個(gè)知識(shí)庫(kù),知識(shí)庫(kù)自身特征決定了知識(shí)庫(kù)和知識(shí)體系具有密不可分的關(guān)系。知識(shí)庫(kù)創(chuàng)建時(shí)除了設(shè)置庫(kù)的名稱、庫(kù)碼、領(lǐng)域、類(lèi)別等基本屬性外,也需要選擇一個(gè)或多個(gè)知識(shí)體系或其分支以建立關(guān)系。
在系統(tǒng)數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)上,知識(shí)庫(kù)和知識(shí)體系并沒(méi)有相互的從屬關(guān)系。從理論上講,一個(gè)知識(shí)體系或其分支可以屬于多個(gè)知識(shí)庫(kù),一個(gè)知識(shí)庫(kù)也可以擁有多個(gè)知識(shí)體系或分支。然而從實(shí)際使用的角度看,建議一個(gè)領(lǐng)域的知識(shí)體系對(duì)應(yīng)一個(gè)領(lǐng)域的知識(shí)庫(kù),這樣結(jié)構(gòu)完整,也便于使用。
內(nèi)容資源經(jīng)過(guò)知識(shí)化加工后,形成知識(shí),經(jīng)過(guò)加工系統(tǒng)中的流程審查后,最終進(jìn)入知識(shí)庫(kù),知識(shí)在加工系統(tǒng)中,會(huì)被標(biāo)注到某些知識(shí)體系下,因而在知識(shí)入庫(kù)時(shí),會(huì)自動(dòng)進(jìn)入知識(shí)體系關(guān)聯(lián)的知識(shí)庫(kù)內(nèi)。知識(shí)庫(kù)可以整體發(fā)布以供知識(shí)服務(wù)系統(tǒng)來(lái)導(dǎo)入使用,這樣可以將知識(shí)庫(kù)構(gòu)建和知識(shí)服務(wù)分離開(kāi)來(lái),實(shí)現(xiàn)知識(shí)庫(kù)的多元渠道發(fā)布應(yīng)用。
知識(shí)庫(kù)導(dǎo)出支持多種格式,如在線導(dǎo)出、鏡像導(dǎo)出和U盤(pán)導(dǎo)出等。使用在線導(dǎo)出時(shí),知識(shí)庫(kù)中被抽取的內(nèi)容通過(guò)網(wǎng)絡(luò)傳輸?shù)竭\(yùn)營(yíng)平臺(tái),自動(dòng)更新也在線上完成,具有時(shí)效性。若運(yùn)營(yíng)平臺(tái)用戶由于某些原因無(wú)法連接網(wǎng)絡(luò),也可通過(guò)鏡像導(dǎo)出或U盤(pán)導(dǎo)出獲取知識(shí)資源,在這兩種導(dǎo)出方式中,自動(dòng)更新需借助人工手動(dòng)完成。
2.6 知識(shí)服務(wù)
知識(shí)服務(wù)最主要的功能之一是提供檢索,其它功能,例如知識(shí)推薦、知識(shí)問(wèn)答等實(shí)質(zhì)上都是檢索功能的多種應(yīng)用方式。知識(shí)服務(wù)提供的檢索功能包括簡(jiǎn)單檢索、高級(jí)組合檢索、二次檢索、相似檢索、跨庫(kù)統(tǒng)一檢索以及語(yǔ)義檢索等。其中,語(yǔ)義檢索是體現(xiàn)知識(shí)服務(wù)最優(yōu)秀能力的功能之一。
對(duì)用戶提問(wèn)的知識(shí)點(diǎn)進(jìn)行語(yǔ)義檢索,包括3步:①?gòu)闹R(shí)圖譜中遍歷查詢知識(shí)點(diǎn);②根據(jù)預(yù)置的路徑算法獲取該知識(shí)點(diǎn)關(guān)聯(lián)的其它知識(shí)點(diǎn),默認(rèn)算法是獲取該知識(shí)點(diǎn)的相鄰知識(shí)點(diǎn)及其之間的關(guān)系;③從資源關(guān)聯(lián)裝置中獲取該知識(shí)點(diǎn)及其關(guān)聯(lián)知識(shí)點(diǎn)關(guān)聯(lián)的知識(shí)條目。
以“小兒腹瀉“為例,調(diào)用知識(shí)圖譜管理裝置提供的接口,在圖數(shù)據(jù)庫(kù)中使用圖遍歷方式查詢?cè)撝R(shí)點(diǎn)。獲取該知識(shí)點(diǎn)相鄰的知識(shí)點(diǎn)及相互間的關(guān)系,如圖4所示。
獲取“小兒腹瀉“知識(shí)點(diǎn)以及相鄰知識(shí)點(diǎn)下的關(guān)聯(lián)知識(shí)條目。獲取到資源后,生成解決方案,一個(gè)解決方法有多個(gè)方面的組成單元,每一個(gè)方面的組成單元都有相應(yīng)的資料。生成方案需要根據(jù)檢索得到的信息按照兩級(jí)關(guān)聯(lián)進(jìn)行整合,第一級(jí)是知識(shí)點(diǎn)之間的關(guān)系,第二級(jí)是知識(shí)點(diǎn)與知識(shí)條目之間的關(guān)系及權(quán)重。例如“小兒腹瀉”有兩種關(guān)聯(lián)的治療方法,則將此兩種方法合并到治療這個(gè)方案組成單位下,然后針對(duì)每一個(gè)治療方法再選擇權(quán)重值最高的關(guān)聯(lián)知識(shí)條目作為治療單元下該治療方法子單元的資料。方案展示裝置用于展示解決方案,包括解決方案展示區(qū)和知識(shí)圖譜展示區(qū)兩部分。
3 結(jié)語(yǔ)
本文根據(jù)出版社目前資源搜集及數(shù)字化轉(zhuǎn)型現(xiàn)狀,提出了一套可用的專(zhuān)業(yè)出版領(lǐng)域的知識(shí)體系構(gòu)建系統(tǒng),并且針對(duì)不同出版社的知識(shí)體系構(gòu)建情況,形成了分類(lèi)體系、主題詞表以及領(lǐng)域本體3個(gè)層級(jí)的知識(shí)管理及服務(wù)解決方案。本文描述的系統(tǒng)包括資源采集與管理、知識(shí)加工與標(biāo)引、知識(shí)管理與發(fā)布以及知識(shí)應(yīng)用,并對(duì)關(guān)鍵的知識(shí)加工及知識(shí)應(yīng)用環(huán)節(jié)進(jìn)行了詳細(xì)介紹,以盡可能滿足專(zhuān)業(yè)出版單位需求。
參考文獻(xiàn):
[1]王勝海,沈英.網(wǎng)絡(luò)智能知識(shí)服務(wù)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2002(1):29-31.
[2]秦長(zhǎng)江,侯漢青.知識(shí)圖譜—信息管理與知識(shí)管理的新領(lǐng)域[J].大學(xué)圖書(shū)館學(xué)報(bào),2009(1):30-37.
[3]丁蔚.從信息管理到知識(shí)管理[J].情報(bào)學(xué)報(bào),2000,19(2) 124-129.
[4]魏瑞斌.機(jī)構(gòu)知識(shí)圖譜的構(gòu)建及其應(yīng)用[M].北京:科學(xué)出版社,2015.
[5]梁永霞.引文分析學(xué)知識(shí)圖譜[M].大連:大連理工大學(xué)出版社,2012.
(責(zé)任編輯:孫 娟)