(河北大學(xué)管理學(xué)院 河北 保定 071000)
基于知識體系建設(shè)創(chuàng)建數(shù)字圖書館
——以河北大學(xué)圖書館APP為例
劉曉曉韓秀靜
(河北大學(xué)管理學(xué)院河北保定071000)
伴隨著信息技術(shù)的迅速發(fā)展,將事物的透明性、智能性和便捷性表現(xiàn)在大眾的視野下,進(jìn)而也為數(shù)字圖書館的發(fā)展帶來了機(jī)遇和挑戰(zhàn),并指引著數(shù)字圖書館的發(fā)展方向,進(jìn)一步向智能化邁進(jìn)。筆者通過文獻(xiàn)調(diào)查法和實(shí)地調(diào)查法,同時借鑒知識體系建設(shè)的理論,借助提取知識元、對知識元進(jìn)行標(biāo)引以及語義識別技術(shù)等的知識點(diǎn),構(gòu)建河北大學(xué)數(shù)字圖書館一個可以多窗口閱讀和方便查閱資料的APP,以此增加河北大學(xué)圖書館的智能服務(wù)。
數(shù)字圖書館;知識服務(wù);知識體系構(gòu)建
筆者認(rèn)為,數(shù)字圖書館(Digital Library)是借助數(shù)字技術(shù)處理存儲各種文獻(xiàn)的圖書館,即將不同載體、不同地理位置的信息資源用數(shù)字存儲技術(shù)存儲到一起,進(jìn)而方便世界各地的讀者進(jìn)行閱讀和使用。數(shù)字圖書館就是虛擬的、沒有圍墻的圖書館,是在網(wǎng)絡(luò)環(huán)境中擁有共享功能的知識網(wǎng)絡(luò)系統(tǒng),是一個規(guī)模巨大、便于使用、沒有時間空間限制的智能檢索中心。
據(jù)國家統(tǒng)計信息中心的研究表明:我國在信息技術(shù)和設(shè)備方面在亞洲國家中占有靠前的位置,但是在信息資源的開發(fā)和利用方面還是較低的。我國數(shù)字圖書館對網(wǎng)上資源認(rèn)識不夠,利用率低,不能通過技術(shù)整理未被挖掘的信息,為讀者所用。數(shù)字圖書館建設(shè)的最終目的是為讀者和用戶提供知識服務(wù),同時為圖書館員等知識服務(wù)人員提供卓有成效的知識服務(wù)平臺[1]。
數(shù)字圖書館(Digital Library,以下簡稱DL)理論研究與實(shí)際應(yīng)用始于20世紀(jì)90年代的美國。在我國DL的建設(shè)已經(jīng)開始進(jìn)入資源整合與面向用戶的數(shù)字化服務(wù)階段,是評價一個國家現(xiàn)代信息基礎(chǔ)設(shè)施水平的重要標(biāo)志[2]。
迄今為止,國內(nèi)外學(xué)者對于DL的定義各抒己見,還沒有達(dá)成統(tǒng)一的認(rèn)識。比較有代表性的觀點(diǎn)有以下幾種:徐文伯[3]認(rèn)為:DL就是對有高度價值的圖像、文本、語音、音響、影視、軟件和科學(xué)數(shù)據(jù)等多媒體信息進(jìn)行收集、組織規(guī)范性加工,進(jìn)行高質(zhì)量保存和管理,實(shí)施知識增值,并提供在廣域網(wǎng)上高速橫向跨庫鏈接的電子存取服務(wù)。同時還包括知識產(chǎn)權(quán)、存取權(quán)限、數(shù)字安全管理范疇;朱復(fù)成[4]認(rèn)為:DL是傳統(tǒng)圖書館在信息社會中的邏輯延伸和擴(kuò)展;王軍[5]認(rèn)為:DL是網(wǎng)絡(luò)環(huán)境+信息集合+信息管理工具;劉峰[6]認(rèn)為:DL是一個全球性的分布式的大型知識庫,即以分布式海量數(shù)據(jù)庫群為支撐,基于智能技術(shù)的大型、開放、分布式信息庫;譚祥金[7]認(rèn)為:DL實(shí)際上就是通過互聯(lián)網(wǎng)連接起來的數(shù)字資源庫群,實(shí)行分布式管理的知識共享的計算機(jī)系統(tǒng);陳源蒸[8]認(rèn)為:數(shù)字圖書館與傳統(tǒng)圖書館有著質(zhì)的區(qū)別,數(shù)字圖書館非圖書館,把圖書館數(shù)字資源建設(shè)的局部行為當(dāng)作數(shù)字圖書館的整體開發(fā)項(xiàng)目是一大誤解,數(shù)字圖書館是全社會的共同責(zé)任。
雖然諸位學(xué)者對DL的認(rèn)識雖然不同,但綜上可得出:DL仍然具有收集、整理、加工、保存、傳遞和服務(wù)的基本功能;并且借助計算機(jī)技術(shù)對信息資源進(jìn)行處理、保存;同時具有全球性、共享性、便捷性,為全球用戶提供服務(wù);DL是作為傳統(tǒng)圖書館的補(bǔ)充和擴(kuò)展而出現(xiàn)的,是傳統(tǒng)圖書館收納信息資源方面、服務(wù)方面、便捷方面的補(bǔ)充與深化,兩者之間不存在對立關(guān)系,DL是傳統(tǒng)圖書館在服務(wù)行業(yè)的繼承和進(jìn)一步的發(fā)展而存在的。
(一)知識體系構(gòu)建
知識體系構(gòu)建是由知識元不斷累積構(gòu)成。知識元是一種不可分割、邏輯完整、語義連接、相互關(guān)聯(lián)的新知識。

圖1 知識元關(guān)聯(lián)圖
由圖1可知,很多知識元聚集在一起,會形成新的知識點(diǎn);將新的知識點(diǎn)通過知識點(diǎn)之間的關(guān)聯(lián)構(gòu)成新的知識鏈;各個知識鏈相交構(gòu)成知識網(wǎng);知識網(wǎng)交叉形成知識庫,構(gòu)建知識體系,進(jìn)而為人類提供知識服務(wù)。
(二)Web定義
語義Web技術(shù)主要應(yīng)用于“以計算機(jī)形式可處理的表示信息的語言”,從而使得機(jī)器和信息資源之間建立起語義聯(lián)系;本體的對象則是獲取、描述相關(guān)領(lǐng)域的知識,將該領(lǐng)域?qū)μ囟ㄖR的認(rèn)知統(tǒng)一規(guī)劃,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次上給出詞匯和詞匯之間相互關(guān)系的定義。準(zhǔn)確來說,語義Web技術(shù)在數(shù)字圖書館的知識體系構(gòu)建和知識服務(wù)方面有著非常重要的作用[9]。
1.知識組織工具
語義Web技術(shù)的出現(xiàn),使得數(shù)字圖書館知識組織工具不只是之前的分類法、主題詞法,而且出現(xiàn)了新的知識組織工具——知識地圖、語義網(wǎng)絡(luò)、以本體為核心的語義Web技術(shù)和語義網(wǎng)格等。其中,知識地圖和語義網(wǎng)絡(luò)可以將知識結(jié)構(gòu)化,表現(xiàn)出知識之間的關(guān)聯(lián)性,而語義網(wǎng)格通過語義互操作能力來提高信息共享能力。
2.知識組織方法
語義Web技術(shù)的出現(xiàn),改善了知識構(gòu)建對技術(shù)的需求,為其提供了新的知識組織方法,基于語義Web技術(shù)的知識構(gòu)建方法主要體現(xiàn)在利用本體表示語言對信息資源進(jìn)行標(biāo)引:為本體構(gòu)建知識元模型、為自然語言轉(zhuǎn)化為機(jī)器語言提供標(biāo)引,用機(jī)器標(biāo)引的語言可以直接被計算機(jī)存儲、加工、利用,或在不同的系統(tǒng)之間進(jìn)行互操作。對本體進(jìn)行標(biāo)注后,其語義特征才能被知識組織系統(tǒng)所識別,并利用知識庫中的知識搜索引擎對語義內(nèi)容進(jìn)行重構(gòu),形成某個特定領(lǐng)域的知識網(wǎng)絡(luò),進(jìn)而向廣大讀者傳遞的語用服務(wù)更易于理解。
3.知識組織體系
語義對知識體系構(gòu)建有著重要的影響。語義Web將自然語言轉(zhuǎn)化為計算機(jī)語言,被計算機(jī)識別,進(jìn)而來進(jìn)行語言的設(shè)計,使得獨(dú)立的數(shù)據(jù)庫融合為一個整體。
在語義Web技術(shù)的帶動下,數(shù)字圖書館的知識服務(wù)從物理層次的文獻(xiàn)單元上升到認(rèn)知層次的知識單元,為數(shù)字圖書館的知識體系構(gòu)建提供了很好的知識服務(wù)的環(huán)境。
借助知識體系構(gòu)建理論,以河北大學(xué)圖書館為例,構(gòu)建河北大學(xué)數(shù)字圖書館APP產(chǎn)品。河北大學(xué)數(shù)字圖書館APP產(chǎn)品面向?qū)W生、教師及培訓(xùn)人員,以河北大學(xué)圖書館資源為基礎(chǔ),通過知識體系的建設(shè)和知識化加工形成知識化資源,并通過專用的功能展示和體現(xiàn)資源內(nèi)容的知識體系和知識化資源的應(yīng)用,為用戶提供知識服務(wù)。
為達(dá)到以上目的,該系統(tǒng)應(yīng)包含以下兩個部分:1)運(yùn)營管理平臺:用戶行為分析、廣告管理、用戶管理和管理員管理;2)客戶端:分別設(shè)有知識導(dǎo)航、知識地圖、專題知識和知識元檢索等知識模塊,條目閱讀模塊設(shè)有多窗口閱讀、深度閱讀、收藏、目錄、上/下、亮度控制等屬性,個人中心模塊設(shè)有閱讀歷史、消息中心、我的收藏、個人信息等屬性;
筆者希望通過構(gòu)建河北大學(xué)數(shù)字圖書館APP產(chǎn)品,為廣大河大師生提供有效的學(xué)習(xí)方法和提高知識節(jié)能,進(jìn)而可以為數(shù)字圖書館的發(fā)展做出貢獻(xiàn)。總之,此款產(chǎn)品具有以下特點(diǎn):1)知識分類較多,可滿足不用用戶的需求;2)多窗口閱讀模式,可滿足用戶對比和參考閱讀需求;3)按照用戶搜索熱度推薦知識元,反映用戶搜索行為;4)以知識元為單位,進(jìn)行知識標(biāo)引,滿足用戶碎片化學(xué)習(xí)需求,同時也具有系統(tǒng)化的黑鉆提閱讀,滿足用戶系統(tǒng)化學(xué)習(xí)需求。
(一)知識資源加工
知識資源加工包括三方面任務(wù):結(jié)構(gòu)化加工、知識體系建設(shè)和知識化加工。三者關(guān)系如下圖2所示:

圖2 知識資源加工結(jié)構(gòu)
如上圖2所示:結(jié)構(gòu)化加工指將圖書PDF和排版文件轉(zhuǎn)化為epub格式的結(jié)構(gòu)化資源,為知識體系和知識化加工提供數(shù)據(jù)基礎(chǔ)。
知識體系建設(shè)則需要根據(jù)10本核心資源進(jìn)行抽詞和構(gòu)建關(guān)聯(lián)關(guān)系,形成知識元及關(guān)聯(lián)關(guān)系的有機(jī)整體,作為知識導(dǎo)航、知識地圖等功能的數(shù)據(jù)基礎(chǔ)。知識化加工的主要任務(wù)是通過程序和人工輔助的方法將知識體系的標(biāo)簽標(biāo)引到結(jié)構(gòu)化資源中,形成知識化資源,作為知識標(biāo)簽和深度閱讀功能的數(shù)據(jù)基礎(chǔ)。
(二)資源內(nèi)容抽詞
從人的角度來看,給出一段話或一篇文章之后,從中找出存在的詞語并不是很難得一件事情,因?yàn)閷τ谌祟悾Z言是存在和交流的根本,具有明顯的特征;而計算機(jī)處理、識別語言的能力并不像人類那么簡單,對于計算機(jī)語言來說具有兩個特征:字符和字符串頻數(shù)[10]。
統(tǒng)計抽詞的所有具體方法是以這兩種語言為基礎(chǔ),進(jìn)行資源內(nèi)容的基本抽詞。其中比較有代表性的是基于統(tǒng)計詞頻、互信息判斷、信息熵判斷、尋找最長字共現(xiàn)、后綴數(shù)組等方法,這些方法基本都屬于基于統(tǒng)計量的抽詞方法。借助計算機(jī)技術(shù)和語言對信息資源內(nèi)容進(jìn)行抽詞,完成資源內(nèi)容的分類,進(jìn)而方便進(jìn)一步的知識標(biāo)引,為計算機(jī)系統(tǒng)識別知識資源內(nèi)容增加便利之處,同時也方便廣大讀者進(jìn)行深度閱讀,享受知識服務(wù)帶來的便利。
(三)資源內(nèi)容標(biāo)引
在對信息資源內(nèi)容進(jìn)行標(biāo)引之前,首先必須要提到“編目”,資源內(nèi)容標(biāo)引是編目的重要環(huán)節(jié),一般是先對整個資源進(jìn)行整體內(nèi)容的標(biāo)引,然后根據(jù)不同類型的廣大讀者的內(nèi)容需求靈活選擇進(jìn)行標(biāo)引,進(jìn)而方便用戶準(zhǔn)確、及時的查找到自己需要的內(nèi)容[11]。
總之,內(nèi)容標(biāo)引是對所需要標(biāo)引的內(nèi)容資源進(jìn)行高度概括,最后作
為知識標(biāo)簽進(jìn)行引導(dǎo),區(qū)別資源之間的不同,為資源之間的相同之處做指引,方便資源內(nèi)容的歸類整理,實(shí)現(xiàn)對資源內(nèi)容的有效管理;內(nèi)容標(biāo)引可以認(rèn)為是最資源內(nèi)容的描述,是為廣大讀者提供一種便捷并且準(zhǔn)確的搜索到所需要的內(nèi)容的一種方法。
互聯(lián)網(wǎng)時代的發(fā)展,數(shù)字圖書館要想更好地服務(wù)于廣大用戶,是離不開強(qiáng)大的數(shù)據(jù)庫和先進(jìn)的信息技術(shù)。筆者希望以河北大學(xué)圖書館APP為例,數(shù)字圖書館的發(fā)展可以大量普及運(yùn)用知識體系構(gòu)建理論、知識元的抽取、分類標(biāo)引,和web技術(shù)等,進(jìn)而給讀者提供一個泛在知識環(huán)境下的以用戶需求為中心的服務(wù),最大限度地滿足知識經(jīng)濟(jì)發(fā)展的需求,促進(jìn)知識社會可持續(xù)發(fā)展。
[1]張會田.泛在知識環(huán)境下的數(shù)字圖書館發(fā)展研究[D].西北師范大學(xué),2008,11(1)
[2]江濤.我國數(shù)字圖書館研究綜述[J].現(xiàn)代情報,2007,5(25)
[3]徐文伯.建設(shè)中國數(shù)字圖書館意義重大[N].光明日報,2000,3(8)
[4]朱復(fù)成.DigitalLibrary涵義及有關(guān)問題[J].圖書館情報工作,2000,(3)
[5]王軍等.數(shù)字圖書館的研究內(nèi)容和方向[J].中國圖書館學(xué)報,2001,(6)
[6]劉峰.國家計劃中國數(shù)字圖書館發(fā)展對策及研究動態(tài)[J].情報資料工作,2001,(2)
[7]譚祥金.面對數(shù)字圖書館浪潮的思考[J].中國圖書館學(xué)報,2002,(1)
[8]陳源蒸.數(shù)字圖書館非圖書館[J].大學(xué)圖書館學(xué)報,2005,(4)
[9]姜永常.基于知識構(gòu)建的數(shù)字圖書館知識服務(wù)研究[J].黑龍江大學(xué),2007(5)
[10]劉洋.基于字邊界特征的中文抽詞模型研究[D].湖南大學(xué).2013.5(23)
[11]毛晴寒.基于互朕網(wǎng)應(yīng)用的涉農(nóng)視頻資源內(nèi)容標(biāo)引研究[D].華中師范大學(xué).2016.5
劉曉曉,河北大學(xué)2015級在讀碩士研究生,研究方向:信息政策;韓秀靜,河北大學(xué)2016級在讀研究生,研究方向:信息資源管理。