黃繡坤


摘 要:數(shù)字圖書(shū)館作為人們獲取信息的重要渠道之一,在幫助用戶(hù)找到所需要信息方面不斷進(jìn)行著探索,將大數(shù)據(jù)應(yīng)用于數(shù)字圖書(shū)館個(gè)性化服務(wù)建設(shè)是新時(shí)代數(shù)字圖書(shū)館的發(fā)展的必然趨勢(shì),它能為用戶(hù)提供更便捷、更全面、更個(gè)性化的服務(wù)。本文從數(shù)字圖書(shū)館和數(shù)字圖書(shū)館的個(gè)性化服務(wù)發(fā)展的現(xiàn)狀展開(kāi)研究,主要介紹了數(shù)字圖書(shū)館個(gè)性化服務(wù)的概念、數(shù)據(jù)挖掘的相關(guān)技術(shù)、大數(shù)據(jù)在數(shù)字圖書(shū)館個(gè)性化服務(wù)建設(shè)的應(yīng)用以及發(fā)現(xiàn)數(shù)字圖書(shū)館個(gè)性化服務(wù)建設(shè)中存在的問(wèn)題并提出了解決對(duì)策。
關(guān)鍵詞:大數(shù)據(jù);數(shù)字圖書(shū)館;個(gè)性化;服務(wù)建設(shè)
Research on the Development of Digital Library Personalized Service Based on Big Data
HUANG Xiukun
(Shache County Library, Kashgar Region, Xinjiang Uygur Autonomous Region, 844700 China)
Abstract: Digital library, as one of the important channels of access to information, to help users find the information you need on exploring, in a big data applied to the construction of digital library personalized service is inevitable trend in the development of a new era of digital library, it can provide users with more convenient, more comprehensive, more personalized service. This article from the digital library and digital library personalized service development present situation launches the research, mainly introduces the concept of digital library personalized service, the related technology of data mining, data in the application of the construction of digital library personalized service, and find the problems existing in the construction of digital library personalized service and solutions are put forward.
Key Words: Big data; Digital library; Personalized; Service construction
0 前言
數(shù)字圖書(shū)館是以實(shí)體圖書(shū)館為基礎(chǔ),運(yùn)用計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)來(lái)實(shí)現(xiàn)圖書(shū)資源的收錄、傳播[1]。但隨著數(shù)字圖書(shū)館的快速發(fā)展,大量問(wèn)題也逐漸涌現(xiàn)出來(lái)。數(shù)據(jù)庫(kù)數(shù)據(jù)過(guò)于冗雜,使用戶(hù)無(wú)法在最短的時(shí)間內(nèi)獲取對(duì)自己有用的信息,信息檢索上同樣缺乏個(gè)性化服務(wù),不能滿(mǎn)足用戶(hù)的多樣化需求。這些問(wèn)題的出現(xiàn),要求數(shù)字圖書(shū)館加強(qiáng)個(gè)性化服務(wù)建設(shè)[2]。
大數(shù)據(jù)、大數(shù)據(jù)技術(shù)的發(fā)展,為數(shù)字圖書(shū)館的個(gè)性化建設(shè)提供了技術(shù)支持。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,人們進(jìn)入了信息時(shí)代[3]。信息源的不斷擴(kuò)大,信息也變的多種多樣。數(shù)量巨大的信息給人們生活帶來(lái)了巨大的改變[4],他方便我們的同時(shí),另一方面數(shù)量巨大且冗雜的信息也為人們帶來(lái)了搜尋上的不便。與此同時(shí),數(shù)字圖書(shū)館的使用者也不斷增加[5],人們對(duì)數(shù)字圖書(shū)館的個(gè)性化服務(wù)的需求也隨之增加。大數(shù)據(jù)在數(shù)字圖書(shū)館中的應(yīng)用,能夠有效提高數(shù)字圖書(shū)館的信息篩選效率。在數(shù)字圖書(shū)館的基礎(chǔ)上豐富個(gè)性化服務(wù),更能滿(mǎn)足用戶(hù)的信息檢索和圖書(shū)閱讀的需求,提高用戶(hù)的閱讀效率[6]。
1 大數(shù)據(jù)在數(shù)字圖書(shū)館上個(gè)性化服務(wù)的應(yīng)用
1.1信息定制與信息推送
數(shù)字圖書(shū)館的個(gè)性化服務(wù)就是數(shù)字圖書(shū)館針對(duì)不同用戶(hù)在不同的時(shí)間、不同的地點(diǎn),為其提供量身定制的服務(wù)。其主要體現(xiàn)在用戶(hù)的個(gè)性化信息定制、信息推送服務(wù)兩個(gè)方面[7]。
(1)個(gè)性化信息定制服務(wù)不再向用戶(hù)提供相同的信息服務(wù),而是根據(jù)不同用戶(hù)不同需求為其提供滿(mǎn)足需求的個(gè)性化服務(wù)。用戶(hù)通過(guò)注冊(cè)個(gè)人信息、操作網(wǎng)頁(yè)在用戶(hù)數(shù)據(jù)庫(kù)中形成交互記錄,這些記錄信息會(huì)通過(guò)數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術(shù)實(shí)現(xiàn)的用戶(hù)需求的挖掘[8]。了解了用戶(hù)的需求,就能為用戶(hù)提供個(gè)性化服務(wù)了。
(2)信息推送服務(wù)則是利用大數(shù)據(jù)通過(guò)個(gè)性化服務(wù)系統(tǒng)實(shí)現(xiàn)個(gè)性化推薦的目的,即由用戶(hù)主動(dòng)搜尋轉(zhuǎn)為圖書(shū)館主動(dòng)提供信息服務(wù)。在這種模式下,用戶(hù)不需要在搜索引擎上操作就能夠獲得自己想要的信息[9]。
不論是信息定制服務(wù)還是信息推送服務(wù),其工作原理都是利用用戶(hù)的注冊(cè)信息以及用戶(hù)的網(wǎng)頁(yè)訪(fǎng)問(wèn)行為形成用戶(hù)個(gè)人數(shù)據(jù)庫(kù),然后系統(tǒng)利用大數(shù)據(jù)及其他信息處理技術(shù)挖掘用戶(hù)關(guān)注的信息,將用這些被挖掘出來(lái)的信息發(fā)送給用戶(hù)[10]。另外根據(jù)數(shù)字圖書(shū)館可更新性原則,系統(tǒng)會(huì)在未來(lái)的工作中實(shí)時(shí)更新用戶(hù)個(gè)人數(shù)據(jù)庫(kù),以滿(mǎn)足用戶(hù)實(shí)時(shí)的信息獲取需求。具體的個(gè)性化信息制、信息推送流程如圖1所示:
1.2優(yōu)化信息檢索服務(wù)
信息檢索是用戶(hù)與數(shù)字信息建立聯(lián)系的紐帶,在數(shù)字圖書(shū)館中應(yīng)用大數(shù)據(jù),能夠利用聚類(lèi)算法將搜尋到的結(jié)果聚類(lèi)分析,將大大提高信息檢索的效率。大數(shù)據(jù)根據(jù)用戶(hù)的注冊(cè)信息、行為活動(dòng)數(shù)據(jù),分析出用戶(hù)的數(shù)據(jù)需求,然后搜索引擎將用戶(hù)檢索的相關(guān)信息呈現(xiàn)給用戶(hù)[11]。
如今,在搜索引擎上使用關(guān)鍵詞法進(jìn)行信息檢索,往往會(huì)得到幾百、幾千條與檢索關(guān)鍵詞相關(guān)的信息,在短時(shí)間內(nèi)找到真正感興趣的信息很困難。如果將大量信息收集整理在一起,并把這些信息聚類(lèi)分類(lèi)成多組不同的類(lèi),每組類(lèi)歸納出一個(gè)主題 ,這將排除一些用戶(hù)不感興趣的信息。比如,輸入關(guān)鍵詞“數(shù)字圖書(shū)館”,搜索引擎可能找到幾千條與“數(shù)字圖書(shū)館”相關(guān)的信息,用戶(hù)很難找到符合自己要求的信息。如果運(yùn)用分類(lèi)、聚類(lèi)、關(guān)聯(lián)等技術(shù)對(duì)檢索到的信息分類(lèi),會(huì)幫助用戶(hù)快速的找到所需的信息。
1.3拓展服務(wù)形式,優(yōu)化個(gè)性化服務(wù)系統(tǒng)
數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用,不僅拓展了數(shù)字圖書(shū)館的業(yè)務(wù)類(lèi)型,還極大地提供了數(shù)字圖書(shū)館的信息服務(wù)質(zhì)量。數(shù)字圖書(shū)館依靠先進(jìn)的大數(shù)據(jù),轉(zhuǎn)變了傳統(tǒng)的服務(wù)空間和媒體類(lèi)型,主要的是利用數(shù)據(jù)挖掘,為網(wǎng)絡(luò)用戶(hù)提供了信息分析服務(wù)、查新和定題服務(wù)以及信息檢索服務(wù),有效地提升了其服務(wù)水平和服務(wù)結(jié)構(gòu)。
挖掘
用戶(hù)進(jìn)入數(shù)字圖書(shū)館首先進(jìn)行用戶(hù)信息注冊(cè)、登錄,這些與用戶(hù)的檢索記錄共同構(gòu)成用戶(hù)數(shù)據(jù)庫(kù)。用戶(hù)登錄完成進(jìn)入數(shù)字圖書(shū)館信息首頁(yè)。系統(tǒng)對(duì)用戶(hù)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘,構(gòu)建“我的數(shù)字圖書(shū)館”。具體個(gè)性化服務(wù)系統(tǒng)流程如圖2所示:
1.4促進(jìn)信息資源的管理
數(shù)字圖書(shū)館中,文獻(xiàn)資源主要是電子圖書(shū)、電子期刊,現(xiàn)如今隨著數(shù)字化的高速發(fā)展,數(shù)字資源成爆炸性的增長(zhǎng),信息資源的膨脹式發(fā)展要求數(shù)字圖書(shū)館對(duì)各類(lèi)信息的自動(dòng)化管理則愈顯重要。
(1)圖書(shū)分類(lèi)聚集。利用聚類(lèi)、關(guān)聯(lián)技術(shù)將數(shù)字圖書(shū)館的圖書(shū)劃分為多組不同的類(lèi)中,同一類(lèi)中的圖書(shū)資料具有較高的相似性,不同類(lèi)別的類(lèi)圖書(shū)具有一定的差異性,用戶(hù)在查閱圖書(shū)時(shí),可以重點(diǎn)關(guān)注和圖書(shū)處在相同類(lèi)的其他圖書(shū),這樣能大大提高檢索效率。
(2)提取文本關(guān)鍵詞。分析并歸納文獻(xiàn)資料里的最能概括文獻(xiàn)的關(guān)鍵詞及關(guān)鍵句, 并將其引用作為文獻(xiàn)檢索的檢索詞,這樣可以快速檢索到同類(lèi)別的文獻(xiàn)資料。這一做法的優(yōu)點(diǎn)是可以準(zhǔn)確的進(jìn)行信息的查找。
(3)文本摘要。是把文獻(xiàn)貼合主題的文本進(jìn)行提取,用來(lái)做文獻(xiàn)的摘要。這樣用戶(hù)就可以通過(guò)摘要了解文章,無(wú)需查看全文,為用戶(hù)節(jié)約時(shí)間。
2 數(shù)字圖書(shū)館個(gè)性化服務(wù)存在的問(wèn)題及對(duì)策
數(shù)字圖書(shū)館近年來(lái)雖然得到較快的發(fā)展,但仍存在著個(gè)性化信息的獲取來(lái)源少、信息資源整合利用力度不足、檢索復(fù)雜等問(wèn)題。下面具體分析現(xiàn)階段數(shù)字圖書(shū)館存在的幾個(gè)主要問(wèn)題并提出對(duì)應(yīng)的解決方法。
2.1個(gè)性化信息的獲取來(lái)源少
個(gè)性化服務(wù)的基礎(chǔ)就是個(gè)性化信息的獲取,對(duì)搜集到的信息進(jìn)行分析、挖掘,最終實(shí)現(xiàn)個(gè)性化服務(wù)。目前的數(shù)字圖書(shū)館還不可以做到具體問(wèn)題具體分析,不能深入的滿(mǎn)足用戶(hù)需求。造成這一問(wèn)題的根本原因就是對(duì)用戶(hù)信息了解不足。目前主要的信息來(lái)源有:用戶(hù)的注冊(cè)信息表、搜索時(shí)的關(guān)鍵詞、瀏覽、服務(wù)器日志信息、下載的信息等。信息獲取來(lái)源太少,為用戶(hù)提供的個(gè)性化服務(wù)程度低。
個(gè)性化信息獲取方法分為隱式獲取和顯示獲取。顯示獲取是指在需要用戶(hù)主動(dòng)配合、參與信息收集的信息收集方式,這種信息收集方法具有信息收集簡(jiǎn)單高效,用戶(hù)建模精準(zhǔn)度高的特點(diǎn),但需要用戶(hù)主動(dòng)參與;隱式獲取不需要用戶(hù)直接參與,他會(huì)自動(dòng)獲取用戶(hù)感興趣的信息,但是存在著準(zhǔn)確性低的風(fēng)險(xiǎn)。隱式獲取和顯示獲取的綜合應(yīng)用能夠比較全面的收集用戶(hù)信息。除此之外,還應(yīng)創(chuàng)造的活動(dòng)環(huán)境,建立完善的用戶(hù)評(píng)估及信息反饋機(jī)制。
2.2用戶(hù)信息研究不深入
用戶(hù)信息研究指的是對(duì)用戶(hù)信息進(jìn)行挖掘、分析,然后歸納用戶(hù)所需信息,從而進(jìn)一步為用戶(hù)服務(wù)。用戶(hù)信息是個(gè)性化服務(wù)的基礎(chǔ),要想提供個(gè)性化服務(wù),首先需要收集用戶(hù)的背景資料以及信息需求,然后對(duì)這些信息進(jìn)行全面的分析,才能真正促進(jìn)數(shù)字圖書(shū)館的個(gè)性化服務(wù)建設(shè)。充分的用戶(hù)信息研究對(duì)數(shù)字圖書(shū)館的個(gè)性化服務(wù)研究具有重要意義,能夠拉近與用戶(hù)的距離,提升用戶(hù)滿(mǎn)意度。信息分析過(guò)于淺,不利于提升個(gè)性化服務(wù)程度的提升。
信息資源整合力度不足指的是信息資源處于無(wú)序狀態(tài),不能進(jìn)行高效的信息結(jié)構(gòu)建設(shè)。數(shù)字圖書(shū)館的個(gè)性化服務(wù)體系的建設(shè)需要以用戶(hù)為中心,針對(duì)用戶(hù)數(shù)據(jù)需求和用戶(hù)注冊(cè)信息來(lái)進(jìn)行館內(nèi)資源建設(shè)。所以,一定要整理用戶(hù)所有信息,相互之間有聯(lián)系的,沒(méi)有聯(lián)系的都集合起來(lái)使它成為一個(gè)整體,從而提高信息資源的利用率。
2.3信息安全存在隱患
互聯(lián)網(wǎng)的飛速發(fā)展是兩面性的,他在便利人們生活的同時(shí)也帶來(lái)了網(wǎng)絡(luò)信息泄露等隱患。鑒于這些考慮,用戶(hù)可能會(huì)擔(dān)心自己的注冊(cè)信息、瀏覽記錄被泄露從而給自己帶來(lái)麻煩,以致不愿透露過(guò)多的個(gè)人信息,這就會(huì)使得數(shù)字圖書(shū)館無(wú)法獲得全面、精確的用戶(hù)信息,從而無(wú)法為其提供更全面的個(gè)性化服務(wù)。
加強(qiáng)用戶(hù)隱私及網(wǎng)絡(luò)信息安全的建設(shè),提升用戶(hù)對(duì)數(shù)字圖書(shū)館的信任度,使用戶(hù)提交更多的個(gè)人信息在平臺(tái)上,為數(shù)字圖書(shū)館數(shù)據(jù)庫(kù)提供更多的數(shù)據(jù),以至于為用戶(hù)提供更全面、更精確的個(gè)性化服務(wù)。數(shù)字圖書(shū)館的研究人員一定要時(shí)刻關(guān)注用戶(hù)隱私和信息安全問(wèn)題,加強(qiáng)數(shù)字圖書(shū)館的網(wǎng)絡(luò)安全建設(shè)。
2.4不斷創(chuàng)新信息檢索方式
信息檢索是指對(duì)信息進(jìn)行篩選和查找,它是數(shù)字圖書(shū)館的基本功能之一,其服務(wù)質(zhì)量是展示數(shù)字化圖書(shū)館服務(wù)質(zhì)量的一個(gè)重要指標(biāo)。傳統(tǒng)的檢索方式得到的結(jié)果缺乏交互性、準(zhǔn)確性、指向性,往往其查詢(xún)結(jié)果令用戶(hù)不知所措。網(wǎng)絡(luò)信息檢索模式能支持概念檢索、關(guān)鍵詞檢索、聯(lián)想檢索及語(yǔ)句檢索等,并能利用聚類(lèi)算法將查詢(xún)結(jié)果分析聚類(lèi),使結(jié)果清晰條理的推送到用戶(hù)面前。數(shù)字圖書(shū)館需不斷對(duì)信息檢索方式和信息服務(wù)方式創(chuàng)新,促使數(shù)字圖書(shū)館發(fā)揮服務(wù)功能,為用戶(hù)提供優(yōu)質(zhì)的服務(wù)。
2.5完善個(gè)性化推薦技術(shù)
我國(guó)絕大多數(shù)數(shù)字圖書(shū)館仍以文獻(xiàn)搜索為主,這種非主動(dòng)的服務(wù)方式為用戶(hù)提供的個(gè)性化服務(wù)是有限的,從而造成數(shù)字圖書(shū)館的資源利用率低下的現(xiàn)狀。針對(duì)這一現(xiàn)象應(yīng)該完善個(gè)性化推薦技術(shù),將被動(dòng)的提供搜索服務(wù)轉(zhuǎn)化為主動(dòng)的提供推送服務(wù)。
個(gè)性化推薦技術(shù)是目前數(shù)字圖書(shū)館建設(shè)個(gè)性化服務(wù)的重要的技術(shù)手段,數(shù)字圖書(shū)館可以收集用戶(hù)的查詢(xún)信息和瀏覽信息,為用戶(hù)提供可能需要的數(shù)據(jù)資源,并通過(guò)個(gè)性化推薦技術(shù)主動(dòng)為用戶(hù)提供信息服務(wù)。
3 結(jié) 語(yǔ)
在數(shù)字圖書(shū)館領(lǐng)域應(yīng)用大數(shù)據(jù)使個(gè)性化服務(wù)建設(shè)又上了一個(gè)新臺(tái)階。大數(shù)據(jù)在數(shù)字圖書(shū)館中的應(yīng)用,改變了數(shù)字圖書(shū)館被動(dòng)服務(wù)的狀態(tài),為用戶(hù)提供了更多個(gè)性化信息服務(wù)和行動(dòng)支持,推動(dòng)了數(shù)字圖書(shū)館的現(xiàn)代化、個(gè)性化服務(wù)建設(shè)。
本文主要研究了數(shù)字圖書(shū)館個(gè)性化建設(shè)過(guò)程中主要存在的問(wèn)題,并給出了相應(yīng)的建議??偟膩?lái)說(shuō)我國(guó)數(shù)字圖書(shū)館個(gè)性化服務(wù)建設(shè)之路任重而道遠(yuǎn),對(duì)于未來(lái),我們應(yīng)該多借鑒國(guó)外的優(yōu)秀的個(gè)性化服務(wù)設(shè)計(jì),不斷發(fā)展數(shù)據(jù)技術(shù)、計(jì)算機(jī)科學(xué)技術(shù),把個(gè)性化服務(wù)作為數(shù)字圖書(shū)館的評(píng)價(jià)標(biāo)準(zhǔn)將有助于推動(dòng)數(shù)字圖書(shū)館個(gè)性化服務(wù)的建設(shè)。未來(lái)的數(shù)字圖書(shū)館,我們希望用戶(hù)在登錄數(shù)字圖書(shū)館的網(wǎng)站后就能為用戶(hù)提供個(gè)性化文獻(xiàn)推薦;在有了瀏覽記錄的后,用戶(hù)就能得到關(guān)聯(lián)個(gè)性化圖書(shū)推薦。論文還有很多不足的地方,希望通過(guò)以后的學(xué)習(xí)對(duì)這些問(wèn)題進(jìn)行補(bǔ)充。
參考文獻(xiàn):
Shuqing Li,Zhiyuan Hao,Li Ding,Xia Xu. Research on the application of information technology of Big Data in Chinese digital library[J]. Library Management,2019,40:8-9.
Elizabeth Blackwood. Integrating digital stewardship into library instruction: An argument for student (and librarian) success[J]. The Journal of Academic Librarianship,2019,3:21-23
Lorena Siguenza-Guzman,Victor Saquicela,Elina Avila-Ordó?ez,Joos Vandewalle,Dirk Cattrysse. Literature Review of Data Mining Applications in Academic Libraries[J]. The Journal of Academic Librarianship,2015,4:41-42.
李潔.數(shù)據(jù)驅(qū)動(dòng)下數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)服務(wù)創(chuàng)新模式與策略研究[D].吉林大學(xué),2019.
李雪瑩.高校圖書(shū)館個(gè)性化服務(wù)質(zhì)量評(píng)價(jià)研究[D].黑龍江大學(xué),2019.
夏秀雙.大數(shù)據(jù)環(huán)境下高校圖書(shū)館個(gè)性化信息服務(wù)研究[D].曲阜師范大學(xué),2015.
閆晶.數(shù)字圖書(shū)館資源聚合質(zhì)量評(píng)價(jià)及優(yōu)化策略研究[D].吉林大學(xué),2018.
張思鳳.基于小數(shù)據(jù)融合的數(shù)字圖書(shū)館個(gè)性化推薦研究[D].華中師范大學(xué),2018.
肖仁鋒.基于協(xié)同過(guò)濾的圖書(shū)館個(gè)性化推薦方法的研究[D].山東師范大學(xué),2017.
李巨偉.數(shù)據(jù)挖掘在高校圖書(shū)館個(gè)性化推薦服務(wù)中的應(yīng)用[D].河北科技大學(xué),2018.
周恬.我國(guó)數(shù)字圖書(shū)館個(gè)性化服務(wù)的用戶(hù)信息保護(hù)[D].黑龍江大學(xué),2017.