潘永紅
(河源市圖書(shū)館,廣東 河源 517000)
數(shù)字信息時(shí)代,我國(guó)圖書(shū)館的數(shù)字資源建設(shè)步入飛速發(fā)展時(shí)期,呈現(xiàn)數(shù)字資源發(fā)展快于數(shù)字資源服務(wù)能力的現(xiàn)狀[1]。同時(shí),圖書(shū)館的用戶需求也呈現(xiàn)個(gè)性化和多樣化特征,這就需要圖書(shū)館尋求新技術(shù)方案以建立新型資源管理系統(tǒng),以滿足用戶的新需求[2]。在此背景下,公共圖書(shū)館積極探索以用戶為中心的個(gè)性化服務(wù)模式,其實(shí)質(zhì)就是公共圖書(shū)館文獻(xiàn)資源的重組與再造,高效匹配用戶的個(gè)性化需求,切實(shí)提高服務(wù)效率。
公共圖書(shū)館進(jìn)行文獻(xiàn)資源重組與再造是文獻(xiàn)資源多樣性發(fā)展和用戶需求復(fù)雜性發(fā)展的必然要求。一方面,由于數(shù)字資源開(kāi)發(fā)商在建設(shè)數(shù)字資源時(shí)未按照統(tǒng)一的數(shù)據(jù)格式標(biāo)準(zhǔn)或采用一些國(guó)際標(biāo)準(zhǔn),導(dǎo)致文獻(xiàn)資源呈現(xiàn)多樣化特征,期刊文獻(xiàn)、會(huì)議文獻(xiàn)、專利文獻(xiàn)等被基于文獻(xiàn)類別或信息類型制作成文獻(xiàn)資源,公共圖書(shū)館則主要通過(guò)購(gòu)買形成各種類型的文獻(xiàn)資源庫(kù),而因部分文獻(xiàn)資源的檢索手段存在差異,降低了用戶的查詢使用效率,因此,公共圖書(shū)館有必要重組與再造文獻(xiàn)資源,形成統(tǒng)一的服務(wù)界面[3]。另一方面,由于用戶存在隱性需求和顯性需求,他們難以有效辨別自身的有效需求,這就導(dǎo)致用戶需求呈現(xiàn)復(fù)雜性特征,這就需要公共圖書(shū)館立足于用戶有效需求,實(shí)現(xiàn)文獻(xiàn)資源的重組與再造,切實(shí)做到精準(zhǔn)服務(wù)[4]。
公共圖書(shū)館文獻(xiàn)資源重組與再造就是基于資源優(yōu)化重新配置文獻(xiàn)資源,不僅要求專業(yè)性和針對(duì)性強(qiáng),即根據(jù)各個(gè)知識(shí)節(jié)點(diǎn)重組與再造文獻(xiàn)資源,還要求具備可擴(kuò)充性和可移植性,即重組與再造的文獻(xiàn)資源能夠隨時(shí)填充文獻(xiàn)和實(shí)現(xiàn)即時(shí)多平臺(tái)共享[5]。在信息化和數(shù)字化時(shí)代,文獻(xiàn)資源的海量化、多樣化、復(fù)雜化對(duì)資源重組與再造提出了新的挑戰(zhàn),而大數(shù)據(jù)技術(shù)能夠提高文獻(xiàn)資源的處理效率,助力文獻(xiàn)資源重組與再造。
大數(shù)據(jù)指的是數(shù)據(jù)集合,該數(shù)據(jù)集合無(wú)法在有限時(shí)間內(nèi)被獲取、存儲(chǔ)、檢索、分享、分析和可視化[6]。大數(shù)據(jù)具備4V特征,即數(shù)據(jù)量大(Volume)、數(shù)據(jù)處理速度快(Velocity)、數(shù)據(jù)種類繁多(Variety)、數(shù)據(jù)價(jià)值密度低(Value)。大數(shù)據(jù)技術(shù)是對(duì)傳統(tǒng)數(shù)據(jù)技術(shù)的升級(jí),貫穿數(shù)據(jù)處理流的各個(gè)環(huán)節(jié),如數(shù)據(jù)查詢、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分享、數(shù)據(jù)展現(xiàn)、數(shù)據(jù)應(yīng)用等環(huán)節(jié)。當(dāng)前,社會(huì)已步入大數(shù)據(jù)時(shí)代,這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的智慧時(shí)代,社會(huì)各領(lǐng)域都被大數(shù)據(jù)技術(shù)所改變,圖書(shū)館領(lǐng)域也受到大數(shù)據(jù)技術(shù)的顯著影響。
圖書(shū)館文獻(xiàn)資源重組與再造是通過(guò)對(duì)現(xiàn)有數(shù)據(jù)資源進(jìn)行關(guān)聯(lián)、重組、加工、再造,從而提高數(shù)據(jù)資源價(jià)值的過(guò)程[7],其中,數(shù)據(jù)信息資源主要包括存儲(chǔ)的文字、圖像、視頻等各種數(shù)字資源。
公共圖書(shū)館文獻(xiàn)資源重組與再造包括構(gòu)建與推薦兩個(gè)層面。構(gòu)建層面主要是基于某種“情境”對(duì)文獻(xiàn)資源進(jìn)行重組與再造,形成學(xué)科庫(kù)、知識(shí)庫(kù)、智庫(kù)等情境化資源庫(kù),情境化資源庫(kù)是精準(zhǔn)化、個(gè)性化的文獻(xiàn)資源重組與再造結(jié)果,能夠有效實(shí)現(xiàn)數(shù)據(jù)資源的價(jià)值增值。推薦層面主要是基于用戶對(duì)重組與再造的情境化資源庫(kù)進(jìn)行個(gè)性化推送,其策略機(jī)制是通過(guò)用戶偏好、用戶需求、用戶習(xí)慣、用戶行為等定制各種個(gè)性化推薦策略,最終實(shí)現(xiàn)精準(zhǔn)化推薦。公共圖書(shū)館文獻(xiàn)資源重組與再造要素見(jiàn)圖1。
公共圖書(shū)館文獻(xiàn)資源重組與再造是在傳統(tǒng)“用戶—資源”模型的基礎(chǔ)上加入情境,比如位置、時(shí)間、需求、偏好,形成“用戶—情境—資源”模型,見(jiàn)下頁(yè)圖2。“用戶—情境—資源”模型的突出貢獻(xiàn)是對(duì)用戶、情境、資源之間的三元關(guān)系進(jìn)行有效整合,將情境因素引入文獻(xiàn)資源重組與再造系統(tǒng),從而實(shí)現(xiàn)為不同情境、不同興趣的用戶推薦其個(gè)性化需求信息。在“用戶—情境—資源”模型中,資源與情境相關(guān)聯(lián),情境與用戶相關(guān)聯(lián),情境將用戶和資源結(jié)合起來(lái),為資源與用戶的關(guān)聯(lián)架起橋梁,形成圖書(shū)館文獻(xiàn)資源重組與再造情境過(guò)程。“用戶—情境—資源”模型的文獻(xiàn)資源服務(wù)是三階段的遞進(jìn)式服務(wù):首先,將用戶弱相似關(guān)系變?yōu)閺?qiáng)相似關(guān)系,資源弱關(guān)聯(lián)關(guān)系變?yōu)閺?qiáng)關(guān)聯(lián)關(guān)系;其次,通過(guò)文獻(xiàn)資源重組與再造情境產(chǎn)生個(gè)性化文獻(xiàn)資源集合;再次,結(jié)合情境信息和內(nèi)容過(guò)濾,獲取與用戶的弱相似用戶的偏好信息或其歷史情境信息,為用戶推送適合當(dāng)前情境的信息。
3.2.1 以大數(shù)據(jù)為基礎(chǔ),基于歷史和內(nèi)容相結(jié)合的情境算法。首先,采用大數(shù)據(jù)技術(shù)獲取用戶的歷史偏好和內(nèi)容;其次,采用大數(shù)據(jù)技術(shù)計(jì)算用戶在不同情境下對(duì)不同文獻(xiàn)資源的偏好概率;再次,采用大數(shù)據(jù)技術(shù)測(cè)算用戶偏好與待測(cè)文獻(xiàn)資源的相似度,推薦資源屬性與用戶當(dāng)前情境最匹配的N個(gè)文獻(xiàn)資源。在該情境算法中,Context(C)為當(dāng)前情境,包括位置、時(shí)間、天氣等;Context(H)為歷史情境,是Context(H1)、Context(H2)......Context(Hn)等特定歷史時(shí)期的集合。
3.2.2 以大數(shù)據(jù)為基礎(chǔ),基于協(xié)同過(guò)濾的情境算法。首先,采用大數(shù)據(jù)技術(shù)界定與目標(biāo)用戶某一文獻(xiàn)資源相關(guān)的m個(gè)弱相似用戶,并且將這m個(gè)弱相似用戶的偏好文獻(xiàn)資源歸入推薦集;其次,采用大數(shù)據(jù)技術(shù)界定與目標(biāo)用戶所有關(guān)聯(lián)文獻(xiàn)資源相關(guān)的所有弱相似用戶,并將所有弱相似用戶喜歡的文獻(xiàn)資源歸入推薦集;再次,根據(jù)相似性算法選取與目標(biāo)用戶類似且排名最靠前的N個(gè)文獻(xiàn)資源并推薦給目標(biāo)用戶。在該情境算法中,如果用戶k、j在某個(gè)時(shí)間段同時(shí)查閱了文獻(xiàn)r,則用戶k與用戶j為弱相似用戶,文獻(xiàn)r為關(guān)聯(lián)文獻(xiàn)資源。
“用戶—情境—資源”模型借助大數(shù)據(jù)整合與處理技術(shù)、語(yǔ)義挖掘和關(guān)聯(lián)技術(shù),實(shí)現(xiàn)公共圖書(shū)館文獻(xiàn)的重組與再造,并將重組與再造的文獻(xiàn)資源推薦給目標(biāo)用戶。在重組與再造的文獻(xiàn)資源推薦過(guò)程中,將區(qū)分老用戶與新用戶,并針對(duì)不同用戶采用不同情境算法,如:對(duì)老用戶采用基于歷史和內(nèi)容相結(jié)合的情境算法,對(duì)新用戶采用基于協(xié)同過(guò)濾的情境算法。具體步驟如下。
3.3.1 針對(duì)老用戶的文獻(xiàn)資源推薦。①初始化。設(shè)定目標(biāo)用戶的情境相似度閡值a,以及設(shè)定預(yù)推薦的文獻(xiàn)資源數(shù)N。②測(cè)算目標(biāo)用戶當(dāng)前情境Context(C)與歷史情境Context(H)的相似度。
其中,Count(C1c)、Count(C2c)....Count(Cnc)表示在歷史情境信息Context(H)中出現(xiàn)的頻數(shù)。分子為匹配頻數(shù)之和,分母為情境維度與預(yù)推薦的文獻(xiàn)資源數(shù)N之積。③判斷情境相似度。如果目標(biāo)用戶當(dāng)前情境Context(C)與歷史情境Context(H)的相似度大于閡值a,則直接計(jì)算用戶興趣度,否則引入位置、時(shí)間天氣等情境計(jì)算用戶興趣度,否則則引入位置、時(shí)間、天氣等歷史情境,計(jì)算興趣度,并采用加權(quán)法計(jì)算推薦得分:
Scoreij=Weighti*Sim(Topici,Resoj)
其中,Topici為第i個(gè)相似歷史情境下的興趣;weighti為第i個(gè)相似歷史情境下興趣的權(quán)重,Resoj為第j個(gè)信息資源,Scoreij為第i個(gè)興趣與第j個(gè)信息資源的興趣度加權(quán)得分。④文獻(xiàn)資源輸出。依據(jù)Score得分,從高到低取前N個(gè)文獻(xiàn)資源進(jìn)行推薦。
3.3.2 針對(duì)新用戶的文獻(xiàn)資源推薦。①界定目標(biāo)用戶的弱相似用戶集合。假設(shè)U為所有用戶的集合,U0為目標(biāo)用戶,采用大數(shù)據(jù)技術(shù)查詢U0在某個(gè)時(shí)間段T內(nèi)使用過(guò)的文獻(xiàn)資源信息,并將其中評(píng)價(jià)最高的N個(gè)文獻(xiàn)資源整合為文獻(xiàn)資源集,并查詢?cè)谠摃r(shí)間段內(nèi)使用過(guò)上述文獻(xiàn)資源集信息的其他用戶,界定為U1、U2......Un,則Ui(i=1、2......n)為弱相似用戶集。②計(jì)算基于某個(gè)關(guān)聯(lián)文獻(xiàn)資源的偏好集合。假設(shè)目標(biāo)用戶U0在T時(shí)間內(nèi)文獻(xiàn)資源集的某個(gè)文獻(xiàn)資源為k,查詢?cè)赥時(shí)間內(nèi)使用了文獻(xiàn)資源k的j個(gè)弱相似用戶,即U1、U2......Uj,分析整理上述j個(gè)弱相似用戶的文獻(xiàn)資源使用記錄,選擇與k最相似的、評(píng)價(jià)最高的文獻(xiàn)資源列入偏好集合,形成目標(biāo)用戶U0在T時(shí)間內(nèi)基于文獻(xiàn)資源k的相似文獻(xiàn)資源集。③計(jì)算基于所有關(guān)聯(lián)文獻(xiàn)資源的偏好集合。依據(jù)上述方法,得出目標(biāo)用戶U0在T時(shí)間內(nèi)其他k-1個(gè)文獻(xiàn)資源的相似文獻(xiàn)資源集,將所有的相似文獻(xiàn)資源集進(jìn)行統(tǒng)計(jì)分析,計(jì)算各個(gè)文獻(xiàn)資源的頻數(shù),依據(jù)頻數(shù)大小由高到低對(duì)所有相似文獻(xiàn)資源集的文獻(xiàn)資源進(jìn)行排序,篩選出排名前N名的文獻(xiàn)資源,并將這N個(gè)文獻(xiàn)資源推薦給目標(biāo)用戶。基于“用戶—情境—資源”模型的重組與再造的文獻(xiàn)資源推薦見(jiàn)圖3。
文獻(xiàn)資源的多樣性和用戶需求的復(fù)雜性特征要求圖書(shū)館進(jìn)行文獻(xiàn)資源重組與再造,以精準(zhǔn)匹配用戶的有效需求。大數(shù)據(jù)技術(shù)為公共圖書(shū)館文獻(xiàn)資源重組與再造提供了技術(shù)支撐,在融入情境要素的“用戶—情境—資源”模型中,基于大數(shù)據(jù)的歷史和內(nèi)容相結(jié)合的情境算法以及協(xié)同過(guò)濾的情境算法,可以有效實(shí)現(xiàn)文獻(xiàn)資源的重組與再造,并分別為老用戶和新用戶匹配精準(zhǔn)資源。