999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題偏好的數(shù)字圖書館個性化檢索算法研究

2024-09-14 00:00:00樊偉紅鄭聰
電腦知識與技術 2024年23期

摘要:由于當前數(shù)字圖書館所采用的個性化檢索算法缺乏對用戶喜好的有效聚類分析能力,致使用戶難以準確、迅速地獲取其所需信息。因此,文章設計了基于主題偏好的數(shù)字圖書館個性化檢索算法。該算法利用向量空間模型對用戶的主題偏好進行深入挖掘并賦值。隨后,采用TF-IDF算法作為圖書指標權重的計算方法,對賦值后的聚類結果進行處理,以此作為圖書的類別標簽。運用Multi-Agent模型構建了相應的圖書個性化檢索模型,旨在提升數(shù)字圖書館系統(tǒng)的檢索效率。為了驗證所提方法的有效性,設計了對比實驗環(huán)節(jié)。通過將所提方法與傳統(tǒng)方法進行對比,結果顯示:所提方法的檢索結果誤差率更低,結果彈出率更高,且結果輸出時間更短。這些優(yōu)勢表明,所提方法的使用效果相較于傳統(tǒng)方法具有顯著提升,進一步證明了該方法在實際應用中的更高價值。

關鍵詞:數(shù)字圖書館;主題偏好;個性化檢索;Multi-Agent模型;向量空間模型

中圖分類號:TP393 文獻標識碼:A

文章編號:1009-3044(2024)23-0017-04

開放科學(資源服務)標識碼(OSID)

0 引言

至今,數(shù)字圖書館的定義還沒有得到一個準確的、具有共同認知的定義[1-2]。從宏觀進行分析,數(shù)字圖書館是圖書館內(nèi)由計算機處理的數(shù)字信息倉庫,可使用數(shù)字技術進行信息資源組織與管理,為用戶提供便利的圖書館功能與服務[3-4]。在數(shù)字圖書館服務中,個性化檢索是其主要功能之一。所謂的個性化檢索是根據(jù)用戶的興趣特點,向用戶推薦其感興趣信息的信息搜索方式,其原理是根據(jù)用戶喜好內(nèi)容為其推薦匹配信息。隨著用戶數(shù)量的逐漸增多,需要對用戶的需求信息展開研究。因此,相關學者提出了大量方法以解決信息檢索問題。

文獻[5]設計了一個基于大數(shù)據(jù)分析技術的數(shù)字圖書館信息檢索模型,采集數(shù)字圖書館信息檢索歷史數(shù)據(jù),引入大數(shù)據(jù)分析技術構建信息檢索模型,通過實例驗證所設計模型的優(yōu)越性。結果表明,該方法能夠針對性地對需求信息進行檢索,但是在面向海量數(shù)據(jù)信息時,存在結果輸出時間較短的問題。文獻[6]提出一種基于遞歸神經(jīng)網(wǎng)絡與注意力機制的動態(tài)個性化搜索算法,采用遞歸神經(jīng)網(wǎng)絡建立用戶個性化偏好模型,根據(jù)用戶興趣的動態(tài)性建立模型,通過注意力機制對歷史用戶行為進行加權處理。運用用戶模型得到信息查詢與文檔之間的相關度得分,獲取個性化排序結果。實驗結果表明,該算法能夠取得較好的個性化搜索結果,但是存在檢索結果誤差率較低的問題,并且用戶喜好劃分能力不強。除此之外,文獻[7]提出了基于數(shù)據(jù)挖掘技術的圖書館個性化快速推薦算法,通過改進的Apriori算法分析圖書借閱歷史數(shù)據(jù),分析數(shù)據(jù)之間的關聯(lián)性,從而實現(xiàn)個性化推薦。實驗結果表明,該算法具有較快的結果輸出速度,但是在結果彈出率方面還有待加強。

根據(jù)上述分析可知,傳統(tǒng)方法的使用效果并不能為用戶提供滿意的服務。為此,在此次研究中將根據(jù)用戶對于書籍內(nèi)容的主題偏好對個性化檢索服務展開優(yōu)化,設計基于主題偏好的數(shù)字圖書館個性化檢索算法。在此次研究結束后進行對比實驗,驗證此次研究中設計方法在實際使用中的可行性與科學性。

1 數(shù)字圖書館個性化檢索算法設計

在本次研究前,對目前使用的數(shù)字圖書館個性化檢索算法進行了系統(tǒng)且全面的分析,通過分析結果可以發(fā)現(xiàn),當前使用的數(shù)字圖書館個性化檢索算法具有計算速度緩慢、用戶喜好劃分能力較低的問題。針對上述問題,在此次研究中將設定用戶主題偏好挖掘模塊,并從整體化方向提升數(shù)字圖書館個性化檢索算法的使用效果。

1.1 用戶主題偏好挖掘

通過文獻研究可知,在用戶使用搜索引擎時,關鍵詞輸入是用戶的顯性需求,由于詞匯輸入的準確性、用戶描述的規(guī)范性等問題,使用此種方式得到的搜索結果往往達不到用戶的搜索要求。因此,在本次研究中主要對用戶的搜索主題偏好進行挖掘分析。使用向量空間模型[8]對用戶主題偏好進行表示,在數(shù)字圖書館系統(tǒng)中建立[N]維的主題向量空間:[[(s1,r1),(s2,r2),...,(sn,rn)]]。其中,[sn]表示第[n]個搜索關鍵詞,[rn]表示用戶在[sn]上的偏好程度,[i∈1,2,...,n]。使用此設定可得到的用戶主題向量的偏好內(nèi)容可表示為:

[R=(r1,r2,...,rn)] (1)

使用式(1) 對用戶操作日志進行分析,得到該用戶在此階段的主體偏好[rd]。由于在用戶的操作過程中含有大量的瀏覽、下載、收藏等操作,其中包含了用戶的很多喜好信息,為了得到更加精確的用戶喜好信息,構建相應的日志分析模塊,獲取用戶操作內(nèi)容集合,則有:

[Rd=(rd1,rd2,...,rdn)] (2)

使用式(2) 統(tǒng)計用戶的訪問與搜索頻率,對不同的操作內(nèi)容進行權重計算,并進行對應的加權處理得到此關鍵詞的訪問頻率,即可得到用戶在此主題上的訪問情況,將此作為用戶的主體偏好程度,并將其體現(xiàn)到向量空間中,從而得到用戶的主題偏好向量,具體表示如下。

[Rd=(r1,r2,...,rn)] (3)

僅使用上述公式完成分析過程是具有一定局限性的,因為在用戶的搜索過程中會出現(xiàn)輸入不規(guī)范、輸入內(nèi)容不當?shù)葐栴},同時在上述公式的使用過程中會出現(xiàn)噪聲影響或者遺漏等問題。因而,根據(jù)上述公式設定結果,使用Canopy算法[9-10]這種低成本的聚類算法對用戶的主體偏好進行計算處理,則用戶最終主題偏好可體現(xiàn)為:

[A=α×Gd+β×Ggroup] (4)

式(4) 中,[Ggroup]表示用戶群主體偏好,[Gd]在此公式中與[Rd]等價。使用此公式可得到各階段的用戶偏好向量,對其進行賦值,可得到準確度更高的偏好向量聚類結果。使用上述公式對數(shù)字圖書館中的數(shù)據(jù)進行處理,并將處理結果作為后續(xù)操作對象。

1.2 設定圖書信息標簽

對使用上文處理后的數(shù)據(jù)進行標簽聚類處理,在此環(huán)節(jié)中,使用TF-IDF算法[11-13]作為圖書指標權重算法。設定[TF]表示圖書標簽與圖書之間的相關程度,如果圖書中出現(xiàn)的某一種標簽較多,則圖書與這一標簽的相關度越高。則圖書[p]中標簽[bi]的[tfi]可表示為:

[tfi=ni,ji=1nbi×ni,j] (5)

式(5) 中,[ni,j]表示圖書[bi]被標簽[p]標注的次數(shù),分母則是圖書[bi]被所有標簽標注的次數(shù)總和。通過文獻研究可知,IDF表示一個標簽對圖書集合的普遍性權重[14-15],如果此標簽在圖書中使用的次數(shù)越多,則此標簽可能描述了圖書的多種特征,不具備代表性,權重計算結果可信度較低。則標簽[fi]的[idfi]計算過程可表示為:

[idfi=lgYj:fi∈ni,j] (6)

式(6) 中,[Y]表示圖書館系統(tǒng)中的圖書種類總數(shù),分母表示被標注過的圖書數(shù)目。如果使用的標簽是不存在的,則可將分母視作0,針對此特殊情況,分數(shù)可適度額外增加1。最后,將式(5) 與式(6) 結合,得到最終的指標權重,具體公式如下所示。

[hij=idfi×tfi] (7)

使用上述公式,得到圖書信息標簽權重信息,并選擇合適的標簽聚類算法對其進行處理,在此研究中選用C均值聚類算法對其進行處理,為了提升使用效果,設定標簽向量[j]與標簽向量[k]之間的函數(shù)距離計算公式如下所示:

[dist(j,k)=1-k∈ynlj×lkk∈ynlj2k∈ynlk2] (8)

式(8) ,[dist(j,k)]表示上述兩標簽向量之間的函數(shù)距離,使用此公式對圖書信息標簽進行處理。在此次研究中,為了更好地完成聚類處理過程,將設定固定的迭代處理次數(shù),并選擇每個迭代過程中的最小值作為距離標準。

1.3 實現(xiàn)圖書個性化檢索

在上述設計中,完成了文中設計方法的基礎設計部分,在此部分中將對上述設定部分進行綜合處理,實現(xiàn)圖書個性化檢索。根據(jù)數(shù)字圖書館系統(tǒng)中檢索信息的分布性特點,可知其內(nèi)部空間信息具有空間上與功能上的分布性。為了提升檢索速度,此次研究中使用Multi-Agent模型[16-17],構建對應的圖書個性化檢索模型。為了保證此模型的使用效果,根據(jù)軟件工程學設計原理,將此模型內(nèi)容設定如圖1。

根據(jù)圖1,構建相應的檢索模型并將其應用到數(shù)字圖書館系統(tǒng)中,并將系統(tǒng)中的二元變量分為兩類,將此兩類數(shù)據(jù)在系統(tǒng)中的數(shù)據(jù)庫記錄設定為[q]與[w],通過計算相異度的形式,得到圖書館系統(tǒng)可提供的主題個數(shù)。圖書館系統(tǒng)中的圖書主題具有多種,用戶只能搜索到其中的一小部分,用戶與圖書館系統(tǒng)中的圖書種類呈現(xiàn)出不對稱變量的形式,以此可以使用Jaccard系數(shù)來衡量用戶可檢索內(nèi)容。由于圖書館系統(tǒng)中多使用互聯(lián)網(wǎng)技術作為依托,為了使此次研究結果的使用效果更佳,除上文中設計的主體偏好挖掘技術之外,還應將用戶畫像技術應用至此次研究設計方法中,實現(xiàn)數(shù)字圖書館的個性化服務。

將文中設計內(nèi)容有序融入傳統(tǒng)方法中,通過局部優(yōu)化的方式,對傳統(tǒng)方法進行整體化性能提升,以此保證文中設計方法的使用效果。至此,基于主題偏好的數(shù)字圖書館個性化檢索算法設計完成。

2 實驗分析

2.1 實驗環(huán)境設計

在此次研究中完成了基于主題偏好的數(shù)字圖書館個性化檢索算法的設計部分,在此環(huán)節(jié)中將對文中設計方法的計算效果進行分析。在此次研究中主要使用算例對比的方式,使用文中設計方法與文獻[5]基于大數(shù)據(jù)分析技術的數(shù)字圖書館信息檢索模型(傳統(tǒng)方法1) 和文獻[6]基于遞歸神經(jīng)網(wǎng)絡與注意力機制的動態(tài)個性化搜索算法(傳統(tǒng)方法2) 進行對比。

通過文獻研究可知,在數(shù)字圖書館中含有大量的圖書數(shù)據(jù),且外界因素會對檢索結果造成一定的影響,因此,將實驗平臺設定如表1。

通過上述參數(shù)組建此次實驗平臺,并將其應用到文中設計方法與傳統(tǒng)方法的對比過程中。由于數(shù)字圖書館的運行過程中涉及大量的網(wǎng)絡控制部分,因此,將實驗平臺搭建為Hadoop分布式平臺的形式,以此提升實驗對比過程中的運算效果。在此實驗網(wǎng)絡共計4個節(jié)點,節(jié)點設備參數(shù)設定如表2。

將實驗平臺安裝至此實驗網(wǎng)絡中,為實驗過程提供硬件與技術支持。

2.2 實驗方案設計

在此次實驗過程中,將對數(shù)字圖書館中的300名用戶在為期1年內(nèi)的操作日記進行分析,并使用文中設計方法與傳統(tǒng)方法對其主題喜好進行挖掘,并將此部分數(shù)據(jù)使用到個性化檢索中。為了對文中設計方法與傳統(tǒng)方法的使用效果進行全面細致的對比,將實驗對比指標劃分為3部分,首先為DCG指標,此指標主要表示文中設計方法與傳統(tǒng)方法在個性化檢索過程中的質(zhì)量,通過檢索結果的誤差率表示。其次為個性化檢索有效性,通過檢索結果的彈出率表示。最后一組指標設定為檢索結果輸出時間,通過此指標驗證文中設計方法與傳統(tǒng)方法在使用中的計算速度。此次實驗中,對上述指標共進行周期為50次的對比實驗,具體實驗結果將通過數(shù)據(jù)與圖像的形式輸出。

2.3 檢索結果誤差率實驗結果分析

通過上述實驗結果可知,在使用文中設計方法后得到的檢索結果誤差率較低,可達到用戶的檢索精度要求。傳統(tǒng)方法在使用后得到的檢測結果誤差率較高,無法達到用戶的檢索精度要求。同時,通過對上述實驗結果進行系統(tǒng)分析可以看出,文中設計方法的檢索精準度較高,是由于在檢索過程中,文中設計方法將用戶的主題偏好作為搜索的主要約束條件,以此保證檢索結果符合用戶的搜索精度要求。傳統(tǒng)方法在使用過程中,僅根據(jù)用戶輸入內(nèi)容進行檢索,所得到檢索結果與用戶的預計檢索結果具有一定差異,由此造成了使用傳統(tǒng)方法進行檢索后,結果誤差率較高的問題。因此,在日后的研究中,應將用戶主題偏好以及用戶喜好聚類作為研究的重點,以提升檢索方法的使用效果。

2.4 檢索結果彈出率實驗結果分析

由圖3可以看出,使用文中方法后檢索結果的彈出率較高。對其數(shù)據(jù)進行分析可知,文中設計方法的檢索成功率較高,且檢索結果較為有效。使用傳統(tǒng)方法后,檢索結果的彈出率明顯低于使用文中設計方法。對實驗結果進行系統(tǒng)分析后初步了解到,由于傳統(tǒng)方法對于用戶的喜好分析能力較差,導致檢索結果中多呈現(xiàn)異常,直接影響了檢索結果的彈出率,無法為用戶提供滿意的檢索結果;文中設計方法在檢索的過程中,對于用戶的喜好進行了精準的分析,由此提高了檢索方法的使用效果。針對上述實驗結果可以斷定,文中設計方法的使用效果優(yōu)于傳統(tǒng)方法。

2.5 檢索結果輸出時間實驗結果分析

通過圖4可知,文中設計方法的檢索結果輸出時間較短,傳統(tǒng)方法的解鎖結果輸出時間較長。此結果表明,文中設計方法的檢索速度明顯高于傳統(tǒng)方法,在相同時間內(nèi)使用文中設計方法,可得到更多的檢索結果。由此可見,文中設計方法在使用主題偏好聚類技術后,其使用性能得到了明顯提升,而傳統(tǒng)方法使用的計算部分較為落后,直接影響了傳統(tǒng)方法的使用效果。綜合上述實驗結果分析內(nèi)容,可以確定,文中設計方法在使用后,用戶滿意度會明顯高于傳統(tǒng)方法。

對上述3部分實驗結果進行綜合分析后可知,文中設計的檢索算法使用效果優(yōu)于傳統(tǒng)檢索算法在日后的研究中可使用此算法作為圖書館個性化推薦服務中的主要運行程序。同時,在日后的檢索算法研究中,應將用戶的個人信息作為數(shù)據(jù)的來源與分析的主要內(nèi)容。

3 結束語

目前,數(shù)字圖書館的信息資源管理建設已經(jīng)取得較好的成果,但其個性化服務還需要進行進一步完善。此次研究將主題偏好挖掘分析技術應用到用戶的個性化搜索中,提升了數(shù)字圖書館個性化服務的智能化發(fā)展。但由于此次研究時間較短,導致其在某些方面還存在相應不足,在日后的研究中還應對其不足之處加以優(yōu)化升級,為圖書館用戶提供更加便利的服務,推動數(shù)字圖書館個性化服務的可持續(xù)化發(fā)展。

參考文獻:

[1] 吳談,周棟,包恒澤.基于用戶類別興趣偏好的個性化排序方法[J].湖南科技大學學報(自然科學版),2020,35(1):104-112.

[2] 黃進,周棟.一種融合社會化標注系統(tǒng)中主題域相似的個性化排序方法[J].計算機工程與科學,2018,40(5):880-887.

[3] 張妤,孟蘭,孫成東,等.淺析農(nóng)業(yè)科研單位圖書館個性化信息服務:以吉林省農(nóng)業(yè)科學院圖書館為例[J].東北農(nóng)業(yè)科學,2020,45(5):112-114,131.

[4] 王軍,王蘊潔,丁立寧,等.新媒體環(huán)境下高等院校圖書館個性化 信息服務對策研究[J].黑龍江工程學院學報,2019,33(1):63-66,80.

[5] 王均玲.大數(shù)據(jù)分析技術的數(shù)字圖書館信息檢索模型設計[J].現(xiàn)代電子技術,2020,43(17):155-157,161.

[6] 周雨佳,竇志成,葛松瑋,等.基于遞歸神經(jīng)網(wǎng)絡與注意力機制的動態(tài)個性化搜索算法[J].計算機學報,2020,43(5):812-826.

[7] 王慶樺.基于數(shù)據(jù)挖掘技術的圖書館個性化快速推薦算法研究[J].現(xiàn)代電子技術,2019,42(5):149-151,156.

[8] 張強,王國軍.個性化搜索中一種基于位置服務的隱私保護方法[J].電子與信息學報,2018,40(8):1998-2005.

[9] 李莉.基于多Agent技術的數(shù)字圖書館個性化信息服務檢索模型研究[J].情報科學,2018,36(5):90-93,98.

[10] 嚴銳,李石君.基于查詢意圖識別與主題建模的文檔檢索算法[J].計算機工程,2018,44(3):189-194.

[11] 毛文山,趙紅莉,孫鳳嬌,等.基于Item2Vec負采樣優(yōu)化的專題地圖產(chǎn)品個性化推薦方法研究[J].地球信息科學學報,2020,22(11):2128-2139.

[12] 鄭蕊,杜榮花.數(shù)字人文時代高校圖書館蒙古學學科服務升級研究:以內(nèi)蒙古高校圖書館為例[J].呼倫貝爾學院學報,2020,28(1):102-106.

[13] 范宇.基于大數(shù)據(jù)的高校圖書館個性化服務路徑[J].吉林化工學院學報,2019,36(12):67-70.

[14] 孫琪.基于智能過濾技術的數(shù)字圖書館個性化信息推薦服務研究[J].中國中醫(yī)藥圖書情報雜志,2020,44(6):22-24.

[15] 邵絲媞.基于空間信息支持的圖書館個性化資源集成系統(tǒng)設計[J].現(xiàn)代電子技術,2019,42(18):112-115,119.

[16] 李云暢.大數(shù)據(jù)時代高校圖書館檢索服務系統(tǒng)經(jīng)驗借鑒[J].內(nèi)蒙古財經(jīng)大學學報,2019,17(4):138-140.

[17] 李春剛.探索大學圖書館文獻資源檢索利用技巧[J].大學圖書館學報,2019,37(4):127.

【通聯(lián)編輯:代影】

主站蜘蛛池模板: 国产在线日本| 少妇露出福利视频| 日本免费a视频| 国产在线观看91精品亚瑟| 无码aaa视频| 久久综合成人| 久久午夜夜伦鲁鲁片不卡| 一级福利视频| 欧美亚洲一区二区三区导航| 特级做a爰片毛片免费69| 久久精品66| 无码免费视频| 亚洲熟女中文字幕男人总站| 九九热精品免费视频| 国产精品lululu在线观看| 九九九精品视频| 久久综合伊人77777| 亚洲天堂视频在线播放| 国产人人干| 久久精品亚洲中文字幕乱码| 亚洲成人动漫在线观看 | 国产一在线观看| 这里只有精品免费视频| 久久精品女人天堂aaa| 亚洲欧美极品| 中文字幕在线看| 无码一区18禁| 免费观看成人久久网免费观看| 在线亚洲小视频| 又爽又大又黄a级毛片在线视频 | 97se亚洲综合在线韩国专区福利| 亚洲浓毛av| 成人在线视频一区| 91久久国产热精品免费| 欧美日韩激情在线| 久久一本日韩精品中文字幕屁孩| 欧亚日韩Av| 午夜一区二区三区| 特级欧美视频aaaaaa| yy6080理论大片一级久久| 亚洲永久视频| 午夜老司机永久免费看片| 欧美在线观看不卡| 国产精品亚洲一区二区三区在线观看 | 欧美成人午夜视频| 激情爆乳一区二区| 亚洲最大福利网站| 久一在线视频| 亚洲av综合网| 一级毛片免费播放视频| 日韩国产黄色网站| 538精品在线观看| 国产视频大全| 亚洲色图欧美激情| 国产福利在线观看精品| 亚洲免费播放| igao国产精品| 香蕉国产精品视频| 三级视频中文字幕| 最新亚洲人成无码网站欣赏网| 中文字幕在线日本| 亚洲成在线观看 | 色一情一乱一伦一区二区三区小说| 精品人妻一区无码视频| 老司机精品一区在线视频| 亚洲精品国偷自产在线91正片| 中文成人在线视频| www.精品视频| 国产精品乱偷免费视频| 色婷婷亚洲十月十月色天| 欧美成人第一页| 成人一级黄色毛片| 国产一区二区影院| 国产成人无码AV在线播放动漫| 色老头综合网| 五月婷婷激情四射| 一级全免费视频播放| 美女被操91视频| 亚洲精品欧美日本中文字幕| 亚洲天堂自拍| 国产第四页| 亚洲区视频在线观看|