999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2vec 的圖書館圖書推薦系統的實現研究

2022-01-25 10:25:40柴源
電子設計工程 2022年2期
關鍵詞:模型系統

柴源

(西安航空學院 圖書館,陜西西安 710077)

高校圖書館圖書推薦是利用現代信息技術,分析讀者閱讀行為,挖掘讀者閱讀需求,通過多元化渠道將館藏圖書推薦給師生的一種服務[1]。目前,圖書推薦系統主要包括基于內容的推薦系統,它側重于圖書的屬性,例如文獻內容[2]、學科分類[3]等;以及基于用戶的協同過濾系統,它側重于依據讀者借閱數據來推薦其他相似讀者曾經借閱過的圖書,例如用戶畫像[4]、讀者興趣[5]等,但是這些系統都存在一定的局限性。

1 圖書館圖書推薦系統面臨的問題

1.1 數據稀疏性問題

目前,高校圖書館的藏書數量普遍在百萬冊以上,例如清華大學圖書館,書刊資料已達510 多萬冊。讀者數量卻相對較少,并且大多數讀者只對極少量的圖書有過借閱行為,使得形成的“讀者-圖書”借閱矩陣不僅非常大,而且絕大多數數值為空缺值,整個矩陣非常稀疏[6],稀疏性問題直接造成訓練過程中的計算浪費。

1.2 數據語義化問題

傳統的推薦系統是基于詞袋模型構造向量空間的,定義一個窗口作為某個詞的語境,統計整個語料中這個詞在窗口內出現的特征,例如詞的頻度、tf-idf等,再把這些特征用詞袋模型表示成一個向量,然后計算向量的余弦距離[7]。這種做法忽略了詞的位置信息,而一個詞的含義是可以從它的上下文語境中推斷出來的。

1.3 圖書在時間上的局部共存問題

傳統的圖書推薦算法分析所有讀者的借閱偏好,對“讀者-圖書”矩陣應用協同過濾方法,得到不同圖書組別的關聯信息。如果一個讀者群體擁有很多共同喜歡的圖書,就可以推斷這些讀者借閱興趣很相似,并且他們所借閱的圖書之間也很相似。但是,這種多讀者共現現象只能反映出圖書之間是如何聯系的,并不能反映出圖書在時間上是如何局部共存的,即他們在同一時間段前后還借閱了什么圖書[8]。

2 基于Word2vec 的高校圖書館圖書推薦系統設計

2.1 Word2vec

Word2vec 是一種詞嵌入(Word Embedding)方法,它根據語料中詞匯共現信息,將詞匯編碼成一個向量,可以計算每個詞語在給定語料庫環境下的分布式詞向量[9],它包含兩種訓練模型:跳字模型(Skip-Gram)和連續詞袋模型(Continuous Bag of Words,CBOW),如圖1 所示。

圖1 Word2vec模型

CBOW 模型是一個三層神經網絡,它利用上下文或周圍的詞語來預測當前位置詞語w(t)的概率,即P(w(t)|w(t-k),…,w(t-1),w(t+1),w(t+2),…,w(t+k))[10];Skip-Gram 模型的計算方法逆轉了CBOW 的因果關系,它利用當前位置詞語w(t)來預測上下文中詞的概率,即P(w(i)|w(t)),其中t-k≤i≤t+k且i≠k[11]。

2.2 Word2vec在圖書推薦應用中的可行性

Word2vec 模型本質上是基于上下文語境構建詞共現矩陣而建立起來的,因此,可以采用Word2vec算法改進基于共現矩陣的算法模型。

在推薦系統中,常用算法首先是建立“用戶-商品”矩陣,然后計算行和列的相似性,并根據相似性進行推薦[12]。如果將某一個用戶選擇的所有商品看作一條商品序列,商品與商品之間就出現類似文檔中的上下文關系,通過構建“商品-語境”矩陣,利用Word2vec 獲得每個商品的向量表示,然后將各個商品向量求和,計算商品之間的相似度,將與求和的值最接近的一個或多個商品作為推薦商品[13]。

在圖書推薦系統中,可以將每本圖書看作一個商品,將讀者借閱的所有圖書看作一條具有上下文關系的圖書序列,建立“圖書-語境”矩陣,并利用Word2vec 進行訓練。首先,得到每本圖書的向量表示;其次,將這些圖書的向量進行求和;最后,通過余弦距離計算圖書向量空間上的相似度,并與求和的值進行比較,選擇比較接近的值的圖書,形成推薦列表。

例如,甲的借閱圖書序列為A1、A2、A3、A4、A5、A6,利用Word2vec 進行深度學習,選擇Skip-Gram 模型,預測上下文的詞的個數、輸出結果的個數都為2,預測結果如表1 所示。

表1 Skip-Gram模型結果

表1 中,A4 的向量受A2、A3、A4、A5、A6 向量影響,A5 受A3、A4、A5、A6 向量的影響。Word2vec 通過上下文語境識別出A4 和A5 之間存在相似性。

Word2vec 將稠密向量作為輸入層,解決了圖書推薦中數據的稀疏性問題;構建基于時間和上下文關系的圖書序列,建立“圖書-語境”矩陣,解決了圖書在時間上的局部共存和語義化缺失問題。所以,Word2vec 在圖書推薦中具有極強的優勢。

2.3 基于Word2vec的圖書推薦系統設計

2.3.1 系統設計

系統設計主要包括借閱日志數據預處理,構建具有上下文語境的共現矩陣;利用Word2vec 工具對共現矩陣進行深度學習,提取每本圖書的向量,并求和;通過Word2vec 計算相似度,推薦相似度較高的圖書。系統流程如圖2 所示。

圖2 系統流程

2.3.2 詳細設計

1)建立讀者借閱圖書的共現矩陣。從借閱日志中獲取讀者的借閱數據,經過數據預處理,建立基于時間序列的讀者借閱圖書的共現矩陣。

2)Word2vec深度學習。設定數據窗口大小,運用Word2vec工具,對借閱圖書的共現矩陣進行深度學習,獲得每本書的向量表示,然后將各個向量進行求和。

3)相似性結果推薦。計算圖書之間的相似度,將其與2)中的值進行比較,選擇比較接近的值的圖書,同時過濾掉讀者重復借閱的圖書,形成推薦列表。

3 基于Word2vec 的高校圖書館圖書推薦系統實驗

3.1 數據來源及預處理

3.1.1 數據來源

該文抽取西安航空學院圖書館2019 年的借閱記錄,共9 萬余條,借閱記錄包含圖書條碼、索書號、讀者姓名、讀者條碼、題名、典藏部門等條目,如圖3所示。數據分析匯總,如表2 所示。

圖3 借閱記錄數據(部分)

表2 中,11 229 個讀者有借閱記錄,表示可以構成11 229 個借閱圖書序列。

表2 2019年的借閱記錄匯總

3.1.2 數據預處理

數據預處理中,剔除掉沒有研究意義的字段,例如館藏地點、索書號等,選擇題名、圖書條碼、讀者條碼、借閱日期等條目。題名是每冊圖書的書名,描述了圖書的主要內容。圖書條碼是每冊圖書的唯一識別碼,讀者條碼表示每位讀者的身份ID,借閱日期表示圖書的借閱時間。具體的預處理流程如下:

1)通過讀者條碼、借閱日期、圖書條碼確定讀者的每一次借閱記錄。

2)按照借閱日期將每位讀者全年的借閱記錄歸并為一條借閱序列,形成讀者借閱圖書的共現矩陣,為了減少計算量,選擇圖書條碼作為其值,如圖4所示。

圖4 讀者借閱圖書的共現矩陣(部分)

圖4 中第一列數字表示讀者的借閱證號,第二列以及后面的所有列表示讀者按時間序列的借閱記錄,每一行表示一位讀者的圖書借閱序列。

3.2 實驗及結果分析

3.2.1 實驗設置

Gensim 是一款開源的第三方Python 工具包,用于從原始的非結構化文本中,無監督地學習到文本隱層的主題向量表達[14]。主要用于主題建模和文檔相似性處理,支持包括TF-IDF、LSA、LDA 和Word2vec在內的多種主題模型算法[15]。文中利用Gensim 中的Word2vec 類進行模型訓練,參數設置如下:

size:詞向量的維度,文中是指圖書條碼的向量維度,設置為300。

window:詞向量上下文最大距離,window 越大,則和其他詞產生上下文關系的可能性就越大。該文的實驗數據中,讀者的年均借閱量約為5 冊,因此,window 值設置為5。

sg:模型選擇,該文選擇CBOW 算法,即sg=0。

min_count:需要計算詞向量的最小詞頻,可以去掉一些很低頻詞。文中實驗數據僅包含2019 年的圖書借閱記錄,數據的稀疏性較強,因此,min_count設置為2。

3.2.2 實驗結果

該文通過Word2vec 對數據進行訓練,利用tsne對Word2vec 模型進行降維可視化展示[16],如圖5 所示。圖中展示了部分數據,每個點表示一本圖書,數字表示圖書條碼。圖5 中,點之間距離的大小表示圖書的相似程度,距離越小相似性越高。

圖5 相似性圖書可視化

實驗中,假設讀者借閱圖書的條碼為1824272(題名為《電氣工程概論》),去掉重復借閱的圖書,提取排名前5 的結果形成推薦列表,如表3 所示。

表3 Word2vec推薦結果

由表3 可知,推薦結果的相似性比較高,與輸入圖書匹配得較好,說明Word2vec 在圖書推薦方面適用性較強。

4 結束語

Word2vec 是一個簡單的三層神經網絡,能夠考慮上下文的關聯關系。所以,該文將這一技術引入圖書推薦系統,以提高圖書推薦的精準性。從數據稀疏、語義缺乏等方面分析了傳統圖書推薦系統存在的問題。討論并設計了基于Word2vec 的高校圖書館圖書推薦系統。設計中,將讀者借閱數據按照時間序列形成借閱行為共現矩陣,并將共現矩陣看作具有上下文關系的語境,利用Word2vec 技術發現讀者的閱讀偏好,形成圖書推薦列表。選取西安航空學院圖書館11 229條借閱數據進行實驗,結果表明推薦圖書的相似性為77%,相似度較高,驗證了Word2vec 在改進傳統圖書推薦系統方面具有較好的效果。

猜你喜歡
模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久99国产综合精品女同| 亚洲精品va| 在线观看精品自拍视频| 福利片91| 色综合久久无码网| 日韩成人午夜| 亚洲中文字幕手机在线第一页| 国产成人久久综合一区| 国产啪在线| 亚洲综合经典在线一区二区| 中文字幕在线免费看| 国产成人精品免费av| 99成人在线观看| 五月激情婷婷综合| 久久一本精品久久久ー99| 国产97公开成人免费视频| 黄色国产在线| 欧美伦理一区| 午夜视频www| 国产黄色爱视频| AV天堂资源福利在线观看| 午夜少妇精品视频小电影| 国产精品主播| 国产手机在线ΑⅤ片无码观看| 国语少妇高潮| 强奷白丝美女在线观看| 超清无码熟妇人妻AV在线绿巨人| 亚洲第一区欧美国产综合| 国产正在播放| 毛片久久网站小视频| 国产精品亚洲一区二区三区z| 国产免费人成视频网| 首页亚洲国产丝袜长腿综合| 欧美第一页在线| 久久久黄色片| 国内精品视频区在线2021| 波多野结衣第一页| 精品一区二区三区视频免费观看| 国产中文一区a级毛片视频| 国产一级在线播放| 亚洲无线一二三四区男男| 国产黄在线免费观看| 精品無碼一區在線觀看 | 国产97公开成人免费视频| 久久久久免费看成人影片| 9啪在线视频| 日韩精品久久无码中文字幕色欲| 无码一区中文字幕| 欧美国产在线精品17p| 亚洲成在人线av品善网好看| 在线观看免费人成视频色快速| 在线看国产精品| 欧美国产三级| 亚洲成人精品| 婷婷伊人五月| 先锋资源久久| 国产无套粉嫩白浆| 最新国产在线| 亚洲天堂视频网| 亚洲视频在线青青| 亚洲无码四虎黄色网站| 毛片大全免费观看| 亚洲天堂日本| 日本人妻一区二区三区不卡影院 | 欧美三级不卡在线观看视频| 亚洲欧洲AV一区二区三区| 免费一级全黄少妇性色生活片| AV无码无在线观看免费| 亚洲香蕉在线| 亚洲系列中文字幕一区二区| 国产乱肥老妇精品视频| 欧美三级日韩三级| 国产成+人+综合+亚洲欧美| 日本精品视频| 欧美一区中文字幕| 女人天堂av免费| 毛片久久网站小视频| 18禁黄无遮挡网站| 67194亚洲无码| 激情爆乳一区二区| 毛片久久网站小视频| lhav亚洲精品|