999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖書類別的多層表示學習*

2018-08-08 03:09:10
圖書館論壇 2018年8期
關鍵詞:信息

隨著移動互聯網和移動閱讀的發展,高校館紙質圖書借閱率下滑,如何提升館藏紙質資源建設和個性化圖書推薦服務成為高校館研究方向之一。精準的學科化圖書推薦,依賴于宏觀上洞察館藏結構和資源分布,更需要微觀上把握讀者學科學習需求、使用偏好、借閱心理和借閱行為等因素。若能通過讀者借閱行為揭示館藏紙質資源的利用與需求,挖掘隱含的借閱關聯演變過程,將對個性化圖書推薦非常有參考價值。故此,本文從圖書的主題表示法出發,提出基于讀者借閱序列的多主題表示方法,在中圖分類法的基礎上將一個圖書類別轉換為多種圖書類別表示的向量。通過基于序列的方式展現圖書類別的變化過程,提高各類別之間關聯變化的可解釋性。以期探索高校圖書館個性化圖書推薦的新服務途徑。

1 研究回顧

近年基于圖書主題法實證研究高校館藏資源個性化圖書推薦的研究較多。彭博[1]提出引入包含用戶屬性和圖書分類信息的三部圖推薦方法,實現針對不同讀者提供滿足不同專業需求的借閱推薦。侯銀秀等[2]使用情感分析方法對用戶圖書評論進行屬性層文本挖掘,得到細粒度的用戶偏好信息,并通過與圖書屬性的得分進行匹配,提升圖書個性化推薦的效果。王連喜[3]通過挖掘用戶的背景信息構建用戶特征模型,研究多種不同的圖書推薦方法,以挖掘用戶的潛在信息需求,從而實現用戶與圖書相互關聯的個性化圖書推薦服務。漆月等[4]則以圖書分類號為依據,構建用戶個性化興趣庫及圖書綜合推薦庫,并通過分類號的匹配形成個性化的圖書檢索信息及圖書推薦結果。蔣小峰[5]提出結合專業需求、閱讀傾向和閱讀心理等進行精準的個性化圖書推薦服務。鄭祥云等[6]針對傳統推薦算法精準度不高的問題,通過對目標借閱者的歷史借閱數據與其他圖書數據進行內容相似度分析,得到與目標借閱者歷史借閱圖書內容相似度較高的其他圖書,提出了新的適用于圖書推薦的數據挖掘模型。林澤鴻等[7]挖掘讀者在社交論壇所在的版塊、交互次數和評論等方面的喜好,實現精準圖書推薦。李樹青等[8]將讀者借閱行為特征和圖書借閱關系相結合,設計一種測度圖書可推薦質量的迭代算法,提出三種不同類型的個性化圖書推薦服務。然而,基于圖書主題法的高校圖書館個性化推薦系統的實用性還不盡如人意,如需要讀者加入標簽信息;對讀者需求細化不足,停留在大類和主題層次;或者以圖書類別作為讀者興趣表示和推薦的依據,這些做法都沒展現外借圖書的序列借閱關系演變。為探索基于讀者借閱行為的圖書推薦模型,本文通過讀者借閱圖書分類、興趣偏好和讀者學科專業屬性等多方面特征值構建圖書類別多層表示學習方法,從而探索出更為有益和精準的個性化圖書推薦方式。

2 問題定義

個人借閱數據由一段時間內個人借閱序列構成,每次的借閱行為包含多種圖書相關概念,如圖書分類號、圖書描述詞匯、讀者所在專業。該層次結構提供了兩類關聯信息:借閱序列和同一次借閱中并發出現的圖書概念。

在借閱數據集中,用C1、C2、...C|C|構成的集合C表示圖書概念編碼。每位讀者的借閱序列(每次借閱)可用V1、V2、...VT表示,每次借閱包含圖書類別概念的子集,即Vt?C。Bib2Vec算法的目的是學習圖書類別的兩類表述:(1)編碼表述。目的是學習一個嵌入函數fC∶C->R+M,即將每個類別編碼映射到一個維度為m的非負實數向量;(2)借閱表述。任務是學習另一種嵌入函數fV∶V->Rn,該函數將每次借閱(圖書類別的集合)映射到一個維度為n的實數向量。此處集合V是編碼集合C的冪集。

2.1 Bib2Vec的結構

圖1描述了Bib2Vec結構。給定一次借閱vt,使用一個多層感知機(MLP)生成對應的借閱表述vt。借閱Vt表示為一個二元向量xt∈{0,1}|C|,當且僅當ci∈Vt時,第i項的值為1。這樣xi可以轉換為借閱的中間表述ut∈Rm,見公式(1)。

其中,Wc∈Rm×|C|是編碼權重矩陣;bC∈Rm是偏置矩陣;使用ReLU函數作為激活函數以提高交互性,其定義為ReLU(v)=max(v,0)。此處的max()是個向量函數,基于各元素進行計算。

為提高學習的準確性,需要加入讀者基本信息,如年齡、性別、籍貫、專業、班級等。通過將ut與讀者基本信息連接,得到最終的借閱表述vt∈Rn,見公式(2)。

其中,rt∈Rd表示讀者基本信息,d是讀者基本信息向量的大??;借閱權重向量Wc∈Rn×(m+d);偏置權重bv∈Rn;此處的n為借閱表述的預定義大?。患せ詈瘮等允褂肦eLU。

圖1 Bib2Vec的結構

2.2 基于借閱文本表述的參數訓練

利用借閱的序列信息,能訓練借閱和潛在編碼的表述。在訓練MLP過程時,可將讀者借閱經歷當作一個持續過程,而一次借閱便是其中的一個狀態。因此,給定某次借閱的表述,可以用之預測過去的借閱信息,也可以用之預測未來的借閱信息。換句話說,給定一次借閱表述vt,可以訓練一個softmax分類器,用來預測該讀者在前后借閱窗口中所借閱書本的類別??赏ㄟ^公式(3)所示的方法最小化交叉熵代價函數。

WS∈R|C|×n和bS∈R|C|分別是softmax分類器的權重矩陣和偏置矩陣;w是預定義的前后借閱窗口大??;exp是向量的指數函數,返回向量每個元素對應的exp次方值;而1表示全1向量。

2.3 基于分類編碼表述的參數訓練

除了借閱序列信息外,圖書借閱歷史隱含的另一個重要信息是圖書編碼同時出現信息,即每次借閱中同時出現的圖書類別。本文擬在Bib2Vec引入Skip-gram方法以獲取圖書類別在同一次借閱時的共現信息。Skip-gram方法是許多概念表述學習方法的基礎。基于預定義大小的上下文窗口中單詞的共現信息,該方法可在給定單詞序列w1,w2,...,wT中學習單詞的表述。具體做法是訓練Wc∈Rm×|C|,使其第i列能表示對應的第i個圖書類別。為使習得的編碼表示更易于理解,編碼表示應為非負的。因此,如公式(4)(5)所示,在使用Skip-gram算法時,本文訓練的是非負權重ReLU(Wc),而非Wc。這樣,所學的權重變成Wc'=ReLU(Wc)∈Rm×|C|。當存在借閱序列V1,V2,...,VT,可通過最大化下列似然函數得到基于編碼的概念表示:

2.4 聯合訓練

合并公式(4)和公式5)的目標函數,可以得到一個聯合的訓練框架,見公式(6)。通過兩個目標函數的結合,可以從同一個借閱記錄學到基于中圖法和基于主題法的圖書類別表述,以便同時利用借閱內部的類別號并發出現信息和不同次借閱之間的序列信息。

3 實證分析

本節在廈門理工學院圖書館歷年借閱數據的基礎上進行實驗,評估Bib2Vec算法的有效性。筆者對實驗數據集和評價指標進行描述,并對基于編碼表述和借閱表述的實驗結果進行討論,總結算法的適用性。

3.1 實證數據獲取與分析

(1)數據集描述。實驗數據集來自廈門理工學院2010年1月1日~2013年12月31日的讀者借閱數據。為對實驗結果進行更準確的分析,本文從中抽取計算機相關院系的學生借閱記錄作為實驗數據集,包括計算機與信息工程學院、電氣工程與自動化學院、光電與通信工程學院、應用數學學院。其中,用前三年的數據作為訓練集,用最后一年的數據作為測試集。對于類別編碼,文中使用兩種,一種是中圖法分類號,另一種是圖書標題中所出現主題詞的聚類id,總共200個聚類。中圖法分類采用多層級編碼,為了統一各類的細分度,筆者將編碼定為5級,5級以下的分類號統一合并到第5級。比如,程序設計的分類號是TP311.1,為便于與其他類別作比較,將其歸并到TP311。數據集的統計信息如表1所示。

表1 訓練集和測試集的基本統計

(2)評價指標描述。鑒于分類號級別的評價需引入該領域的知識專家,對習得分類號進行相關性驗證,工作量大。本文僅采用基于借閱的評價,根據習得分類號對未來借閱類別的預測性,評價Bib2Vec算法的準確度。以兩次連續借閱Vi和Vj為例,以Vj的中圖法分類號作為預測目標y,Vi的圖書類別表述(中圖法和標題對應的主題聚類)作為輸入x,即上下文窗口大小為1的情形。

筆者采用命中率指標HR作為預測性能的評價指標。所謂命中指預測的圖書類別與用戶欲借閱的圖書類別一致。鑒于大學生思想活躍,容易受外部影響,借閱興趣不夠穩定,可預測性較低,實驗中不使用完全命中的定義,改為topk命中:即當推薦的topk個圖書類別在用戶欲借閱的圖書類別中,則認為本次推薦命中。這樣,HR變成HR@k,具體描述見公式(7)(8),文中取k=5和k=10兩種情況。

表2 術語聚類結果例示

為增加可推廣性,本文將把上下文窗口大小設為1、2、3等情形,以分析上下文窗口大小的變化對預測精度的影響。同時,將實驗分為兩部分,一類是僅使用中圖法類別作為類別表述;另一類的類別表述中除用到中圖法類別外,還附加圖書主題的聚類信息。

3.2 術語聚類描述

大多數讀者基于標題內容檢索圖書,因此,主題詞選擇對用戶檢索具有較強的指導意義。主題詞是通過對訓練集和測試集的圖書標題進行文本分詞得到,聚類時考慮主題詞同時出現在一本圖書的次數,通過k-means聚類方法(實驗將k設為200),得到主題聚類信息。術語聚類結果如表2所示,因篇幅問題,僅顯示兩個。從中可以看出,聚類較為明顯地體現了用戶的興趣和圖書的類別。第3個聚類顯示了計算機技術方面的術語,該聚類的術語偏重于操作系統和硬件方面的內容。即便是防火墻、入侵、修復、監控等詞也與網絡安全相關,而網絡安全方面的研究更多從操作系統層面實現。而第10個聚類體現了對考研數學資料的檢索需求,如gct(碩士專業學位研究生入學資格考試)、lingo(數學建模中的常用軟件)、李永樂(考研數學輔導專家)、同濟(同濟大學出版的高等數學教材是高校的主流教材)。由于術語聚類體現了一定的語義,因此,擬將其與分類號相結合,幫助圖書館人員更準確地對書本進行編碼,提高圖書推薦的準確度。

3.3 基于多層編碼表述的預測

圖2和圖3顯示隨著上下文窗口大小的變化,基于中圖法的多層表述、基于中圖法+主題聚類的多層編碼表述在借閱預測上的實驗效果。區別在于前者用HR@5評價準確率,而后者用HR@10。橫軸為用HR表示的預測準確度,縱軸是預測的類型。實驗數據集中,由于缺乏高性能的推薦系統,用戶無法迅速找到要借閱的書,其實際需求可能在多次借閱以后才發現。因此,在評價預測準確性時,要取未來多次借閱的結果作為評判依據。圖中所述對下兩次的預測,評判結果包括了緊接的第一次和第二次借閱的書籍。每個類別都有三個實驗,分別對應上下文窗口大小為1、2、3時HR@5和HR@10的值。圖中反映了多種現象。

圖2 基于多層分類號表述的預測結果(HR@5)

圖3 基于多層分類號表述的預測結果(HR@10)

現象1:相同條件下,基于中圖法和主題聚類的預測結果較僅基于中圖法的預測結果要高得多,基本都能提升10個百分點,最高能達到20個百分點。一方面說明增加了詞匯信息對提升準確率有較大幫助;另一方面也說明,加入多層表示后,能展示圖書的交叉學科屬性,提高其描述準確度。

現象2:對未來兩次借閱的預測精度較未來一次有大幅提升,提升幅度接近20%。該現象說明多主題表示圖書的適應性。因為比較對未來兩次借閱的預測和對未來一次借閱的預測,其預測內容是一樣的。從HR@k指標值的計算公式來看,{推薦的前k個圖書類別}是相同的。之所以預測精度提高,是由于對未來兩次借閱的預測將用戶未來兩次借閱圖書的類別作為{用戶欲借閱的圖書類別},因而所預測圖書類別的命中率也隨之提升。這說明圖書推薦系統沒有將學生所需的圖書一次性推薦給學生,導致學生需要多次借閱才能滿足其需求。因此,加入多層學習表示有助于精確地捕獲學生借閱興趣,提高推薦準確度。

現象3:上下文窗口大小的變化與預測準確度并無直接關聯。從圖2和圖3看出,很多情況下,窗口大小為2時,預測準確率反而比1的時候差。這種現象在純基于中圖法學習編碼表述的時候最為明顯。根據常理,上下文窗口越大,考慮因素越多,預測精確度會越高。此種情況更能說明采用多層主題表示的方法更能全面描述讀者的圖書借閱需求,有助于提升個性化圖書推薦的準確率。

現象4:采用基于中圖法和主題聚類的多層表示學習,預測精度最高能超過70%。這說明該方法具有一定的有效性。但是,需要注意的是,圖2中HR@5體現出的推薦準確度較圖3的HR@10要低得多,這說明只推薦5個的效果還比較差,需引入更多的信息,使得多層主題表示的結果能更好反映用戶的需求。

3.4 多層編碼表述的解釋

通過bib2vec多層編碼表述,每次借閱都被轉化為由分類號和術語聚類表示的向量。每個分量對應一個分類號或主題聚類,分量的值為該次借閱與分類號和術語聚類的關聯,從而根據上次借閱的信息推導出下次可能借閱哪些類別的圖書。根據得到的借閱向量,進行處理后可以發現:引入聚類信息后,得出借閱過程中緊密相關的分類號和主題聚類,發現被關聯到一起的分類號在中圖法分類體系上不再僅僅是祖先-后代關系,還出現了橫向關聯。具體的例子如表3所示,因篇幅所限,僅選出若干最具有代表性的分類號集合。這說明隨著學科交叉的深入和發展,傳統的樹型分類體系越來越不適用,引入多層表述對圖書編目和圖書推薦將越來越重要。

表3 多層編碼表述學習得到的相關分類號組

如表3的第一層所示,該組分類號與表2的術語聚類3緊密相關,體現了計算機安全方向的借閱需求;第二層體現了軟件金融方向學生的借閱需求(廈門理工學院為更好地培養金融軟件系統的開發人才,特別在軟件工程專業下設立該方向,要求學生既要掌握軟件開發能力,又要了解金融、會計相關知識);第三層則體現了空間信息工程專業學生的借閱需求,該專業屬于計算機類,學生還需要學習測繪、遙感等知識,以便解決無人機航拍數據的結構化、可視化和分析等問題。由此可見,基于多層編碼表述學得的分類號群與學生的學習需求緊密相關,因此不僅能提升圖書的推薦精確度,還能有效識別學生的新需求。

4 研究局限及展望

本文將多層表示學習方法引入高校圖書館的圖書推薦中,它采用一個可擴展的兩層神經網絡框架,學習圖書類別的低維表示。該方法使用在同一次借閱中圖書分類號和標題詞的共現信息,以及同一個讀者的順序借閱信息,以提高編碼和借閱表述的準確性。通過多個實驗,筆者發現該方法能有效提升廈門理工學院圖書館的推薦準確性,較傳統方法提高20個百分點。鑒于高校學生的借閱行為受所學課程、所參加競賽、所指導教師的影響較大,本研究僅考慮了班級、專業、院系之間的影響。在今后的研究與實踐中,筆者將在多層學習中引入學生與學生之間、學生與教師之間在課程、競賽之間的社交網絡信息,以進一步提升圖書推薦準確性。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美成人综合在线| 欧美精品三级在线| 亚洲男人的天堂在线| 亚洲第一精品福利| 萌白酱国产一区二区| 国产免费黄| 91成人精品视频| 五月婷婷导航| 精品一区二区三区水蜜桃| 精品国产三级在线观看| 国产麻豆另类AV| 精品国产欧美精品v| 久久香蕉国产线看观| 欧美69视频在线| 99热6这里只有精品| 国产亚洲男人的天堂在线观看| 久久黄色小视频| 亚洲国内精品自在自线官| 亚洲精品国产成人7777| 中文字幕啪啪| 无码精品国产VA在线观看DVD| 9啪在线视频| 日韩欧美视频第一区在线观看 | 99精品国产电影| 日韩高清欧美| 亚洲性色永久网址| 在线人成精品免费视频| 久久久精品无码一区二区三区| 欧美一区二区丝袜高跟鞋| 又粗又大又爽又紧免费视频| 国产Av无码精品色午夜| 手机精品视频在线观看免费| 国产人成午夜免费看| 国产一级在线播放| 69国产精品视频免费| 中文无码日韩精品| 真实国产乱子伦高清| 成人一区在线| 欧美视频在线播放观看免费福利资源| 69精品在线观看| 青青草a国产免费观看| 永久免费AⅤ无码网站在线观看| 日韩精品无码免费一区二区三区| 亚洲无码精彩视频在线观看| 国产欧美日韩综合在线第一| 国产久操视频| 五月天婷婷网亚洲综合在线| 亚洲成AV人手机在线观看网站| 男女性午夜福利网站| 国内精品免费| 亚洲丝袜第一页| 国产91在线|中文| 天天综合网色| 成人一级免费视频| 不卡网亚洲无码| 欧美区国产区| 国产精品美女网站| 国产成人精品一区二区三在线观看| 国产精品福利导航| 婷婷六月综合网| 激情成人综合网| 成人免费一区二区三区| 国产91透明丝袜美腿在线| 一级毛片在线免费视频| 中国国产一级毛片| 在线观看国产精品第一区免费 | 园内精品自拍视频在线播放| 久久99国产综合精品1| 啪啪永久免费av| 国产精品香蕉在线观看不卡| 久久夜色精品| 国内精品视频| 国产女同自拍视频| 国产亚洲欧美另类一区二区| 成人免费视频一区| 国产麻豆另类AV| 91在线中文| 免费无码网站| 国产美女在线观看| 成人国产免费| 国产欧美亚洲精品第3页在线| 99热6这里只有精品|