黃海云 袁立強 靳紅 張屹 牛曉艷 劉平


1?引言
隨著信息技術的飛速發展和知識的大量累積,大數據技術得到廣泛應用,圖書館傳統的服務內容和服務方式已不能滿足新時代的需求,需要不斷創新來尋找更有效的服務途徑。大學生,尤其是新生面對海量的圖書,需要更精準的閱讀指導。為此,河北科技大學圖書館(以下簡稱“我館”)依托大數據技術進行了一系列有效嘗試。根據十年來開展讀書系列活動的經驗,我館不斷完善活動形式與內容,并分析讀者的借閱數據和借閱習慣,開發了讀者興趣預測軟件,篩選出有共同愛好的讀者群,有針對性地開展活動和推薦書目,從而吸引了更廣泛的讀者關注和參與。
近十年來,我館陸續開展了“好書月月談”“名家講座”“文化之旅”“好書推薦”等系列活動,從歷年的活動經驗中發現,雖然開展的閱讀推廣與輔導活動不斷更新,但仍存在著很多“局限性”,例如:參與活動的讀者缺乏廣泛的代表性;聘請專家、學者進行講課和交流會受到時間、地點等因素的制約;陳舊的活動形式,使讀者的積極性逐漸淡化,以點帶面的作用不大,因此難以實現圖書館服務和讀者需求有效的銜接。這就迫切需要圖書館工作人員創新工作思路,不斷更新活動方式。我館在這一背[LL]景下,利用貝葉斯網絡技術預測讀者的需求,為讀者借閱提供更精確的指導;針對有共同愛好的讀者群體開展相應的活動,提升讀者閱讀興趣;秉承從讀者的需求出發,再服務到讀者中去的理念,提高閱讀推廣服務水平,培養讀者的讀書習慣;把讀書活動方式從被動服務逐步轉變到有針對性的主動服務上去,提升服務效能。
2?案例背景
隨著讀者信息需求水平的提高,我館開展的閱讀推廣與輔導活動已不能滿足不同類型的讀者需求,必須從大數據技術入手,從海量數據中挖掘出有價值的信息來提高服務水平。我館通過分析歷年借閱數據和讀者信息數據,開發了讀者興趣預測軟件,預測出“閱讀傾向”相同的讀者群體,結合館藏圖書資源,分批分類地精準推送讀者所需的書籍,并且有針對性地對這些群體開展他們喜聞樂見的讀書系列活動。
3?實施步驟
3.1?整合讀者信息和借閱數據
數據來源于我館2011-2017年度讀者的個人信息和借閱記錄信息。其中,讀者個人信息包括:借書證ID、性別、所屬院系、辦證時間、讀者類別;借閱記錄包括:圖書的館藏信息、讀者類型信息、所借書號、借還書日期等。通過整合出有用信息,為開發軟件做好充分的前期準備工作。
3.2?統計分析相關數據
(1)首先對河北科技大學男女讀者各類圖書的人均借閱次數統計。從統計結果可知,男性讀者對于數理化和工技類等方面書籍平均借閱量明顯高于女性,而對于語言、文學、藝術、史地類書籍則是女性讀者平均借閱量要高于男性讀者。
(2)對各個學院所借各類書籍的人均借閱量進行對比統計。結果發現所有學院的讀者借閱語言、文學類圖書都比較多;除了影視、外語、文法、藝術等幾個學院外,其他學院借閱數理化方面的圖書也比較多;理學院的學生對于哲學和經濟類圖書也很感興趣,而影視和藝術學院對于文學類圖書的興趣沒有理科學生的興趣高。
(3)對各類讀者的人均借閱次數做了統計。從統計結果看,本科生借閱量最大,理工學院和研究生借閱量相對較少;理工學院的讀者對于數理化方面的圖書借閱興趣不高,而對于文學和工技類的圖書借閱量稍高些;研究生對于工程技術類圖書借閱量最多。
(4)最后對不同年級的讀者借閱各類書籍的人均借閱次數統計。發現大一、大三學生借閱量相對小,大四和準備考研的學生借閱量比較大。各屆學生對于文學類圖書借閱仍然是最多的。利用這些數據開發出能預測有共同愛好的讀者群體,是我們開發軟件的初衷。
3.3?開發和使用軟件
以上述統計出來的數據作為訓練集,訓練貝葉斯軟件模型,編制出預測行為軟件,把讀者興趣預測軟件安裝在體驗機上,讀者輸入四個選項的信息,就會彈出該生預借的圖書類別比例。
4?活動效果
圖書館工作人員統計出有共同偏好的讀者,對他們有針對性地開展活動。我們根據統計出來的數據信息開展了兩期閱讀推廣活動:一期是以“科幻”為主題,圍繞作者劉慈欣的作品展開評論;另一期是以“明史”為主題,以時間為軸線展開討論。因為參加者有相同的愛好,所以發言踴躍,各抒己見,達到了理想的預期效果,同時借閱量也有了明顯的提升。經過多年不斷的創新、探索,終于有了“破繭成蝶”的發展。從統計表1來看,很多相關種類的書籍,月平均借閱量呈現總體上升的趨勢。
5?總結
目前我們開發的預測軟件可以挖掘不同專業、性別、年級和不同類型的讀者對于各類書籍的借閱偏好。圖1是我們對于目前咨詢軟件的一個改進思路:全貝葉斯網絡A可以根據讀者個人信息推導出書籍的借閱概率。分層貝葉斯網絡B可根據讀者的查詢詞集及同義詞推導出書籍的
借閱概率。兩者結合可實現更精準的借閱咨詢。