李晶潔 彭喜梅 李 嵐 張晨玉 王梓真 高文軒



摘? 要:隨著大數據時代來臨,高校圖書館傳統的管理和運營模式已不能滿足閱讀者需求。文章針對高校圖書館對閱讀者喜好了解的缺失,書籍引進、擺放規律不人性化,部分書籍閑置或緊缺等問題,對天津商業大學圖書館閱讀者數據進行精準分析,從多維度建立數據模型,繪制清晰明了的關鍵詞數據畫像,并參照該畫像內容,對圖書館的資源建設和服務提出合理的建議,為相關院校提供參考。
關鍵詞:大數據;高校圖書館;數據畫像;人性化服務
中圖分類號:G252? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)01-0090-08
Abstract:With the coming of the era of big data,the traditional management and operation mode of university libraries cant meet the needs of students. In view of the lack of the university librarys understanding of the readerspreferences,the inhumanity of the rules of book introduction and placement,and the idleness or shortage of some books,this paper uses data mining technology to accurately analyze the readersdata in the library of Tianjin University of Commerce,builds a data model from multiple dimensions,draws a clear keyword? data portrait,and makes reference to the content of the portrait. This paper puts forward reasonable suggestions for the resource construction and service of the library,and provides reference for relevant colleges and universities.
Keywords:big data;university library;data portrait;humanized service
0? 引? 言
2008年,維克托·邁爾-舍恩伯格和肯尼斯·庫克耶在《大數據時代》一書中首次提出了大數據的概念,這一概念的提出不僅引起了各大領域的廣泛關注和討論,還給世界重新下了定義。研究機構Gartner[1]指出:大數據需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
隨著全球數據爆炸式增長,大數據開始滲透到各個行業和領域,人們需要新的、更有效的手段對各種的大量數據進行挖掘以發揮其潛能。高校圖書館作為公共服務體系的重要組成部分,傳統的管理模式和服務模式已不能滿足閱讀者多樣化的需求。因此,高校圖書館應當與時俱進,借助大數據發展的機遇,最大可能地為讀者提供有價值的、精準度高的信息,提高圖書館資源利用率,完善服務體系。
1? 相關研究綜述
王慶和趙發珍[2]提出用戶畫像有兩種概念,一種是1998年交互設計之父Alan Cooper提出的用戶畫像,謝奇、關晶和楊錯[3]將其概括為:通過調研問卷、電話訪談等手段獲得用戶的定性特征,是描繪或者抽象用戶屬性差異的方法;另一種用戶畫像是在大數據環境下產生的,與數據挖掘、大數據分析相關,通過數據建立描繪用戶的標簽,即根據用戶人口統計信息、社交關系、偏好習慣和消費行為等信息而抽象出來的標簽畫像,是針對人的實時特征的描繪。本文描述的數據畫像即在第二種概括的基礎上進行可視化分析得到。數據畫像從數據來源上分析具有較強的動態性,如圖書館的借閱數據,借閱者的性別、學院等特征是固定不變的,相對來說比較穩定,但是借閱者的借閱行為是隨著時間的變化不斷變化的,這些行為大多會受到周圍環境的影響,因此我們要建立精準的數據畫像,需要在時間或者空間上選好節點,時間或空間節點選取得越準確,參考價值越高。
從中國出版傳媒商報的數據來看,近五年來圖書館館配書籍的品種和數量在逐年增加,從2013年的90.8萬種躍升至2017年的133.6萬種,這樣龐大的數據量無疑給圖書館的采購人員增加了很大的難度,在探知閱讀對象對不同書籍的喜好程度上,采購人員最多能做到的只是依舊按以往的圖書種類清單購買,以及試探性地添加為數不多的新種類進行測試。這樣落后的做法往往需要消耗大量的人力、物力、財力,并且得到的結果也與“人性化”相悖。近幾年來中國高校圖書館服務雖然越來越趨于多樣化、便捷化,但是在圖書館人性化服務方面缺乏專門的分析和研究。在大數據的時代環境下,要想跟上井噴式的數據增長,我們必須采取數據挖掘技術[4]對數據進行精準分析。
在相關研究上,丁雷[5]建立了高校圖書館用戶畫像,用數據立方體上應用OLAP分析技術從多個時空粒度構建圖書館的用戶畫像模型;程秀峰[6]等運用樸素貝葉斯算法與情景感知功能的協同推薦模型,形成推薦模型,達到了個性化服務推薦圖書的效果。曾建勛[7]認為圖書館精準服務需要用戶畫像,用戶畫像可以更好地認識網絡中的用戶、改善網絡信息組織、發現信息傳播規律。胡媛[8]提出的數字圖書館知識社區綜合服務能力評價指標體系。
綜上所述,高校圖書館數據畫像研究尚處于發展階段,還有很多需要完善的方面,如何將大數據環境中用戶畫像思想應用在高校圖書館至關重要。本文在相關研究的基礎上,以天津商業大學為例,對高校圖書館數據畫像進行可視化研究,得出不同人群閱讀習慣、借閱規律等信息,為圖書館的效率提升提供建議,為相關財經院校的相關研究提供參考。
2? 數據的采集
閱讀者的數據大致分為兩種:一種為靜態數據,一種為動態數據[9]。我們以天津商業大學為初始研究對象,獲取了“2018年圖書續借數據”“2018年有借閱記錄的書目”“2018年外借中記錄圖書”“2017—2018年中文新書被借閱圖書”“2018年電子書借閱情況統計”“2018年閱讀者使用座位情況統計”等數據。其中,靜態數據包括閱讀者性別、姓名、學院、年級、ID、借閱圖書所處圖書館位置、借閱者類別(教師、研究生、本科生)等;動態數據即為閱讀者的行為數據,包括借閱圖書種類、是否續借、借閱日期、歸還日期、進入圖書館是否預約、入館時間、閱讀者所選擇的閱覽室及樓層、選擇的座位編號等。
3? 數據預處理
建立圖書館數據畫像的過程可表現為數據化→標簽化→關聯化→可視化,即首先采集閱讀者的相關數據,對其進行預處理,實現數據化。數據處理的主要內容包括數據清洗、數據抽取、數據交換和數據計算等[10]。第一步,利用Python、Excel軟件對缺失數據以及毫無意義的數據進行過濾,刪除原始數據中的重復數據,去除平滑噪聲數據[11],處理缺失值和異常值等,最終得到一份操作性強、有實際意義的新數據。第二步,根據《中國圖書館圖書分類法》22個基本大類對獲取得到的天津商業大學借閱圖書數據進行分類。第三步,整理數據可得,樣本室不可外借圖書總計21202冊,占館藏比例前五的不可外借圖書種類依次為經濟、政治法律、數理科學和化學、哲學、語言文字;閱覽室可外借圖書總計42411冊,占館藏比例前五的可外借圖書種類依次為經濟、工業技術、政治法律、文學、數理科學和化學。各類圖書占館藏比例與占借閱總量比例相比較可以用來衡量某類圖書的利用率,表達公式為:
2017—2018年占借閱總量占比前四的圖書總類為經濟、文學、工業技術、政治法律,由此我們可推測各類圖書占館率與利用率間有正向關系。最后,以閱讀者為研究對象,建立學生性別、學院、年級、圖書借閱時長與外借圖書、圖書分類、圖書續借情況、圖書館科室等維度之間的關系,并分析其關聯程度。
4? 數據分析
4.1? 借閱總數分析
2018年各學院借閱者已歸還借閱總量為26190冊,法
學院借閱量最多,為3313冊,會計學院借閱量最少,為343冊,其余學院如圖1所示;2018年外借中記錄總量2631冊,機械工程學院借閱量最多,為239冊,會計學院借閱量最少,為16冊,其余學院如圖2所示;在2018年總體借閱量學院分布圖中,借閱量位于突出位置的學院為法學院、經濟學院、商學院,2018年總體借閱量學院分布如圖3所示。
4.2? 借閱者學院分布及關聯性分析
熱圖中每行(列)方塊大小越均勻,說明該行(列)所對應列(行)的維度關聯程度越小。由2018年借閱數據熱圖可知,工業技術類圖書較受研究生部、機械工程學院、教師喜愛;經濟類圖書較受經濟學院、研究生部、商學院喜愛;歷史、地理類圖書較受研究生部、教師喜愛;社會科學總論類圖書較受研究生部喜愛;數理科學和化學類圖書較受研究生部、生物技術與食品科學學院、理學院喜愛;文學列方塊大小均較大,說明文學類圖書均受各學院借閱者喜愛;語言文字類圖書受研究生部、外國語學院、國際教育合作學院喜愛;哲學類圖書受研究生部、經濟學院喜愛;藝術類圖書明顯受藝術學院喜愛;政治、法律明顯受研究生部、法學院喜愛;馬列主義類圖書明顯受研究生部喜愛;余下的文化科學類、醫藥衛生類、生物科學類、天文學類、軍事類、交通運輸類、自然科學總論類、綜合性圖書類圖書借閱者普遍較少,2018年各學院借閱圖書種類數據熱圖如圖4所示。
4.3? 借閱者年級分析
從2018年借閱圖書數據可以看出:本科生借閱量最多的年級為17級,占比21.71%;研究生同樣也是17級借閱量最多,占比7.05%;教師借閱圖書量占全校借閱量的2.82%,在2018年全校龐大的借閱數據中已經達到了很高的借閱水平,2018年各年級圖書借閱情況占比如圖5所示。
4.4? 借閱者性別分析
根據2018年各類圖書男女生借閱情況分析可得,男生偏好圖書前三類依次為工業技術、經濟、文學;女生偏好圖書前三類依次為文學、工業技術、經濟;男生語言文學類借閱總占比明顯小于女生。男生續借圖書中工業技術類最多,女生續借圖書中文學類最多,這與性別偏好有關,2018年各類圖書男女生借閱及續借情況如圖6、圖7所示。
根據2018年各學院男女生借閱情況可知,在男生借閱數據中,研究生借閱量最多,本科生機械工程學院借閱量較多,會計學院、管理學院借閱量較少;在女生借閱數據中,研究生借閱量也較多,本科生法學院借閱量最多,管理學院、會計學院借閱量最少。綜合比較,藝術學院、公共管理學院、商學院男女生借閱人數差距較大,管理學院、會計學院、信息工程學院男女生借閱人數差距較小,2018年各學院男女生借閱情況如圖8所示。
根據2018年男女生各學院借閱時長分析可知,女生借閱時長中,會計學院最短,其他學院較均勻;男生借閱時長中,會計學院與管理學院較短,與其他學院差距較大。雖然女生借閱書本總量大于男生,但機械工程學院與信息工程學院男生借閱時長明顯比女生長,2018年男女生各學院借閱時長如圖9所示。
(a)各學院女生借閱時長
(b)各學院男生借閱時長
4.5? 圖書館具體書目借閱分析
根據2018年借閱圖書畫像和外借已歸還圖書中最受歡迎書目可知,社會學類、基礎學科教輔書類、熱門小說類受廣大借閱者歡迎。因此,各高??梢源罅恳M當下熱門圖書,以及本學?;A課程的輔導書,2018年借閱圖書畫像如圖10所示,2018外借已歸還圖書中最受歡迎書目如圖11所示。
由最受歡迎書目男女生借閱情況可知,前十名最受歡迎書目女生借閱次數均高于男生,主要是由天津商業大學男女比例不均衡所致?!督洕鷮W原理》這本書男女生借閱次數相差不大,我們認為這與經濟學是天津商業大學的一門重要學科有較大關聯,根據線下調查,還有一個原因是越來越多的學生認識到經濟學在生活中的重要性。2018最受歡迎書目男女生借閱情況如圖12所示。
利用詞云圖對各學院借閱情況具體分析,由經濟學院借閱書目可知,借閱記錄前十的書目中,有九本是關于經濟學的圖書,剩余一本為《高等數學》。眾所周知,經濟學體系中經濟學的概念、理論判斷、客觀推理的內容表現為科學規律,其表現形式就是語言[12](自然語言和人工語言),數學語言就是一種特別重要的人工語言。因此,經濟學專業的學生除了自生專業素養的培養,還必須要有數學方面的邏輯思維能力。商學院與經濟學院有著密不可分的關系,商學是隨著時代經濟變化的步伐產生的,但又區別于經濟學。商學的范圍很廣,包括會計財務、銀行學、商業運營、人力資源、經濟等,該學科服務于社會生活中的各個領域。商學院借閱書目的種類繁多,如《貨幣金融學》《互聯網》《工程數學》《會計基礎》《管理心理學》等,經濟學院借閱書目如圖13所示,商學院借閱書目如圖14所示。
由各學院借閱結果可得,《高等數學》作為各學院基礎課,各學院借閱的次數較均衡且普遍偏多。同為基礎學科的《大學英語》《馬克思主義基本原理概論》《中國近現代史綱要》等書籍卻鮮有借閱,易知借閱者更偏好借閱較有難度的基礎課類書籍。除《高等數學》外,各學院借閱次數較多的是文學類圖書,這與之前分析的結論一致——文學類圖書均受各學院的喜愛。而其他書目與借閱者所學專業有很強的對應性,例如《食品營養學》的借閱者全部為生物技術與食品科學學院學生,《法理學》的借閱者全部為法學院學生。
5? 閱讀者行為與圖書館座位關系分析
對2018年閱讀者入館時段分析,6月和11月各學院進館人數達到頂峰,6月經濟學院進館人數高達27013人,與2018年各學院借閱總覽圖進行對照,6月和11月進館人數達到頂峰的主要原因是考試復習,并且在各個時段所有學院使用座位總次數最多的均為15級學生,聯系2018年為15級學生考研備考時期,可推斷15級學生座位使用次數與考研自習有很大關系,其他月份進館人數與借閱人數呈正相關。文學專業學生更偏好去社科借閱室,經濟學、理學和工學專業學生更偏好去科技借閱室,2018年入館時段分布如圖15所示(圖書館每年2月閉館,沒有數據)。
6? 結? 論
在大數據時代,各服務行業未來的發展趨近于精準服務,圖書館領域的發展也不例外。用戶畫像作為實現精準服務的描述工具之一,運用于高校圖書館,能夠提供更高效、更高質量、更人性化的服務。本文分析了圖書館領域用戶畫像的研究現狀,借鑒了用戶畫像在電子商務領域和圖書館領域的發展經驗,應用大數據的處理方法,從多維度分析借閱者偏好,尋找規律,最后形成借閱者的標簽體系,并建立借閱者數據畫像,從而挖掘出大量數據中隱含的、有潛在價值的信息。
從大數據時代給圖書館帶來的機遇與挑戰來看,高校圖書館作為師生獲取學習資源的場所,應該及時提高圖書資源建設和服務水平。利用建立的數據畫像,建議各高校圖書館在資源建設方面提升書籍曝光度;多引進熱門圖書和經典圖書;將自習室與閱覽室分開,使書刊資源得到充分利用。在服務水平方面,建議根據學院偏好程度設立圖書分區,完善圖書推薦系統;增加線下讀書活動;實現周末借閱圖書自由化。
參考文獻:
[1] THIBODEAU,PATRICK. Gartner Upbeat on Big Data Jobs [J].EN,2012,46(20):6.
[2] 王慶,趙發珍.基于“用戶畫像”的圖書館資源推薦模式設計與分析 [J].現代情報,2018,38(3):105-109+137.
[3] 謝奇,關晶,楊錯.后GoogleScholar時代新的學術利器——百度學術搜索 [J].農業圖書情報學刊,2015,27(6):110-114.
[4] 蔡萌萌,張巍巍,王泓霖.大數據時代的數據挖掘綜述 [J].價值工程,2019,38(5):155-157.
[5] 丁雷.大數據環境下高校圖書館用戶畫像與特征研究 [J].中國科技信息,2018(24):59-62+64.
[6] 程秀峰,范曉瑩,楊金慶.一種融合了基于樸素貝葉斯算法與情境感知的協同推薦系統——以大學圖書館實體圖書推薦為例 [J].現代情報,2019,39(2):57-65.
[7] 曾建勛.精準服務需要用戶畫像 [J].數字圖書館論壇,2017(12):1.
[8] 胡媛,毛寧. 基于用戶畫像的數字圖書館知識社區用戶模型構建 [J].圖書館理論與實踐,2017(4):82-85+97.
[9] 李雅. 基于讀者用戶畫像的高校圖書館精準化服務研究 [J].農業圖書情報學刊,2018,30(12):108-111.
[10] 余本國.基于Python的大數據分析基礎及實戰 [M].北京:中國水利水電出版社,2018.
[11] 趙一凡,卞良,叢昕.數據清洗方法研究綜述 [J].軟件導刊,2017,16(12),222-224.
[12] 陳世清.超越中國“主流經濟學家” [M].北京:中國國際廣播出版社,2013.
作者簡介:李晶潔(1985-),男,漢族,天津人,就職于理學院,教師,博士研究生,研究方向:數據分析,環境信用評價,隨機微分方程;彭喜梅(1996-),女,漢族,四川宜賓人,本科在讀,研究方向:數學與應用數學;李嵐(1998-),女,漢族,云南紅河人,本科在讀,研究方向:數學與應用數學;張晨玉(1996-),女,漢族,貴州仁懷人,本科在讀,研究方向:信息與計算科學;王梓真(1998-),女,漢族,河北邢臺人,本科在讀,研究方向:數學與應用數學;高文軒(1998-),女,漢族,廣西桂林人,本科在讀,研究方向:數學與應用數學。