齊 航 楊婷婷 馬致明
高校圖書館是大學的信息集散地之一,館內存放著各種科類書籍,是大學中存放書籍科類最全、數目最多的地方,也是學生除了宿舍和教室以外出入最多的地方。在圖書館中,每天都有學生出入借閱書籍,從而產生大量的數據。這些數據記錄著學生出入圖書館時間以及借閱書籍信息,隱含著學生的行為習慣、書籍流通的規律等。對圖書館內記錄的數據進行分析總結,從分析結果中可以推測出學生借閱書籍的規律、讀書習慣和需求等,分析結果能夠使圖書館更好地服務學生,向學生提供更有參考價值的書籍,為高校的人才培養、科學研究提供更加可靠、有參考價值的數據應用。
1.數據分析概述。數據分析即通過恰當的研究方法對收集的大量數據進行詳細的分析研究,從分析的結果中得出有用的信息,對分析結果進行概述和總結。數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,并使得數據分析得以推廣[1]。數據分析的目的是從大批看似毫無關聯的數據中篩選和提取有用信息出來,找出研究對象的內在規律。
2.數據分析流程。(1)數據收集。根據研究的需要收集與研究相關的數據。(2)數據處理。對收集的數據進行篩選和提取,從收集的數據中,根據研究問題的需要對數據進行篩選,刪除無用和冗余的數據。(3)數據分析。采用適合的方法對數據進行分析,發現數據中存在的新特征,挖掘并驗證數據之間潛在的關聯。(4)數據展示。根據數據分析出來的結果,挑選出最適合展現數據的方式,表格或者圖形等能夠一目了然地發現數據之間存在的規律。(5)編寫報告。數據分析的最后一步即編寫報告,將數據分析的結果進行匯總。一份優秀的報告需要一個明確的主題、清晰的目錄、圖文并茂的描述數據、結論和建議。
3.數據分析方法。數據分析方法分為兩種,一種是統計分析方法,另一種是數據挖掘方法[2]。根據分析目的的不同,選擇不同的分析方法,得出的結論也會有所不同。(1)統計分析方法。①描述性統計分析。描述性統計分析是通過圖標或數學方法, 對數據資料進行整理、分析,并對數據的分布狀態、數字特征和隨機變量之間的關系進行估計和描述的方法[2]。②關聯分析。又稱關聯挖掘, 通過分析由定性變量構成的交互匯總表,從大量數據中發現項集之間有趣的關聯和相關聯系[2]。③回歸分析。回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法[2]。④因子分析。因子分析是指研究從變量群中提取共性因子的統計技術,即從大量的數據中尋找內在的聯系從而減輕決策困難的分析方法[2]。⑤方差分析。方差分析又稱 “ 變異數分析 ” 或 “ F 檢驗 ” ,用于兩個及兩個以上樣本均數差別的顯著性檢驗[2]。(2)數據挖掘方法。①分類分析。分類分析是基于數據中某些相同的特點將數據劃分為不同的類型。分類分析的目的是將數據庫中的數據映射到某類別中。分類算法一般有決策樹、貝葉斯分類等。②聚類分析。對數據庫中的數據進行分組,使得相近的數據為同一組,相異數據為不同組,通過分組識別出數據之間的差異。③關聯規則。在數據庫中某一數據項發生的同時,另一數據項也隨之出現,即描述隱藏在數據之間的關系規則。④回歸分析。數據挖掘中的回歸分析主要是多元線性回歸和邏輯斯蒂回歸,后者多在數據化運營中使用[2]。多元線性回歸主要用于概括一批自變量的變化導致一個因變量的變化,反映數據中因變量和自變量之間存在的關系。

圖1 數據分析在圖書館中的應用模型
1.理論應用。在大學里,除了宿舍和教室這些必經之地外,學生去的最多的地方便是學校圖書館。高校圖書館存在意義和價值很多,并不只是簡單為學生們提供知識信息,給教師們提供參考文獻,而是在于對高校文化建設的支持和輔助,為高校精神文化建設提供源源不斷的動力支持,使大學精神能夠得到延續和傳承[3]。
數據分析主要分為數據采集、數據處理、數據分析和數據應用,圖1 所展示的是數據分析在高校圖書館應用的模型,不同階段對應著不同的作用。
數據采集是將學生一卡通內學生的個人信息(如學生的年級、性別、專業等)、學生借閱書籍的信息、圖書的信息、學生進出圖書館時間等這些數據進行采集并保存到數據庫。
數據處理即對采集的原始數據進行增、刪、改、查。原始數據中會有過于偏差沒有參考性的數據,研究人員需要刪除這些冗余的數據。同時因為分析的目的不同,需要的數據也不同,對數據的提取也不相同。例如,分析不同專業學生之間借閱書籍類別的差別,則提取學生專業信息、學生借閱書籍類別的信息進行分析即可。數據處理通過對數據的轉換、整合、提取,為下一步的數據分析提供更有效、可靠的數據。
數據分析是利用大數據技術對海量數據進行存儲和分析[4]。根據分析的要求,提取與之相關的數據,采用不同的分析算法對數據進行分析,通過對數據之間潛在關聯的挖掘,充分體現數據的價值。例如,分析學生借閱書籍類別之間存在的關聯,可采用Apriori 算法計算書籍之間存在的聯系。
數據展示與應用即根據數據分析結果對數據進行不同的展示,通過圖表或文字等能充分展現數據的方式將數據分析結果、研究主題展現出來。例如,分析圖書館中每年學生借閱在各書籍類別中占有的比例,可以采用餅狀圖充分展現出各個類別書籍借閱量的不同,分析結果也可作為下次采購書籍的參考依據。
2.實際應用。高校圖書館每日會有大量的學生借閱書籍,這些數據是重要的信息資源,學校可以借助先進的技術手段從這些數據中分析出有用的信息。例如,分析每年哪類課外書籍被借閱次數最多,可以看出該校的學生閱讀傾向,為下次采購書籍提供有力的依據;分析不同學科學生借閱圖書之間存在的差異,根據不同學科之間的差異確定下次購買書籍的種類,推動學生全面發展,主動完善知識結構;分析不同種類之間會同時被借閱的概率,從中發現不同種類書籍之間存在的關聯,合理規劃書籍的擺放等。
對借閱書籍的統計分析是了解書籍流通與學生需求變化的重要方法,根據學生的不同借閱情況來決定下次購買書籍時不同種類的書籍占有的比重,借閱量大的書籍便是學生需求多的書籍。文獻[5][6]中,在該校圖書館中學生借閱最多的書籍是文科類,文科類書籍在該校學生閱讀中最受歡迎,需求最多,因此學校采購書籍時可以加大文科類書籍占比,為學生提供更多的課外書籍。
在文獻[6]中,理科學生對文科知識的涉及遠遠大于文科學生對理科知識的涉及程度,文理科學生在學習上的互逆性存在著差異。從理科生借閱文科書籍可以發現,學生的借閱行為更多源于閱讀興趣,同時也兼顧學業的需要。無論是理工科還是文科類的學生,都會借閱文科類書籍,管理人員可以將文科類書籍放置在方便學生查找的地方,方便館員管理的同時,也節省了學生查找書籍的時間。
不同科類書籍之間也存在一定潛在借閱的關聯,文獻[7]中發現,學生借閱馬克思主義與語言類書籍的同時還借閱文化類圖書,表明這三類學科存在很強關聯關系。圖書館管理人員在擺放書籍時可以考慮將這三類圖書放在同一區域,方便圖書館工作人員對圖書進行管理,也便于學生借閱。
月份不同借閱書籍的數量也存在著差距,從文獻[8]中可以看出,學生在開學季和考試周借閱書籍數目比平時要大,以專業課為主,此時可以考慮適時向學生推薦與專業相關的圖書資料。文獻[8]中還分析出,各學院每個年級所借書籍的種類大致相同,不同年級的借閱量不同,高年級借閱專業課的書籍要大于低年級的借閱數量。可見,隨著專業課增多學生借閱的書籍也越來越專業化。學校在采購書籍時應該以本校所開設的專業為基礎,所購買專業課的書籍以本校教授的專業為主,本校學生多的專業書籍應占有較大的比重。
學生進出圖書館時間也存在一定規律,考試周時學生會比平時去得更早,離開圖書館的時間更晚,因為學生需要復習,準備期末考試,所以在圖書館學習的時間會比平時長。
圖書館對于高校教育和學生學習都十分重要,一個好的圖書館可以成為高校的 “ 知識門面 ” ,強化高校的文化知識建設效率,為學校的科學研究做好鋪墊;引導學生在校期間的閱讀方向,提升學生閱讀質量,提高學校的人才培養水平;給學生的閱讀提供一種文明熱情、和諧融洽以及催人奮進的環境,幫助學校的文化傳承不斷創新。因此,圖書館的整體質量十分重要。
提高圖書館的整體質量,不僅僅是擁有豐富的館藏資源,更需要學校根據學生的需求科學采購并且合理地擺放書籍,根據時間段的不同調整開館時間等各個環節都不容忽視。對圖書館記錄的數據進行分析,從分析結果中得出學生閱讀書籍的傾向、借閱規律等,能更科學、深層次地采購和管理書籍,掌握館內現有藏書的配置比例,更好地優化藏書結構,為下次館內購買書籍提供堅實的理論依據,使得館內的整體管理與服務更加完善。
定期對圖書館的記錄書籍流通、學生行為信息的數據進行分析,能夠及時掌握館藏書籍的實際使用情況和學生的需求情況,采取有力措施,使得圖書館整體管理不斷完善,館內書籍得到更好的使用,藏書的質量不斷提高。