呂繼續 叢靜
摘 要:隨著人民生活水平的不斷提高,閱讀越來越受到人們的關注,但如何選擇適合的書籍閱讀是困擾我們的一大難題。針對這一難題,文章采用關聯性規則算法對大學生文學類小說閱讀行為數據進行挖掘,尋找不同書籍與不同人群之間的潛在規則。為大學生閱讀提供較為科學的書籍推薦目錄。
關鍵詞:關聯性規則 文學類型小說 吸引力 推薦
中圖分類號:G43 文獻標識碼:A 文章編號:1672-3791(2018)06(b)-0212-02
世界文明傳承至今,可以說好書很多,浩如煙海。但不同的人,對于不同的書產生的興趣也是不同的。所以說人們很難找到能讓他們很感興趣的書籍[1]。文章以文學性小說為研究對象,以大學生這一個群體作為統計樣本,研究不同書籍對不同人群在吸引力這一屬性上的關聯。通過數據挖掘技術,根據不同學生的閱讀偏好,給出適合他們的個性化推薦列表。文章采用問卷調查的方式收集數據,然后通過關聯性規則算法對大學生文學性小說的閱讀行為數據進行分析,挖掘其中潛在的價值。
1 數據來源與樣本特征
問卷內所選的64本書籍是參考豆瓣評分8分以上的小說推薦名單選取的,調查結果顯示未對調查對象產生影響的書僅有3本。充分表明所選書籍具有一定的客觀性和代表性。問卷調查時間是2018年5月5日,問卷通過社交軟件以及網絡發放回收,共收回問卷209份,有效問卷209份,回收率100%。如表2所示,調查對象男女比例均衡,表明數據分析結果的價值不會受到性別的干擾。如圖1所示,可以看出調查對象覆蓋11個省,其中主要集中在江蘇省、遼寧省、湖北省三個省份,地域上南北分布大體均衡[2]。
2 算法闡述
采用一種發現頻繁項集的基本算法,APRIOR算法尋找潛在的關聯規則。結合問卷數據具體闡述該算法的實現。
2.1 數據預處理
使用Pandas庫的read_csv函數導入數據集book.csv。首先對數據進行清理,篩選出個人選擇大于1本書籍的數據。一定程度上排除調查者應付答卷的行為,提高數據的價值密度。最后從書籍的本身角度出發,基于推薦的最終目的,我們只關注對讀者產生影響的人數大于5的書籍。由于數據量較大,只展示部分數據,見表3。
2.2 生成頻繁1項、k項集
由于頻繁項的長度為1,我們可以通過統計data中各個元素出現的頻次,直接生成頻繁1項集。
k>1時,根據得到的頻繁(k-1)項集,生成頻繁k項集。當數據記錄的長度很長時,算法需要逐個檢查頻繁k項集是否為空。另外,我們在具體任務中尋找的頻繁項長度也不會過長,因此我們選擇通過控制k的取值來獲取指定的頻繁k項集集合。文章在此取k<=3。具體來說,整個過程分為三步:首先是連接步,我們將頻繁(k-1)項集與自身連結,生成k項候選集 。接著是剪枝步,剔除含有非頻繁項子集的項集。我們使用先驗性質對候選項集進行過濾,減少運算量。這個性質就是:頻繁項集的所有非空子集必然是頻繁項集,生成最終結果的中遍歷數據集data,最后對最終的元素進行統計,保留支持度大于最小閾值(min_support=2)的頻繁項。
項集的子集可以通過排列組合來得到,反復上述過程 得到完整的頻繁k項集集合,直到達到停止條件,集頻繁k項集為空。
2.3 關聯規則
生成頻繁項集之后,我們可以直接得到同時滿足最小支持度和最小置信度的強關聯規則[3]。也就形如“書籍A對讀者產生影響,那么書籍B也會對該讀者產生影響”的結論。例如,對于頻繁項集{'A','B'}來說,關聯規則A→B 的置信度如下所示
接下來,針對每個頻繁項集,生成關聯規則(包括條件和結論),并計算相應的置信度[4]。
2.4 分析結果展示
根據上述思路操作最后我們得出滿足設想的結果,根據置信度我們就能在大學生選擇書時進行科學有效的推薦。因為數據過大,只展示前四組的運行結果,如表3所示。
3 結語
文章主要通過問卷調查的數據獲取方式,以及關聯性規則算法的數據挖掘方式,對大學生閱讀文學性的小說行為進行分析。從結果中發現喜歡看《三體》的人一般都喜歡看《盜墓筆記》,喜歡看《偷影子的人》和《傲慢與偏見》的人一般會喜歡看《百年孤獨》那么我們就可以給看過《三體》的人推薦《盜墓筆記》。同樣如果讀者看過《傲慢與偏見》、《偷影子的人》卻沒有看過《百年孤獨》我們就可以給他推薦《百年孤獨》,還有很多類似的數據結果。
根據這些所得的結果也就能夠達到我們的智能推薦的目的,為大學生在選擇該方面書籍時提供較為科學的參考。
參考文獻
[1] 王連喜.一種面向高校圖書館的個性化圖書推薦系統[J].現代情報,2015,35(12):41-46.
[2] 張爾升,侯惠丹,孫廬山.知識獲取、學習行為和管理者能力提升——來自MBA學員的數據分析[J].河北經貿大學學報(綜合版),2016,16(3):56-61.
[3] 孫云帆,齊美玲.數據挖掘在教育應用中的淺析[J].商場現代化,2012(24):161-162.
[4] 姜永超.基于數據挖掘的學生選課及學習行為分析算法研究[J].現代電子技術,2016,39(13):145-148.