999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop和Python的高校圖書(shū)館個(gè)性化服務(wù)的研究與應(yīng)用

2019-05-22 09:26:08劉哲
無(wú)線互聯(lián)科技 2019年6期
關(guān)鍵詞:高校圖書(shū)館大數(shù)據(jù)

劉哲

摘 要:大數(shù)據(jù)背景下,如何利用信息化技術(shù),掌握在校學(xué)生的閱讀習(xí)慣,在海量的圖書(shū)資源中,快速有效地找到需要的書(shū)籍,為學(xué)生提供個(gè)性化服務(wù)推薦,是文章研究的主要目的。主要研究方法是通過(guò)Sqoop工具將北京中醫(yī)藥大學(xué)數(shù)據(jù)中心8 304名學(xué)生的圖書(shū)借閱信息同步到Hadoop平臺(tái)并進(jìn)行整理,以Python作為數(shù)據(jù)處理語(yǔ)言,通過(guò)K-means聚類(lèi)算法獲取有相似閱讀習(xí)慣的書(shū)籍。處理結(jié)果可以將有相似閱讀習(xí)慣的學(xué)生挖掘出來(lái),將他們所閱讀的書(shū)籍作為互相推薦的依據(jù),實(shí)現(xiàn)了個(gè)性化的圖書(shū)服務(wù)。但當(dāng)前的研究也存在局限性,即不包括半結(jié)構(gòu)化的電子閱讀信息的采集和分析。文章通過(guò)對(duì)研究進(jìn)行結(jié)果分析,提供了一種個(gè)性化圖書(shū)服務(wù)的框架和處理方法,并實(shí)現(xiàn)了個(gè)性化圖書(shū)推薦,為提供個(gè)性化服務(wù)的研究提供了一種思路和方法。

關(guān)鍵詞:大數(shù)據(jù);高校圖書(shū)館;個(gè)性化服務(wù)

隨著大數(shù)據(jù)和人工智能的到來(lái),在信息爆炸的今天,傳統(tǒng)的借閱方式已經(jīng)不能滿(mǎn)足高校學(xué)生高質(zhì)量的閱讀的要求。高校圖書(shū)館與學(xué)生之間不再是一個(gè)簡(jiǎn)單的借閱關(guān)系,而應(yīng)該根據(jù)學(xué)生的興趣愛(ài)好、閱讀習(xí)慣、所關(guān)注的熱點(diǎn)等信息,有針對(duì)性地快速提供個(gè)性化服務(wù)推薦[1],提高學(xué)生的閱讀效率和質(zhì)量。隨著高校信息化的蓬勃發(fā)展,高校數(shù)據(jù)中心日趨完善,數(shù)據(jù)量指數(shù)級(jí)增長(zhǎng),大數(shù)據(jù)平臺(tái)的數(shù)據(jù)存儲(chǔ)與處理已經(jīng)在高校中應(yīng)用的越來(lái)越廣泛。本文利用Sqoop工具[2],將學(xué)生閱讀相關(guān)的數(shù)據(jù)同步到Hadoop平臺(tái)[3]的Hive表中,利用Hive所提供的完整SQL語(yǔ)句對(duì)數(shù)據(jù)進(jìn)行整理,對(duì)整理后的數(shù)據(jù)利用Python語(yǔ)言[4]進(jìn)行分析,根據(jù)學(xué)生的閱讀習(xí)慣進(jìn)行聚類(lèi),找到相似閱讀興趣的學(xué)生,獲取他們的閱讀書(shū)籍,相互推薦,實(shí)現(xiàn)個(gè)性化服務(wù)。

1 中國(guó)圖書(shū)館圖書(shū)分類(lèi)方法

中國(guó)圖書(shū)館圖書(shū)分類(lèi)法[5]是按照?qǐng)D書(shū)的內(nèi)容、形式、體裁和讀者用途等,在一定的哲學(xué)思想指導(dǎo)下,運(yùn)用知識(shí)分類(lèi)的原理,采用邏輯方法,將所有學(xué)科的圖書(shū)按其學(xué)科內(nèi)容分成幾大類(lèi),每一大類(lèi)下分許多小類(lèi),每一小類(lèi)下再分小類(lèi)。最后,每一種書(shū)都可以分到某一個(gè)類(lèi)目下,每一個(gè)類(lèi)目都有一個(gè)類(lèi)號(hào)。分類(lèi)詞表是層次結(jié)構(gòu)的類(lèi)號(hào)和類(lèi)目的集合。中國(guó)圖書(shū)館分類(lèi)法,簡(jiǎn)稱(chēng)《中圖法》,現(xiàn)為第5版。包括馬列主義、毛澤東思想,哲學(xué),社會(huì)科學(xué),自然科學(xué),綜合性圖書(shū)5大部類(lèi),22個(gè)基本大類(lèi)。

北京中醫(yī)藥大學(xué)圖書(shū)館的所有圖書(shū)都是按照中國(guó)圖書(shū)館圖書(shū)分類(lèi)方法進(jìn)行的分類(lèi),并且所有圖書(shū)的基本信息都已經(jīng)錄入圖書(shū)管理系統(tǒng)的數(shù)據(jù)庫(kù)[6]。本文主要的研究方法,就是獲取學(xué)生所有借閱圖書(shū)的基本大類(lèi),按照分類(lèi)號(hào)分組統(tǒng)計(jì)書(shū)籍的數(shù)量,確定學(xué)生借讀的廣度和深度,是否與本專(zhuān)業(yè)相關(guān)等信息,來(lái)了解學(xué)生個(gè)性化閱讀的習(xí)慣。

2 基于Hadoop平臺(tái)的數(shù)據(jù)采集

隨著云計(jì)算、大數(shù)據(jù)等技術(shù)的興起與發(fā)展,教育信息化領(lǐng)域也迎來(lái)了大數(shù)據(jù)技術(shù)帶來(lái)的機(jī)遇和挑戰(zhàn)。高校各業(yè)務(wù)系統(tǒng)和互聯(lián)網(wǎng)數(shù)據(jù)的極速增長(zhǎng),利用海量數(shù)據(jù)分析和挖掘?qū)W生的行為軌跡、消費(fèi)習(xí)慣,學(xué)習(xí)成績(jī)、就業(yè)傾向,創(chuàng)建學(xué)生個(gè)人畫(huà)像等,已經(jīng)成為智慧化校園面對(duì)的挑戰(zhàn)。

Hadoop是Apache基金會(huì)維護(hù)的分布式系統(tǒng)基礎(chǔ)架構(gòu)[7],它實(shí)現(xiàn)了一個(gè)分布式文件生態(tài)系統(tǒng)(Hadoop Distributed File System,HDFS),通過(guò)Map Reduce的技術(shù),來(lái)滿(mǎn)足海量數(shù)據(jù)存儲(chǔ)和高性能的分析處理[8]。同時(shí),Hadoop有HBase、Hive、Pig、Sqoop等眾多開(kāi)源項(xiàng)目的支持,形成了一個(gè)完善的、選擇多樣的大數(shù)據(jù)解決方案。Cloudera公司推出了Hadoop集成發(fā)行版本[9],極大地簡(jiǎn)化了大數(shù)據(jù)平臺(tái)的部署和維護(hù)流程。本文選擇了Cloudera的開(kāi)源版本CDH5,構(gòu)建了一個(gè)5臺(tái)物理機(jī)節(jié)點(diǎn)的大數(shù)據(jù)分析平臺(tái)(5個(gè)存儲(chǔ)計(jì)算結(jié)點(diǎn),2個(gè)管理節(jié)點(diǎn)),每個(gè)節(jié)點(diǎn)64 G內(nèi)存,2路4核CPU,1 T的存儲(chǔ)空間,各節(jié)點(diǎn)之間通過(guò)千兆以太網(wǎng)互聯(lián)互通,完全能滿(mǎn)足學(xué)校的數(shù)據(jù)分析需求。

本文采集全校8 304名在讀學(xué)生的借閱數(shù)據(jù),采用增量追加,編寫(xiě)Shell批量命令到文件SqoopTime.sh,設(shè)置每天執(zhí)行一次,保持?jǐn)?shù)據(jù)的同步。采集到Hadoop平臺(tái)的數(shù)據(jù),利用Hive中提供了類(lèi)似SQL的完整查詢(xún)語(yǔ)句,進(jìn)行預(yù)處理,處理結(jié)果如表1所示,該表按分類(lèi)號(hào)分組統(tǒng)計(jì)了每個(gè)學(xué)生的閱讀量。

3 基于Python的數(shù)據(jù)分析與處理

通過(guò)HIVE預(yù)處理后的數(shù)據(jù),并不適合數(shù)值計(jì)算或數(shù)據(jù)挖掘的格式[10],本文利用Python自帶的數(shù)值分析庫(kù)Pandas提供的pivot_table()函數(shù),將預(yù)處理結(jié)果進(jìn)行轉(zhuǎn)換得到二維矩陣,表2是學(xué)生借閱圖書(shū)分類(lèi)矩陣。

3.1 獲取閱讀量排前的圖書(shū)分類(lèi)

熱圖(Heatmap)分析[11]是可以用顏色變化來(lái)反映二維矩陣或表格中的數(shù)據(jù)信息,它可以直觀地將數(shù)據(jù)值的大小以定義的顏色深淺表示出來(lái)。常根據(jù)需要將數(shù)據(jù)進(jìn)行物種或樣品間豐度相似性聚類(lèi)[12],將聚類(lèi)后數(shù)據(jù)表示在heatmap 圖上,可將高豐度和低豐度的物種分塊聚集,通過(guò)顏色梯度及相似程度來(lái)反映多個(gè)樣品在各分類(lèi)水平上群落組成的相似性和差異性。Python提供了一個(gè)Seaborn庫(kù),它主要關(guān)注統(tǒng)計(jì)模型的可視化,該庫(kù)提供了heatmap函數(shù),反映二維矩陣的相似度聚類(lèi)關(guān)系,可以得到所有圖書(shū)22個(gè)分類(lèi)的熱圖。

3.2 閱讀量數(shù)字化分析與處理

統(tǒng)計(jì)出學(xué)生閱讀總量后,我們通過(guò)Python語(yǔ)言Pandas包提供的describe()函數(shù)獲取相關(guān)統(tǒng)計(jì)值[13],結(jié)果如表3所示。在校生中共有4 910人借閱過(guò)書(shū)籍,其中,平均借閱量3本,借閱量標(biāo)準(zhǔn)差4本,學(xué)生個(gè)人最大借閱量72本及借閱量的四分位數(shù)[14]的3個(gè)分割點(diǎn)分別為2、3、6。

分位數(shù)回歸思想的提出至今已經(jīng)有近30多年了,分位數(shù)回歸在理論和方法上都越來(lái)越成熟,并被廣泛應(yīng)用于多種學(xué)科中。它對(duì)于實(shí)際問(wèn)題能提供更加全面的分析,無(wú)論是線性模型還是非線性模型,分位數(shù)回歸都是一種很好的工具。本文用四分位數(shù)將閱讀量分為4個(gè)等級(jí)(見(jiàn)表4),這樣我們就得到了每個(gè)在校學(xué)生閱讀量數(shù)字化。

3.3 閱讀種類(lèi)數(shù)字化分析與處理

本文分析學(xué)生所借圖書(shū)的種類(lèi),并將其作為學(xué)生閱讀是否廣泛的指標(biāo)。首先,我們通過(guò)分組計(jì)數(shù)獲取每個(gè)學(xué)生借閱種類(lèi)數(shù),再通過(guò)describe()函數(shù)獲取統(tǒng)計(jì)值,結(jié)果如表5所示。平均借閱種類(lèi)為4種,借閱種類(lèi)標(biāo)準(zhǔn)差3種,學(xué)生個(gè)人最大借閱種類(lèi)18種及借閱種類(lèi)的四分位數(shù)的3個(gè)分割點(diǎn)分別為2、3、5。同樣,用分位數(shù)將閱讀種類(lèi)分為4個(gè)等級(jí),我們就可以得到每個(gè)學(xué)生在校借閱種類(lèi)的數(shù)字化,如表6所示。

3.4 閱讀興趣的數(shù)字化分析與處理

通過(guò)對(duì)借閱圖書(shū)的數(shù)量和種類(lèi)分析得知,學(xué)生閱讀量80%集中在前6個(gè)圖書(shū)分類(lèi)中。故而,我們只將閱讀種類(lèi)在前6的圖書(shū)作為學(xué)生閱讀興趣的主要書(shū)籍。學(xué)生只要對(duì)這6類(lèi)圖書(shū)有借閱量,就認(rèn)定該學(xué)生對(duì)該類(lèi)圖書(shū)感興趣,可以得到該學(xué)生的閱讀興趣表,如果一個(gè)學(xué)生閱讀興趣的6位編碼是101100,這表明該學(xué)生對(duì)R、B、H類(lèi)的圖書(shū)非常感興趣。六位二進(jìn)編碼并不利于聚類(lèi)計(jì)算,為了方便計(jì)算分析,本文對(duì)六位二進(jìn)制編碼轉(zhuǎn)換為十進(jìn)制,就得到每個(gè)學(xué)生閱讀興趣數(shù)字化分類(lèi)結(jié)果(見(jiàn)表7)。

3.5 基于聚類(lèi)分析的圖書(shū)個(gè)性化推薦服務(wù)

經(jīng)過(guò)以上分析,將編碼后的結(jié)果,反映在一張表上,如表8所示,我們得到一個(gè)學(xué)生圖書(shū)借閱總體情況表。K-means算法[15]是很典型的基于距離的聚類(lèi)算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。本文采用聚類(lèi)算法對(duì)學(xué)生借況處理完的數(shù)據(jù)聚類(lèi),在同一聚類(lèi)的學(xué)生是有相似的閱讀習(xí)慣,他們之間的有著相似的閱讀興趣,從而將他們之間所閱讀的書(shū)相互推薦,實(shí)現(xiàn)個(gè)性化的服務(wù)。

4 結(jié)語(yǔ)

隨著大數(shù)據(jù)技術(shù)的不斷完善,人們對(duì)服務(wù)質(zhì)量的要求也越來(lái)越高,個(gè)性化服務(wù)已經(jīng)成功的滲透到人們生活的各個(gè)方面。本文對(duì)高校數(shù)據(jù)中心所收集的全校學(xué)生的借閱信息研究與分析,在8 304學(xué)生中,有4 910人學(xué)生在學(xué)校圖書(shū)館里借閱過(guò)圖書(shū)。學(xué)生的平均借閱量為3本,最大借閱量為72本。學(xué)生的平均借閱各類(lèi)為4種,最多借閱種類(lèi)18種。學(xué)生借閱量最多的前6種圖書(shū)是:R(醫(yī)藥、衛(wèi)生)—I(文學(xué))—B(哲學(xué))—K(歷史、地理)—H(語(yǔ)言、文學(xué))—J(藝術(shù)),分別代表了。本文還對(duì)每個(gè)學(xué)生的閱讀量、閱讀種類(lèi)、閱讀興趣進(jìn)行數(shù)字化分析和處理,將處理完的3個(gè)特征,采用K-means聚類(lèi)算法,將有相似閱讀習(xí)慣的學(xué)生挖掘出來(lái),將他們所閱讀的書(shū)籍作為互相薦,實(shí)現(xiàn)了個(gè)性化的圖書(shū)服務(wù)。本文提供了一種個(gè)性化圖書(shū)服務(wù)的框架和處理方法,目前是基于圖書(shū)管理系統(tǒng)的結(jié)構(gòu)化圖書(shū)信息進(jìn)行分析和處理,筆者下一步會(huì)對(duì)多半結(jié)構(gòu)化的電子圖書(shū)數(shù)據(jù)的采集、分析和處理進(jìn)行深入研究,使該框架更加完善,為高校師生提供更加全面和精準(zhǔn)的圖書(shū)個(gè)性化服務(wù)。

[參考文獻(xiàn)]

[1]何波,章宏遠(yuǎn),裴劍輝.基于大數(shù)據(jù)的高校圖書(shū)館個(gè)性化服務(wù)研究[J].新世紀(jì)圖書(shū)館,2017(10):59-62.

[2]DEEPA K VOHR A.Apache sqoop[J].Practical Hadoop Ecosystem,2016(9):261-286.

[3]馮興杰,王文超.Hadoop與Spark應(yīng)用場(chǎng)景研究[J].計(jì)算機(jī)應(yīng)用研究,2018(9):2561-2566.

[4]趙金暉.基于Python的數(shù)據(jù)處理和模糊層次聚類(lèi)[J].無(wú)線互聯(lián)科技,2018(14):141-142.

[5]王帥騰.基于《中分表》和標(biāo)簽的本體構(gòu)建方法研究[D].長(zhǎng)春:東北師范大學(xué),2018.

[6]張靜.圖書(shū)管理系統(tǒng)數(shù)據(jù)庫(kù)的優(yōu)化設(shè)計(jì)研究[J].黑龍江科學(xué),2018(20):23-24,27.

[7]蘭舟.分布式系統(tǒng)中的調(diào)度算法研究[D].成都:電子科技大學(xué),2008.

[8]毛國(guó)君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005.

[9]李杰.R科學(xué)計(jì)量數(shù)據(jù)可視化[M].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2018.

[10]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2008.

[11]雷金貴,李建良,蔣勇.數(shù)值分析與計(jì)算方法[M].北京:科學(xué)出版社,2017.

[12]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2008.

[13]雷金貴,李建良,蔣勇.數(shù)值分析與計(jì)算方法[M].北京:科學(xué)出版社,2017.

[14]劉攀,馮長(zhǎng)煥.基于四分位數(shù)的線性無(wú)量綱化方法與變異系數(shù)賦權(quán)法[J].平頂山學(xué)院學(xué)報(bào),2018(2):22-26.

[15]袁文鐸.基于改進(jìn)k-means案例檢索優(yōu)化算法[J].計(jì)算機(jī)測(cè)量與控制,2013(7):1933-1934.

猜你喜歡
高校圖書(shū)館大數(shù)據(jù)
高校圖書(shū)館閱讀推廣案例分析
科技視界(2016年21期)2016-10-17 19:32:37
微信公眾平臺(tái)在高校圖書(shū)館信息服務(wù)中的應(yīng)用研究
科技視界(2016年21期)2016-10-17 19:25:20
高校圖書(shū)館閱讀推廣活動(dòng)研究
商(2016年27期)2016-10-17 06:38:27
試論高校圖書(shū)館在網(wǎng)絡(luò)環(huán)境沖擊下的人文建設(shè)
商(2016年27期)2016-10-17 06:30:59
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
高校圖書(shū)館閱讀推廣實(shí)踐探討
科技視界(2016年20期)2016-09-29 13:17:57
高校圖書(shū)館電子資源的宣傳與推廣
科技視界(2016年20期)2016-09-29 11:22:45
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
主站蜘蛛池模板: 欧美A级V片在线观看| 亚洲成人免费看| 成人久久18免费网站| 91午夜福利在线观看精品| 国产玖玖玖精品视频| 成年女人a毛片免费视频| 国产免费怡红院视频| 国产又大又粗又猛又爽的视频| 久久窝窝国产精品午夜看片| 99久久无色码中文字幕| 精品无码一区二区在线观看| 最新亚洲av女人的天堂| 无码免费的亚洲视频| 青青久久91| 国产三级精品三级在线观看| av在线手机播放| 国产肉感大码AV无码| 国产av一码二码三码无码 | 国产精品黑色丝袜的老师| 片在线无码观看| 久久这里只有精品免费| 日韩第九页| 国产在线日本| 四虎永久在线精品国产免费| 国产尤物jk自慰制服喷水| 亚洲无线观看| 91尤物国产尤物福利在线| 亚洲成人精品在线| 国产丰满大乳无码免费播放| 中日韩欧亚无码视频| 欧洲在线免费视频| 天堂在线www网亚洲| 女人爽到高潮免费视频大全| 天天干伊人| 毛片国产精品完整版| 拍国产真实乱人偷精品| 久久精品午夜视频| 日韩毛片免费视频| 老汉色老汉首页a亚洲| 久久香蕉国产线看精品| 香蕉网久久| 91无码视频在线观看| 中文字幕乱妇无码AV在线| 8090午夜无码专区| 成人va亚洲va欧美天堂| 伊人大杳蕉中文无码| 国产乱子伦视频在线播放| 91美女视频在线| 99视频全部免费| 免费毛片在线| 激情综合婷婷丁香五月尤物| 国产剧情国内精品原创| 久久综合色88| 亚洲色图另类| 成人在线观看不卡| 欧美精品另类| 亚洲国产日韩视频观看| 久久亚洲欧美综合| 这里只有精品在线播放| 在线观看av永久| 欧美成人二区| 激情無極限的亚洲一区免费| 久久久久亚洲AV成人人电影软件| 国产精品久久自在自线观看| 另类欧美日韩| 麻豆国产在线观看一区二区 | 亚洲天堂高清| 久久久久人妻一区精品色奶水| 美女啪啪无遮挡| 亚洲va欧美ⅴa国产va影院| 免费中文字幕在在线不卡| 成人一区在线| 特级毛片免费视频| 国产制服丝袜无码视频| h网址在线观看| 国产主播一区二区三区| 国产草草影院18成年视频| 亚洲一区二区三区国产精品 | 欧美成在线视频| 国产99视频在线| 亚洲性日韩精品一区二区| 亚洲国产成熟视频在线多多 |