999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類的讀者行為分析應(yīng)用研究*

2017-09-17 16:59:48印國成殷益蓉
科技與創(chuàng)新 2017年18期
關(guān)鍵詞:數(shù)據(jù)庫圖書館資源

印國成,殷益蓉

(揚州大學(xué)廣陵學(xué)院,江蘇揚州225009)

基于聚類的讀者行為分析應(yīng)用研究*

印國成,殷益蓉

(揚州大學(xué)廣陵學(xué)院,江蘇揚州225009)

進(jìn)入大數(shù)據(jù)時代,圖書館將面臨轉(zhuǎn)型,文獻(xiàn)資源和讀者閱讀方式更加數(shù)字化,閱讀途徑也更加多元化。通過對圖書館的文獻(xiàn)數(shù)據(jù)和圖書館的讀者行為數(shù)據(jù)進(jìn)行聚類處理,對圖書館數(shù)據(jù)進(jìn)行抽取集成、分析和建模,建立讀者行為分析系統(tǒng),實現(xiàn)圖書館的知識發(fā)現(xiàn),從而有效地對讀者進(jìn)行相關(guān)文獻(xiàn)信息推送,提高圖書館的服務(wù)水平,為圖書館的文獻(xiàn)采訪和圖書館的保障服務(wù)模式提供決策參考。

圖書館;聚類;讀者行為;知識發(fā)現(xiàn)系統(tǒng)

人類的文明發(fā)展有賴于科技進(jìn)步。技術(shù)的發(fā)展帶來巨大的力量,改變了人們的生產(chǎn)方式和生活方式。如今,大數(shù)據(jù)(big data)作為繼云計算、物聯(lián)網(wǎng)之后信息技術(shù)行業(yè)的又一大技術(shù)革命正開啟了一場變革[1]?;跀?shù)據(jù)的分析,將會成為我們認(rèn)識和改造世界的另外一把利器,能夠使得我們進(jìn)一步提升生產(chǎn)效率,在互聯(lián)網(wǎng)+背景下推動信息技術(shù)與其他技術(shù)的融合和創(chuàng)新[2]。圖書館作為記錄、儲存、傳播和應(yīng)用人類文明與數(shù)據(jù)的機(jī)構(gòu),在數(shù)字化浪潮下,其擁有的數(shù)據(jù)也在如其他領(lǐng)域的數(shù)據(jù)一樣呈幾何級增長[3]:各種不同載體的文獻(xiàn)和數(shù)字化資源,改變了圖書館館藏格局;圖書館每天產(chǎn)生的其他各種與讀者和文獻(xiàn)資源有關(guān)聯(lián)的數(shù)據(jù),正逐步形成圖書館的數(shù)據(jù)。在圖書館服務(wù)信息化和文獻(xiàn)資源日益豐富的背景下,讀者閱讀方式也向數(shù)字化和多元化發(fā)展。傳統(tǒng)圖書館面臨數(shù)字化轉(zhuǎn)型——從內(nèi)容數(shù)字化到內(nèi)容數(shù)據(jù)化,從數(shù)據(jù)化閱讀到閱讀數(shù)據(jù)化[4]。

1 網(wǎng)絡(luò)化和數(shù)字化對傳統(tǒng)圖書館的影響

1.1 傳統(tǒng)圖書館不再是獲取信息的有效途徑

傳統(tǒng)圖書館的報紙、期刊和圖書屬于實體資源的文獻(xiàn)形式[5],也是圖書館資源建設(shè)的重要組成部分。但隨著網(wǎng)絡(luò)化和數(shù)字化的發(fā)展,時效性強(qiáng)的傳統(tǒng)媒體的統(tǒng)治地位逐步被新興的網(wǎng)絡(luò)媒體取代,人們獲取文獻(xiàn)資源的方式和閱讀習(xí)慣均發(fā)生了巨大的變化,他們更愿意使用電子設(shè)備終端通過搜索引擎或數(shù)據(jù)庫來獲取所需要的信息。傳統(tǒng)圖書館文獻(xiàn)資源利用的優(yōu)勢越來越不明顯,圖書館的利用率也逐年下降。分析近幾年我們圖書館每年組織的讀者調(diào)查活動,結(jié)果顯示超過80%的受訪者使用搜索引擎搜集信息來替代使用圖書館相關(guān)數(shù)據(jù)庫查閱紙質(zhì)資料。而2016年公布的《第十三次國民閱讀調(diào)查報告》也證實人們閱讀電子資源的時間遠(yuǎn)超紙質(zhì)圖書,報告指出,2015年我國成年人數(shù)字化閱讀的接觸率為64.0%,較2014年的58.1%上升了5.9個百分點[6]。數(shù)據(jù)表明,近年來我國成人利用移動終端的閱讀接觸率逐年提高,2013年為41.9%,2014年為51.8%,每年都有大幅的增長。由此可見,在信息快速發(fā)展、工作節(jié)奏加快的今天,人們更愿意通過電子設(shè)備閱讀獲取信息。

1.2 傳統(tǒng)圖書館面臨更大的挑戰(zhàn)

面對信息技術(shù)浪潮的挑戰(zhàn),圖書館有被邊緣化的威脅,唯有面對挑戰(zhàn)加強(qiáng)數(shù)字化建設(shè),才能通過技術(shù)手段證明并提升圖書館存在的價值。圖書館面臨的挑戰(zhàn)有:信息技術(shù)的飛速發(fā)展、用戶的多樣性和個性化需求、多元化的文獻(xiàn)資源來源、碎片化的閱讀時間等。而在可以預(yù)見的未來,這些趨勢并不會消褪,IT技術(shù)還會遵循摩爾定律發(fā)展。另外,用戶對知識發(fā)現(xiàn)的要求越來越高,新興媒體的出現(xiàn)使信息來源更復(fù)雜。當(dāng)然,新興媒體在高速發(fā)展中也有許多問題,比如文獻(xiàn)資源的原創(chuàng)性和嚴(yán)肅性不足,海量數(shù)據(jù)使得文獻(xiàn)資源信息繁雜等。而傳統(tǒng)的圖書館文獻(xiàn)資源保障能力強(qiáng),服務(wù)體系完備。所以,在數(shù)字媒體的沖擊下,傳統(tǒng)圖書館只有加快數(shù)字化建設(shè)步伐,才能在文獻(xiàn)建設(shè)和服務(wù)保障中立于不敗之地。

1.3 面對挑戰(zhàn)圖書館服務(wù)模式的改變

圖書館傳統(tǒng)的信息服務(wù)模式是以紙質(zhì)資源為主要館藏內(nèi)容,重視讀者到館,重視提供紙質(zhì)文獻(xiàn)借閱服務(wù)。而在如今大數(shù)據(jù)和互聯(lián)網(wǎng)+環(huán)境下,讀者的閱讀環(huán)境數(shù)字化、智能化、移動化、泛在化,文獻(xiàn)資源海量化。如何讓讀者選擇有價值的信息,如何讓圖書館更好地服務(wù)讀者,傳統(tǒng)的服務(wù)模式已經(jīng)不能滿足讀者對知識的要求和個性化服務(wù)的需要。這就需要圖書館根據(jù)文獻(xiàn)資源和讀者的潛在需求,通過數(shù)據(jù)分析等手段分析讀者行為,建立知識發(fā)現(xiàn)系統(tǒng),為讀者推送需要的、有價值的文獻(xiàn)資料。

2 圖書館建立讀者行為分析系統(tǒng)的必要性

上海市圖書館館長吳建中在圖書館界發(fā)展論壇的演講中提到,知識是流動的。如何讓知識流動起來,取決于知識的開放性、關(guān)聯(lián)度、流暢度和傳播力[7]。要使知識流動,對數(shù)據(jù)的分析顯得尤為重要。通過基于讀者行為的知識發(fā)現(xiàn)系統(tǒng)建設(shè),讓知識流動起來。如今,面向大數(shù)據(jù)的自然語言處理等方面的基礎(chǔ)性技術(shù)已經(jīng)基本成熟,并得到了大規(guī)模的應(yīng)用,典型的包括Google、Autonomy、Smarts、Systran等。在圖書館領(lǐng)域,國內(nèi)眾多圖書館在發(fā)現(xiàn)知識系統(tǒng)方面主要依賴于搜索引擎或圖書館專業(yè)服務(wù)商,比如國外的Summon2、EDS,國內(nèi)的超星發(fā)現(xiàn)系統(tǒng)和萬方數(shù)據(jù)知識服務(wù)平臺等,它們的共同特點是收集市場上數(shù)據(jù)庫的元數(shù)據(jù),利用元數(shù)據(jù)進(jìn)行檢索[8],但在個性化服務(wù)方面,仍有待進(jìn)一步提高和挖掘。大多數(shù)圖書館沒有重視本館產(chǎn)生的大量可能被忽視的數(shù)據(jù),以及結(jié)合讀者借閱、查詢、閱讀等行為的數(shù)據(jù)。而這些數(shù)據(jù)對開展個性化知識發(fā)現(xiàn)服務(wù)至關(guān)重要。在圖書館海量數(shù)據(jù)中尋找內(nèi)在的關(guān)系,通過分析讀者的行為,建立圖書館的知識發(fā)現(xiàn)系統(tǒng),不僅可以為讀者搜索到資源,還可以對各類文獻(xiàn)資源數(shù)據(jù)進(jìn)行處理和分析,使用分析系統(tǒng)揭示各類文獻(xiàn)之間的復(fù)雜關(guān)系,可以幫助讀者挖掘數(shù)據(jù)背后的信息,發(fā)現(xiàn)讀者潛在的知識需求[9],為其提供更加精準(zhǔn)的知識發(fā)現(xiàn)服務(wù),進(jìn)而提高圖書館的服務(wù)水平。

3 數(shù)據(jù)的處理

3.1 圖書館數(shù)據(jù)的抽取和集成

圖書館知識發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)除了涵蓋讀者的個人借閱、查詢數(shù)據(jù)外,還將個人數(shù)據(jù)關(guān)聯(lián)至各學(xué)科、各類文獻(xiàn)及網(wǎng)絡(luò)學(xué)術(shù)資源數(shù)據(jù)。通過大數(shù)據(jù)技術(shù)進(jìn)行知識整合、知識發(fā)現(xiàn)和知識推送,為用戶和圖書館提供知識發(fā)現(xiàn)服務(wù),實現(xiàn)知識價值的再造。

在圖書館數(shù)據(jù)中,根據(jù)文獻(xiàn)資源和讀者行為建立數(shù)據(jù)庫,并對數(shù)據(jù)進(jìn)行抽取和集成。數(shù)據(jù)的抽取就是搜索整個數(shù)據(jù)庫,其數(shù)據(jù)源分關(guān)系型和非關(guān)系型數(shù)據(jù)庫[10]。而圖書館的大數(shù)據(jù)要面臨海量結(jié)構(gòu)化和非結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù),其處理方法如下:對于相同數(shù)據(jù)源的數(shù)據(jù),DBMS(數(shù)據(jù)庫管理系統(tǒng))會提供數(shù)據(jù)庫鏈接功能,通過數(shù)據(jù)服務(wù)器建立鏈接直接寫Select語句訪問;對于不同數(shù)據(jù)源的數(shù)據(jù),也可以通過數(shù)據(jù)庫鏈接,比如SQL和Oracle,如果不能鏈接,則可以用程序接口來完成或?qū)?shù)據(jù)源導(dǎo)成統(tǒng)一的格式(比如.txt)來完成;對于非結(jié)構(gòu)化的數(shù)據(jù),比如聲音、圖片等,往往需要作為一個整體來處理。在采用抽取算法找到數(shù)據(jù)對象后,需通過元數(shù)據(jù),比如數(shù)據(jù)抽取模型、抽取規(guī)則、映射參數(shù)等,用映射規(guī)則描述數(shù)據(jù)類型與相應(yīng)字段的對應(yīng)關(guān)系,然后組裝到知識發(fā)現(xiàn)系統(tǒng)數(shù)據(jù)庫。由于目前圖書館管理系統(tǒng)均采用基于Web的系統(tǒng),其數(shù)據(jù)抽取可以通過Web來獲取,可以采用基于本體和基于XML的方法來抽取信息,并通過PageRank算法來進(jìn)行廣域Web搜索。抽取的數(shù)據(jù)使用Hadoop技術(shù)進(jìn)行清洗,將不符合要求的數(shù)據(jù)轉(zhuǎn)化成規(guī)范的數(shù)據(jù),通過數(shù)據(jù)集成向用戶提供統(tǒng)一的全局?jǐn)?shù)據(jù)模式。

3.2 數(shù)據(jù)的分析和建模

數(shù)據(jù)模型是對信息系統(tǒng)中客觀事物的數(shù)據(jù)描述,目前海量數(shù)據(jù)的處理已有大量的技術(shù)支撐,比如大數(shù)據(jù)分析工具SAS(Statistical Analysis System)、Google Dremel等。數(shù)據(jù)模型的數(shù)據(jù)庫分為關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫,讀者行為數(shù)據(jù)分析挖掘的主要類型有對象數(shù)據(jù)庫系統(tǒng)、內(nèi)存數(shù)據(jù)庫、分布式數(shù)據(jù)庫和并行數(shù)據(jù)庫。數(shù)據(jù)建模的方法主要有Richard Barker表示法、IDEF1X表示法和UML表示法。數(shù)據(jù)建模技術(shù)可以用Sybase PowerDesigner來實現(xiàn),可以系統(tǒng)、方便地對系統(tǒng)進(jìn)行設(shè)計分析,通過該軟件可以制作數(shù)據(jù)流程圖、概念數(shù)據(jù)模型、物理數(shù)據(jù)模型等。

4 圖書館基于聚類的讀者行為分析系統(tǒng)

圖書館的知識發(fā)現(xiàn)取決于對圖書館讀者行為的分析,尋找內(nèi)在的關(guān)聯(lián)。圖書館可以根據(jù)讀者行為分析產(chǎn)生個性化的定制。結(jié)合讀者對圖書或者文獻(xiàn)信息的查閱瀏覽、讀者獲得資料的痕跡、讀者的借閱記錄、讀者對圖書文獻(xiàn)的評價、讀者對文獻(xiàn)的喜好等,再通過對讀者行為的挖掘和分析,可以提高圖書館服務(wù)的精度和讀者的滿意度。

本文主要通過計算基于讀者行為的集合S對讀者u的影響概率,即對單個讀者u的閱覽行為作出預(yù)測,為知識發(fā)現(xiàn)的推送提供條件。一般閾值模型中的閾值θu是用戶u受到影響的閾值。當(dāng)Pu(S)≥θu時,可以預(yù)測用戶u的行為。集合S是根據(jù)讀者所在學(xué)校圖書館借閱系統(tǒng)中的相關(guān)偏好樣本數(shù)據(jù),通過相關(guān)數(shù)據(jù)加工提煉得到。

對于讀者行為分析,可以通過基于集合S的樣本數(shù)據(jù)原型聚類,簇是對象的集合。聚類算法對具有數(shù)值屬性的數(shù)據(jù)很有效,但該算法對各個屬性聚類結(jié)果的貢獻(xiàn)均勻,沒有考慮不同屬性特征對聚類結(jié)果可能造成的影響。聚類算法需要節(jié)點之間的相似度組成的矩陣T,在用T(i,j)表示節(jié)點j作為i的聚類中心的合適程度。節(jié)點j與節(jié)點i的相似度表示為:

節(jié)點k為實值T(k,k),即相似矩陣T對角線上第k行的元素。T(k,k)值越大,說明第k點作為聚類中心的可能性越大。

執(zhí)行聚類算法,引入吸引度R和歸屬度A.吸引度是從節(jié)點i傳遞到聚類中心節(jié)點k的信息,其值記為r(i,k)。歸屬度是從候選聚類中心節(jié)點k傳遞到節(jié)點i的信息,節(jié)點i對節(jié)點k的歸屬度,其值記為a(i,k)。其算法流程如下:初始化,將所有a(i,k)全部賦值為零,輸入相似矩陣s,其中,s(i,k)是節(jié)點i與節(jié)點k之間的相似值。用H來評價相異程度,且考慮每個特征的差別。

通過對每一項取絕對值來定義聚類的區(qū)別。

建立Jaccard相似度模型,用來比較讀者u與集合S樣本的相似性。

因此,采用Jaccard系數(shù)可以評價可能的知識推送和讀者行為之間的相似度。Jaccard系數(shù)取決于其離散時間的模型,其取值范圍為[0,1],在實際應(yīng)用中,我們也取一定的值作為相似度的閾值。大于閾值的,表示相似度高,可以推送類似讀者的信息給該讀者,比如喜歡的圖書和文獻(xiàn);低于閾值的,再進(jìn)行比對,然后進(jìn)行Jaccard系數(shù)評價,直到找到高于閾值的模型,并對該讀者進(jìn)行知識推送。知識發(fā)現(xiàn)的本質(zhì)是資源發(fā)現(xiàn),通過Jaccard系數(shù)評價,能準(zhǔn)確發(fā)現(xiàn)讀者行為和讀者需求的關(guān)系,從而有效提供滿足讀者個性化需求的服務(wù)。

5 結(jié)語與展望

在互聯(lián)網(wǎng)+和大數(shù)據(jù)時代,可以通過本文提出的基于大數(shù)據(jù)面向服務(wù)的讀者行為分析,實現(xiàn)資源的有效運用和知識發(fā)現(xiàn),在館藏資源有限的情況之下,不僅能有效提高圖書館的服務(wù)水平和層次,也能有效提高讀者對圖書館的滿意度,還有助于圖書館的轉(zhuǎn)型升級。通過建立知識發(fā)現(xiàn)系統(tǒng),能有效研判讀者對文獻(xiàn)或圖書的閱讀趨勢,為圖書館的讀者服務(wù)策略、文獻(xiàn)資源的采訪和圖書館的保障模式提供決策參考。圖書館的知識發(fā)現(xiàn)系統(tǒng)將極大地提高讀者獲取所需文獻(xiàn)資料的效率。

[1]馬娜梅.大數(shù)據(jù)背景下圖書館知識咨詢服務(wù)策略[J].圖書館研究,2014(7):90-93.

[2]咸由根,蔡承秉.掘金大數(shù)據(jù)[M].北京:北京時代華文書局,2013.

[3]曹霞.高校圖書館非結(jié)構(gòu)化大數(shù)據(jù)的D-SFSD管理模式研究[J].圖書館學(xué)研究,2014(1):57-60.

[4]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54.

[5]袁寶龍.從信息、文獻(xiàn)、文明視角看網(wǎng)絡(luò)化時代傳統(tǒng)圖書館的存在價值[J].新世紀(jì)圖書館,2014(7):9-12.

[6]中國新聞出版研究院.第十三次國民閱讀調(diào)查報告[ED/OL].[2016-04-19].http://news.xinhuanet.com/ politics/2016-04/19/c_128907616.htm.

[7]吳建中.知識是流動的:出版界與圖書館界的新課題[J].圖書館雜志,2015(3):4-6.

[8]和婷.大數(shù)據(jù)思維對圖書館信息服務(wù)工作的啟示[J].圖書館建設(shè),2014(1):64-66.

[9]張松巖,崔鵬.圖書館知識發(fā)現(xiàn)系統(tǒng)建設(shè)與應(yīng)用研究[J].圖書館工作與研究,2014(2):55-56.

[10]王秀芬,周玉松.基于互聯(lián)網(wǎng)+的高校固定資產(chǎn)管理研究[J].科技與創(chuàng)新,2017(04):53-54.

TP391.9;G250

A

10.15913/j.cnki.kjycx.2017.18.128

2095-6835(2017)18-0128-03

印國成,高級工程師,碩士。殷益蓉,講師,碩士。

〔編輯:劉曉芳〕

江蘇省高校自然科學(xué)基金項目“基于大數(shù)據(jù)的圖書館知識發(fā)現(xiàn)應(yīng)用研究”(14KJB520041)研究成果之一

猜你喜歡
數(shù)據(jù)庫圖書館資源
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
資源回收
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
飛躍圖書館
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 国产无遮挡猛进猛出免费软件| 国产91av在线| 国产精品永久免费嫩草研究院| 精品国产黑色丝袜高跟鞋| 国产一二三区视频| 91探花在线观看国产最新| 欧美黑人欧美精品刺激| 久久精品视频一| 无码专区国产精品第一页| 国产激情无码一区二区APP | 成人日韩欧美| 中国毛片网| 国产69精品久久久久孕妇大杂乱| 亚洲AV无码久久天堂| 国产精品永久免费嫩草研究院| 一级爆乳无码av| 国产在线专区| 97人人做人人爽香蕉精品| 福利一区三区| 国产精品私拍在线爆乳| 天天色综合4| 2021无码专区人妻系列日韩| 精品国产自在现线看久久| 97免费在线观看视频| 国产精品毛片在线直播完整版| 国产丰满成熟女性性满足视频| 美女潮喷出白浆在线观看视频| 国产福利不卡视频| 久草青青在线视频| 91成人免费观看在线观看| 国产成人综合网| 亚洲国产综合第一精品小说| 亚洲一级毛片在线播放| 亚洲欧美日韩另类在线一| 久久亚洲美女精品国产精品| 欧美区在线播放| 性视频一区| 最新加勒比隔壁人妻| 国产美女视频黄a视频全免费网站| 中文纯内无码H| 免费一看一级毛片| 特级aaaaaaaaa毛片免费视频 | 久久精品人人做人人综合试看| 久久一级电影| 国产aⅴ无码专区亚洲av综合网| 国产精品视频白浆免费视频| 国产亚洲精久久久久久无码AV| 欧美怡红院视频一区二区三区| 四虎在线高清无码| 欧美日韩中文字幕在线| 欧美精品在线免费| 亚洲综合经典在线一区二区| 欧美在线网| 国产精品大尺度尺度视频| 日韩精品资源| 成人永久免费A∨一级在线播放| 中文毛片无遮挡播放免费| 国产视频一二三区| 91丝袜在线观看| 亚洲第一中文字幕| 免费久久一级欧美特大黄| 亚洲高清在线天堂精品| 99ri精品视频在线观看播放| 国产精品视频第一专区| 欧美一级视频免费| 成人无码一区二区三区视频在线观看| 高清色本在线www| 免费99精品国产自在现线| 1024国产在线| 国产福利免费在线观看| h视频在线观看网站| 国产永久无码观看在线| 国产欧美另类| 国产成人AV综合久久| 欧美一级一级做性视频| 人妻丰满熟妇αv无码| 欧美一区福利| 综合网天天| 亚洲欧洲日韩久久狠狠爱| 99热这里都是国产精品| 色有码无码视频| jizz亚洲高清在线观看|