999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校圖書(shū)館OPAC 讀者檢索行為數(shù)據(jù)挖掘與分析

2022-07-11 02:13:02牛蘭金曲淑敏
科技視界 2022年13期
關(guān)鍵詞:數(shù)據(jù)挖掘圖書(shū)館系統(tǒng)

牛蘭金 曲淑敏 姚 震

(山東農(nóng)業(yè)大學(xué)圖書(shū)館,山東 泰安 271018)

0 引言

聯(lián)機(jī)公共目錄查詢系統(tǒng)(Online Public Access Cata logue,簡(jiǎn)稱OPAC)是圖書(shū)館為讀者提供館藏書(shū)刊目錄信息檢索和個(gè)人借閱信息查詢的在線系統(tǒng),它是讀者利用圖書(shū)館紙質(zhì)文獻(xiàn)資源的網(wǎng)上第一入口,在圖書(shū)館的網(wǎng)絡(luò)服務(wù)中一直占有重要的地位。讀者借閱圖書(shū)之前一般都要先在OPAC 系統(tǒng)中做檢索查詢,所以檢索詞能反映出讀者對(duì)于紙質(zhì)或電子圖書(shū)的閱讀需求,而讀者行為數(shù)據(jù)反映出讀者的使用習(xí)慣和規(guī)律,也反映出OPAC 系統(tǒng)功能的友好程度及使用效果,這些方面都值得圖書(shū)館的工作人員進(jìn)行研究。

山東農(nóng)業(yè)大學(xué)圖書(shū)館使用的是匯文OPAC 系統(tǒng),百度統(tǒng)計(jì)云平臺(tái)能夠記錄讀者使用OPAC 的詳細(xì)數(shù)據(jù)并按天進(jìn)行了初步的匯總,其中讀者進(jìn)行書(shū)目檢索的數(shù)據(jù)記錄每年大約有20 余萬(wàn)條, 對(duì)這些讀者檢索行為數(shù)據(jù)進(jìn)行分析與挖掘, 可以了解讀者使用OPAC的基本情況,了解讀者的借閱需求、閱讀傾向,以及讀者使用OPAC 系統(tǒng)的習(xí)慣和規(guī)律等,進(jìn)而可以為圖書(shū)館的館藏建設(shè)、讀者服務(wù)等工作提供具有一定參考價(jià)值的數(shù)據(jù)和結(jié)論。

1 讀者檢索行為數(shù)據(jù)挖掘與分析研究設(shè)計(jì)

1.1 程序編寫(xiě)與數(shù)據(jù)文件格式

本文研究使用Python 語(yǔ)言作為編程和數(shù)據(jù)挖掘工具,使用Excel、Json 作為數(shù)據(jù)文件格式,按照功能需要共計(jì)編寫(xiě)Python 小程序近20 個(gè)。

1.2 數(shù)據(jù)獲取與整理

利用統(tǒng)計(jì)系統(tǒng)提供的數(shù)據(jù)下載API 編寫(xiě)程序下載所需原始數(shù)據(jù),本文研究按日下載數(shù)據(jù),每天的數(shù)據(jù)保存為一個(gè)文件, 下載的數(shù)據(jù)是Json 格式, 編寫(xiě)Python程序?qū)⑵滢D(zhuǎn)換為Excel 文件,方便直觀瀏覽和處理。

1.3 OPAC 總體使用情況的統(tǒng)計(jì)分析

統(tǒng)計(jì)系統(tǒng)已經(jīng)將網(wǎng)站的多項(xiàng)總體使用情況進(jìn)行了統(tǒng)計(jì),形成了數(shù)據(jù)列表和簡(jiǎn)單圖表,利用這些通用型的數(shù)據(jù)列表, 結(jié)合OPAC 的實(shí)際需要進(jìn)行數(shù)據(jù)提取、組合、合并和統(tǒng)計(jì)分析。

1.4 檢索行為與檢索詞數(shù)據(jù)挖掘與分析

把讀者檢索相關(guān)的數(shù)據(jù)記錄從下載的原始數(shù)據(jù)中提取出來(lái),根據(jù)特征字符串區(qū)分出不同的檢索方式并加以研究,其次將檢索詞從檢索式URL 中提取出來(lái)作為單獨(dú)的字段,再經(jīng)過(guò)數(shù)據(jù)處理和分組聚合形成檢索詞列表并進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘研究。

1.5 數(shù)據(jù)可視化

對(duì)多個(gè)數(shù)據(jù)集合根據(jù)其特點(diǎn)和需要選擇不同的圖形類別進(jìn)行可視化處理, 利用圖形進(jìn)行概況了解、數(shù)據(jù)分析和規(guī)律發(fā)現(xiàn)。

2 讀者檢索行為數(shù)據(jù)挖掘與分析研究結(jié)果

2.1 會(huì)話時(shí)長(zhǎng)統(tǒng)計(jì)分析

讀者的每次訪問(wèn)從開(kāi)始到結(jié)束都可以視為一次會(huì)話,一次會(huì)話中可能會(huì)包含多項(xiàng)操作,本文以2021年1月至6月的數(shù)據(jù)為例進(jìn)行分析,半年中總的訪問(wèn)次數(shù)為15 014 次,按會(huì)話時(shí)長(zhǎng)分段統(tǒng)計(jì)出各段的總訪問(wèn)次數(shù)繪制成圖1,其具體數(shù)據(jù)顯示,有6 318 次訪問(wèn)會(huì)話時(shí)長(zhǎng)少于1 分鐘, 占比為42.08%,72.75%的訪問(wèn)在3 分鐘內(nèi)完成。另外,筆者在詳細(xì)數(shù)據(jù)中發(fā)現(xiàn)時(shí)長(zhǎng)少于等于9 秒鐘的訪問(wèn)會(huì)話有2 997 次, 占比19.96%,為了驗(yàn)證這部分?jǐn)?shù)據(jù)的有效性, 筆者進(jìn)行了多次模擬,發(fā)現(xiàn)在2-3 秒鐘內(nèi)完成一次簡(jiǎn)單的檢索任務(wù)是完全可行的,這部分?jǐn)?shù)據(jù)完全可以作為有效數(shù)據(jù)來(lái)進(jìn)行分析。從數(shù)據(jù)來(lái)看,大多數(shù)讀者都在較短的時(shí)間內(nèi)完成了檢索,這反映出大部分讀者都希望盡快結(jié)束搜索過(guò)程,也與讀者大量使用圖書(shū)館門(mén)戶首頁(yè)的快捷綜合檢索框進(jìn)行書(shū)目檢索有關(guān)。

圖1 會(huì)話時(shí)長(zhǎng)分段與其總訪問(wèn)次數(shù)統(tǒng)計(jì)圖

2.2 訪問(wèn)頁(yè)數(shù)統(tǒng)計(jì)分析

訪問(wèn)頁(yè)數(shù)統(tǒng)計(jì)的是讀者每次訪問(wèn)會(huì)話一共瀏覽了本網(wǎng)站多少個(gè)頁(yè)面,訪問(wèn)頁(yè)數(shù)的多少反應(yīng)了讀者需求獲得滿足的效率,如讀者只需要檢索到一種圖書(shū)的館藏位置, 在理想狀態(tài)下只需要在OPAC 中訪問(wèn)1~2個(gè)頁(yè)面就完成檢索離開(kāi)了。表1 是2021年1月至6月的訪問(wèn)頁(yè)數(shù)分段與對(duì)應(yīng)的總訪問(wèn)會(huì)話次數(shù)統(tǒng)計(jì)表,數(shù)據(jù)顯示,51.82%的讀者只訪問(wèn)了1 到2 個(gè)頁(yè)面就離開(kāi)了,不超過(guò)4 個(gè)頁(yè)面的總計(jì)占68.28%,訪問(wèn)5 個(gè)頁(yè)面以上的占31.72%,總體上看大多數(shù)讀者是在已經(jīng)有了基本明確的意圖的情況下使用OPAC, 比如查詢某書(shū)有沒(méi)有可借復(fù)本或是查詢館藏地點(diǎn)和位置信息,而在OPAC 中探索性發(fā)現(xiàn)有用圖書(shū)的行為不多。

表1 訪問(wèn)頁(yè)數(shù)分段與其總訪問(wèn)次數(shù)統(tǒng)計(jì)表

2.3 讀者檢索行為數(shù)據(jù)分析

基于對(duì)多個(gè)因素的綜合考慮, 本文選用2018年的數(shù)據(jù)為研究對(duì)象,首先從每天的數(shù)據(jù)文件中把讀者檢索相關(guān)的所有數(shù)據(jù)記錄提取出來(lái)并合并成一個(gè)Excel 文件,經(jīng)過(guò)數(shù)據(jù)處理、分組聚合,形成可分析的數(shù)據(jù)集。

2.3.1 檢索方式的分析

統(tǒng)計(jì)系統(tǒng)記錄的是讀者每次檢索生成的檢索結(jié)果列表頁(yè)的URL 以及其訪問(wèn)次數(shù)、 平均停留時(shí)長(zhǎng)等多項(xiàng)統(tǒng)計(jì)數(shù)據(jù),每種檢索方式生成的URL 不相同,所以可以簡(jiǎn)單使用Python 的df1=df.loc [df[‘name’].str.contains(“**”)]語(yǔ)句把某種檢索方式的所有數(shù)據(jù)提取出來(lái),其中name 為URL 字段的名稱,“**”為某種檢索方式區(qū)別于其他方式的特征字符串。

OPAC 的檢索方式包括簡(jiǎn)單檢索、多字段檢索、綜合檢索框檢索、二次檢索,具體數(shù)據(jù)表明,讀者基本忽略了所謂高級(jí)檢索即多字段組合檢索的存在,只有96條檢索URL, 總檢索次數(shù)不到300, 而簡(jiǎn)單檢索的URL 條數(shù)則達(dá)到17 439 條數(shù),總檢索次數(shù)達(dá)到20 余萬(wàn)次。在圖書(shū)館門(mén)戶網(wǎng)站首頁(yè)的綜合檢索框進(jìn)行OPAC 檢索和在檢索結(jié)果列表頁(yè)上的二級(jí)檢索界面進(jìn)行檢索本質(zhì)上也是簡(jiǎn)單檢索,綜合檢索框產(chǎn)生的URL有8244 條,總檢索次數(shù)有54 770 次,二次檢索產(chǎn)生的URL 共計(jì)8 826 條,總檢索次數(shù)20 261。讀者的行為數(shù)據(jù)表明,讀者都傾向于簡(jiǎn)單方便的檢索方式而不是去構(gòu)造復(fù)雜的檢索式。

2.3.2 生成完整的年度檢索詞統(tǒng)計(jì)列表

在統(tǒng)計(jì)系統(tǒng)記錄的URL 中含有檢索詞, 提取出檢索詞作為一個(gè)字段,使用Python 分組聚合函數(shù)將相同檢索詞記錄合并為一條,本文的原則是,無(wú)論是題名檢索還是著者檢索,只要檢索詞相同的記錄就合并為一條,刪除不合理數(shù)據(jù)后,形成檢索詞的統(tǒng)計(jì)列表,2018年度共計(jì)產(chǎn)生21 406 條數(shù)據(jù)。列表的字段包括檢索詞、檢索次數(shù)、檢索結(jié)果頁(yè)的平均瀏覽時(shí)長(zhǎng)、訪客數(shù)、訪問(wèn)IP 數(shù)、檢索結(jié)果頁(yè)跳轉(zhuǎn)其他頁(yè)面的次數(shù),等等。通過(guò)瀏覽、統(tǒng)計(jì)、分析此列表,可以比較精確的了解全部的讀者檢索情況,本列表的生成是一個(gè)重要研究步驟和成果,有了它可以從多個(gè)角度和層面展開(kāi)數(shù)據(jù)分析和挖掘。

2.3.3 檢索頻次排行榜

將檢索詞列表按檢索頻次排序生成排行榜,其中“東野圭吾”的檢索頻次最高,達(dá)到2 116 次,是2018年度的最熱門(mén)檢索詞。檢索頻次排名前20 位的檢索詞中與熱門(mén)小說(shuō)和經(jīng)典文學(xué)相關(guān)的有13 個(gè)、 思政類檢索詞共計(jì)5 個(gè)、基礎(chǔ)課程類檢索詞共計(jì)2 個(gè),這基本反映了讀者最關(guān)注的熱點(diǎn)。在匯文OPAC 系統(tǒng)的檢索界面上僅提供了30 天熱門(mén)檢索詞列表, 統(tǒng)計(jì)顯示30 天熱門(mén)檢索詞列表也具有較高的使用率,所以可以推定:整理并選取一定數(shù)量的熱門(mén)檢索詞在OPAC 檢索界面發(fā)布年度熱門(mén)檢索詞排行榜,對(duì)于讀者的檢索會(huì)更加有幫助,也更有參考價(jià)值,對(duì)于讀者閱讀推廣也有協(xié)助作用。

2.3.4 檢索頻次分段統(tǒng)計(jì)分析

2018年全年搜索量大于1 000 次的檢索詞共有13 個(gè),這些檢索詞平均每天被檢索3 次以上,其相關(guān)的圖書(shū)理應(yīng)受到重點(diǎn)關(guān)注。年度檢索頻次未超過(guò)9 次的檢索詞個(gè)數(shù)占據(jù)了檢索詞個(gè)數(shù)總量的75.24%,雖然數(shù)量達(dá)到16 106 個(gè),但僅完成了57 171 次檢索,檢索頻次大于等于10 次的檢索詞共計(jì)5 300 個(gè),累計(jì)檢索次數(shù)為228 364 次,80%的檢索是由這不到25%的檢索詞來(lái)完成的,這些檢索詞無(wú)疑應(yīng)該是分析研究的重點(diǎn), 而檢索頻次較低的檢索詞里面可能會(huì)存在新興的、潛在的知識(shí)和圖書(shū)熱點(diǎn)。

2.3.5 對(duì)檢索詞進(jìn)行分類研究

對(duì)檢索詞進(jìn)行分類,既可以參照中圖法也可以根據(jù)讀者課程學(xué)習(xí)或是生活?yuàn)蕵?lè)的需求來(lái)進(jìn)行,還可以按檢索頻次分段來(lái)分類,針對(duì)不同類型的檢索詞可以采用不同的策略來(lái)分別進(jìn)行研究。對(duì)于檢索頻次較高的與各學(xué)科課程密切相關(guān)的這一類檢索詞需要長(zhǎng)期關(guān)注,如“高等數(shù)學(xué)”和“生物化學(xué)”等,研究相關(guān)分類圖書(shū)的種數(shù)、出版日期、館藏量、館藏分配、借閱量、檢索頻次的動(dòng)態(tài)變化以及各個(gè)數(shù)據(jù)之間的相互關(guān)系,從多個(gè)層面進(jìn)行研究并落實(shí),確保讀者的學(xué)習(xí)需求得到滿足并提高相關(guān)圖書(shū)的借閱率。

3 結(jié)語(yǔ)

本文通過(guò)對(duì)2018年度的OPAC 讀者檢索行為數(shù)據(jù)進(jìn)行研究,比較系統(tǒng)、全面、精確的了解了OPAC 系統(tǒng)的讀者使用情況,同時(shí)也探索了研究方法,積累了經(jīng)驗(yàn), 并為后續(xù)年份的研究提供了可行的思路方法和整套的程序。另一方面,由于OPAC 的檢索訪問(wèn)不需要用戶登錄,而且大部分訪問(wèn)是在公用查詢端上進(jìn)行的,無(wú)法取得讀者個(gè)性化特征數(shù)據(jù)來(lái)進(jìn)行關(guān)聯(lián)性研究,因此本文的研究具有一定的局限性。后續(xù)年份的數(shù)據(jù)分析還將繼續(xù)開(kāi)展,再結(jié)合館藏量、借閱量等相關(guān)數(shù)據(jù)來(lái)增加數(shù)據(jù)的維度, 通過(guò)不斷對(duì)相關(guān)數(shù)據(jù)的分析和挖掘,全面了解讀者的閱讀需求和行為特點(diǎn),一定能為資源建設(shè)、流通和閱讀推廣等工作提供一定的幫助。

猜你喜歡
數(shù)據(jù)挖掘圖書(shū)館系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
圖書(shū)館
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書(shū)館
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
圖書(shū)館里的是是非非
主站蜘蛛池模板: 尤物成AV人片在线观看| 国产产在线精品亚洲aavv| 欧美精品1区2区| 特级aaaaaaaaa毛片免费视频| 国产精品深爱在线| 亚洲天堂网在线观看视频| 欧美天天干| 午夜综合网| 国产自无码视频在线观看| AV不卡无码免费一区二区三区| 欧美午夜视频在线| 激情成人综合网| 99久久国产综合精品女同| 国产一级在线观看www色| 亚洲三级a| 精品视频一区二区观看| 国产精品偷伦在线观看| 国产黑人在线| 国产精品原创不卡在线| 又黄又爽视频好爽视频| 国产麻豆另类AV| 操美女免费网站| 国产亚洲视频在线观看| 波多野吉衣一区二区三区av| 精品国产成人av免费| 亚洲大尺码专区影院| YW尤物AV无码国产在线观看| 国产一区二区三区精品久久呦| 国产欧美日韩在线一区| 天天综合天天综合| 天堂在线视频精品| 国产精品综合久久久 | 40岁成熟女人牲交片免费| 在线国产你懂的| 欧美日韩一区二区三区四区在线观看| 欧美日韩专区| 免费国产黄线在线观看| 黄色a一级视频| 国产精品视屏| 蜜桃臀无码内射一区二区三区| 91年精品国产福利线观看久久| 日本午夜影院| 色综合五月婷婷| 天堂亚洲网| 999精品视频在线| 免费毛片网站在线观看| 亚洲欧美一区二区三区麻豆| 亚洲狼网站狼狼鲁亚洲下载| 99精品在线视频观看| 红杏AV在线无码| 国产久操视频| 2022精品国偷自产免费观看| 国产精品自拍露脸视频| 久久久国产精品无码专区| 亚洲三级色| 国产精品欧美在线观看| 国产成人乱码一区二区三区在线| 国产精品成人免费综合| 欧美一区日韩一区中文字幕页| 国产不卡国语在线| 91麻豆国产在线| 亚洲综合色区在线播放2019| 国产va在线| aaa国产一级毛片| 狠狠亚洲五月天| 九九热这里只有国产精品| 四虎国产成人免费观看| 亚洲精品麻豆| 91亚洲国产视频| 亚洲第一成年网| 国产精品美女自慰喷水| 中文字幕在线观看日本| 伊在人亞洲香蕉精品區| 无码aⅴ精品一区二区三区| 不卡国产视频第一页| 男女精品视频| 成人国产小视频| 五月天丁香婷婷综合久久| 欧美日韩精品一区二区视频| 青青操国产视频| www.99在线观看| julia中文字幕久久亚洲|