999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘下的高校圖書館信息資源管理分析

2020-09-03 11:52:24
科技視界 2020年25期
關(guān)鍵詞:數(shù)據(jù)挖掘圖書館資源

沈 惠

0 引言

現(xiàn)如今,高校數(shù)字圖書館信息資源日漸增長,計(jì)算機(jī)技術(shù)被投用到日常管理工作實(shí)踐中,數(shù)據(jù)量也呈幾何倍數(shù)增長,在處理數(shù)據(jù)時(shí)暴露出針對(duì)性不強(qiáng)、檢索精確度偏低、資源利用率低、存有大量冗余信息、數(shù)據(jù)庫信息訪問不便利等問題。和Web 數(shù)據(jù)相比較,傳統(tǒng)數(shù)據(jù)庫內(nèi)的數(shù)據(jù)結(jié)構(gòu)性更強(qiáng),而Web 上儲(chǔ)留的數(shù)據(jù)盡管具有一定結(jié)構(gòu)性,但屬于半結(jié)構(gòu)化數(shù)據(jù)。結(jié)合處理對(duì)象的不同,Web 挖掘有內(nèi)容、結(jié)構(gòu)及使用記錄挖掘三種類型,其中使用挖掘又被稱之為日志挖掘,為Web 挖掘?qū)嵺`中的重點(diǎn)對(duì)象,其通過解讀日志記錄內(nèi)容的規(guī)律,提供樣式多樣的統(tǒng)計(jì)報(bào)告,強(qiáng)化Intemet 信息服務(wù)品質(zhì),優(yōu)化服務(wù)器屬性與結(jié)構(gòu)。

1 數(shù)據(jù)挖掘的概念分析

數(shù)據(jù)挖掘?qū)儆谝粋€(gè)跨學(xué)科的邊緣性技術(shù),主要囊括計(jì)算機(jī)技術(shù)、信息技術(shù)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化等。

數(shù)據(jù)挖掘又被叫作數(shù)據(jù)庫內(nèi)的知識(shí)發(fā)現(xiàn)(KDD),被定義成從數(shù)據(jù)庫內(nèi)探尋到隱匿信息,部分情況下也被叫作探索性數(shù)據(jù)分析、歸納學(xué)習(xí)等,等同于分析數(shù)據(jù)庫內(nèi)大批量的、不完整性的、存有噪聲的、模糊性、隨機(jī)分配的現(xiàn)實(shí)應(yīng)用數(shù)據(jù),其宗旨在于探索不同數(shù)據(jù)之間隱含的相關(guān)性、運(yùn)作模式,以新的技術(shù)方法為支撐,重新整合事前未知的、存有實(shí)際應(yīng)用價(jià)值的數(shù)據(jù)轉(zhuǎn)型化為實(shí)用信息與知識(shí)[1]。

數(shù)據(jù)挖掘過程中不僅會(huì)協(xié)助相關(guān)人員更深度地學(xué)習(xí)現(xiàn)有知識(shí),還能使用探查到的模式做出合理預(yù)測,進(jìn)而捕獲易于理解且運(yùn)用過程便利的知識(shí)。數(shù)據(jù)挖掘用于圖書館信息資源管理實(shí)踐中,能為廣大讀者提供個(gè)性化信息服務(wù),優(yōu)化服務(wù)質(zhì)量;整合多種數(shù)據(jù)資源,拓展信息資源的豐富度,提升資源利用率與檢索的準(zhǔn)確度;為圖書館工作人員創(chuàng)造一個(gè)更有效的平臺(tái),進(jìn)而優(yōu)化信息服務(wù)工作質(zhì)效。

2 SAS 數(shù)據(jù)挖掘的主要流程

從宏觀層面上,可以把數(shù)據(jù)挖掘細(xì)化為獲取數(shù)據(jù)源、數(shù)據(jù)預(yù)處理、建設(shè)與訓(xùn)練模型、評(píng)估模式幾過程。SEMMA 為SAS 工具內(nèi)的挖掘過程,具體如下[2]:

(1)SamPle—數(shù)據(jù)采樣:在挖掘數(shù)據(jù)時(shí),要由大批量數(shù)據(jù)內(nèi)擇選出典型的、真實(shí)度高、完整的、有效的且與要研究問題存在相關(guān)性的數(shù)據(jù)子集。

(2)ExPfore 一數(shù)據(jù)分析與預(yù)處理:規(guī)劃采樣數(shù)據(jù)集類別并作出篩選,解讀不同因素間的相關(guān)性。數(shù)據(jù)規(guī)律與趨向等,可采用曲線、圖表等呈現(xiàn)出來。

(3)Modify 一數(shù)據(jù)調(diào)整與技術(shù)選用:經(jīng)探索過程對(duì)數(shù)據(jù)有籠統(tǒng)性認(rèn)識(shí)后,需對(duì)數(shù)據(jù)做出刪減、選擇、轉(zhuǎn)型及數(shù)量化等處理,以確保數(shù)據(jù)挖掘過程有效推進(jìn)。

(4)Model 一建模與發(fā)現(xiàn)知識(shí):這是知識(shí)挖掘過程中的核心環(huán)節(jié),應(yīng)結(jié)合數(shù)據(jù)集自身特點(diǎn)及要達(dá)成的目標(biāo),選擇一種或數(shù)種挖掘手段,回歸分析、決策樹等是常用方法,在對(duì)比分析中選用最佳的模型,開展后續(xù)階段的預(yù)測工作。

(5)Acces—整體解釋、評(píng)估模型與知識(shí):綜合多方面因素,解釋歷經(jīng)以上處置過程獲得的結(jié)果和模型,并在某種方法協(xié)助下,評(píng)估決策支持信息的適用程度,進(jìn)而更為客觀的判讀數(shù)據(jù)挖掘結(jié)果的可靠性、有效性。

3 基于SAS 的Web 使用日志數(shù)據(jù)挖掘?qū)嵺`

3.1 日志數(shù)據(jù)挖掘過程

以SAS 為基礎(chǔ)的Web 采用日志數(shù)據(jù)挖掘資源,等同于采用SAS 挖掘工具與SQL Server2000 挖掘Web 適用的日志數(shù)據(jù),實(shí)踐中要把Web 采用的日志數(shù)據(jù)整合至SQL Server2000內(nèi),轉(zhuǎn)換、預(yù)處理數(shù)據(jù)后形成事務(wù)表,而后利用SAS 挖掘工具對(duì)事務(wù)表內(nèi)數(shù)據(jù)進(jìn)行聚類、關(guān)聯(lián)等處理,進(jìn)而捕獲有關(guān)知識(shí)的過程。可以將以上過程分為兩個(gè)部分與三階段。在兩個(gè)部分中,第一部分是數(shù)據(jù)預(yù)處理;第二部分是SAS 數(shù)據(jù)挖掘;數(shù)據(jù)采集與預(yù)處理、模式挖掘、分析挖掘結(jié)果構(gòu)成三階段。

在數(shù)據(jù)預(yù)處理階段中,先要以文本文件形式由Web 服務(wù)器內(nèi)導(dǎo)出Web 日志數(shù)據(jù),而后再將其導(dǎo)進(jìn)SQLServer2000,使用SQLServer2000 的DTS 器具對(duì)的文本文件行數(shù)據(jù)轉(zhuǎn)換與清洗處理。針對(duì)那些清洗效果達(dá)標(biāo)的Web 日志文件,要依照網(wǎng)站具體內(nèi)容或者結(jié)構(gòu)完成用戶、會(huì)話辨識(shí)的系列性工作。預(yù)處理過程中,Web 日志數(shù)據(jù)資源被梳理、分割為單組用戶事務(wù)集,其作用是能清晰地呈現(xiàn)出各個(gè)用戶對(duì)站點(diǎn)的不同訪問行為。而在模式挖掘(SAS)階段,有選擇地使用SAS 持有的數(shù)據(jù)挖掘手段進(jìn)而呈現(xiàn)出用戶特別的隱匿形式、簡單統(tǒng)計(jì)Web 資源與用戶群體。在該過程的后期,要系統(tǒng)解析、總結(jié)、梳理被挖掘出的模式與信息,形成與挖掘目的相匹配的知識(shí)與規(guī)律[3]。

3.2 數(shù)據(jù)預(yù)處理的關(guān)鍵技術(shù)

3.2.1 數(shù)據(jù)清洗

又被稱之為數(shù)據(jù)凈化,即提出Web 服務(wù)器日志內(nèi)和挖掘算法無相關(guān)性的數(shù)據(jù)。多數(shù)情況下,日志內(nèi)僅有HTML 文件和用戶會(huì)話有關(guān)。可以通過如下兩種辦法刪掉不相關(guān)數(shù)據(jù):一是檢索客戶瀏覽器類型,二是檢查HTML 的后綴,當(dāng)后綴名是GIF、JpEG、JpG 等圖形文件可被刪除。把初始Web 日志文件整合至sqlserver 2000 完成轉(zhuǎn)換,逐一掃描后剔除和挖掘算法無關(guān)數(shù)據(jù)。

3.2.2 用戶辨識(shí)

等同于關(guān)聯(lián)用戶于請(qǐng)求界面的過程,多用于處理數(shù)個(gè)用戶以代理服務(wù)器或防火墻為載體訪問網(wǎng)站的情況,辨識(shí)用戶有益于協(xié)助圖書館工作人員提供個(gè)性化服務(wù)[4]。

3.2.3 會(huì)話辨識(shí)

即在辨識(shí)用戶后,對(duì)各個(gè)用戶的全部點(diǎn)擊序列作出梳理規(guī)劃,其宗旨是把用戶當(dāng)下及既往訪問記錄規(guī)劃成單一會(huì)話模式。

超時(shí)方法是辨識(shí)用戶會(huì)話的常用手段,其有兩種形式:一是設(shè)定用戶會(huì)話全過程的超時(shí)閾值,即符合time(l)- time(k)≤T(T 是事前設(shè)定好的超時(shí)閾值)條件時(shí),便可確定是同個(gè)會(huì)話,要么為新的會(huì)話;二是設(shè)定兩個(gè)相毗鄰請(qǐng)求見的超時(shí)閾值,若測算出兩頁面請(qǐng)求事件差超出上限時(shí),便認(rèn)定用戶進(jìn)行了一個(gè)新會(huì)話活動(dòng)。在同個(gè)會(huì)話中頁面請(qǐng)求一定要符合time(i)- time(i- 1)≤T(1<i≤k)。

3.2.4 事務(wù)辨識(shí)

等同于對(duì)單次用戶會(huì)話作出語義分組,將其割斷為數(shù)個(gè)邏輯單元,進(jìn)而為訪問者創(chuàng)建有現(xiàn)實(shí)意義的數(shù)據(jù)集。全部用戶事務(wù)的結(jié)合可以采用m×n 的用戶界面訪問矩陣表示。

3.3 Web 采用日志數(shù)據(jù)的預(yù)處理結(jié)果

針對(duì)Web 采用日志數(shù)據(jù)完成轉(zhuǎn)換與預(yù)處理日志數(shù)據(jù)以后,就可把歷經(jīng)用戶辨識(shí)后的32 個(gè)用戶于2019- 3- 15~2019- 3-31 期間的數(shù)據(jù)轉(zhuǎn)變?yōu)橛脩羰聞?wù)表、數(shù)據(jù)資源表[5]。

3.4 SAS 模式挖掘與結(jié)果分析

針對(duì)數(shù)據(jù)預(yù)處理后形成的各種事務(wù)表,采用SAS 挖掘工具內(nèi)的用戶聚類進(jìn)行處理,過程為:

把歷經(jīng)預(yù)處理流程后獲得的用戶事務(wù)表數(shù)據(jù)整合至SAS工具內(nèi),于Work 數(shù)據(jù)庫中創(chuàng)建YHjh 數(shù)據(jù)集。采用平均距離、最長距離法、離差平放于距離法完成聚類分析。針對(duì)不同方法形成的聚類過程結(jié)果表加以分析,各類方法的主要統(tǒng)計(jì)數(shù)量呈現(xiàn)聚類最適宜的類數(shù)目可歸納為表1。

表1 聚類類數(shù)目表

對(duì)表1 內(nèi)數(shù)據(jù)加以分析后,我們認(rèn)為聚類數(shù)目為2、3、4 類時(shí)較為適宜,但哪種是最適方法,細(xì)化為幾類更為科學(xué),還需考評(píng)依照各種方法勾畫的聚類樹。

采用如上四種方法繪制出的聚類樹圖內(nèi),對(duì)比分析后認(rèn)定選用comPlete 法聚類取得的效果最優(yōu)良,聚類數(shù)據(jù)分布較勻稱,類間距顯著[6]。

4 結(jié)束語

采用comPlete 法把用戶群體細(xì)化為積極、一般與消極用戶是合理的,對(duì)于高校圖書館而言,依照用戶群體對(duì)數(shù)字資源的實(shí)際應(yīng)用情況進(jìn)行規(guī)劃是有很大現(xiàn)實(shí)意義的。基于用戶類別規(guī)劃情況,可以結(jié)合各類別用戶對(duì)圖書館信息資源的需求,更合理的購置于管理資源;針對(duì)消極用戶可以進(jìn)行問詢與技術(shù)上的支持,整體提升圖書館資源的利用率,促進(jìn)高校圖書館事業(yè)長效、穩(wěn)定發(fā)展進(jìn)程。

猜你喜歡
數(shù)據(jù)挖掘圖書館資源
基礎(chǔ)教育資源展示
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
一樣的資源,不一樣的收獲
資源回收
圖書館
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
圖書館里的是是非非
主站蜘蛛池模板: 精品国产免费第一区二区三区日韩| 精品国产免费第一区二区三区日韩| 无码中字出轨中文人妻中文中| 青青草原偷拍视频| 99视频只有精品| 久久综合久久鬼| 国产精品免费电影| 欧美成人手机在线视频| 免费看一级毛片波多结衣| 91久久国产成人免费观看| 亚洲91在线精品| 91精品国产91久久久久久三级| 91亚洲精选| 精品自拍视频在线观看| 欧美日本在线一区二区三区| 亚洲国产午夜精华无码福利| 精品黑人一区二区三区| 中文国产成人精品久久| 国产精品性| 国产女人爽到高潮的免费视频 | 成人年鲁鲁在线观看视频| 午夜精品一区二区蜜桃| 欧美三级自拍| 久久中文字幕2021精品| 国产在线一区二区视频| 久久国产精品国产自线拍| 亚洲欧洲日产国产无码AV| 热久久这里是精品6免费观看| 婷婷综合缴情亚洲五月伊| 亚洲人在线| 精品国产欧美精品v| 亚洲A∨无码精品午夜在线观看| 亚洲色图欧美激情| 美女一级免费毛片| 久久亚洲日本不卡一区二区| 成年免费在线观看| 欧美日韩国产综合视频在线观看 | 精品久久综合1区2区3区激情| 亚洲精品国产综合99| 久久中文无码精品| 久久精品无码国产一区二区三区| 一本大道AV人久久综合| 国产亚洲第一页| 最近最新中文字幕在线第一页 | 99这里精品| 91探花在线观看国产最新| 日韩毛片在线播放| 亚洲综合第一页| 国产正在播放| 草逼视频国产| 免费国产黄线在线观看| 久久精品亚洲专区| 午夜爽爽视频| 麻豆国产在线观看一区二区| 精品国产三级在线观看| 国产欧美日韩资源在线观看| 99色亚洲国产精品11p| 成人伊人色一区二区三区| 国产高清在线精品一区二区三区 | 亚洲无码37.| 日本一本在线视频| 黄色网址免费在线| 亚洲精品第五页| 自拍欧美亚洲| 国产麻豆精品久久一二三| 免费看美女自慰的网站| 久久国产精品麻豆系列| 欧美精品黑人粗大| 国产高清精品在线91| 成人在线综合| 国产最新无码专区在线| 国产日韩欧美在线播放| 色偷偷av男人的天堂不卡| 99激情网| 亚洲水蜜桃久久综合网站| 亚洲男人的天堂视频| 欧美狠狠干| 青青青国产视频| 在线精品亚洲一区二区古装| 中国丰满人妻无码束缚啪啪| 性做久久久久久久免费看| 中文字幕首页系列人妻|