999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于布爾關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在數(shù)字檔案館應(yīng)用研究

2014-09-03 12:12:25劉大寧
檔案管理 2014年5期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

劉大寧

1 引言

在信息社會(huì)的大背景下,檔案館社會(huì)化也將隨之而發(fā)展,數(shù)字檔案館訪問(wèn)者將具有來(lái)源廣泛性、背景多樣性的特征,信息需求的個(gè)性化發(fā)展也會(huì)隨之而增強(qiáng),數(shù)據(jù)挖掘?qū)?huì)成為檔案工作者全面掌握和準(zhǔn)確理解檔案用戶的信息需求和心理行為最為便捷的方式。關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘的主要技術(shù)之一,也是在無(wú)指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式的最普遍形式。可使我們獲得一些存在于數(shù)據(jù)庫(kù)中的關(guān)聯(lián)模式,為數(shù)字檔案館的建設(shè)提供科學(xué)依據(jù)。來(lái)檔案館查資料的人有不同目的,當(dāng)?shù)谝淮瓮ㄟ^(guò)數(shù)字檔案館閱覽時(shí),可使用關(guān)聯(lián)規(guī)則由其注冊(cè)信息將他劃分為相關(guān)聯(lián)的用戶群。使用登錄賬號(hào)登錄數(shù)據(jù)庫(kù)閱覽時(shí),數(shù)字檔案館數(shù)據(jù)庫(kù)已根據(jù)其個(gè)人關(guān)聯(lián)進(jìn)行相對(duì)應(yīng)檢索,顯現(xiàn)在用戶面前網(wǎng)頁(yè)就有可能是其最需要的資料,從而減少訪問(wèn)者檢索所需時(shí)間。即是根據(jù)各位訪問(wèn)者經(jīng)常使用的信息進(jìn)行一定的關(guān)聯(lián)分析,就可整理出數(shù)據(jù)庫(kù)中不同種類用戶群。

2 數(shù)據(jù)挖掘技術(shù)流程

2.1 確定對(duì)象。明確給出服務(wù)對(duì)象的業(yè)務(wù)需求,認(rèn)清進(jìn)行數(shù)據(jù)挖掘達(dá)到的目的是數(shù)據(jù)挖掘的重要一步,進(jìn)行挖掘技術(shù)的最后結(jié)果是不可預(yù)知的,但要探索的問(wèn)題卻是可以預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而進(jìn)行數(shù)據(jù)挖掘則帶有一定的盲目性,成功率必然偏低。

2.2 前期準(zhǔn)備。一是數(shù)據(jù)的選擇:搜索數(shù)據(jù)庫(kù)中與業(yè)務(wù)對(duì)象有關(guān)的各種數(shù)據(jù)信息,并從中挑選出適用于開(kāi)展數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。二是數(shù)據(jù)的預(yù)處理:通過(guò)研究數(shù)據(jù)的質(zhì)量,為下一步的數(shù)據(jù)分析做準(zhǔn)備,并選定將要進(jìn)行的數(shù)據(jù)挖掘操作類型。三是數(shù)據(jù)轉(zhuǎn)換:將搜集的數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,是針對(duì)采用的挖掘算法而建立的。而建立一個(gè)真正與挖掘算法匹配的分析模型則是進(jìn)行數(shù)據(jù)挖掘成功的重要環(huán)節(jié)。

2.3 開(kāi)始挖掘。對(duì)前期經(jīng)過(guò)篩選所得并經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。在選擇合適的挖掘算法后,剩下的所有工作都能自動(dòng)地完成。

2.4 挖掘分析。對(duì)挖掘結(jié)果進(jìn)行解釋并作出評(píng)估,在此過(guò)程中使用的分析方法應(yīng)根據(jù)數(shù)據(jù)挖掘操作而定,一般采用可視化技術(shù)。

2.5 進(jìn)行知識(shí)同化。將挖掘結(jié)果分析所得到知識(shí)進(jìn)行集成,并以此建立完善業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)。

3 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法

關(guān)聯(lián)分析(Association analysis)就是通過(guò)對(duì)數(shù)據(jù)庫(kù)中的各數(shù)據(jù)項(xiàng)之間存在的相關(guān)特性按照一定規(guī)則進(jìn)行比對(duì)分析,尋找出隱藏在數(shù)據(jù)項(xiàng)之間的相互聯(lián)系,如果數(shù)據(jù)庫(kù)中有兩項(xiàng)或以上數(shù)據(jù)存在著某種聯(lián)系,就能根據(jù)這種聯(lián)系通過(guò)其相關(guān)聯(lián)數(shù)據(jù)對(duì)某一數(shù)據(jù)

進(jìn)行預(yù)測(cè)。關(guān)聯(lián)分析就能通過(guò)訪問(wèn)用戶查閱各種檔案信息間存在的關(guān)聯(lián)性,進(jìn)而分析發(fā)現(xiàn)用戶使用模式。關(guān)聯(lián)規(guī)則分析就是通過(guò)尋找數(shù)據(jù)庫(kù)中數(shù)據(jù)之間相關(guān)性。如果兩項(xiàng)或以上屬性之間存在有此關(guān)聯(lián)性的話,通過(guò)這種方式就可依據(jù)其他屬性值預(yù)測(cè)其中某項(xiàng)的屬性值。即通過(guò)數(shù)據(jù)挖掘技術(shù)就可找出數(shù)據(jù)庫(kù)中藏匿的關(guān)聯(lián)網(wǎng),進(jìn)而對(duì)下一步的決策提供指導(dǎo)。

一方面,對(duì)原有的檔案數(shù)據(jù)庫(kù)中的顯性知識(shí)和隱性知識(shí)進(jìn)行搜集和整理,根據(jù)其概念描述歸納出便于提取的相關(guān)特征,通過(guò)基于布爾關(guān)聯(lián)規(guī)則的分析,按照相似性與差異性構(gòu)建不同的需求分析模型,然后利用Apriori算法進(jìn)行迭代分析,將數(shù)據(jù)放入不同的分類中,便于提取。另一方面,要對(duì)用戶確定的主題進(jìn)行定義,明確挖掘要求和目的。通過(guò)需求分析模型與用戶指定信息進(jìn)行結(jié)合,進(jìn)行差異分析和偏差檢測(cè),排除其他不相關(guān)數(shù)據(jù),得到挖掘結(jié)果。最后要對(duì)挖掘結(jié)果開(kāi)展評(píng)價(jià),得到的挖掘結(jié)果可能有沒(méi)有關(guān)聯(lián)的數(shù)據(jù),也可能沒(méi)有達(dá)到需求,如果出現(xiàn)這種情況,整個(gè)數(shù)據(jù)挖掘過(guò)程就要返回到數(shù)據(jù)收集階段,并重新開(kāi)始挖掘過(guò)程,這可以用“if not…then”規(guī)則來(lái)描述,反之即滿足數(shù)據(jù)挖掘要求,可為數(shù)字檔案館所用,并就將其充實(shí)到原有數(shù)據(jù)庫(kù)中,進(jìn)行檔案館知識(shí)創(chuàng)新。

4 存在問(wèn)題及對(duì)策

基于布爾關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)使數(shù)字檔案館從理論走向?qū)嵺`成為可能,它主要提供技術(shù)支撐,而數(shù)據(jù)挖掘的基礎(chǔ)是對(duì)各種數(shù)據(jù)的識(shí)別,也就是針對(duì)不同的數(shù)據(jù)庫(kù)都要能夠識(shí)別,就需要數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一起來(lái)。當(dāng)前我國(guó)檔案信息化工作在標(biāo)準(zhǔn)體系建設(shè)方面相對(duì)延后,各種檔案管理軟件與檔案信息管理平臺(tái)尤其是檔案信息元數(shù)據(jù)、檔案數(shù)據(jù)庫(kù)結(jié)構(gòu)存在著無(wú)法兼容的情況,并且數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)多樣,無(wú)法滿足數(shù)據(jù)挖掘所需要的高質(zhì)量數(shù)據(jù)庫(kù)要求。需要對(duì)檔案信息整理統(tǒng)一標(biāo)準(zhǔn)體系,按照標(biāo)準(zhǔn)清理優(yōu)化數(shù)據(jù),完善數(shù)據(jù)庫(kù)結(jié)構(gòu)。需要借鑒數(shù)據(jù)挖掘在其他行業(yè)取得的成功做法,在數(shù)字檔案館建設(shè)中擴(kuò)大數(shù)據(jù)挖掘在各個(gè)環(huán)節(jié)的應(yīng)用,進(jìn)一步推動(dòng)數(shù)字檔案館建設(shè)和發(fā)展。數(shù)據(jù)挖掘技術(shù)的精度仍需提高,即如何使得迭代算法能夠在進(jìn)行關(guān)聯(lián)規(guī)則分析時(shí)穩(wěn)定收斂是仍需要進(jìn)一步深入探討的問(wèn)題,建議采用數(shù)理分析方法,提出一種基于參數(shù)的優(yōu)化模型,以此進(jìn)一步優(yōu)化提高算法性能。

*本文為2013年河南省檔案局科技項(xiàng)目,編號(hào):13-X-18

(作者單位:河南牧業(yè)經(jīng)濟(jì)學(xué)院人文與社會(huì)科學(xué)系 來(lái)稿日期:2014-06-16)

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 五月天在线网站| 日韩在线第三页| 一区二区三区成人| 亚洲首页在线观看| 重口调教一区二区视频| 免费人成在线观看成人片| 国产91小视频| 美女国产在线| 99资源在线| 黄色三级毛片网站| a色毛片免费视频| 国产成人精品男人的天堂| 国产永久在线观看| 日本不卡在线视频| 欧美另类精品一区二区三区| 欧美在线视频不卡| 国产在线观看成人91| 欧美.成人.综合在线| 国产精品丝袜视频| 在线日韩一区二区| 日日摸夜夜爽无码| 欧美a在线视频| 亚洲综合九九| 99er精品视频| 呦视频在线一区二区三区| 亚洲天堂久久久| 97在线视频免费观看| 亚洲精品国产综合99| 呦女亚洲一区精品| 精品久久久久久久久久久| 婷婷色狠狠干| 女高中生自慰污污网站| 欧美色丁香| 欧美精品伊人久久| 国产精品爆乳99久久| 中国国语毛片免费观看视频| 国产精品免费p区| 国产成人精品三级| 国产精品免费露脸视频| 亚洲香蕉久久| 五月天天天色| 国产jizz| 2021国产乱人伦在线播放| 日本一区二区不卡视频| 国产精品hd在线播放| 日韩无码视频专区| 91青青在线视频| 欧美97欧美综合色伦图| 在线a网站| 在线看免费无码av天堂的| 国产福利影院在线观看| 午夜天堂视频| 亚洲手机在线| 99资源在线| 熟女日韩精品2区| 亚洲精品国产精品乱码不卞| 亚洲成人精品在线| 国产精品三级av及在线观看| 综合成人国产| 婷婷激情五月网| 激情六月丁香婷婷| 99热这里只有精品久久免费| 欲色天天综合网| 99re免费视频| 亚洲色图在线观看| 亚洲不卡av中文在线| 欧美.成人.综合在线| 亚洲开心婷婷中文字幕| 91福利免费视频| 亚洲毛片网站| 18黑白丝水手服自慰喷水网站| 在线日韩日本国产亚洲| 欧美性猛交xxxx乱大交极品| 亚洲中文字幕无码mv| 国产亚洲精品va在线| 国产丝袜一区二区三区视频免下载| 97久久免费视频| 亚洲天堂在线视频| 在线视频一区二区三区不卡| 91热爆在线| 国产丝袜第一页| 国产丝袜丝视频在线观看|