摘要:通過(guò)一個(gè)實(shí)例介紹如何建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu),提出了一個(gè)數(shù)據(jù)分析系統(tǒng)模型,以及數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建與設(shè)計(jì)過(guò)程,用聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的方法對(duì)數(shù)據(jù)進(jìn)行分析處理。
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù) 體系結(jié)構(gòu) 聯(lián)機(jī)分析處理 數(shù)據(jù)挖掘
0 引言
汽車已進(jìn)入千家萬(wàn)戶,交通管理部門成立了車輛檢測(cè)站對(duì)車輛的動(dòng)力性、經(jīng)濟(jì)性、可靠性、以及尾氣排放狀況等整車性能進(jìn)行檢測(cè)。歷年來(lái)對(duì)每輛車的檢測(cè)情況積累了大量的信息,但是,交通管理部門及各維修企業(yè)對(duì)于這些數(shù)據(jù)的利用還只是停留在簡(jiǎn)單的業(yè)務(wù)查詢、實(shí)時(shí)狀態(tài)顯示、報(bào)表生成等方面,對(duì)數(shù)據(jù)進(jìn)行多角度的統(tǒng)計(jì)分析,挖掘隱藏在數(shù)據(jù)背后的有用信息的功能還欠缺,本文就如何在車輛檢測(cè)系統(tǒng)中建立數(shù)據(jù)倉(cāng)庫(kù),有效應(yīng)用數(shù)據(jù)挖掘技術(shù),方便準(zhǔn)確地從大量的、規(guī)格各異的企業(yè)數(shù)據(jù)中提取、組織和整合出新的有價(jià)值的、易于利用的信息進(jìn)行探討。
1 車輛檢測(cè)管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)
本文將車輛檢測(cè)管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)分為以下四個(gè)層次:
1.1數(shù)據(jù)源的類型可能是各種類型的數(shù)據(jù)庫(kù)、文本或是其他二進(jìn)制數(shù)據(jù):數(shù)據(jù)源的位置也可能是分散分布的。在數(shù)據(jù)的傳送過(guò)程中可能發(fā)生錯(cuò)誤,降低ETL專用工具的效率。所以設(shè)置一個(gè)數(shù)據(jù)采集層,用于檢查數(shù)據(jù)包的遲傳、丟包和重傳。數(shù)據(jù)采集將傳送正確的數(shù)據(jù)置入臨時(shí)存儲(chǔ)區(qū),將錯(cuò)誤的數(shù)據(jù)置入錯(cuò)誤數(shù)據(jù)區(qū)。
1.2 ETL過(guò)程是數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、裝載的過(guò)程中是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型。將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。

1.3當(dāng)數(shù)據(jù)集市數(shù)量增多時(shí)很容易形成“蜘蛛網(wǎng)”現(xiàn)象,而元數(shù)據(jù)管理是解決“蜘蛛網(wǎng)”的關(guān)鍵。如果在建立數(shù)據(jù)集市的過(guò)程中,注意了元數(shù)據(jù)管理,在集成到數(shù)據(jù)倉(cāng)庫(kù)中時(shí)就會(huì)比較順利。相反,如果在建設(shè)數(shù)據(jù)集市的過(guò)程中忽視了元數(shù)據(jù)管理,那么最后的集成過(guò)程就會(huì)很困難,甚至不可能實(shí)現(xiàn)。
1.4在應(yīng)用層,各個(gè)應(yīng)用子系統(tǒng)或模塊則根據(jù)需要從數(shù)據(jù)倉(cāng)庫(kù)中獲取所需數(shù)據(jù)并進(jìn)行相關(guān)處理。可以生成報(bào)表,進(jìn)行OLAP分析或是進(jìn)行數(shù)據(jù)挖掘分析。
為了保證系統(tǒng)的正常運(yùn)轉(zhuǎn)還要進(jìn)行系統(tǒng)管理。系統(tǒng)調(diào)度模塊控制報(bào)表生成、ETL過(guò)程、數(shù)據(jù)采集以及數(shù)據(jù)挖掘過(guò)程的有序執(zhí)行:安全管理提供對(duì)系統(tǒng)訪問(wèn)權(quán)限、加密等處理:系統(tǒng)監(jiān)測(cè)包括對(duì)CPU、內(nèi)存、I/O通道、網(wǎng)絡(luò)等硬件以及各個(gè)軟件子系統(tǒng)的運(yùn)行進(jìn)行監(jiān)測(cè)告警:系統(tǒng)管理員通過(guò)日志管理模塊對(duì)系統(tǒng)運(yùn)行產(chǎn)生日志的查看、分析。
2 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
在車輛檢測(cè)管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程中,我們采用一種通用的三層數(shù)據(jù)建模方式,即概念模型設(shè)計(jì),邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì)。概念模型設(shè)計(jì)提供了對(duì)車輛檢測(cè)公司的一個(gè)整體概括性描述,針對(duì)公司與用戶聯(lián)系的接觸點(diǎn),收集公司需求;邏輯數(shù)據(jù)建模層面向車輛信息數(shù)據(jù)倉(cāng)庫(kù)界定范圍的全局及其應(yīng)用;物理數(shù)據(jù)設(shè)計(jì)使用物理限制,如空間、特性和數(shù)據(jù)的物理分布,目的是設(shè)計(jì)實(shí)際的物理裝載。根據(jù)以上的模型設(shè)計(jì)原則和目標(biāo),可以提出一個(gè)完整的車輛信息數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型規(guī)范化方法控。
3 數(shù)據(jù)分析
數(shù)據(jù)分析包括OLAP分析和數(shù)據(jù)挖掘兩部分,OLAP多維數(shù)據(jù)分析是指對(duì)多維數(shù)據(jù)采取切片、切塊、鉆取、旋轉(zhuǎn)等各種分析操作,以求剖析數(shù)據(jù)。使最終用戶能從多角度、多側(cè)面觀察數(shù)據(jù)庫(kù)中的數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息、內(nèi)涵。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)一般都支持OLAP的基本操作,也可以認(rèn)為是一種擴(kuò)展了的SQL操作。
一般來(lái)說(shuō),數(shù)據(jù)挖掘(Data Mining—DM)是一個(gè)利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以用來(lái)做出決策和預(yù)測(cè)。關(guān)鍵的技術(shù)主要有關(guān)聯(lián)分析、決策樹(shù)、聚類分析、人工神經(jīng)網(wǎng)絡(luò)分析方法。下面用關(guān)聯(lián)規(guī)則對(duì)車輛檢測(cè)系統(tǒng)的數(shù)據(jù)進(jìn)行挖掘:
數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)源是數(shù)據(jù)倉(cāng)庫(kù)中維修企業(yè)送檢車輛主題中的數(shù)據(jù)。而在建立數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中,數(shù)據(jù)的ETL過(guò)程已經(jīng)對(duì)來(lái)自維修企業(yè)車輛維修保養(yǎng)系統(tǒng)的數(shù)據(jù)進(jìn)行了一系列數(shù)據(jù)選擇、數(shù)據(jù)集成和其它必要的數(shù)據(jù)處理過(guò)程。所以,從數(shù)據(jù)倉(cāng)庫(kù)直接提取挖掘數(shù)據(jù),省去了許多數(shù)據(jù)處理過(guò)程。
利用SQL Server 2000中提供的數(shù)據(jù)轉(zhuǎn)換服務(wù)DTS,從數(shù)據(jù)倉(cāng)庫(kù)的維修企業(yè)送檢車輛事實(shí)表、各檢測(cè)項(xiàng)目維度表、檢測(cè)日期維度表、各檢測(cè)項(xiàng)目收費(fèi)維度表中提取與數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù),關(guān)聯(lián)規(guī)則的任務(wù)是從給定一個(gè)事務(wù)集D中求出所有滿足指定的最小支持度和置信度的關(guān)聯(lián)規(guī)則。本文中,從車輛檢測(cè)管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)提取的維修企業(yè)送檢車輛數(shù)據(jù)形成了事務(wù)集;其中維修企業(yè)送檢車輛的每一條記錄就是一個(gè)事務(wù)。
如上文關(guān)聯(lián)規(guī)則概念中所說(shuō)。對(duì)維修企業(yè)送檢車輛分析數(shù)據(jù)表而言,表中的每一個(gè)字段的不同取值都是一個(gè)項(xiàng),表中所有字段取值的集合就形成了項(xiàng)集。Apriori算法的主要工作就是要找出所有支持度大于最小支持度的項(xiàng)集(頻繁項(xiàng)集),然后利用最小置信度來(lái)產(chǎn)生期望的規(guī)則。
本文采用Java語(yǔ)言實(shí)現(xiàn)Apriori關(guān)聯(lián)規(guī)則算法,執(zhí)行時(shí),將維修企業(yè)送檢車輛分析數(shù)據(jù)導(dǎo)入程序,其中支持度設(shè)定為Support=0.1,置信度設(shè)定為Condence=0.5,執(zhí)行挖掘過(guò)程,得到頻繁項(xiàng)集,由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
執(zhí)行程序后產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則由程序?qū)С觯@些規(guī)則需要經(jīng)過(guò)分析整理才能成為有用的知識(shí)。因?yàn)榈玫降囊?guī)則中,有一些對(duì)實(shí)際管理沒(méi)有多大意義,如檢驗(yàn)次數(shù)和廠牌型號(hào)之間的關(guān)聯(lián)規(guī)則,像這些規(guī)則就可以不考慮它們。經(jīng)整理分析后得到的規(guī)則如表1所示。
結(jié)合車輛檢測(cè)系統(tǒng)的實(shí)際情況,深入分析表1中規(guī)則,可以得出以下結(jié)論:
3.1企業(yè)為一類企業(yè),有67.5%的車輛維護(hù)保養(yǎng)價(jià)格大于400元,調(diào)試收費(fèi)小于30元。企業(yè)為二類企業(yè),有62.5%的車輛維護(hù)保養(yǎng)價(jià)格大于200元,調(diào)試收費(fèi)小于120元。企業(yè)為三類企業(yè),有57%的車輛維護(hù)保養(yǎng)價(jià)格小于400元,調(diào)試收費(fèi)大于1200分析可知,維修企業(yè)等級(jí)越高,車輛維護(hù)保養(yǎng)費(fèi)越高,而檢測(cè)費(fèi)用也低。所以,可以建議用戶企業(yè)想要有優(yōu)質(zhì)、快速的服務(wù),請(qǐng)到一類維修企業(yè)去保養(yǎng)。
3.2廠牌型號(hào)為1(東風(fēng))且檢驗(yàn)次數(shù)為1的維修保養(yǎng)記錄中,有65%是承修單位為3(轎辰)。分析可知對(duì)東風(fēng)這種型號(hào)的車輛,轎辰修理廠維修質(zhì)量比較高。所以可以建議這種車型的車主可以到轎辰修理廠去維修。
3.3承修單位為7且檢驗(yàn)次數(shù)為1的維修保養(yǎng)記錄中,有61%為維修人員711(張春波)。分析可知在寧東修理廠中,維修人員張春波的維修水平比較高,到寧東修理廠去維修的用戶可以找張春波維修。
4 結(jié)論
通過(guò)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)模型闡述了數(shù)據(jù)倉(cāng)庫(kù)在企業(yè)中應(yīng)用,介紹了一個(gè)簡(jiǎn)單通用的數(shù)據(jù)分析系統(tǒng)的模型和一個(gè)實(shí)際數(shù)據(jù)分析系統(tǒng)的初步實(shí)現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)在商業(yè)上的前景十分廣闊,數(shù)據(jù)模型、數(shù)據(jù)庫(kù)技術(shù)、OLAP技術(shù)、數(shù)據(jù)挖掘技術(shù)和決策支持都有很高的提高空間。