陳佶福建龍溪軸承(集團)股份有限公司
探討基于SQLServer 2000的數據倉庫和數據挖掘
陳佶
福建龍溪軸承(集團)股份有限公司
針對SQL Server 2000的數據倉庫和數據挖掘進行分析,介紹了數據倉庫設計。并詳細分析了數據挖掘方法,方法主要有:OLEDB數據挖掘,利用SQLServen2000實施數據挖掘兩種。
數據倉庫;數據挖掘;OLEDB數據源
數據挖掘中的物理結構,對客戶應用程序和數據挖掘模型之間的相互作用做出了描述。在OLEDB for DM中,數據挖掘模型是其中的一個概念,其中一個數據挖掘模型,就代表著一個容器。
對結構進行選擇,主要是以數據源的大小以及對這一數據挖掘的模型發(fā)布預測查詢頻率進行的。同時以其應用特點作為依據,可以直接對兩層體系結構或者三層體系結構方案進行使用[1]。
如果數據挖掘任務進一步提高,客戶機所使用的挖掘結果需求量逐漸增大,可以對其中的三層體系結構進行選用。針對這一結構而言,從總體上分析,需要使用一個性能較高的服務器,將其放在中間夾層當中,充當一個數據挖掘引擎,而數據倉庫將會被放置在最后端。其中的中間負責層主要是進行數據的挖掘。
2.1 OLEDB數據挖掘
在一定程度上,可以將其看成通過不同數據類型所構成的一種關系表,這在并不會對原始數據進行儲存,而是通過儲存數據挖掘算法在關系表當中所發(fā)現的一種模式。為了構建這一數據模型,通過OLEDB for DM對SQL中創(chuàng)建表的語法進行使用,如CREATE語句。
2.1.1 數據挖掘模型測試
構建出一個數據挖掘模型后,其僅僅是以一個空的容器形式存在的。對其進行具體測試過程中,數據挖掘算法分析輸入的事件以及挖掘模型已經發(fā)現的模式。以針對數據所挖掘的OLEDB作為依據,得到的測試數據可以來源于各種表格數據源,只要其在OLEDB驅動器存在,就不必用戶從關系數據源中將數據進行導出,這種情況下,促使數據挖掘過程得到有效簡化。可以對SQL中的數據插入句法進行使用,如INSERT INTO語句,或者Openrowset命令,進而從其中的一個OLEDB數據源,進行遠程數據的訪問。
2.1.2 數據挖掘預測
數據挖掘預測屬于數據挖掘工作中的一個重要任務,這一任務的完成,需要一個測試過的數據挖掘模式以及一系列的新鮮事件,所得出的預測結果形成了一個新的記錄集,這一記錄集中包含了預測列的值,同時還有其他輸入列的值。在這一過程中,和關系連接十分相似,其并不是聯系兩個表,而是對數據挖掘模型以及輸入表進行連接。此外,可以使用SQL中的查表語法,例如SELECT等。
由此可知,OLEDB和標準SQL之間緊密結合,能夠較為快速并準確的開展相應的查詢處理,但是其中的SQL Serven2000數據創(chuàng)建性數據,同時也是數據挖掘過程中的一種相對有效的方案。
2.2 利用SQL Serven2000實施數據挖掘
對基本數據挖掘OLDDB進行使用過程中,可以從不同數據挖掘中的不同數據挖掘算法,較為容易的在用戶應用中嵌入[2]。而對于這些數據挖掘算法中的軟件包當中,一共存在兩個數據挖掘算法,其中有Microsoft決策樹,同時有Microsoft集群。對于數據挖掘提供者而言,屬于分析服務2000的一部分,其和Microsoft的OLAP服務存在著相同之處,而SQLServen2000中存在的數據挖掘組件,主要是以DBA為核心的。其中的Analysis Sevices是通過OLP以及數據挖掘共同組成的,其屬于一種數據分析技術。屬于Analysis Services中的一種數據挖掘工具。對于這些工具而言,具有一定的模型建立導向和模型編輯器。此外,還存在著瀏覽器和DTS預測任務。
對這一應用進行建立之前,需要先建立一個數據挖掘模型,同時對這一模型進行訓練,實現這一任務,存在著多種形式,其中比較容易的一種形式就是借助Analysis Services的數據模型向導,這一導向會產生一定的數據挖掘模型以及訓練查詢[3]。同時借助OLEDB for DM接口將查詢指示發(fā)送給數據挖掘供應者。還有一種方式便是,對程序進行自行編寫,例如借助面向對象編程技術,對一些VB或者VC程序進行編寫。此后借助DSD或者ADO對數據挖掘供應者進行連接,然后向著這一供應者對文本查詢進行發(fā)布。這種方式,類似于數據庫開發(fā)者對數據庫進行處理和查詢。從Analysis Services中擴展了DSO模型,進一步為數據挖掘提供了支持。在這種情況下,借助DSO連接數據挖掘供應者,使用DSO對象相連方式,使用相對簡單的ADO方式進行比較,存在較大的優(yōu)越性。例如,能夠十分安全的控制這一模型,能夠支持遠程數據服務和挖掘的倉庫[4]。但是,對DSO進行使用,需要實現更多的編碼工作,與此同時,相應開發(fā)者必須對不同列的對象以及挖掘模型對象的屬性進行描述。
以SQLServer 2000為依據,分析了數據挖掘的具體方式。數據庫和數據分析解決方案的完整性,需要符合易用性,功能需滿足要求。隨著我國科學技術的不斷發(fā)展,相信會出現更加方便可靠的產品。
[1]俞蘭芳,石梅.高校管理信息系統(tǒng)數據倉庫設計研究[J].科技通報,2012,02:190-192.
[2]李凱.某出版社數據倉庫系統(tǒng)的設計與實現[J].無線互聯科技,2012,05:60-61.
[3]尚虎平.我國地方政府績效評估指標數據倉庫的代表性對象選取和構建——以江蘇四市為研究點[J].甘肅行政學院學報, 2012,04:4-15+127.
[4]賀明,賀海平.新病案首頁數據倉庫的構建和應用[J].中國數字醫(yī)學,2014,11:83-85.