摘 要:隨著社會的發展,數據倉庫與數據挖掘研究行業也越來越成熟。近年來,該行業的中心點已由原來的事務處理逐漸趨向現在的分析處理。近些年的研究熱點也相對集中于數據庫的分析技術,如:數據倉庫數據挖掘等。如今這方面的探索和利用,已經邁過了十余個年頭,并得出了許多研究成果,為下一步的研究與發展奠定了很好的理論基礎,目前正努力使之與實際相結合,加大其實際操作過程中的利用程度,使現有的技術在改造方面進一步得到發展。本文主要總結了近年來這些領域上的研究成果。
關鍵詞:數據倉庫 數據挖掘 進展
中圖分類號:TP311.13文獻標識碼:A文章編號:1673-9795(2012)10(a)-0179-01
隨著社會的發展,數據倉庫與數據挖掘研究行業也越來越成熟,數據庫技術的應用也得到不斷推廣和深入,該行業的中心點已由原來的事務處理逐漸轉換、趨向現在的分析處理,以數據倉庫為基礎,在形成的一系列新技術里,其核心就是聯機分析系統的研發和數據挖掘技術的深入。這些技術目前已經逐步投入到實際使用中。關于這些技術的研發與探討工作也成為該領域研究的熱門話題。
1 數據倉庫系統
各種數據源的類型多種多樣,其中包括各種關系數據庫的管理系統、文件系統等,當然,有事也含有WEB上數據,這些數據在質量上、各有各的特點,多種多樣,在數據模式的設計上也是千差萬別,在各自專一的項目上也是獨樹一幟,各領風騷,導致這些不同原因主要是數據來源的不統一。這就給在數據集成過程中造成很多不便,所以,現在在數據集成過程中是主要難點就體現在數據模式設計、數據的清洗、數據轉換、導人、更新等方法,截止目前數據倉庫系統的研究工作也重點關注和投入在這些方面。
現在我們再來談一下數據清洗的問題。在數據清洗工作中,是否能夠準確、高效的發現重復數據并予以刪除是該項工作的重要問題。因為數據源的多種多樣,這就不可避免的出現很多相同重復的數據,也就是復本,同時,各個數據源的質量也是千差萬別,由于錄入的的方法不同,如拼寫錯誤,活著錄入者的一些不一致的微小習慣造成的細微差別,被人客觀的誤認為是不同的數據。為了提高整個數據庫的質量,就需要將這些重復的數據找出來并進行逐個刪除,以保證數據的可靠性。尋找數據庫中的重復數據需要合理高效的方法,當前主要參考采用一些標準文本相似性的匹配方法及,就像編輯距離等。但這些方法卻不能解決一些特殊的問題,如語義上的相似性判定問題等。為了尋找解決這個問題的辦法,經過努力,相關學者就數據倉庫中的唯表方面研究并提出了一種高效、新型的尋找方法,這種除了通過參考數據間字符串后呈現出的相似程度來判斷這兩個元組對象是否有相同的特點,還利用維表中提供的數據含有的的層次關系,再從語義上對比出所要判斷數據的相似程度。
在數據集成中,數據源的數據是多種多樣的,一般分為:關系數據庫、XML半結構化數據等,因此,這些不同的數據源中的數據在在訪問方式是也不盡相同,也有些數據訪問應用系統接口,數據模式在設計中也顯得不同。要將這些不同的數據裝入數據庫,且保證數據中所含有的信息不丟失,即保證模式的匹配、模式中語義的一致,就成了一項重要的研究目標。目前我們大多數使用的方式為把要用到的數據源中的數據轉換成特定的中間形式,就像統一模式的XML文本那樣,然后再將數據裝入數據倉庫。
2 聯機分析技術
數據倉庫與數據挖掘研究行業要想得到更深入的發展聯機分析技術是非常關鍵的一項。在數據倉庫映眾中,出現越來越多的大量的聚集操作,聯機分析就是在這樣的條件下誕生的一項新技術。聯機分析技術分為兩個類型:一類是根據關系數據庫系統形成的練級分析系,俗稱ROLAP,它的基本原理就是使數據倉庫里面的數據能夠進行合理組合,可以直接迅速的通過關系條件查詢信息,使聯機分析系統能夠擁有下鉆、上翻、分片、分塊等功能。當前我們所用到的關系數據庫管理系統均擁有信息查詢功能。另一類是根據多維模型形成的聯機分析系統,俗稱MOLAP,它的基本原理是多維數組宴珊聯機分析系統,常用于怎樣減少存儲空間等方面的問題研究,以此來提高該系統在查詢方面的性能。這兩類聯機分析系統這些年都有獨特的論述見解以論文方式出現在各種刊物上。與之同步進行的是OLAP系統在應用方面的大力推廣,使相關學者對在OLAP系統中的體系結構一類問題的探討也發生了的興趣,還有一些學者就集群結構方面的OLAP系統研發了一種對數據在實時過程中敏感的中間件的系統。能夠使系統查詢更加準確、一致,也能夠全面提高集群系統的性能發揮的效率。
截止目前,我們隊ROLAP實現的技術方面已經研究了很長一段時間,通常在增強ROLAP的執行效率的手段主要表現在兩方面:一個是使用物化視圖效果的原理,它的做法是把用戶可能用到的信息查詢提前總結好,這樣我們的用戶在實施查詢時,從已經完成的數據、視圖來入手,就能夠很快的得到需要查詢的最終結果。在這里面,最重要的問題就是如何選擇物化視圖和實現的查詢。另一個方面就是以OLAP查詢種用到的的索引結構為研究參考對象,我們常用的是利用位圖的索引等。現在,查詢優化技術方面與現有方法的改進和進行新研究、為該行業力求突破的研發方向。
等聯機分析系統里含有的數據立方體能夠建立之后,我們有了根據這種結構系統回答各類OLAP的查詢條件。近年來我們的研究人員對研究怎樣根據數據立方體能夠解決那些更加有深度的查詢幫助做出了很大的努力。數據立方體里面通常都含有無數的數據信息,怎樣讓我們的用戶全面的認識立方體中含有的信息是需要繼續探討的一個關鍵問題。
3 數據挖掘
數據挖掘、數據分析主要表現為分析與挖掘流數據。流數據不同于一般數據,它的特點往往表現為數據量巨大,無法完整的將它存儲在某種中間介質中,也就無法對這些數據進行分析和計算。流數據在實際應用中發揮的作用又大,實際應用背景廣泛,在電信、傳感器等數據量出現的快且量大的行業中有很重要的作用。由于當前使用手段較多,這里不做一一介紹。
4 結語
隨著數據庫技術的不斷發展及數據庫管理系統的廣泛應用,數據庫中存儲的數據量急劇增大,在大量的數據背后隱藏著許多重要的信息,如果能把這些信息從數據庫中抽取出來,將為公司創造很多潛在的利潤,對企業和團隊的下一步計劃有很大的幫助,因此,做好該方面的研究工作,對社會及企業都有很大的影響。
參考文獻
[1]王玉芬.基于數據倉庫的決策支持研究[J].商場現代化,2007(3):15.
[2]陳文偉.黃金才.數據倉庫與數據挖掘[M].北京:人民郵電出版社,2004.