999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

談數據倉庫與數據挖掘教學研究

2012-12-31 00:00:00王慶福
中國科教創新導刊 2012年28期

摘 要:隨著社會的發展,數據倉庫與數據挖掘研究行業也越來越成熟。近年來,該行業的中心點已由原來的事務處理逐漸趨向現在的分析處理。近些年的研究熱點也相對集中于數據庫的分析技術,如:數據倉庫數據挖掘等。如今這方面的探索和利用,已經邁過了十余個年頭,并得出了許多研究成果,為下一步的研究與發展奠定了很好的理論基礎,目前正努力使之與實際相結合,加大其實際操作過程中的利用程度,使現有的技術在改造方面進一步得到發展。本文主要總結了近年來這些領域上的研究成果。

關鍵詞:數據倉庫 數據挖掘 進展

中圖分類號:TP311.13文獻標識碼:A文章編號:1673-9795(2012)10(a)-0179-01

隨著社會的發展,數據倉庫與數據挖掘研究行業也越來越成熟,數據庫技術的應用也得到不斷推廣和深入,該行業的中心點已由原來的事務處理逐漸轉換、趨向現在的分析處理,以數據倉庫為基礎,在形成的一系列新技術里,其核心就是聯機分析系統的研發和數據挖掘技術的深入。這些技術目前已經逐步投入到實際使用中。關于這些技術的研發與探討工作也成為該領域研究的熱門話題。

1 數據倉庫系統

各種數據源的類型多種多樣,其中包括各種關系數據庫的管理系統、文件系統等,當然,有事也含有WEB上數據,這些數據在質量上、各有各的特點,多種多樣,在數據模式的設計上也是千差萬別,在各自專一的項目上也是獨樹一幟,各領風騷,導致這些不同原因主要是數據來源的不統一。這就給在數據集成過程中造成很多不便,所以,現在在數據集成過程中是主要難點就體現在數據模式設計、數據的清洗、數據轉換、導人、更新等方法,截止目前數據倉庫系統的研究工作也重點關注和投入在這些方面。

現在我們再來談一下數據清洗的問題。在數據清洗工作中,是否能夠準確、高效的發現重復數據并予以刪除是該項工作的重要問題。因為數據源的多種多樣,這就不可避免的出現很多相同重復的數據,也就是復本,同時,各個數據源的質量也是千差萬別,由于錄入的的方法不同,如拼寫錯誤,活著錄入者的一些不一致的微小習慣造成的細微差別,被人客觀的誤認為是不同的數據。為了提高整個數據庫的質量,就需要將這些重復的數據找出來并進行逐個刪除,以保證數據的可靠性。尋找數據庫中的重復數據需要合理高效的方法,當前主要參考采用一些標準文本相似性的匹配方法及,就像編輯距離等。但這些方法卻不能解決一些特殊的問題,如語義上的相似性判定問題等。為了尋找解決這個問題的辦法,經過努力,相關學者就數據倉庫中的唯表方面研究并提出了一種高效、新型的尋找方法,這種除了通過參考數據間字符串后呈現出的相似程度來判斷這兩個元組對象是否有相同的特點,還利用維表中提供的數據含有的的層次關系,再從語義上對比出所要判斷數據的相似程度。

在數據集成中,數據源的數據是多種多樣的,一般分為:關系數據庫、XML半結構化數據等,因此,這些不同的數據源中的數據在在訪問方式是也不盡相同,也有些數據訪問應用系統接口,數據模式在設計中也顯得不同。要將這些不同的數據裝入數據庫,且保證數據中所含有的信息不丟失,即保證模式的匹配、模式中語義的一致,就成了一項重要的研究目標。目前我們大多數使用的方式為把要用到的數據源中的數據轉換成特定的中間形式,就像統一模式的XML文本那樣,然后再將數據裝入數據倉庫。

2 聯機分析技術

數據倉庫與數據挖掘研究行業要想得到更深入的發展聯機分析技術是非常關鍵的一項。在數據倉庫映眾中,出現越來越多的大量的聚集操作,聯機分析就是在這樣的條件下誕生的一項新技術。聯機分析技術分為兩個類型:一類是根據關系數據庫系統形成的練級分析系,俗稱ROLAP,它的基本原理就是使數據倉庫里面的數據能夠進行合理組合,可以直接迅速的通過關系條件查詢信息,使聯機分析系統能夠擁有下鉆、上翻、分片、分塊等功能。當前我們所用到的關系數據庫管理系統均擁有信息查詢功能。另一類是根據多維模型形成的聯機分析系統,俗稱MOLAP,它的基本原理是多維數組宴珊聯機分析系統,常用于怎樣減少存儲空間等方面的問題研究,以此來提高該系統在查詢方面的性能。這兩類聯機分析系統這些年都有獨特的論述見解以論文方式出現在各種刊物上。與之同步進行的是OLAP系統在應用方面的大力推廣,使相關學者對在OLAP系統中的體系結構一類問題的探討也發生了的興趣,還有一些學者就集群結構方面的OLAP系統研發了一種對數據在實時過程中敏感的中間件的系統。能夠使系統查詢更加準確、一致,也能夠全面提高集群系統的性能發揮的效率。

截止目前,我們隊ROLAP實現的技術方面已經研究了很長一段時間,通常在增強ROLAP的執行效率的手段主要表現在兩方面:一個是使用物化視圖效果的原理,它的做法是把用戶可能用到的信息查詢提前總結好,這樣我們的用戶在實施查詢時,從已經完成的數據、視圖來入手,就能夠很快的得到需要查詢的最終結果。在這里面,最重要的問題就是如何選擇物化視圖和實現的查詢。另一個方面就是以OLAP查詢種用到的的索引結構為研究參考對象,我們常用的是利用位圖的索引等。現在,查詢優化技術方面與現有方法的改進和進行新研究、為該行業力求突破的研發方向。

等聯機分析系統里含有的數據立方體能夠建立之后,我們有了根據這種結構系統回答各類OLAP的查詢條件。近年來我們的研究人員對研究怎樣根據數據立方體能夠解決那些更加有深度的查詢幫助做出了很大的努力。數據立方體里面通常都含有無數的數據信息,怎樣讓我們的用戶全面的認識立方體中含有的信息是需要繼續探討的一個關鍵問題。

3 數據挖掘

數據挖掘、數據分析主要表現為分析與挖掘流數據。流數據不同于一般數據,它的特點往往表現為數據量巨大,無法完整的將它存儲在某種中間介質中,也就無法對這些數據進行分析和計算。流數據在實際應用中發揮的作用又大,實際應用背景廣泛,在電信、傳感器等數據量出現的快且量大的行業中有很重要的作用。由于當前使用手段較多,這里不做一一介紹。

4 結語

隨著數據庫技術的不斷發展及數據庫管理系統的廣泛應用,數據庫中存儲的數據量急劇增大,在大量的數據背后隱藏著許多重要的信息,如果能把這些信息從數據庫中抽取出來,將為公司創造很多潛在的利潤,對企業和團隊的下一步計劃有很大的幫助,因此,做好該方面的研究工作,對社會及企業都有很大的影響。

參考文獻

[1]王玉芬.基于數據倉庫的決策支持研究[J].商場現代化,2007(3):15.

[2]陳文偉.黃金才.數據倉庫與數據挖掘[M].北京:人民郵電出版社,2004.

主站蜘蛛池模板: 美臀人妻中出中文字幕在线| 欧美午夜一区| 国产成人免费手机在线观看视频 | 69免费在线视频| 22sihu国产精品视频影视资讯| 小说区 亚洲 自拍 另类| 午夜国产不卡在线观看视频| 999精品视频在线| 国产杨幂丝袜av在线播放| 日韩中文无码av超清| 91精品人妻互换| 国产成人精品亚洲日本对白优播| 亚洲中文无码av永久伊人| 2022国产91精品久久久久久| 免费福利视频网站| 亚洲黄色网站视频| 999福利激情视频| 国产精品成人一区二区不卡 | 久久特级毛片| 国产激情第一页| 色首页AV在线| 中文字幕 91| 国产精品一线天| 91免费片| 日本午夜精品一本在线观看| 久久香蕉国产线看观看精品蕉| 精品無碼一區在線觀看 | 国产精品区网红主播在线观看| 久久久91人妻无码精品蜜桃HD| 国产91精选在线观看| 国产日韩精品欧美一区灰| 国产中文一区二区苍井空| 曰韩人妻一区二区三区| 91美女在线| 日韩精品欧美国产在线| 99在线观看免费视频| 欧美中出一区二区| 国产91精品调教在线播放| 久久综合一个色综合网| 99re热精品视频中文字幕不卡| 中日韩欧亚无码视频| 精品少妇三级亚洲| 三级国产在线观看| 97色伦色在线综合视频| 国产丝袜91| 亚洲欧美国产五月天综合| 四虎永久在线| 国产日本视频91| 国产va免费精品观看| 国产一级特黄aa级特黄裸毛片| 免费人成视网站在线不卡| 国产精品丝袜视频| 美女毛片在线| 国产国产人成免费视频77777| 精品亚洲国产成人AV| 91精品国产福利| 国产在线高清一级毛片| 手机看片1024久久精品你懂的| 中文字幕va| 久久精品最新免费国产成人| 国产欧美又粗又猛又爽老| 亚洲视频二| 性视频久久| 国产成人精品在线1区| 波多野结衣无码AV在线| 欧美 亚洲 日韩 国产| 在线观看亚洲人成网站| 中文字幕无线码一区| 亚洲成aⅴ人片在线影院八| 亚洲无码视频一区二区三区| 成人年鲁鲁在线观看视频| 黄色a一级视频| 中文字幕 91| 欧美日韩国产高清一区二区三区| 丁香五月激情图片| 国产丝袜91| 亚洲一级毛片| 国产一区免费在线观看| 亚洲色无码专线精品观看| 亚洲国产亚洲综合在线尤物| 亚洲国产精品无码AV| 2021国产精品自拍|