999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘耦合與質量管理的研究

2008-12-31 00:00:00
中國管理信息化 2008年18期

[摘 要] 數據挖掘(Data Mining,DM)在應用于當前許多熱門領域的同時,也面臨著許多挑戰,其中,數據挖掘集成與質量管理問題越來越引起人們的關注。數據挖掘集成與質量管理問題主要包括數據挖掘資源的利用率,即數據挖掘的資源配置,包括數據挖掘系統、數據倉庫系統和Web數據庫系統的數據挖掘集成(耦合問題);數據挖掘系統的質量管理與評價,數據挖掘與軟件工程的相關理論、方法、工具等問題。本文闡述了數據挖掘系統的規范管理,說明了反規范方法在資源配置中的應用,以及合理應用數據挖掘資源耦合的重要意義。

[關鍵詞] 數據挖掘;耦合;資源配置;質量管理

[中圖分類號]F270.7[文獻標識碼]A[文章編號]1673-0194(2008)18-0058-05

1 前 言

數據挖掘(Data Mining,DM)被應用于當前許多熱門的領域,出現了大量的商品化的數據挖掘系統。然而,數據挖掘仍然面臨著許多挑戰,其中,數據挖掘集成與質量標準化管理問題越來越成為具有挑戰性的任務。在數據挖掘應用的發展道路上,面對的挑戰至少包括兩點:其一,數據挖掘資源的利用率,即數據挖掘的資源配置,包括數據挖掘系統、數據倉庫系統和Web數據庫系統的數據挖掘集成(耦合問題);其二,數據挖掘系統的質量管理與評價,數據挖掘與軟件工程的相關理論、方法、工具等問題。

耦合表示資源之間聯系的程度。數據挖掘的歷史相對較短但穩步發展,新的數據挖掘系統每年都會在市場上出現,新的功能、特性和可視化工具不斷地增加到相對穩定的已有系統上,并且在朝著數據挖掘語言標準化和管理標準化的方向努力。很顯然,在今天浩如煙海的數據中“淘金”,僅靠人力是無法做到的。

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。世界上最早的數據倉庫和數據挖掘應用是NCR公司在1981年為世界最大的連鎖超市集團Wal-Mart建立的,最早將數據倉庫提升到理論高度進行分析并提出數據倉庫這個概念的是著名學者W. H. Inmon。數據倉庫和數據挖掘是一個綜合的解決方案,主要用來幫助企業制定符合發展規律的相關決策。數據挖掘真正引起人們的普遍關注應該起始于該技術在各行業領域中的應用。近年來,數據挖掘技術在金融、電信、零售、醫療、科研等行業領域內發揮了巨大的作用。DM不僅是面向特定數據庫的簡單檢索、查詢和調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,試圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。例如加拿大BC省電話公司要求加拿大Simon Fraser大學KDD研究組,根據其擁有的10多年的客戶數據,總結、分析并提出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優惠政策。美國NBA的教練利用IBM公司提供的數據挖掘技術臨場決定替換隊員一度在數據庫界被傳為佳話。除傳統的領域外,數據挖掘技術被廣泛應用于娛樂業、制造業等更為廣泛的領域,政府行政、康復、反垃圾郵件等帶有公益性色彩的事業也開始應用數據挖掘技術。

值得注意的是,數據挖掘技術的出現,直接涉及技術與商務目的的互動,促進了將信息技術、管理和經濟學融合的思考和研究。正是數據挖掘,前所未有地將技術人員和商務人員結合在一起。對于數據挖掘耦合的研究具有重要的意義:借助軟件工程、經濟學的知識,研究數據挖掘資源的配置、耦合問題,實現交叉領域應用的突破;對于提高數據挖掘資源以及信息資源的利用效率具有重要的指導意義;對于管理信息系統以及數據倉庫結構的設計和質量評估具有重要的指導作用。

2 數據挖掘系統的管理

數據的質量管理至關重要。低質量的數據將影響企業經營決策行為的正確性和時效性,低質量的數據會使雇員對企業失去信心,顧客對錯誤的數據也是不能容忍的。而高質量的數據可能會帶來新的顧客,提升數據倉庫的利用率和企業IT投資的回報率。大量的實例證明:在數據倉庫使用的過程中,最耗費精力和時間的是數據的檢查和清洗工作。

2. 1如何組織一個數據挖掘項目

數據挖掘的項目可以說和商業智能、數據倉庫有著千絲萬縷的聯系,為了加強質量管理,有必要做好以下幾方面的事情:

(1)設計數據質量管理系統的解決方案。

(2)發現數據質量問題。開發和測試數據質量管理程序,設計異常處理程序。通過測試,列出常見的數據質量問題,分析問題,把問題上報相關的領導。

(3)建立質量管理組織,使質量管理工作得到領導的支持。

(4)加強質量管理的培訓。

(5)確定數據質量管理項目成功的標準。

(6)分析數據的質量。

(7)數據倉庫系統的開發方法。

數據倉庫系統的實現過程是:數據收集,數據集成,檢驗數據的偏差,設計決策支持系統DSS,分析結果,理解需求。

2. 2提高數據挖掘質量管理的成熟能力

在軟件成熟能力度集成模型CMMI中,從過程管理、項目管理、工程、支持等方面劃分建立了關鍵過程域,如表1所示。

在面向數據挖掘的項目開發和應用中,需要針對數據挖掘的環境,在進行需求定義與系統的設計時,盡量與數據倉庫和挖掘工具形成緊密耦合。一方面,合理地利用資源,集成資源;另一方面,借助于數據挖掘的環境,提高服務于決策的能力。本文主要討論針對數據倉庫、數據挖掘的信息系統如何管理。在成熟能力度模型的應用進程中,關鍵過程域的應用需要賦予其新的內涵。使用CMMI的重要價值不僅體現在關鍵過程域的應用上,更主要體現在提高可視化及通過度量與控制更好地滿足用戶要求。隨著研究對象與文檔的規范化程度的提高,從1級到5級信息系統的透明度會隨之增加。

在“組織級過程定義”的關鍵過程域中定義數據倉庫的開發過程,并將其鑲嵌在系統的開發周期中。其中,數據倉庫建設包括:實現數據倉庫、集成數據、檢驗偏差、編程、設計DSS系統、分析結果、理解設計需求。在此基礎上定義項目的需求。將上述數據倉庫變化內容和“需求管理”、“需求技術”、“決策分析和解決方案”的關鍵過程域結合。

具體地說,傳統的系統開發往往是從需求開始的,然后進入設計和實施階段。而數據倉庫的建立過程不是這樣的,它的需求需要經過數據分析后才能明確。也就是說,對于DSS(決策支持系統),首先,從數據和數據集成開始,經過數據檢驗、編寫程序、分析運行結果,在此基礎上,建立系統需求。也就是說,在需求定義時,需要經過不斷的反復,結合數據倉庫的技術和應用環境,反映在“組織級過程定義”的關鍵過程域。

集成管理在數據挖掘系統中占有重要的地位,包括數據、程序、系統平臺、數據庫或數據倉庫甚至網上資源的集成和共享,同時,包括資源的一致性、整合以及異構數據庫的集成質量管理和評價,并結合“組織級集成環境”、“集成化項目管理”等關鍵過程域的應用過程。

從1級到5級的另一個重要改進就是預測能力逐步提高。就像測量血壓、肝功等指標對人們的作用,度量的作用非同小可。在質量的階梯上,是重復級即“2級”使系統擺脫了混沌,

測試和分析的“4級”使系統進入了定量管理。我們不妨追溯質量的定義“穩定地滿足用戶的需要”,是否穩定?如何控制穩定?當從傳統的數據庫系統發展邁向數據挖掘系統時,測量系統質量的指標體系需要隨之調整,其中,測量關鍵過程域的主要內容如圖1所示。

一般地,管理者希望把積累多年的數據形成一張企業報表,但一方面,為了形成這樣一張表可能會花費很大費用;另一方面,每次查詢付出的代價較大,但只是一次性使用或再利用,這些形成的報表利用率不高。由此可以看

出,傳統的數據庫技術已無法滿足人們的需求,為此,數據倉庫、數據挖掘、OLAP技術應運而生。商務智能就是由數據倉庫、聯機分析處理(On Line Analytical Processing,OLAP)和數據挖掘3種信息技術應用于商務活動后形成的一組信息技術的應用技術,如圖2所示。

3 反規范處理與數據挖掘耦合設計

信息經濟學是信息科學與經濟科學相結合的產物。信息資源是與物質資源和能源并列的人類社會活動中重要的經濟資源。在21世紀的今天,人們已經接受“知識就是力量”、“科學技術是第一生產力”等觀念。原西方經濟學,將勞動力、資本和土地視為企業生產不可或缺的三大生產要素。隨著市場競爭的加劇以及新技術的迅速發展,決策、創新活動以及知識性勞動在企業追求利潤和資本保值的進程中的作用日漸突出,產生了第四、第五生產要素即“企業家的才能”和“知識”。勞動者智慧與知識的運用能力的貢獻將日益超過體力。所謂知識經濟,是以知識為基礎的經濟。在知識經濟時代,其他資源依然稀缺,但知識相對豐富并且可以共享,對知識的投資甚至會出現“邊際收益遞增”,但前提條件是對數據的有效配置、管理和利用。“資源配置的經濟性”應該是數據挖掘系統設計中的重要指標。具體地講,即數據挖掘系統與原有系統資源的集成問題。這里借用了一個名詞——“耦合”。在許多領域里用到耦合的概念?!榜詈稀笔侵竷蓚€實體相互依賴于對方的一個量度。計算機系統模塊設計的耦合度是對模塊之間相互依賴性大小的度量,耦合度越小,模塊的相對獨立性越大。

3. 1經濟學的次優理論與資源配置設計

配置是信息資源管理的重要問題,而配置問題的核心是對資源配置方式的設計和評價,在數據挖掘系統中,具體表現為對數據倉庫的設計和評價。配置(configuration)一詞在信息管理和經濟學研究中均占有特殊重要的位置。其中,資源合理配置是經濟學最主要的研究目標。配置一詞在計算機領域已有廣泛的應用。所謂“計算機系統配置”是指計算機系統或計算機部件按其組成的零件數量、性質及相互聯系所確定的安排。軟件配置的含意與之有一些差別。軟件開發過程中的變更以及相應的返工會對產品的質量造成很大的影響。如果不從配置管理方面加以控制,必將導致嚴重的后果。軟件配置管理的一個重要內容就是對變更加以控制,軟件配置管理主要是對軟件生存期間的各種階段產品和最終產品演化和變更的管理,它是軟件質量管理的重要組成部分。它的兩個關鍵點是:標識和變更控制。

3. 1. 1經濟學中的次優理論

自20世紀90 年代中期以來,許多國家對信息資源配置問題給予了高度重視。這里,暫不討論相關政策的制定,僅關注和分析一下相關經濟學理論對數據資源設計實踐的啟迪和指導意義。在傳統的資源配置研究方面,亞當·斯密(Adam Smith)很早就提出了“看不見的手”這一命題,他的理論體系認為市場配置的動力是那只“看不見的手”,也就是這樣的理論說明只要每一個人都從利己的目的出發,而最終全社會達到利他的結果。我們不妨重溫一下《國富論》中的一段名言:“通過追求(個人的)自身利益,他常常會比實際上想做的那樣更有效地促進社會利益。”而以后的納什均衡引出了“看不見的手”理論的一個悖論,動搖了西方經濟學的基石,是對亞當·斯密的“看不見的手”的原理的一個挑戰。著名的“囚徒困境”案例有著深刻的意義?!扒敉嚼Ь场卑咐f明個人理性與集體理性的沖突,個人追求自身利益導致的最終結局是對所有人都不利??梢哉f,“合作”是有利于己策略,并且,這種合作的前提是:按照你愿意別人對待的你的方式對待別人,但只有他們也以同樣方式行事才行!納什均衡理論是對經濟理論的大發展。帕累托最優(Pareto optimum)是指資源配置的任何改變都不可能在不使別人的境況變壞的情況下使一個人的境況變好。如果資源配置達到帕累托最優狀態,這表明在技術、消費者偏好、收入分配等條件給定時,資源配置達到最高效率,帕累托最優的狀態為完全競爭條件下的一般均衡。

帕累托最優的實現前提是完全競爭市場,而完全競爭的市場經濟是一個理想化的經濟模型,而現實存在的經濟體系不是完全競爭環境。因此,在現實經濟生活中,帕累托最優狀態是難以到達的。所以,在20世紀50年代,一些西方福利經濟學家提出了所謂次優理論(theory of the second best),次優理論不是追求達到帕累托最優,而是達到次優狀態。在數據倉庫的設計中,反規范處理可以看作是提高生產效率的次優設計的具體應用。

3. 1. 2次優理論與數據庫的反規范處理

數據庫的規范化處理是將一些復雜的、依賴的大表分解成若干個內容簡潔、關系清楚的小表。數據以二維表形式存儲,并遵循“一事一地”的原則,對數據表進行規范化。規范化的過程是將表逐步分解,將一個復雜的、冗余度較高的大表分解成為若干個內容簡潔、鏈接清楚的小表。如果一個關系滿足某一個指定的約束集,則稱它屬于某種特定的范式。按照規范的程度不同,數據庫規范化分為:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、BCNF以及第四范式(4NF)等。

但在查詢過程中,往往感到這些完全規范化后的小表不實用。查詢時,涉及大量的小表間關聯的操作,對CPU運算和數據庫存儲造成很大的壓力。如果從經濟的角度出發,完全嚴格的規范化設計不一定是合適的方案,需要進行“反規范處理”?!胺匆幏痘碧幚戆ū砀窈喜?、數據冗余、分解表格等方法。在關系型數據庫的設計中,為了減少數據的混亂、冗余、過分依賴,為了便于鏈接和維護,在此基礎上,為了便于實際操作,尤其是為了適合大規模的數據查詢,需要進行必要的反規范處理,以適當犧牲存儲空間為代價,促進系統整體能力的提升。反規范處理可以包括適當設置數據冗余、表格合并、對表格在原規范化的基礎上進一步分解等措施。

3. 1. 3反規范處理的例子

例1適當設置數據冗余,提高查詢效率

數據流程圖舉例。某單位新建就餐卡自動化售餐系統來替代用飯票的手工方式。在該系統中對就餐的職工建立就餐卡管理文件。該系統具有如下功能:①就餐卡申請功能:申請者填寫申請表送系統處理,系統核實申請者為本單位職工后,在就餐卡管理文件中填寫一條記錄,發給申請者一張就餐卡。②存款功能:新的就餐者在使用就餐卡前須在卡上存入一定數量的錢。老的就餐者在卡上的錢用完以前也須續存。存款時就餐者將卡和錢交由管理人員輸入系統,系統根據卡號,將存款數加到就餐卡管理文件中。③購餐功能:購餐時就餐者將卡插入售餐窗口上的讀卡機,系統根據卡上的卡號從就餐管理文件上減去所用金額。當卡上的錢數不夠時,不讓購餐。④對賬功能:當就餐者要求時,可根據卡號打印該月的就餐者存款和購餐的對賬單,其格式為:

數據流程圖描述如圖3所示。

第一步:文件規范化。文件規范后,形成的第三范式的文件見表2。

第二步:反規范處理。鑒于用戶在明細查詢中經常查詢到姓名,為了減少文件的訪問次數和鏈接的處理,在明細文件中添加“姓名”進行反規范處理,見表3。

例2學生數據庫的反規范處理

第一步:文件規范化。文件規范后,形成的第三范式的文件見表4。

第二步:反規范處理。在成績文件中添加“姓名”、“課程名”,便于成績查詢時減少文件鏈接的次數和時間,見表5。

例3表格分解處理

反規范的另一個措施,是在訪問率相差懸殊時,對表格在原規范化的基礎上進一步分解,表6給出了一個例子。賬號和余額是經常用到的,為了提高I /O效率,將表格進一步分解,把經常被訪問的數據放在一起。

3. 2提高系統設計的耦合程度

按照數據挖掘系統(DM)和數據倉庫/數據庫(DW/DB)耦合程度,耦合可分成以下幾種形式:緊密耦合、半緊密耦合、松散耦合和無耦合,具體說明如下:

(1)緊密耦合(tight coupling)是將數據挖掘子系統視為信息系統的一個功能組件。數據挖掘查詢功能根據DB或DW系統的挖掘查詢分析、數據結構、索引模式和查詢處理方法優化。緊密耦合意味著DM系統平滑地集成到DB/DW系統中。

(2)松散耦合(loose coupling)與半緊密耦合(semi tight coupling)是指DM系統連接到DB/DW,從DB/DW中提取數據,有些基本數據挖掘原語(通過分析頻繁遇到的數據挖掘功能確定)由DB/DW提供。這些原語包括排序、索引、聚集、直方圖分析、多路連接等統計度量功能。

(3)無耦合(no coupling)是指在數據挖掘系統(DW)中沒有利用數據庫/數據倉庫(DB或DW)的任何功能,它的數據處理是通過特定的數據來源如文件進行的。在這種方式下,DB/DW提供的很好的資源沒有得到充分的利用。

可以看出:數據挖掘系統與DB/DW系統實現某種耦合至關重要。一方面,從質量管理方面考慮,應提高信息一致性、規范性處理以及集成處理的能力即成熟能力;另一方面,從經濟上,應避免資源混亂和浪費,合理地配置資源,提高資源的共享和整合能力。所以,提高數據挖掘系統與DB/DW系統的耦合度具有重要的管理意義和經濟意義。

綜上所述,數據挖掘能夠使決策者們獲取及時準確的信息,以理解商務活動并做出智能化的、更有效的決策,即從海量的數據中提取有用的信息并轉化為商務知識。針對數據庫到數據挖掘技術的轉化,需要在經濟上、管理上進行必要的策劃和調整。首先,從經濟上考慮,通過提高系統耦合度,提高資源的共享程度;通過反規范化處理,提高查詢的效率。在質量管理方面,針對數據倉庫的特點,調整管理對象和集成管理的對象,仍然以規范化、集成化、定量化管理為主線,強化資源配置的意識,借助經濟、管理、質量管理的知識體系,為數據挖掘信息系統的質量管理提供策略。

主要參考文獻

[1] 楊一平,馬慧. 管理信息系統[M]. 北京:經濟科學出版社,2006.

[2] 池太崴. 數據倉庫結構設計與實施——建造信息系統的金字塔[M]. 北京:電子工業出版社,2005.

[3] 袁玉波. 數據挖掘與最優化技術及其應用[M]. 北京:科學出版社,2007.

主站蜘蛛池模板: 一区二区偷拍美女撒尿视频| 亚洲有码在线播放| 国产高清免费午夜在线视频| 久久精品波多野结衣| 伊人久久大香线蕉影院| 久久a级片| 国产综合在线观看视频| 美女一级毛片无遮挡内谢| 日韩欧美在线观看| 无码日韩人妻精品久久蜜桃| 色精品视频| 天天操精品| 久久天天躁狠狠躁夜夜2020一| 日韩视频福利| 免费午夜无码18禁无码影院| 成人精品在线观看| 真实国产精品vr专区| 国产一区二区三区夜色| 无码一区二区波多野结衣播放搜索| 91精品专区| 乱人伦中文视频在线观看免费| 亚洲人成日本在线观看| 久久伊人操| 青青草原国产av福利网站| 精品福利网| 亚洲精品国偷自产在线91正片| 日韩毛片基地| 日韩精品亚洲一区中文字幕| aa级毛片毛片免费观看久| 欧美一级大片在线观看| 国产正在播放| 精品综合久久久久久97超人该| 欧美激情第一区| 亚洲人成人无码www| 日韩中文字幕免费在线观看| 538国产在线| 国产成人精品综合| 亚洲精选无码久久久| 国产精品免费露脸视频| 欧美色视频在线| 欧美天堂久久| 伊人成人在线| 亚瑟天堂久久一区二区影院| 中文字幕亚洲综久久2021| 国产精品女在线观看| 久久久久国产精品嫩草影院| 国产亚洲男人的天堂在线观看| 婷婷六月综合| 欧美色视频日本| 成人国产小视频| 国产精品天干天干在线观看| 欧美久久网| 69av免费视频| 久99久热只有精品国产15| 亚洲AV无码久久天堂| 国产91丝袜在线观看| 日韩中文字幕亚洲无线码| 在线观看国产精品日本不卡网| 99久久婷婷国产综合精| 国产va欧美va在线观看| 国产清纯在线一区二区WWW| 97久久精品人人做人人爽| 婷婷伊人久久| 亚洲 欧美 偷自乱 图片| 欧美福利在线播放| 免费一极毛片| 欧美成a人片在线观看| 精品国产成人a在线观看| 国产成人亚洲综合A∨在线播放| 国产成人高清精品免费| 九九久久99精品| 乱系列中文字幕在线视频| av在线5g无码天天| 国产永久在线视频| 99re精彩视频| 欧美另类精品一区二区三区 | 亚洲无码37.| h网站在线播放| 无码高潮喷水在线观看| 久久黄色免费电影| 国产91蝌蚪窝| 欧美一级高清片久久99|