999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對統計學領域數據挖掘研究的反思

2010-03-22 16:06:31韓兆洲
統計與決策 2010年10期
關鍵詞:數據挖掘數據庫方法

安 康,韓兆洲

(暨南大學a.經濟學院;b.教育學院,廣州 510632)

數據挖掘的正式研究始于1995年在加拿大召開的第一屆“知識發現和數據挖掘”國際學術會議,由此,數據挖掘一詞很快流傳開來。數據挖掘是一門交叉學科,它匯聚了統計學、數據庫、人工智能、計算科學等不同學科和領域,近年來受到各界的廣泛關注。

數據挖掘與統計學有著密切的關系。數據挖掘的出現為統計學提供了一個新的應用領域,同時也對統計學的理論研究提出了挑戰,數據挖掘的出現無疑將推動統計學的發展。近年來,國內的許多統計學者從統計學視角對數據挖掘進行了理論及應用研究,取得了一定的研究成果。

1 統計學領域對數據挖掘研究的現狀

研究現狀,涉及數據挖掘在統計學界的研究成果、研究階段和研究內容三個方面。

1.1 研究成果

2009年cssci收錄統計學專業期刊共4類,分別為《統計研究》、《統計與決策》、《統計與信息論壇》、《數理統計與管理》。從研究成果看,就筆者所能收集到的資料以及期刊網統計,至少有:關于譯著1部——《統計學習基礎:數據挖掘、推理與預測》,專著6部,核心期刊文章85篇,其中發表在權威期刊《統計研究》上的文章14篇,發表在期刊《統計與決策》上的文章45篇,發表在期刊《統計與信息論壇》上的文章15篇,發表在期刊《數理統計與管理》上的文章11篇。歷史地看,這些成果對于數據挖掘在統計學中的研究都發揮著不同的作用。韓明2001年在《統計研究》上發文《數據挖掘及其對統計學的挑戰》,文章第一次指出數據挖掘對統計學提出新問題,正式吹響了數據挖掘進駐統計學研究領域的號角。張堯庭教授和謝邦昌教授是真正將數據挖掘引入統計學研究的引路人,2002~2003年他們合作的3篇文章發表于 《統計研究》上,此時的研究仍是將數據挖掘引入統計學的階段,以他們為核心的學術團隊對于數據挖掘在統計研究的貢獻體現在兩方面:一是明晰了數據挖掘的概念;二是介紹了數據挖掘的簡單規則和方法。薛薇2002年也在《統計研究》上發文《基于統計數據的OLAP數據挖掘技術》,目的是介紹數據挖掘的基本方法。朱建平教授是數據挖掘在統計研究方面的主力軍,朱建平教授及其團隊一直以數據挖掘作為研究方向,在2004~2008年間,共發表數據挖掘研究方面相關文章15篇,其中6篇發表于權威期刊《統計研究》,建立了較完整的數據挖掘的方法和知識體系。文章不僅包括了對數據挖掘的理論介紹,而且還探討了對數據挖掘技術的統計學改進。

1.2 研究階段

從發展時期上來看,數據挖掘研究在統計學中的應用也經歷了以下幾個階段。(1)初始階段(2001~2003年)。在這個階段國內數據挖掘初露端倪,這段時間相關研究論文不多,僅有10篇研究文章刊發,研究內容主要從宏觀上對數據挖掘技術進行描述。(2)激增階段(2004~2005年)。這階段研究論文有顯著增長,有33篇研究文章刊發。2003年的發文量比前3年的發文量總和還要多,2004年發文量達到了20篇,這說明學術界開始重視數據挖掘的研究。研究內容也呈現出多樣性,既包括數據挖掘技術方法研究,也包括數據挖掘的應用研究。(3)應用階段(2006~2007年)。這階段共有18篇研究文章刊發。從學術研究的角度分析,數據挖掘的研究正逐漸走向成熟并開始向其他領域滲透。

1.3 研究內容

從研究內容看,迄今為止有關數據挖掘的研究,內容主要集中在以下四個方面。

第一,對數據挖掘概念的界定。數據挖掘的概念在表述上雖仍存有不同,但是內涵上基本達成一致。對數據挖掘通行的定義是:數據挖掘是指一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。

第二,數據挖掘的功能和任務。數據挖掘的程序及功能已基本達成共識,可概括如下:(1)數據總結。通過對數據的總結,實現對原始數據的總體把握;(2)分類。找出一個類別的概念描述,根據數據的屬性將數據分派到不同的組中;(3)關聯分析。對兩個或多個取值重復出現且概率很高的數據項建立起關聯規則;(4)聚類分析。按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合;(5)預測。利用歷史數據找出變化規律并用此模型來預測未來數據的種類特征等;(6)序列發現。從與學習任務相關的一組數據中提取出表達該數據集總體特征的特征式。

第三,對數據挖掘的方法技術改進。數據挖掘的傳統方法技術包括了關聯規則挖掘、神經網絡方法、可視化技術、粗糙集方法等,許多統計學者從統計學的視角對這些數據挖掘方法提出改進。劉云霞、曾五一提出一種基于可辨識矩陣的離散化方法,該方法既能夠反映“區間內的一致性和區間之間的差異性”的原則又能夠較好地克服Chi2算法的不足。朱建平、謝邦昌從統計學的角度對數據關聯規則挖掘進行了剖析,并利用相應分析方法,對關聯規則A—>B進行了“提升”。來升強、朱建平提出用粗糙集方法選擇出最優子空間,并利用等價關系的屬性集產生分類的大型數據聚類方法。朱建平、張潤楚在探討事務性數據庫的壓縮問題時,將統計思想與Rough集理論相結合,提出了一些新方法以達到數據庫壓縮的目的。殷瑞飛、朱建平基于Q型因子分析的基本思想,結合對應分析方法,建立了一種適用于大型數據庫聚類的方法。李金昌、徐雪琪在提出數據挖掘存在質量問題時,提出了處理數據挖掘質量問題的一系列方法。朱梅紅提出了數據挖掘中抽樣技術方法的應用。劉云霞提出了基于似然比假設檢驗的連續屬性離散化方法。謝佳斌、金勇進提出采用放回的、與樣本單元權數大小成比例的再抽樣方法實現“事后”自加權設計,以使得后的子樣本可以直接采用數據挖掘算法進行分析。

第四,對數據挖掘應用技術的研究。數據挖掘的應用研究是最活躍的研究領域之一。目前,數據挖掘的研究領域已遍及包括金融業、電信業、營銷業、零售商、制造業、醫療保健、制藥業等各行業。朱順泉對房地產業上市公司的統計數據進行挖掘,不僅輔助企業透視企業財務狀況,做出合理的投資決策,而且各上市公司可以根據自己的營運等級,找出問題所在,修正自己公司的經營模式;王維佳應用數據挖掘對電信客戶流失進行分析預測,及時的給電信運營商提供決策依據,保障電信服務業達到以客戶為中心;劉京軍在信用管理領域應用數據挖掘,不僅對信用申請者申請的接受與否進行分類和判斷,而且對顧客的行為計分以及利潤模型進行了研究;張俊妮采用某個給顧客直郵產品目錄的公司的真實數據,討論了如何使用數據挖掘方法對歷史數據進行分析,從而提高直郵的營銷效率;丁文捷應用數據挖掘技術研究分析服裝企業生產過程形成的近百萬條人體量體數據、銷售數據,從而為服裝投產號型決策提供依據;高雷使用數據挖掘的方法,在歷史數據中探討了政策和股市走勢之間的深層關系。王建仁通過建立銀行數據倉庫,運用數據挖掘技術進行銀行客戶關系管理。

2 統計學領域數據挖掘研究興起的原因

2.1 社會支持

社會經濟的向前發展使得統計學領域呼喚數據挖掘。傳統的統計分析技術都基于較完善的數學和統計理論,預測的準確度較高,但傳統的統計方法對統計數據要有規模限制,而且對數據的質量要求比較嚴格,如果數據不滿足這些條件,則需要運用一些方法進行相應處理。但隨著社會的進步,社會經濟出現了一些新現象,我們在信息社會中面臨著浩如煙海的數據,這些數據數量龐大,而且分布狀態難以把握,因此在對這些數據處理時,很難預先假定好試驗方法和抽樣方法,傳統的統計學顯得無所適從,因此傳統的統計學呼喚著數據挖掘。數據挖掘針對的正是這些大量、巨量、超巨量的數據,正如數據挖掘定義的那樣,數據挖掘是從大規模數據中找出隱藏其中的有意義、重要的信息或模式的探索過程。數據挖掘技術的目標就是從大量的數據中,發現隱藏于其后的規律或數據間的關系,從而服務于決策。

數據挖掘的興起還同計算機硬件、軟件的發展與數據庫技術的推進密不可分。計算機硬件的高速發展給數據挖掘研究的推進提供了技術上的可能性,統計軟件的發展也促進了數據挖掘研究在統計領域的崛起,SAS、MATLAB等主流統計軟件都包含有數據挖掘功能,國內馬克威軟件、Qstat軟件也都將數據挖掘功能融入其中。這些都為數據挖掘在統計領域的展開提供技術支撐。數據庫技術的發展是數據挖掘研究興起的另一主要原因。通常大規模的數據是以數據庫形式保存的,因此可以認為數據庫技術是數據挖掘的起點。自20世紀80年代中期以來,數據庫技術的特點是廣泛接受關系技術,研究和開發新的、功能強大的數據庫系統。這些推動諸如擴充關系模型、面向對象模型、對象-關系模型和演繹模型等先進的數據模型的發展。包括空間的、時間的、多媒體的、主動的、流的和知識庫在內的數據庫系統百花齊放,同數據的分布、多樣性和共享有關的問題被廣泛研究,異構數據庫系統和基于WEB的全球信息系統也已出現,并成為信息產業的主力軍。

2.2 學術支持

社會的發展和技術的進步促進數據挖掘研究的展開和深入。國內漸漸形成了數據挖掘研究的良好學術氛圍,具體表現為:(1)數據挖掘已成為我國統計學科的一個新的生長點,許多大學在本科階段開設了相關課程,在碩士階段設立了相關研究方向;(2)統計學研究的兩個主要學術陣地中國人民大學和廈門大學建立了專門針對數據挖掘的學術機構,2001年中國人民大學統計學院成立了數據挖掘中心,這是國內較早開展數據挖掘應用和理論探索的團隊,也是在統計學領域較早研究數據挖掘應用的組織。2007年廈門大學計劃統計系成立數據挖掘中心(簡稱DMC),推進了數據挖掘在統計領域的研究發展;(3)一些著名的統計學者開始表現出對數據挖掘的持續關注,尤其值得一提的是朱建平教授和謝邦昌教授。朱建平教授及其領導的團隊培養了大批的博士、碩士研究生,謝邦昌教授是統計領域數據挖掘的引路人,他對國內統計領域的數據挖掘一直保持高度關注;(4)學術雜志開辟的專欄與學術研討會進一步推動了數據挖掘的研究。廈門大學計劃統計系主辦的國際金融數據挖掘研討會和中國人民大學統計學院主辦的中國數據挖掘與商業智能研討會已經形成一種長效機制,一些雜志也開辟了相關的研究專欄,這些都有利于統計學領域中對數據挖掘的研究。按照特里·庫珀的觀點,判斷一個學術領域研究是否成熟的標準主要有三條:存在著一個對該領域長期感興趣的學者群體、有連續性的出版物來推動理論的發展、在大學職業教育課程中設立學術性的課程。以這三個標準衡量,盡管數據挖掘的研究在我國還有很大差距,但已有了長足進展。

3 統計學領域數據挖掘研究的定位

3.1 研究內涵

在統計領域開展數據挖掘研究,我們先要回答兩個關鍵問題,第一個關鍵問題是:“數據挖掘與傳統統計學的聯系何在?”它們之間的聯系非常明顯,統計學和數據挖掘有著共同的目標:發現數據中的結構。正因為目標上的相似,因此,統計學和數據挖掘的研究內涵也體現出了諸多相似性。在傳統統計學研究中,雖然統計學基于的正統的理論基礎無可替代,但傳統統計學可以為數據挖掘提供非常有參考價值的框架,很多數據挖掘的算法原理都是統計學中相關方法的影子,數據挖掘在延伸和擴展傳統統計學方法基礎之上,融入了多領域的思想、工具和方法,這些領域包括數據庫管理、計算機科學、人工智能、模式識別、運籌學等。統計學和數據挖掘內涵上的相似難以掩蓋內涵上的一些細微差別,事實上,數據挖掘所關注的某些領域和統計學家所關注的還存有很大不同。數據挖掘關注的是積累大規模的數據,以方便從數據中有效地找出關系,挖掘出所含有的“有意義的信息”,而統計學關注的如何模擬出數據的結構,從而進行準確的統計推斷。

3.2 研究對象和方法

我們面臨的第二個關鍵問題是:“數據挖掘與傳統統計學的區別何在?”,這便涉及到數據挖掘的研究對象。統計學和數據挖掘研究目標的相似使得有些統計學家擔憂數據挖掘時代的到來會不會使得傳統的統計學面臨危機,這樣的想法其實大可不必。事實上,雖然它們的目標相似,但研究對象卻不盡相同。如上文所言,傳統的統計學以概率論為基礎,主要通過預先設計的試驗方法或抽樣方法獲得數據,以保證這些數據滿足一定的概率模型,然后再根據數據進行統計推斷。數據挖掘恰恰相反,它常常可以得到數據總體,在這種情形下,統計學的推斷就沒有價值了,數據挖掘的本質是從總體中通過技術和實驗方法發現非預期但很有價值的信息,數據挖掘過程的本質是實驗性的。這與確定性的統計分析和統計推斷是不同的。

在研究方法上,統計學和數據挖掘也不盡相同,統計學在采用一個方法之前先要證明,而不是象計算機科學與機器學習那樣注重經驗。有時候同一問題的其它領域的研究者提出一個很明顯有用的方法,但若不能被統計學家證明(或者現在還沒有證明),統計學界將不會采用,統計雜志也傾向于發表經過數學證明的方法而不是一些特殊方法,簡言之,統計學需要的是確定的方法。而數據挖掘作為幾門學科的綜合,已經從機器學習那里繼承了實驗的態度,數據挖掘更多的是利用先進的工具進行試探發現,方法上的不同并不意味著數據挖掘工作者不注重精確,其實數據挖掘非常注重精確,只不過精確產生于實驗之上,產生于實驗準則之中。正是由于統計學的方法先驗和準確性,而且其對推理的側重,統計學的核心問題仍是在觀察了解樣本的情況下去推斷總體。而數據挖掘的主要目的是發現,它不關心統計學領域中的在回答一個特定的問題之前,如何很好的搜集數據,數據挖掘本質上假想數據已經被搜集好,關注的只是如何發現其中的秘密。總之,統計學的核心是模型,數據挖掘的更重要的是準則。

4 統計學領域數據挖掘研究的趨勢

4.1 數據挖掘應用領域研究將深入化、全面化

數據挖掘真正引起人們的普遍關注應該起始于該技術在各種行業領域中的應用,盡管數據挖掘應用方面的論文統計數相當可觀,涉及領域相當廣泛,但我國的數據挖掘應用尚處于起步階段,大規模地運用數據挖掘技術尚不普遍,只是個別企業或部門零星地運用數據挖掘技術。在國外,數據挖掘技術已經在金融、電信、零售、醫療、科研等行業領域內發揮了巨大的作用。一些世界著名的廠商也紛紛致力于數據挖掘工具的開發,這其中既有統計軟件界元老SAS、PSS,也有數據庫巨頭Oracle、IBM。數據挖掘技術與各個行業的有機結合體現了其蓬勃的生命力,且這種趨勢正在以前所未有的速度繼續向前發展。而我國對數據挖掘技術的應用仍處于起步階段,即使有少量行業、企業將數據挖掘技術應用到生產生活之中,也只是局限于數據挖掘中最基本的幾項功能,大規模、深層次的應用數據挖掘技術的時代還沒有到來,因此,筆者認為,未來數據挖掘研究的一個著重點便是應用領域的研究。

4.2 空間數據挖掘

空間數據挖掘是近幾年興起的交叉邊緣研究學科,它把數據挖掘研究的視域擴大到空間數據庫,這也使得數據挖掘技術更加貼近于應用。因為空間數據具有的獨特特點使得空間數據挖掘比傳統數據挖掘更為困難,因此研發高效的空間數據挖掘技術是當前空間數據挖掘面臨的主要挑戰,筆者認為這也是未來數據挖掘的熱點之一。

4.3 Web數據挖掘

萬維網是一個巨大的、分布廣泛的全球性信息服務中心,它包括新聞、廣告、消費信息、金融管理、電子商務等各種各樣的信息。不僅如此,還包含著豐富的結構化數據,如動態變化的超鏈接信息以及對于Web頁面的訪問和使用的信息等,這為數據挖掘提供了豐富的資源。然而,與傳統的數據庫數據相比,作為數據挖掘數據源的Web數據有著自身顯明的特點,諸如超大的數據規模;復雜的數據結構;動態的數據形態;擴大的數據干擾等,這也對基于Web的數據挖掘方法研究也提出了新的要求。筆者認為這也是數據挖掘未來的研究方向。

4.4 圖像挖掘和視頻挖掘

隨著網絡技術的發展和計算機性能的提高,數碼相機、監視相機、衛星遙感系統的應用越來越廣泛,涌現出大量的圖像數據和視頻數據。從數據的轉化、同步、連續數據流的管理到圖像數據的檢索受到普遍關注,如何用數據挖掘的方法智能地從圖像和視頻數據庫中挖掘出盡可能多的有用信息也是學界探討的一個熱點,但圖像數據挖掘不同于普通數據庫和數據倉庫的數據挖掘,挖掘對象的復雜性使得圖像數據挖掘理論和技術發展緩慢。因此,筆者認為圖像數據挖掘必將成為研究的一個方向。

4.5 數據挖掘語言的標準化

數據挖掘研究至今,仍沒有一套標準化的語言,這使得在進行數據挖掘研究時,不兼容的現象頻繁出現,因此,對數據挖掘語言進行標準化也是當務之急,在未來的數據挖掘研究中,也應當作為重點內容。

4.6 數據挖掘中的隱私保護和信息安全

Web上存在著大量電子形式的個人信息,加上數據挖掘工作能力的不斷增強,對隱私和數據安全構成了威脅,保護隱私的數據挖掘方法的進一步發展是顯而易見的。這需要技術專家、社會專家和法律專家的共同協作,提出隱私的嚴格定義和形式機制,以證明數據挖掘中的隱私保護性。

[1]朱世武,崔嵬,張堯庭,謝邦昌.數據挖掘運用的理論與技術[J].統計研究,2003,(8).

[2]朱建平,張潤楚.數據挖掘中事務性數據庫的壓縮及其應用[J].統計研究,2004,(1).

[3]劉云霞,曾五一.數據挖掘中基于可辨識矩陣的連續屬性離散化方法[J].統計研究,2007,(4).

[4]韓明.數據挖掘及其對統計學的挑戰[J].統計研究,2001,(8).

[5]來升強,朱建平.數據挖掘中高維定性數據的粗糙集聚類[J].統計研究,2005,(8).

[6]朱建平,謝邦昌.數據挖掘中關聯規則的提升及其應用[J].統計研究,2004,(12).

[7]李金昌,徐雪琪. 數據挖掘質量問題探討[J].統計研究,2004,(7).

[8]劉云霞.數據挖掘中基于似然比假設檢驗的連續屬性離散化方法[J].統計與決策,2007,(4).

[9]朱梅紅.數據挖掘中抽樣技術的應用[J].統計與決策,2007,(8).

[10]丁文捷.基于量體數據挖掘的服裝投產號型決策[J].統計與決策,2007,(9).

[11]王建仁,高海燕,董琳.數據挖掘在銀行CRM中的應用[J].統計與決策,2007,(5).

[12]劉京軍.數據挖掘技術和信用風險管理[J].統計與決策,2007,(1).

猜你喜歡
數據挖掘數據庫方法
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲综合第一区| 日本三级黄在线观看| 青青操国产视频| 成人国产精品视频频| 国产原创自拍不卡第一页| 中文成人无码国产亚洲| 国产91导航| 日韩在线永久免费播放| 欧美a在线| 九九久久99精品| 国产本道久久一区二区三区| 五月婷婷激情四射| 欧美亚洲一区二区三区在线| 欧美日韩亚洲综合在线观看| 国产成人一区在线播放| 国产人在线成免费视频| 久久毛片网| 麻豆精品视频在线原创| 国产高潮流白浆视频| 久久精品中文字幕免费| 国产精品午夜福利麻豆| 亚洲无线一二三四区男男| 免费视频在线2021入口| 国产成人h在线观看网站站| 日本久久久久久免费网络| 国产91小视频在线观看| 亚洲成人黄色网址| 巨熟乳波霸若妻中文观看免费| 2021国产精品自产拍在线观看| 日韩a在线观看免费观看| 大陆精大陆国产国语精品1024| 国产精品成人AⅤ在线一二三四 | 久久超级碰| 国产亚洲精品自在线| 日韩欧美国产区| 日本AⅤ精品一区二区三区日| 国产精品污视频| 女高中生自慰污污网站| 国产激情在线视频| 精品久久久久久中文字幕女| 国产女人综合久久精品视| 在线观看国产精品一区| 99这里只有精品在线| 51国产偷自视频区视频手机观看 | 美女黄网十八禁免费看| 亚洲日本韩在线观看| 国产亚洲精久久久久久久91| 国产无码性爱一区二区三区| 亚洲精品综合一二三区在线| 国产精品美女免费视频大全| 粉嫩国产白浆在线观看| 亚洲国产欧洲精品路线久久| 亚洲AV电影不卡在线观看| 久久99精品国产麻豆宅宅| 国产簧片免费在线播放| 99视频精品全国免费品| 亚洲福利视频一区二区| 婷婷久久综合九色综合88| 亚洲欧美日韩精品专区| 久久这里只有精品2| 第一页亚洲| 人妻无码中文字幕一区二区三区| 超碰91免费人妻| 青青草91视频| 99免费在线观看视频| 日韩av无码精品专区| 野花国产精品入口| 国产免费网址| 91福利一区二区三区| www.99在线观看| 91免费国产高清观看| 亚洲一区二区三区中文字幕5566| www.亚洲色图.com| 国产青榴视频在线观看网站| 欧美成人一级| 日韩中文字幕亚洲无线码| 国产精品不卡永久免费| 欧美激情首页| 综合久久五月天| 无码精油按摩潮喷在线播放| 国产男女免费视频| 福利国产微拍广场一区视频在线|