999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于函數(shù)型數(shù)據(jù)分析的數(shù)據(jù)挖掘功能研究

2011-10-24 06:34:40王凱平
統(tǒng)計與決策 2011年4期
關(guān)鍵詞:數(shù)據(jù)挖掘分類方法

王凱平

(山東大學(xué) 管理學(xué)院,濟南 250100)

基于函數(shù)型數(shù)據(jù)分析的數(shù)據(jù)挖掘功能研究

王凱平

(山東大學(xué) 管理學(xué)院,濟南 250100)

數(shù)據(jù)挖掘功能是數(shù)據(jù)挖掘研究與應(yīng)用的一個重要方面。數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。當(dāng)前,數(shù)據(jù)挖掘的功能所處理的主要是傳統(tǒng)的數(shù)據(jù),對于函數(shù)型數(shù)據(jù)的研究還不是很多。文章探討了數(shù)據(jù)挖掘中可以挖掘的幾種函數(shù)型數(shù)據(jù)模式,包括數(shù)據(jù)描述、分類、聚類和回歸。

函數(shù)型數(shù)據(jù);數(shù)據(jù)挖掘;模式

0 引言

近年來,數(shù)據(jù)挖掘的研究與應(yīng)用引起了統(tǒng)計學(xué)、計算機科學(xué)、管理學(xué)、金融學(xué)等學(xué)術(shù)領(lǐng)域以及眾多知名企業(yè)的廣泛關(guān)注。數(shù)據(jù)挖掘在功能模式、方法、應(yīng)用領(lǐng)域和軟件開發(fā)等各個方面都得到了廣泛的研究。數(shù)據(jù)挖掘研究與應(yīng)用的一個重要方面就是關(guān)于數(shù)據(jù)挖掘功能的研究。數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘的任務(wù)一般可以分為兩類[1]:描述和預(yù)測。描述性任務(wù)刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性。預(yù)測性任務(wù)在當(dāng)前數(shù)據(jù)上進行推斷,以進行預(yù)測。運用各式理論技術(shù),數(shù)據(jù)挖掘可以建立的模式包括數(shù)據(jù)描述、分類、聚類、回歸等[2]。

當(dāng)前,數(shù)據(jù)挖掘的功能所處理的主要是傳統(tǒng)的數(shù)據(jù),即把數(shù)據(jù)作為離散的數(shù)據(jù)點來看待,這能夠滿足很多應(yīng)用領(lǐng)域的需要。然而,隨著社會的進步和科學(xué)技術(shù)的發(fā)展,有些領(lǐng)域中出現(xiàn)了一種新的數(shù)據(jù)——函數(shù)型數(shù)據(jù)。當(dāng)觀測的時間點十分密集時,這些數(shù)據(jù)就會呈現(xiàn)出一種函數(shù)特征。函數(shù)型數(shù)據(jù)是一系列的曲線或形狀對象,更一般地,是一系列的函數(shù)型數(shù)據(jù)值。例如,在線拍賣數(shù)據(jù)是函數(shù)型數(shù)據(jù)的一個典型代表。在線拍賣不是傳統(tǒng)拍賣在Internet上的簡單移植,它在商務(wù)模式、買賣雙方行為特征和拍賣方式等方面都有自身獨特的性質(zhì),從而使得在線拍賣數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)相比具有很大的區(qū)別。文獻[3]詳細(xì)分析了在線拍賣數(shù)據(jù)的函數(shù)型數(shù)據(jù)特點。

本文探討了數(shù)據(jù)挖掘功能中可以挖掘的幾種函數(shù)型數(shù)據(jù)模式,包括數(shù)據(jù)描述、分類、聚類和回歸。

1 基于傳統(tǒng)數(shù)據(jù)的數(shù)據(jù)挖掘功能模式

1.1 數(shù)據(jù)描述

數(shù)據(jù)描述的目的是對數(shù)據(jù)進行概括,以給出它的總體特征。最簡單的數(shù)據(jù)描述方法是利用統(tǒng)計學(xué)中的方法,計算出數(shù)據(jù)庫中各個數(shù)據(jù)項的總和、平均值、方差等。

1.2 分類

分類是找出描述并區(qū)分?jǐn)?shù)據(jù)類別的模型(或函數(shù)),以便能夠使用該模型(或函數(shù))來確定未知類型的對象所屬的類別。

目前對于傳統(tǒng)數(shù)據(jù)的分類技術(shù)有很多種,例如Bayes分類、決策樹分類、神經(jīng)網(wǎng)絡(luò)分類、k-最臨近分類、遺傳算法分類、粗集分類等等,不同的分類方法適用于不同特點的數(shù)據(jù)。下面介紹一下貝葉斯分類。

令q-維向量X代表一個觀測對象,它來自于多個類中的某一個。假設(shè)第i個類的密度為fi(x),先驗概率為πi。由Bayes公式,有后驗概率

Bayes分類將X歸于具有最高后驗概率的那個類。如果我們進一步假設(shè)第i個類具有正態(tài)分布,其均值為μi,協(xié)方差陣為∑,則可以證明以上Bayes分類等價于按下述線性判別函數(shù)進行分類[4]

其中,

1.3 聚類

聚類是指按被處理對象的特征分類,將有相同特征的對象歸為一類,其目的是將類間的差異找出來,同時也將類內(nèi)成員的相似性找出來。例如,對在一個商場購買力較大的顧客居住地進行聚類分析,以幫助商場針對相應(yīng)顧客群采取有針對性的營銷策略。其與分類的區(qū)別在于聚類前并不知道會以何種方式或根據(jù)來分類。

目前的聚類算法大體上可以劃分為以下幾類[5]:層次的方法、劃分的方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法等。

基于模型的方法為每一類假定了一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合。假定觀測xi,…xn來自于具有G個分量組成的混合分布。令fk(x|θk)為第k個類的密度,θk為參數(shù),再令zi=(zi1,…,ziG)為第i個觀測的類成員向量,其中

所有的zi都是未知的,一般通過兩種方式處理:分類似然法和混合似然法。

(1)分類似然法

該方法將zi看作參數(shù),模型通過最大化如下似然函數(shù)來擬合:

(2)混合似然法

該方法將看作是具有參數(shù)(π1,…,πG)的多項分布,其中 πk為觀測屬于第k個類的概率。參數(shù)由最大化下式來估計:

1.4 回歸

回歸是研究因變量與一系列的自變量之間相關(guān)關(guān)系的一個有力工具。確定了因變量與自變量的關(guān)系后,就可以通過回歸模型根據(jù)自變量的觀測值預(yù)測因變量的值。回歸有三種類型:參數(shù)回歸(包括線性回歸和非線性回歸)、非參數(shù)回歸和半?yún)?shù)回歸[6]。

(1)參數(shù)回歸

參數(shù)回歸包括線性回歸(一元和多元線性回歸)和非線性回歸(如廣義線性模型)。參數(shù)回歸應(yīng)用最為廣泛,其原因在于:第一,對于某領(lǐng)域的專業(yè)人員來說,一個模型的參數(shù)經(jīng)常會有重要的實際含義;第二個原因在于其統(tǒng)計上的簡單性——對于整個函數(shù)的估計歸結(jié)為推斷幾個參數(shù)值;第三個原因在于,如果參數(shù)假設(shè)是正確的,那么參數(shù)回歸非常有效。

(2)非參數(shù)回歸

非參數(shù)回歸具有很大的靈活性,它并不對真實模型作結(jié)構(gòu)方面的假設(shè),或者說,它不假設(shè)真實模型可以被有限維參數(shù)所控制。非參數(shù)回歸在降低模型偏差方面非常靈活,然而,在多變量情況下,由于維數(shù)問題的影響,它對真實函數(shù)的估計達(dá)不到合理的準(zhǔn)確度。

(3)半?yún)?shù)回歸

在參數(shù)回歸和完全的非參數(shù)回歸之間有許多可能的選擇。最為典型的就是假設(shè)所估計的函數(shù)具有某種形式(如可加形式),然而這種形式并不同于完全的參數(shù)結(jié)構(gòu)。由此產(chǎn)生的模型我們稱為半?yún)?shù)回歸模型。與參數(shù)回歸相比,這種半?yún)?shù)模型能夠降低模型錯誤所導(dǎo)致的偏差;而與非參數(shù)回歸相比,它又比完全的非參模型要小的多,從而對于未知參數(shù)及函數(shù)的估計能夠達(dá)到合理的準(zhǔn)確度。典型的半?yún)?shù)模型,包括可加模型、部分線性模型及其推廣模型。

2 基于函數(shù)型數(shù)據(jù)的數(shù)據(jù)挖掘功能模式

函數(shù)型數(shù)據(jù)分析的研究對象是一系列的函數(shù)型觀測值x(t)。近年來,許多傳統(tǒng)的統(tǒng)計方法被推廣到了函數(shù)型數(shù)據(jù)的場合,具體可參見文獻[7]。然而,在數(shù)據(jù)挖掘領(lǐng)域,對于函數(shù)型數(shù)據(jù)的研究還不是很多。本文從數(shù)據(jù)挖掘的功能出發(fā),探討了數(shù)據(jù)挖掘中可以挖掘的幾種函數(shù)型數(shù)據(jù)模式,包括數(shù)據(jù)描述、分類、聚類和回歸。

2.1 函數(shù)型數(shù)據(jù)描述

傳統(tǒng)的描述統(tǒng)計量同樣適用于函數(shù)型數(shù)據(jù)。例如,函數(shù)型數(shù)據(jù)的均值函數(shù)可以表示為,而方差函數(shù)為

2.2 函數(shù)型數(shù)據(jù)分類

由于函數(shù)型數(shù)據(jù)是無窮維的,因此,傳統(tǒng)的基于有限維數(shù)據(jù)的分類方法不能直接應(yīng)用于函數(shù)型數(shù)據(jù)。

令g(t)為從第i個類中隨機抽取的個體曲線。假設(shè)如果g(t)屬于第i個類,則其分布為如下的Gauss過程:

由于隨機因素的影響,我們在不同的時間點t1,…,tn對于函數(shù)曲線的觀測向量Y是有誤差的,假設(shè)誤差不相關(guān),且均值為0,方差為σ2。則Y的分布為

N(μI,Ω+σ2I),其中

可以將 μi和∑=Ω+σ2I代入(2)式得到 Bayes分類。 現(xiàn)有的函數(shù)型數(shù)據(jù)分類方法就是通過估計μi(t)和ω(t,t'),然后將其估計值代入(1)中進行分類。其估計方法通常有兩種[4]:正則化方法和濾波方法。例如,濾波方法是使用基函數(shù)來估計μi(t)和 ω(t,t')。

2.3 函數(shù)型數(shù)據(jù)聚類

基于模型的函數(shù)型數(shù)據(jù)聚類方法與分類方法有共通之處。 對于曲線 g(t),有(2)、(3)兩式,函數(shù)型數(shù)據(jù)聚類就是首先估計μi(t)和ω(t,t'),然后根據(jù)其估計值進行聚類。以μi(t)為例,常用的濾波方法是使用基函數(shù) 準(zhǔn)(t)=(準(zhǔn)1(t),…,準(zhǔn)p(t))來估計 g(t),即g(t)=準(zhǔn)(t)η,使用最小二乘法分別估計每條曲線的系數(shù)向量η,然后使用基于有限維數(shù)據(jù)的聚類方法對估計的系數(shù)向量進行聚類,所產(chǎn)生的聚類均值乘以準(zhǔn)(t)后就得到了μi(t)的估計。ω(t,t')的估計與此類似。詳細(xì)的聚類過程可參見文獻[8]。

分層的聚類方法可參見文獻[9]。

2.4 函數(shù)型數(shù)據(jù)回歸

與傳統(tǒng)的回歸類似,函數(shù)型數(shù)據(jù)回歸也分為參數(shù)、非參數(shù)和半?yún)?shù)三種形式。

(1)參數(shù)形式

參數(shù)形式的函數(shù)型數(shù)據(jù)回歸分為線性和非線性兩種情況,文獻[10]考慮了函數(shù)型數(shù)據(jù)的廣義線性模型,將線性回歸與非線性回歸統(tǒng)一在一個模型中進行研究,并給出了具體的估計方法。

(2)非參數(shù)和半?yún)?shù)形式

關(guān)于非參數(shù)和半?yún)?shù)形式的函數(shù)型數(shù)據(jù)回歸是目前研究的一個熱點領(lǐng)域,具體可參見文獻[11,12]。

3 總結(jié)

當(dāng)前,數(shù)據(jù)挖掘?qū)τ趥鹘y(tǒng)數(shù)據(jù)的各種功能模式已經(jīng)得到了相當(dāng)廣泛的研究和應(yīng)用,而對于函數(shù)型數(shù)據(jù)的研究還處于起步階段。其原因在于,就函數(shù)型數(shù)據(jù)分析自身來講,其研究時間并不長,很多問題并沒得到完善的解決。

然而,許多學(xué)科其大量的方法和思想都來源于現(xiàn)實的需求。隨著數(shù)據(jù)挖掘在各行各業(yè)的廣泛應(yīng)用,必然會越來越多的處理函數(shù)型數(shù)據(jù)、挖掘函數(shù)型數(shù)據(jù)的各種模式。這反過來也會促進函數(shù)型數(shù)據(jù)分析的不斷深入和完善。

[1]J.W.Han,M.Kamber.Data Mining:Concepts and Techniques[M].Sinagpore:Elsevier,2006.

[2]朱世武,崔嵬,張堯庭,謝邦昌.數(shù)據(jù)挖掘運用的理論與技術(shù)[J].統(tǒng)計研究,2003,(8).

[3]Jank W,Shmueli G.Functional Data Analysis in Electronic Commerce Research[J].Statistical Science,2006,21(2).

[4]James G M,Hastie T J.Functional Linear Discriminant Analysis for Irregularly Sampled Curves[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2001,63(3).

[5]中國人民大學(xué)統(tǒng)計系數(shù)據(jù)挖掘中心.數(shù)據(jù)挖掘中的聚類分析[J].統(tǒng)計與信息論壇,2002,17(3).

[6]Hürdle W,Müller M,Sperlich S,Werwatz A.Nonparametric and Semiparametric Models[M].Heidelberg:Springer Verlag,2004,(3).

[7]Valderrama M J.An Overview to Modelling Functional Data[J].Computational Statistics,2007,22(3).

[8]James G M,Catherine A.Clustering for Sparsely Sampled Functional[J].Journal of the American Statistical Association,2003,98(462).

[9]Ferreira L,Hitchcock D B.A Comparison of Hierarchical Methods for Clustering Functional Data[J].Communications in Statistics-Simulation and Computation,2009,38(9).

[10]James G M.Generalized Linear Models with Functional Predictors[J].Journal of the Royal Statistical Society,Series B (Statistical Methodology),2002,64(3).

[11]Ferraty F,Mas A,Vieu P.Nonparametric Regression on Functional Data:Inference and Practical Aspects[J].Australian&New Zealand Journal of Statistics,2007,49(3).

[12]Dabo-Niang S,Guillas S.Functional Semiparametric Partially Linear Model with Autoregressive Errors[J].Journal of Multivariate Analysis,2010,101(SI).

O212.4

A

1002-6487(2011)04-0160-02

山東省軟科學(xué)研究計劃項目(2009RKA036);山東大學(xué)自主創(chuàng)新基金資助項目(2010TS073)

王凱平(1975-),男,山東人,博士,講師,研究方向:數(shù)據(jù)挖掘。

(責(zé)任編輯/易永生)

猜你喜歡
數(shù)據(jù)挖掘分類方法
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 免费国产在线精品一区| 国产精品爽爽va在线无码观看| 中文字幕av一区二区三区欲色| 国产精品吹潮在线观看中文| 日本免费精品| 91精品网站| 欧美无遮挡国产欧美另类| 免费国产好深啊好涨好硬视频| 找国产毛片看| 九色视频线上播放| 国产成人做受免费视频| 国产成人高清亚洲一区久久| 亚洲水蜜桃久久综合网站| 国产自无码视频在线观看| 一级不卡毛片| 久久77777| 视频一区视频二区中文精品| 综合人妻久久一区二区精品 | 91精品啪在线观看国产91九色| 精品国产www| 操国产美女| 亚洲中文字幕97久久精品少妇| 欧美综合成人| 波多野结衣一区二区三区88| 狠狠色噜噜狠狠狠狠奇米777 | www.youjizz.com久久| 尤物成AV人片在线观看| 91无码视频在线观看| 真实国产精品vr专区| 97青草最新免费精品视频| 亚洲国产日韩一区| 国产成人综合亚洲欧洲色就色| 欧美亚洲国产精品久久蜜芽| 欧美不卡视频在线| 99re在线视频观看| 亚洲国产天堂久久综合| 日韩二区三区| 少妇高潮惨叫久久久久久| 国产精品真实对白精彩久久| 成人毛片免费在线观看| 98精品全国免费观看视频| 色网在线视频| 亚洲—日韩aV在线| 国产91透明丝袜美腿在线| 找国产毛片看| 中文字幕日韩丝袜一区| 在线观看国产精品第一区免费| 精品日韩亚洲欧美高清a| 亚洲第一区欧美国产综合 | 欧洲极品无码一区二区三区| a亚洲视频| 亚洲中文字幕手机在线第一页| 色亚洲成人| 国产精品无码一二三视频| 亚洲天堂精品在线观看| 国产69囗曝护士吞精在线视频 | 综合色在线| 97se亚洲| 国产制服丝袜91在线| 亚洲日韩高清在线亚洲专区| 国产91视频免费| 不卡色老大久久综合网| 国产天天射| 日韩高清一区 | 国产肉感大码AV无码| 欧美爱爱网| 久久一本日韩精品中文字幕屁孩| 亚洲AV色香蕉一区二区| 亚洲黄色激情网站| 91视频首页| 激情视频综合网| 在线免费看黄的网站| 免费看美女自慰的网站| 亚洲婷婷丁香| 第九色区aⅴ天堂久久香| 国产在线视频福利资源站| 黄色网在线免费观看| 国产欧美日韩在线在线不卡视频| 91原创视频在线| 久久香蕉国产线看观看亚洲片| 国产男人天堂| 97久久超碰极品视觉盛宴|