999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高維縱向數據分析中的降維方法研究

2017-10-12 21:23:19潘青
時代金融 2017年26期

潘青

【摘要】伴隨著計算機技術的不斷更新與發展,現實生活中收集到的數據種類已經越來越多,數據結構已經越來越復雜。其中,對于高維縱向數據的分析已經成為統計界的一個研究熱點。伴隨著計算機技術的不斷更新與發展,現實生活中收集到的數據種類已經越來越多,數據結構已經越來越復雜。其中,對于高維縱向數據的分析已經成為統計界的一個研究熱點。

本文研究了高維縱向數據的研究方法及其常見處理模型。

【關鍵詞】高維數據 縱向數據 降維方法

一、縱向數據

縱向數據(Longitudinal data)常出現在醫學,金融學,心理學,生物學等領域,在經濟學中也稱為“面板數據”(Panel data),常發生在流行病學研究,臨床實驗,經濟應用等背景中,是對觀測的個體在不同時間下重復觀測所得到的數據,且觀測得到的數據常常帶有缺失,刪失。在實驗中,不同個體的觀察值可能是相互獨立的,也可能是相關的。所研究的響應變量觀測值隨時間變化而變化,相關的協變量也隨時間變化有一系列的觀察值。由此可知,縱向數據既包含同一時間點上不同樣本的數據,也包含同一樣本在不同時間點上的觀測數據。因此,縱向數據不僅具有截面數據的特點,同時也具備了時間序列數據的特征。縱向數據的優點是可以區分個體間的群體效應和個體內部的組內效應,可以有效地描述響應變量和協變量之間的關系。

這樣的數據常出現在癌癥復發、縱向醫療費用、艾滋病感染等事件中。縱向數據的研究不僅可以幫助我們了解響應變量與相關協變量之間隨時間變化的關系,還能幫助我們探索響應變量隨時間的動態變化情況。縱向數據分析的第一個難點是如何處理數據間的相關性。

二、高維數據

隨著科學技術的不斷發展,我們收集到的數據結構越來越復雜,比如說氣象學。為了更準確的預測天氣情況,描述氣象特征的指標也越來越多,例如:溫度,濕度,風力,氣壓,降雨量等等,這種用多個變量描述某一現象的數據,就是高維數據。我們發現,隨著數據維數的增多,數據呈現出客觀現象的信息將更加豐富與細致,與此同時,也會給數據的處理帶來一些列的困難。這也是高維數據兩個明顯的特點:維數福音(Blessings of Dimensionality)和維數災難(Curses of Dimensionality)。維數福音是指隨著維數的提升,數據會提供更加豐富、細致的信息。所謂“維數災難”是在我們獲取的數據無法最簡化的情況下,當我們對數據進行特征提取或者擬合變量時,所需原始數據量會對著協變量的增加而呈指數級別的增長。這種情況下處理數據會特別困難。如何從眾多復雜影響因素中提取最關鍵的影響因子,找出其最本質的內在規律,成為處理高維數據的關鍵。也就是尋找高維數據在低維空間的有效表達,同時又盡可能有效的挖掘出高維原始數據背后的自身內在結構,從而準確找出高維原始數據的有效表達的低維結構。

分析縱向數據的第二個難點,是在考慮數據相依性的前提下,改進和創新已有的統計理論與方法,使其可以處理高維縱向數據。

三、縱向數據模型

對于解決縱向數據的第一個難點,在近幾十年的統計研究中,學者們提出了許多不同的解決方案,已有成熟的統計理論與方法。早期主要的研究方法是參數回歸分析方法,比如誤差項為時間序列的多元線性模型以及生長曲線模型。誤差項往往假定為多元正態分布的一般線性模型。其中邊際模型和混合效應模型的應用最為廣泛。由于數據的隨機誤差項結構復雜,不可避免會遇到維數災難的問題。而收集到的縱向數據中又含有缺失、刪失等問題,所以對于數據處理又造成進一步的困難。

上個世紀80年代,半參數回歸模型得到發展,這是一種重要的統計模型,該模型不僅有參數部分,還有非參數部分,所以同時具備了參數模型解釋性強與非參數模型適應性強的優點。該模型在分析數據時,更接近真實模型,可以充分利用數據所提供的信息,因此廣受研究人員的喜愛。

上個世紀90年代,縱向數據的非參數回歸方法得到了廣泛的發展,比較常見的方法有懲罰樣條法、回歸樣條法、光滑樣條法、局部多項式核光滑法等等。

以上的方法理論都是基于協變量是低維時考慮的,對于高維的協變量不再適用。因此,對于解決高維縱向數據的分析,只有先通過數據降維,將協變量先降至低維,傳統的統計模型才得以使用。

四、數據降維

(一)數據降維的定義

在高維空間D中,樣本容量為n的原始數據X,記為X={xi},i=1,2,…,n,在d維空間中樣本容量為n的數據集Y={yi},i=1,2,…,n,那么我們可以通過映射f:X→Y,x→y=f(x),其中D為高維空間中的原始數集的維數,d代表著低維空間中數據的維數,且d≤D,于是通過映射,x是y的高維空間,y是x的高維表示。從本質上講,降維就是尋找投影,即高維空間到低維空間的映射,但是在不同的領域內,專業術語會有所相差別:

·在統計學中,降維與多元密度估計、回歸、平滑技術有關

·在信息論中,降維是數據壓縮和編碼

·在模式識別中,降維是特征提取

因此,數據降維不僅在統計學中有重要表現,在其他領域也有重要應用。

(二)數據降維的分類

根據降維的側重點不同,可以將降維分為硬降維問題,軟降維問題,可視化問題。

根據時間變量分類,可將降維分為靜態降維和依據時間的降維。

根據降維映射形式的不同,可以將降維分為線性降維與非線性降維。對于線性降維,存在一個實數集上的d維投影矩陣β∈Rn×d,將高維空間中的原始數據投影到低維空間中,同時有Y=βTX。對于非線性降維,則不存在這樣的映射。

線性降維方法主要有主成分分析(Principle Component Analysis,PCA)、投影尋蹤(Projection Pursuit,PP)、線性判決分析(Linear Discriminant Analysis,LDA)、多尺度變換(MultidimensionalScaling,MDS)等,這些方法適用于處理具有線性結構的數據集,計算簡單,效率高效,是研究人員廣泛使用的方法。endprint

非線性降維方法有局部線性嵌入(Local Linear Embedding,LLE),拉普拉斯特征映射(LaplacianEigenmaps,LE),局部切空間排列(Local Tangent Space Alignment,LTSA),黑塞特征映射(Hessian Eigenmaps,HE)等基于流行學習的算法。與流行學習所不同的是另一種非線性降維方法—核方法。其主要思想是將原始數據空間中的數據通過隱式的映射到更高維度的特征空間中,然后再利用線性降維方法處理。主要有核主成分分析(Kernel Principle Component Analysis,KPCA),核線性判決分析(Kernel Linear Discriminant Analysis,KLDA),核獨立成分分析(Kernel Independent Component Analysis,KICA)等方法。

(三)數據降維的應用

對原始空間的數據進行數據降維可以有效的解決“維數災難”的問題,因此數據降維技術廣泛應用于數據挖掘、模式識別、機器學習等領域。例如:

例1 生物基因數據 DNA芯片技術自動獲取DNA微陣列數據,每一個微陣列都對應著所采集到的一個維度達上萬維的樣本為了提高結果的準確性,必須選擇足夠多的基因來參與分析,于是造成“維數災難”,此時必須使用數據降維。

例2 數字圖像數據 在數字圖像處理領域中,處理的圖像數據一般情況下為m×n大小的圖像。在整個圖像空間中,一幅圖像對應著只是整個圖像空間中的一個像素點,該點的維度為m×n。因此當m,n逐漸的增大的時候,圖像空間中的像素點所對應的維度就會非常高。所以在圖像數據空間的數據都是高維數據,處理數據具有一定困難。

例3 艾滋病群組研究 一組來自于多中心愛滋病群組研究的數據,該數據記錄了1984年至1991年,觀測到的283位HIV呈陽性的同性戀病人每半年進行的定期檢查,記錄他們感染的情況。對于這組數據,響應變量是HIV感染后,病人血液內CD4所含細胞的比例,協變量是病人的年齡、吸煙狀況、HIV感染前細胞CD4的比例及其交互作用。這是一組高維縱向數據,為了找出真正對HIV感染后血液內CD4細胞比例的變化有影響的協變量,必須使用降維技術對協變量進行降維,然后使用統計模型。

例4 交叉試驗 對一種用于減輕原發性痛經藥物的一組三階段交叉試驗的研究試驗中,研究人員將86位女性病人隨機的分為六組,依照不同的次序,給病人服用安慰劑、低劑量止痛藥和高劑量止痛藥,并對各個病人在每個階段性治療結束后的病情進行評估。在該組數據中,響應變量是一個變量,記錄病人在當前階段性治療結束后疼痛是否緩解表示無緩解,表示有所緩解,相對應的協變量是六個變量,記錄病人當前所在的治療階段、服用的藥物和前一階段所服用的藥物。這是一組高維縱向數據,我們要先對協變量進行降維,然后使用統計模型。

五、總結

本文通過分析縱向數據與高維數據的處理難點,列舉了一系列的數據降維方法,論述了通過數據降維后,高維縱向數據可適應縱向數據的統計模型,并通過舉例說明對于數據降維技術的應用領域的廣泛性。

參考文獻

[1]譚璐.高維數據的降維理論及應用[D].長沙:國防科技大學,2005.

[2]劉卓.高維數據分析中的降維方法研究[D].長沙:國防科技大學,2002.

[3]許佩蓉.高維縱向數據中邊際模型和混合效應模型的若干研究[D].上海:華東師范大學,2013.

[4]劉建環.面向高維數據降維與分類的深度模型構建方法研究[D].重慶:重慶大學,2016.

[5]田瑞琴.縱向數據下半參數回歸模型的統計推斷[D].北京:北京工業大學,2014.

[6]嚴國義.縱向數據與生存數據的半參數聯合模型研究[D].武漢:武漢大學,2013.endprint

主站蜘蛛池模板: 华人在线亚洲欧美精品| 国产18在线播放| 五月天久久综合国产一区二区| 亚洲综合精品香蕉久久网| 伊人国产无码高清视频| 国产呦精品一区二区三区下载 | 国产无码性爱一区二区三区| 国产人成午夜免费看| 91精品专区国产盗摄| 1769国产精品视频免费观看| 欧洲亚洲一区| 国产亚卅精品无码| 成人中文字幕在线| 亚洲一级无毛片无码在线免费视频 | 一区二区三区在线不卡免费| 欧美国产综合色视频| 666精品国产精品亚洲| 精品国产免费观看| 国产精品天干天干在线观看| 中文字幕在线日本| 99国产在线视频| 免费在线成人网| 国产精品林美惠子在线播放| 最新国产你懂的在线网址| 亚洲天堂在线视频| 97综合久久| 深夜福利视频一区二区| 午夜视频免费试看| 欧美色图久久| a色毛片免费视频| 国产69精品久久| 欧美午夜视频| 欧美日韩在线国产| 国产激情第一页| 国产一级在线观看www色| 福利视频99| 婷婷五月在线| www.91中文字幕| 欧美亚洲综合免费精品高清在线观看| 尤物在线观看乱码| 国产精品嫩草影院av| 毛片大全免费观看| 亚洲国产精品VA在线看黑人| 免费A∨中文乱码专区| 久久一日本道色综合久久| 成人自拍视频在线观看| 九九线精品视频在线观看| 亚洲美女久久| 亚洲av成人无码网站在线观看| 国产91蝌蚪窝| a在线观看免费| 国产精品无码久久久久AV| 国产精品无码制服丝袜| 最近最新中文字幕在线第一页| 久久影院一区二区h| 国产精品片在线观看手机版 | 国产浮力第一页永久地址| 色综合久久久久8天国| 精品伊人久久久香线蕉| 香蕉视频在线精品| 欧美高清三区| jizz在线免费播放| 国产欧美视频在线观看| 国产永久在线视频| 亚洲色图欧美在线| 日本91在线| 91精品最新国内在线播放| 国产精品三区四区| 激情综合激情| 人人91人人澡人人妻人人爽| 久久鸭综合久久国产| 亚洲精品日产精品乱码不卡| 国产精品思思热在线| 亚洲成A人V欧美综合| 92精品国产自产在线观看| 国产不卡一级毛片视频| 国内嫩模私拍精品视频| 亚洲国产精品日韩欧美一区| 日本久久网站| 亚洲一区二区成人| 刘亦菲一区二区在线观看| 99在线观看免费视频|