999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)典型相關(guān)分析的云模型方法

2013-10-29 08:26:10楊靜李文平張健沛
通信學(xué)報 2013年10期
關(guān)鍵詞:實(shí)驗(yàn)

楊靜,李文平,張健沛

(哈爾濱工程大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

1 引言

自2008年9月《Nature》雜志推出名為“大數(shù)據(jù)”(big data)的封面專欄[1]以來,產(chǎn)業(yè)界和學(xué)術(shù)界便掀起了大數(shù)據(jù)研究熱潮。數(shù)據(jù)量巨大是大數(shù)據(jù)的首要特性,通常認(rèn)為PB級別及其以上的數(shù)據(jù)稱為“大數(shù)據(jù)”。大數(shù)據(jù)還具有稀疏價值特性,即大數(shù)據(jù)所攜帶的信息在刻畫某特定知識方面是冗余的。這些特性為大數(shù)據(jù)挖掘帶來了巨大的挑戰(zhàn)。

大數(shù)據(jù)典型相關(guān)分析(CCA, canonical correlation analysis)是大數(shù)據(jù)研究的重要內(nèi)容之一,它不僅有助于揭示大數(shù)據(jù)間的相關(guān)關(guān)系,而且可提取蘊(yùn)含于大數(shù)據(jù)中的低維特征。大數(shù)據(jù)CCA可用于大數(shù)據(jù)特征融合[2]、機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)降維[4]、數(shù)據(jù)流挖掘[5]等領(lǐng)域。因此大數(shù)據(jù)CCA具有重要的意義。

大數(shù)據(jù)CCA研究極具挑戰(zhàn)性,其困難不僅源于CCA本身具有的高復(fù)雜度,而且也來自大數(shù)據(jù)巨大規(guī)模以及稀疏價值等特性。面向傳統(tǒng)數(shù)據(jù)的CCA方法的高空間復(fù)雜度在面臨大數(shù)據(jù)PB級規(guī)模時已不再適應(yīng)。針對此問題,本文擬研究一種基于云模型的大數(shù)據(jù)CCA方法,期望該方法能克服大數(shù)據(jù)巨大規(guī)模所帶來的高復(fù)雜度等困難。

云理論是一種實(shí)現(xiàn)定量數(shù)據(jù)和定性概念之間相互轉(zhuǎn)換的不確定性人工智能方法,最早由我國學(xué)者李德毅院士提出。云的具體實(shí)現(xiàn)稱為云模型。云模型在信任評估[6,7]、時間序列挖掘[8]以及圖像分割[9]等廣泛領(lǐng)域得到了成功應(yīng)用。然而,將云模型與CCA結(jié)合,以用于大數(shù)據(jù)研究還鮮有學(xué)者涉足,本研究擬在此方面展開初探工作。

本文首先根據(jù)逆向云發(fā)生器生成各云端的數(shù)據(jù)概要;其次將數(shù)據(jù)概要發(fā)送至中心云端,利用云運(yùn)算操作產(chǎn)生中心云數(shù)字特征;最后根據(jù)中心云數(shù)字特征,利用正向云發(fā)生器產(chǎn)生中心云滴,在中心云滴上施加 CCA操作。中心云數(shù)字特征刻畫了各云端中數(shù)據(jù)的語言值,據(jù)此產(chǎn)生的中心云滴是原來大數(shù)據(jù)的不確定性復(fù)原小樣本。中心云滴在概念粒度上攜帶了原始數(shù)據(jù)的重要信息,從這個意義上來說,研究中心云滴不是在原始數(shù)據(jù)上直接計算,是探討大數(shù)據(jù)挖掘的一個良好視角;此外,中心云滴的小樣本特性為CCA贏得了效率。

2 基礎(chǔ)知識回顧

2.1 CCA

CCA是研究2個隨機(jī)向量之間相關(guān)性的一種常用多元統(tǒng)計方法[10]。給定p維隨機(jī)向量X和q維隨機(jī)向量Y,p≤q,CCA的目標(biāo)是尋找投影向量αk和βk,使得在方差的約束下,Pearson相關(guān)系數(shù)

CCA實(shí)質(zhì)是一個最優(yōu)化問題。以第一對典型變量為例(省略α1和β1下標(biāo)),即求

其中,s.t. 表示約束條件,R為實(shí)數(shù)域。用拉格朗日(Lagrange)乘子法求解式(2)有

式(3b)是廣義特征值問題,由此解出λ和α,代入式(3a)可得β。λ即為所求典型相關(guān)系數(shù)。CCA有多種解法,如基于 SVD的方法等,具體可參閱文獻(xiàn)[11,12]。

2.2 云和云模型

設(shè)U為定量論域,C為其上的定性概念,若?x∈ U 是C的隨機(jī)實(shí)現(xiàn),且x對C的確定度μ( x )∈ [ 0,1]是有穩(wěn)定傾向的隨機(jī)數(shù)。

則x在U上的分布稱為云(cloud),而x稱為云滴(cloud drop)[13]。云理論用期望Ex、熵En和超熵He3個數(shù)字特征來表征概念的整體定量特性。在不至混淆時,也將云的 3個數(shù)字特征構(gòu)成的三元組(E x, E n, H e)稱為云。

云模型是云的具體實(shí)現(xiàn)。由云數(shù)字特征產(chǎn)生云滴的實(shí)現(xiàn)稱為正向云發(fā)生器,而由云滴群得到云數(shù)字特征的實(shí)現(xiàn)稱為逆向云發(fā)生器。由于正態(tài)分布的普適性,建立在其上的正態(tài)云是各種云模型中最重要的一種。期望曲線是云理論研究數(shù)據(jù)集在空間中隨機(jī)分布統(tǒng)計規(guī)律的重要方法,一般方程為

云運(yùn)算是云理論中用語言值進(jìn)行計算和推理的重要基礎(chǔ)。給定 2個一維云 C1(E x1, E n1, H e1)和C2(E x2, E n2, H e2),則 C1加 C2之和 C ( E x, E n, H e)可以定義為

需要補(bǔ)充的是,“云”一詞有趣地同時光顧了云計算和云理論,為了不至于混淆,本文所述云端皆指云計算平臺中的分布式節(jié)點(diǎn)或機(jī)群,而其他關(guān)于云的詞匯,特指云理論中的概念。此外,應(yīng)將云運(yùn)算和云計算區(qū)別開來。云運(yùn)算是云理論中對云進(jìn)行操作的規(guī)則,屬于不確定性人工智能范疇;而云計算是一種計算范式,強(qiáng)調(diào)計算資源的有效利用和整合,與云運(yùn)算截然不同。

3 相關(guān)工作

人類在科研和工程實(shí)踐項(xiàng)目中收集的大量數(shù)據(jù)多數(shù)具有大數(shù)據(jù)特性,但將大數(shù)據(jù)抽象出來作為一門獨(dú)立科學(xué)進(jìn)行研究還是最近的事[14]。在生物信息學(xué)等領(lǐng)域,Benjamin等人深入研究了在系統(tǒng)神經(jīng)生物學(xué)領(lǐng)域擔(dān)當(dāng)重要角色的生理電大數(shù)據(jù)壓縮及存儲等問題[15];Aronova等人將生物學(xué)研究中收集的數(shù)據(jù)視為大數(shù)據(jù),從大科學(xué)(big science)視角挖掘這類數(shù)據(jù)蘊(yùn)含的重要知識[16];Werner則更進(jìn)一步,從方法論角度分析了如何應(yīng)對大數(shù)據(jù)生物學(xué)帶來的挑戰(zhàn)[17]。

在數(shù)據(jù)挖掘等領(lǐng)域,Alfredo等人從數(shù)據(jù)倉庫和OLAP等視角分析了多維大數(shù)據(jù)研究存在的問題以及研究趨勢[18];Steven等人研究了大數(shù)據(jù)挖掘中的在線特征選擇問題[19];Simon等人基于模糊查找詞典(fuzzy find dictionary)研究了一種面向數(shù)據(jù)流大數(shù)據(jù)的數(shù)據(jù)流聚類方法[20];John研究了大數(shù)據(jù)上的并行學(xué)習(xí)問題[21]。

在面向大數(shù)據(jù)的程序開發(fā)和存儲等方面,Thomas等人探討了如何在大數(shù)據(jù)上構(gòu)建程序?qū)崿F(xiàn)問題[22];Yu等人提出了一種可擴(kuò)展的用于大數(shù)據(jù)分析的分布式系統(tǒng)[23];Kyuseok以及Jens等人同時探討了 MapReduce架構(gòu)在大數(shù)據(jù)分析中的應(yīng)用[24,25];Divyakant等人分析了大數(shù)據(jù)及云計算現(xiàn)狀和研究挑戰(zhàn)[26];Huiqi等人研究了在云平臺上進(jìn)行可視聚類的一種方法體系[27]。此外,也有學(xué)者開始涉足大數(shù)據(jù)安全方面的研究,如Colin等人探討了大數(shù)據(jù)中存在的安全問題及解決策略[28]。

大數(shù)據(jù)研究還剛剛起步,盡管有學(xué)者探討了基于云計算平臺的大數(shù)據(jù)存儲方法,但未發(fā)現(xiàn)關(guān)于大數(shù)據(jù) CCA的研究報告,也未發(fā)現(xiàn)在此方面基于云理論的研究方法,期望本研究能對此做出些許初探性工作。

4 大數(shù)據(jù)CCA方法

本節(jié)重點(diǎn)研究基于云模型的大數(shù)據(jù) CCA方法(BDCCA, big data CCA)。首先闡述面向大數(shù)據(jù)的云架構(gòu),其次重點(diǎn)探討端點(diǎn)云的生成方法,再次研究端點(diǎn)云的合并技術(shù)。下文約定運(yùn)算符,<··>為歐氏內(nèi)積,而?為Hadamard積。

4.1 面向大數(shù)據(jù)的分布式云架構(gòu)

就容量而言,PB級數(shù)據(jù)量被認(rèn)為是大數(shù)據(jù)的顯著特性,這一特性使得大數(shù)據(jù)一般通過機(jī)群等分布式方式存儲。迄今為止,云平臺是大數(shù)據(jù)存儲的理想載體。本研究假設(shè)大數(shù)據(jù)以分布式方式存儲在云端。圖1刻畫了所提出的由若干個云端構(gòu)成的大數(shù)據(jù)分布式云架構(gòu)。

此云架構(gòu)從功能上分4層:1)頂層為數(shù)據(jù)存儲層,其中,第i個云端存儲第i段數(shù)據(jù)Datai;2)第2層為多維逆向云發(fā)生器(MBCG, multidimensional backward cloud generator)層,其核心任務(wù)在于由原始數(shù)據(jù)產(chǎn)生各云端的云,即端點(diǎn)云;3)第 3層為中心云端(center node),該層主要進(jìn)行云合并運(yùn)算,并用于產(chǎn)生和存儲中心云滴;4)第 4層為應(yīng)用層(applications),基于中心云滴,在此層可進(jìn)行CCA等挖掘或分析任務(wù)。

在大數(shù)據(jù)分布式云架構(gòu)中:1) 根據(jù)多維逆向云發(fā)生器MBCG,由第i個云端中的數(shù)據(jù)Datai產(chǎn)生端點(diǎn)云 Ci(E xi, E ni, H ei),簡記為 Ci;2) 將 Ci傳送至中心云端的云收集器(collector);3) 將云收集器中的云傳送至多維云合并節(jié)點(diǎn)(MCC, multidimensional cloud combiner);4) 根據(jù)多維云合并運(yùn)算,將所有云 Ci合并為中心云 C ( E x, E n, H e),簡記為C;5) 將中心云C傳送至多維正向云發(fā)生器(MFCG, multi- dimensional forward cloud generator)節(jié)點(diǎn);6)根據(jù)MFCG,由中心云C產(chǎn)生中心云滴;7)應(yīng)用層中CCA等任務(wù)到中心云端獲取中心云滴,并據(jù)此進(jìn)行相應(yīng)的挖掘任務(wù)。

此云計算架構(gòu)用于處理大數(shù)據(jù)是合適的。1)各云端向中心云端僅傳送數(shù)據(jù)概要,即由云數(shù)字特征構(gòu)成的三元組,如此小的數(shù)據(jù)量傳送是快速的;2)由中心云產(chǎn)生的中心云滴群規(guī)模往往較小,這有助于提高CCA的運(yùn)算速度。

4.2 BDCCA執(zhí)行流程

BDCCA的基本思路在于:1)在各云端利用逆向云發(fā)生器根據(jù)當(dāng)前云端中數(shù)據(jù)并行生成云(即云數(shù)字特征);2)將各端點(diǎn)云發(fā)送至中心云端,利用多維云合并操作,在中心云端產(chǎn)生中心云;3)根據(jù)中心云,利用正向云發(fā)生器產(chǎn)生中心云滴;4)在中心云滴上施加CCA操作。圖2描述了其執(zhí)行流程。

圖1 大數(shù)據(jù)分布式云架構(gòu)

圖2 BDCCA執(zhí)行流程

數(shù)據(jù)在每個云端分為 Xi和 Yi兩部分,其中,X ∈Rp×ni和 Y ∈Rq×ni,n為第i個云端中的樣本數(shù)

i ii目,p為 Xi的維數(shù),q為 Yi的維數(shù)。特別地,同類數(shù)據(jù)的維數(shù)在所有云端都一致,而樣本數(shù)目可以不同。此外,云端個數(shù)m、各云端標(biāo)識符 Ni、云重要度向量 η = ( η1, η2,… ,ηm)T以及中心云滴數(shù)目ω等需預(yù)先設(shè)定。流程執(zhí)行結(jié)束后,輸出典型相關(guān)系數(shù)向量ρ以及對應(yīng)典型相關(guān)向量為列的矩陣U、V。基于式(3),可通過特征分解或SVD等方法求解X和Y的典型相關(guān)系數(shù)和典型相關(guān)變量,具體可參閱文獻(xiàn)[11]。本文將采用文獻(xiàn)[30]的多維正向正態(tài)云發(fā)生器產(chǎn)生中心云滴群 d rop(X,μx)和 d rop(Y,μy)。限于篇幅,此兩點(diǎn)不再贅述。

圖2所示流程中,產(chǎn)生各端點(diǎn)云以及在中心云端進(jìn)行云合并是關(guān)鍵,后文將分別詳述這兩點(diǎn),一方面后文將對多維逆向云發(fā)生器進(jìn)行改進(jìn),使之適宜于在大數(shù)據(jù)環(huán)境下產(chǎn)生各端點(diǎn)云;另一方面將提出一種一次合并多個多維云的方法,以提高大數(shù)據(jù)環(huán)境下云合并運(yùn)算的效率。

4.3 端點(diǎn)云生成

所謂端點(diǎn)云的生成,是指根據(jù)逆向云發(fā)生器,由云端中數(shù)據(jù)產(chǎn)生云的過程。本文采用無確定度的多維逆向正態(tài)云發(fā)生器[30]作為端點(diǎn)云的生成模型。

盡管已將大數(shù)據(jù)存儲于分布式云架構(gòu)各云端(如圖1所示),但是由于大數(shù)據(jù)的巨大容量特性,在每個云端所存儲的數(shù)據(jù)量往往還較大,現(xiàn)存多維逆向正態(tài)云發(fā)生器不再滿足大數(shù)據(jù)環(huán)境下計算效率的要求,對之加以改進(jìn)是必要的。

為了提高多維逆向正態(tài)云發(fā)生器在大數(shù)據(jù)環(huán)境下產(chǎn)生云的效率,本文基于隨機(jī)采樣法,采用啟發(fā)式云生成策略,將多維逆向正態(tài)云發(fā)生器拓展到大數(shù)據(jù)情形。

4.3.1 大數(shù)據(jù)隨機(jī)采樣

本文借鑒隨機(jī)子空間法[29]思想,在各云端進(jìn)行大數(shù)據(jù)隨機(jī)采樣。設(shè)各云端將大數(shù)據(jù)分為若干塊,首先對每塊按照相同劃分方式將其分割成s個子塊;然后將所有塊中相同位置的子塊轉(zhuǎn)換成列向量并進(jìn)行組合,形成一個子塊集,如圖3所示。

基于劃分的數(shù)據(jù)塊,在每個子塊集上執(zhí)行隨機(jī)采樣。對第i個子塊集 Ti,根據(jù)隨機(jī)子空間法思想,隨機(jī)產(chǎn)生 r*維索引向量 Ii={j1,j2, … , jr*},r*<r,r為子塊集大小。將所有子塊集中產(chǎn)生的索引向量按下標(biāo)升序組合為 I = {I1, I2,… ,Is}。對每個云端數(shù)據(jù)X和Y分別執(zhí)行上述操作。最后在與索引向量對應(yīng)數(shù)據(jù)上執(zhí)行CCA操作。

4.3.2 云生成的啟發(fā)式策略

在每個云端,云的產(chǎn)生采用啟發(fā)式策略。其基本思想是,在每個云端迭代地進(jìn)行若干次不重復(fù)隨機(jī)采樣,將每次迭代時抽取的樣本加入之前的樣本中,每次迭代后進(jìn)行云更新,若第i次迭代后所生成的云Ci與迭代前的云Ci-1之差ΔCi小于給定閾值或迭代次數(shù)超過預(yù)設(shè)閾值,則迭代終止。迭代過程中,若當(dāng)前迭代的云差異 ΔCi正向偏離前一次迭代的云差異 ΔCi-1,即 ΔCi- ΔCi-1> δ ,則下一次迭代時將加大隨機(jī)采樣的樣本容量;反之若 ΔCi負(fù)向偏離 ΔC,即 ΔC- ΔC≤ δ ,則下一次迭代

i-1i i -1時將減小隨機(jī)采樣的樣本容量。其中,δ≥0,δ為常量。

此策略的2個關(guān)鍵問題在于,其一每次迭代后云的更新;其二相鄰兩次更新所生成云之間差異的刻畫或度量。

圖3 數(shù)據(jù)子塊劃分

4.3.3 云的部分增量式更新

每次迭代后的云更新是云的啟發(fā)式生成策略需要解決的首要問題。云更新即是云期望熵和超熵的更新。其中

若記

其中,ni為第i次迭代后的樣本總?cè)萘浚?為第i次迭代進(jìn)行隨機(jī)采樣所得的樣本容量,顯然云增量式更新的本質(zhì)在于:①用Exi-1刻畫Exi;②根據(jù)Γi-1求解Γi;③由Υi-1計算Υi。本研究主要更新前兩者,故稱為部分增量式更新。

這只需注意到

由于絕對值缺乏良好的代數(shù)性質(zhì),因此要獲得A的增量表達(dá)式是困難的。本研究在迭代過程中只需跟蹤云期望向量Exi和中間向量Γi即可,而不需跟蹤Υi的改變量。定理1闡述了其理由。

所以可得 ΔΥi→0。

定理1表明,若迭代終止條件為相鄰兩次更新生成云的差異足夠小,則只需考察云期望向量 E xi和中間向量Γi的改變量是否小于給定閾值即可。

需要補(bǔ)充的是,云部分增量式更新的根本目的不是為了增量式求解各端點(diǎn)云,而是云生成的啟發(fā)式策略中進(jìn)行不重復(fù)隨機(jī)采樣時用于判斷迭代的終止條件,因?yàn)椴糠衷隽渴礁戮哂休^快的速度。

4.3.4 云差異的弦度量

相鄰兩次更新所生成云之間差異的刻畫是云啟發(fā)式生成策略需解決的又一重要問題。由定理 1可知,用云期望向量Exi及中間向量Γi的改變量來刻畫第i次迭代后所生成云 Ci與迭代前的云 Ci-1之差異 ΔCi是合適的。即

這種間接度量方式除了具有相鄰云之間差異的刻畫能力外,其另外2個優(yōu)點(diǎn)在于:①規(guī)范性,即 ΔCi∈[0,1];②異常值的不敏感性,顯然Exi和Γi對異常值是敏感的,當(dāng)異常值出現(xiàn)時,可對弦度量對應(yīng)的Riemann球面做一個適當(dāng)旋轉(zhuǎn),此旋轉(zhuǎn)對應(yīng)著異常值的 l2范數(shù)的一個變換,變換后的值為非異常值,其優(yōu)勢是保持弦度量不變。限于篇幅,本研究不再深入探討異常值的檢測及處理等細(xì)節(jié)。

4.3.5 改進(jìn)的多維逆向云發(fā)生器算法

基于大數(shù)據(jù)隨機(jī)采樣法以及啟發(fā)式的云生成策略,本文對無確定度的多維逆向正態(tài)云發(fā)生器[30]進(jìn)行改進(jìn),使其適宜于大數(shù)據(jù)環(huán)境下云的快速生成。改進(jìn)后的算法如下。

算法1 大數(shù)據(jù)多維逆向云發(fā)生器BDMBCG。

輸入:子塊數(shù)目s,初始抽樣率 r0,云差異閾值ε。

輸出:云 C ( E x, E n , H e )。

1) 初始化:將分塊存儲在當(dāng)前云端的數(shù)據(jù)按4.3.1節(jié)所述的數(shù)據(jù)子塊劃分方式將其分割成s個子塊,并求每個子塊大小 s0,置 n = r0s0,置r為小于n的隨機(jī)正整數(shù)。

2) 進(jìn)行兩次容量分別為n和r的不重復(fù)隨機(jī)采樣,并根據(jù)式(6)計算均值向量 E x0和 E x1以及中間向量Γ0和Γ1,再根據(jù)式(10)求云差異ΔC。

3) WHILE ΔC>ε且數(shù)據(jù)未抽樣完時。

4) Ex0=Ex1,Γ0=Γ1,n=n+ r。

5) 執(zhí)行容量為r的不重復(fù)隨機(jī)采樣,當(dāng)所剩樣本不足r時,抽取剩余樣本的。

6) 根據(jù)式(7)更新Ex1,并根據(jù)式(8)更新Γ1。

7) 根據(jù)式(10)求云差異 ΔC'。

8) IF ΔC'-ΔC> ε/2

9) 產(chǎn)生小于r的隨機(jī)正整數(shù)t,并置r=t;

10) ELSE

11) 產(chǎn)生介于(r, s0)之間的隨機(jī)正整數(shù)t,并置 r=t;

12) ENE

13) 置 ΔC=ΔC'。

14) END //End While

算法1的最后兩步表明,盡管云部分增量式更新的根本目的不是為了增量式求解各端點(diǎn)云,但卻達(dá)到了部分增量式求解的目的,因?yàn)榍蠼庠?C ( E x,E n , H e )時,只重新計算中間量A,其余量直接應(yīng)用算法在啟發(fā)式迭代過程中增量更新的值。

注:1)算法1在各個云端執(zhí)行,本研究假設(shè)數(shù)據(jù)X和Y作為云端公共變量可直接訪問,因此算法輸入省略此數(shù)據(jù)項(xiàng);2)每個云端數(shù)據(jù)X和Y的容量往往不相等,由于 CCA要求輸入的兩組樣本容量一致,因此算法執(zhí)行后還需進(jìn)行一次隨機(jī)采樣,其操作在小樣本容量對應(yīng)的數(shù)據(jù)上進(jìn)行,所抽取樣本量為算法1執(zhí)行后獲得的兩組樣本量之差值。

4.4 多維云合并

在式(5)對應(yīng)的云合并運(yùn)算中,每次僅能進(jìn)行一對云加法運(yùn)算,如果通過反復(fù)調(diào)用方式每次合并一對云,每合并一次,云的總個數(shù)僅減少一個,因?yàn)樾律傻脑七€需要加入合并操作,這在云端較多時將增大時間開銷,特別在大數(shù)據(jù)環(huán)境下,其效率會遭受質(zhì)疑;另一方面,式(5)也未顧及2個云重要性的差異,在大數(shù)據(jù)環(huán)境中,由于受數(shù)據(jù)收集或存儲策略等差異的影響,不同云端的數(shù)據(jù)可能存在重要性差異,因此各云端傳送到中心云端的云的合并應(yīng)體現(xiàn)各云端之差異。

針對前述不足,本文借鑒文獻(xiàn)[30]用于概念粒度提升的躍升策略的相鄰云合并思想,提出了一種適宜于大數(shù)據(jù)的云合并運(yùn)算方法。

給定 m個p維云 Ci(E xi, E ni, H ei)(i = 1 ,2,…,m),以及刻畫每個云重要度的向量 η = ( η1,η2,… ,ηm)T,∑ηi=1,記

則有

其中,U為第i個p維云 Ci的第 j個維度對應(yīng)論域, i = 1,2,… ,m; j = 1,2,… ,p 。

與已有方法相比,本文提出的云合并方法呈現(xiàn)出3個特點(diǎn):1)能對各云端傳入中心云端的云進(jìn)行一次性合并;2)云合并中體現(xiàn)了不同云端的重要性差異;3)合并的是多維云,而非一維云。

5 仿真實(shí)驗(yàn)及結(jié)果分析

5.1 實(shí)驗(yàn)數(shù)據(jù)及仿真云平臺

實(shí)驗(yàn)涉及3個數(shù)據(jù)集。

1) 帶噪聲的線性數(shù)據(jù)集LN:這是一個合成數(shù)據(jù)集,數(shù)據(jù)X和Y每個屬性來自于線性數(shù)據(jù),然后疊加符合高斯分布N(1,2)的樣本擾動每個屬性值。每次產(chǎn)生的數(shù)據(jù)包括10個維度。

2) 真實(shí)數(shù)據(jù)集PAMAP2:這是對18個不同物理活動進(jìn)行監(jiān)視所收集的數(shù)據(jù)(http://archive.ics.uci.edu/ml/datasets/PAMAP2+Physical+Activity+Mon-i toring),包括3 850 505行記錄,含52個屬性。實(shí)驗(yàn)選取的屬性為慣性測量單元 IMU(inertial measurement units),前兩組實(shí)驗(yàn)選取手部 IMU(IMU hand)的前10個屬性,而第三組實(shí)驗(yàn)將手部IMU作為一組(包括 17個屬性),而胸部 IMU(IMU chest)作為另一組(包括17個屬性)。

3) 真實(shí)數(shù)據(jù)集IDS:網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集IDS[31]記錄了網(wǎng)絡(luò)鏈接中正常鏈接和攻擊性鏈接(intrusions or attacks)的行為數(shù)據(jù),共包括494 021條記錄,含41個屬性。實(shí)驗(yàn)選取其中的連續(xù)屬性(包括34個)進(jìn)行測試,前兩組實(shí)驗(yàn)選取前10個屬性;第三組實(shí)驗(yàn)將前12個屬性為一組,其余為另一組。

實(shí)驗(yàn)前已刪除數(shù)據(jù)集中具有缺失值的記錄,且對每個屬性在均值4倍方差外的值用均值替換。

CCA以及多維云發(fā)生器對數(shù)據(jù)約束較少,一般認(rèn)為,只要總體接近正態(tài)分布的實(shí)數(shù)都可采用。選擇PAMAP2和IDS數(shù)據(jù)集的理由在于它們是得到大量文獻(xiàn)廣泛采用的標(biāo)準(zhǔn)數(shù)據(jù)集,而且其容量較大,已接近仿真實(shí)驗(yàn)平臺的資源上限。

實(shí)驗(yàn)從上述3個數(shù)據(jù)集中選取的每個屬性都是總體接近正態(tài)分布的實(shí)數(shù)。圖4是從PAMAP2數(shù)據(jù)集手部IMU中隨機(jī)挑選出的兩列數(shù)據(jù)(IMU6和IMU12)的分布直方圖。數(shù)據(jù)已規(guī)范化為均值0,方差1。設(shè)置了25個云端,將數(shù)據(jù)均分為25個相鄰塊,每個云端分配一塊。其中,圖 4(a)為總體分布直方圖,而圖 4(b)﹑圖 4(c)和圖 4(d)分別為第3號﹑17號和23號云端中的數(shù)據(jù)分布直方圖。

由圖4可以看出,不論是總體數(shù)據(jù)還是分配到各云端的數(shù)據(jù)都接近正態(tài)分布;此外,不同云端的均值偏移不同,且方差范圍有所區(qū)別,此現(xiàn)象說明4.4節(jié)研究多維云合并是必要的。筆者在做本實(shí)驗(yàn)前還對手部IMU其他屬性、胸部IMU的各屬性以及LN和IDS數(shù)據(jù)集的連續(xù)屬性都進(jìn)行了類似的分布情況觀察分析,結(jié)果與在IMU6和IMU12上的觀察結(jié)果相似,篇幅所限,不再贅述。

因此,盡管所選數(shù)據(jù)集與真實(shí)大數(shù)據(jù)在容量上有一定的差異,但就仿真而言,數(shù)據(jù)容量﹑數(shù)據(jù)總體分布和各云端的數(shù)據(jù)分布等都有一定的代表性。

實(shí)驗(yàn)在單臺微機(jī)上通過仿真完成。為仿真數(shù)據(jù)在各云端的存儲,實(shí)驗(yàn)為每個云端創(chuàng)建一個文件夾,每個文件夾下存儲若干純文本文件,每個文本文件存儲一個數(shù)據(jù)塊。每個實(shí)驗(yàn)開始前,先將各數(shù)據(jù)集切分為相鄰塊并存儲到對應(yīng)文本文件中。

實(shí)驗(yàn)為每個云端啟動一個獨(dú)立線程,所有云端對應(yīng)線程并行執(zhí)行。每個線程從所屬云端對應(yīng)文件夾下讀取相應(yīng)數(shù)據(jù),并分配一塊內(nèi)存用于存儲相應(yīng)數(shù)據(jù)。各線程根據(jù)讀取的數(shù)據(jù)生成各端點(diǎn)云。若內(nèi)存資源不足時,正在讀取數(shù)據(jù)的線程掛起,當(dāng)內(nèi)存資源可用時再喚醒。在需計算運(yùn)行時間的實(shí)驗(yàn)中,線程從掛起到喚醒所耗時間忽略。

圖4 IMU6和IMU12分布直方圖

為中心云端啟動一個獨(dú)立線程,并分配一塊互斥訪問的內(nèi)存,用于存儲各云端傳回的云。當(dāng)所有端點(diǎn)云都傳回后,中心云端對應(yīng)線程基于此內(nèi)存塊中的云完成云合并、中心云滴產(chǎn)生以及CCA運(yùn)算。

實(shí)驗(yàn)通過 C#語言實(shí)現(xiàn),在 Microsoft Visual Studio 2010 Ultimate-CHS環(huán)境中完成,作圖工具選用 MATLAB R2011a。實(shí)驗(yàn)計算機(jī)配置為雙核 2.8 GHz CPU、4.0 GB內(nèi)存,操作系統(tǒng)為 Windows 7 Professional。

5.2 實(shí)驗(yàn)一:各參數(shù)對端點(diǎn)云生成的影響

為驗(yàn)證本文改進(jìn)的多維逆向云發(fā)生器BDMBCG的有效性,本實(shí)驗(yàn)評估各參數(shù)對端點(diǎn)云生成的影響。為敘述方便,將改進(jìn)前的多維逆向云發(fā)生器記為MBCG。由于BDMBCG在每個云端運(yùn)行,因此本組實(shí)驗(yàn)設(shè)置云端數(shù)目為1,即在1個云端觀察,并設(shè)數(shù)據(jù)集在每個云端分為10塊存儲。

需考察的參數(shù)包括數(shù)據(jù)子塊數(shù)目s、初始抽樣率 r0和云差異閾值ε。實(shí)驗(yàn)將云 C ( E x, E n, H e )視為Rp×3上的子空間,p為維數(shù),用算法改進(jìn)前計算出的云 C1和改進(jìn)后所得的云 C2對應(yīng)的列子空間S1=col(C1)和S2=col(C2)的距離 d ( S1, S2)作為誤差error的度量,定義為

ii上的正交投影算子, i = 1 ,2。

需要補(bǔ)充的是,式(12)與式(10)刻畫的2種云差異的區(qū)別:①條件不同,式(12)需求出云期望、熵和超熵后才有意義,而式(10)只需給出云期望向量和中間向量Γ;②目的不同,式(12)用于直接度量2種算法產(chǎn)生的云之間的差異,而式(10)用于間接度量同一算法在云部分增量式更新過程中相鄰時刻產(chǎn)生的云之間的差異。由于算法1執(zhí)行后云已經(jīng)生成,因此用式(12)刻畫BDMBCG生成的云與MBCG生成的云之間的差異是合理的。由上述兩點(diǎn)區(qū)別得出的結(jié)論是,引入式(10)和式(12)是必要的,而且不可用一方代替另一方或交換其位置。

每組實(shí)驗(yàn)重復(fù)100次,以觀察不同參數(shù)下云的平均差異和計算時間。每次生成LN數(shù)據(jù)200 000條記錄,每條記錄包括10維;從PAMAP2數(shù)據(jù)集隨機(jī)抽取200 000條相鄰記錄,其屬性選取為手部IMU前10個屬性;并從IDS數(shù)據(jù)集中隨機(jī)抽取200 000條相鄰記錄,其屬性選取前10個連續(xù)屬性維度。

首先,考察數(shù)據(jù)子塊數(shù)目s對生成云的影響及計算時間的差異。初始抽樣率00.35r= ,云差異閾值0.1ε=。圖5為誤差比較圖,而圖6為3個數(shù)據(jù)集上的平均計算時間比較圖。

圖5 不同子塊數(shù)目下所生成云的誤差

由圖 5可見,隨著子塊數(shù)目s的增大,誤差逐漸減小。當(dāng)s增加到1 000時,誤差已接近0.05。此現(xiàn)象表明,適當(dāng)增大子塊數(shù)目有助于提高計算精度。但圖 6卻表明,隨著子塊數(shù)目的增大,BDMBCG所需時間略有上升。因此在一定精度范圍內(nèi),子塊數(shù)目選擇適中為宜。此外,真實(shí)數(shù)據(jù)集PAMAP2和IDS上的誤差比合成數(shù)據(jù)集LN上的誤差略小。

圖6 不同子塊數(shù)目下平均運(yùn)行時間

其次,評估初始抽樣率0r對生成云的影響。數(shù)據(jù)子塊數(shù)目400s=,云差異閾值0.1ε=。圖7為誤差比較圖,而圖8為不同初始抽樣率0r的平均運(yùn)行時間。

圖7 不同初始抽樣率下所生成云的誤差

由圖 7可以看出,在00.3r≤ 時各數(shù)據(jù)集上誤差都較大;當(dāng)0r在 0.20~0.45范圍內(nèi)時,誤差下降趨勢明顯;而此后誤差逐漸接近0.05左右,且波動較小,其趨勢幾乎延續(xù)到00.8r= 。但是,并不是初始抽樣率越大越好,觀察圖8可以發(fā)現(xiàn),當(dāng)0r變小或增大時,3個數(shù)據(jù)集上平均運(yùn)行時間持續(xù)增加。

圖8 不同初始抽樣率下平均運(yùn)行時間

再次,觀察云差異閾值ε對生成云的影響及計算時間的差異。初始抽樣率 r0= 0 .4,數(shù)據(jù)子塊數(shù)目 s = 4 00對。圖9為誤差比較圖,而圖10呈現(xiàn)了3個數(shù)據(jù)集上的平均運(yùn)行時間。由圖9可以看出,當(dāng) ε ≥ 0 .15時,誤差持續(xù)增大。圖10表明,生成云的平均運(yùn)行時間隨著云差異閾值的增大不斷減少。結(jié)合兩圖觀察發(fā)現(xiàn),當(dāng)ε介于[0.08,0.15]時,能獲得一個兼顧較低誤差和較少運(yùn)行時間的折中方案。

圖9 不同云差異閾值下所生成云的誤差

圖10 不同云差異閾值下平均運(yùn)行時間

5.3 實(shí)驗(yàn)二:多維云合并運(yùn)算的效率分析

本實(shí)驗(yàn)將式(5)對應(yīng)的原始云合并方法(記為“original”)與本文提出的一次性合并多個多維云的云運(yùn)算方法(如式(11)所示,不妨記為“new”)進(jìn)行比較,評估不同云端數(shù)目對云合并效率的影響。對于式(5)對應(yīng)的原始云合并,通過反復(fù)迭代,每次合并2個云,將前一次合并后的云加入當(dāng)前云的集合再次合并,直至最終合并為一個云為止。

對于同一云端數(shù)目 nci,實(shí)驗(yàn)重復(fù)進(jìn)行50次。第i次實(shí)驗(yàn)中,云重要度皆為1/nci。每次實(shí)驗(yàn)生成維數(shù)為 10的 LN數(shù)據(jù) 2 nci× 1 05條記錄;并從PAMAP2數(shù)據(jù)集和IDS數(shù)據(jù)集中各隨機(jī)抽取 2 × 105條相鄰記錄 nci次,屬性選取與實(shí)驗(yàn)一相同。按抽取順序?qū)?shù)據(jù)平均分配到 nci個云端。之后在每個云端并行調(diào)用算法1的BDMBCG( s = 4 00、r0= 0 .3、ε= 0 .1)生成每個端點(diǎn)云,并將生成的云傳回中心云端。本實(shí)驗(yàn)僅僅評估在中心云端上合成中心云的效率。

圖11為不同云端數(shù)目下,在3個數(shù)據(jù)集上云合并的平均運(yùn)行時間比較圖。由圖 11可以看出,隨著云端數(shù)目的增大,原始的云合并操作所需時間迅速上升,而本文提出的一次性合并多個多維云的操作所需時間上升幅度卻相對較小。此現(xiàn)象表明,本文提出的云合并操作對于所提出的大數(shù)據(jù)分布式云架構(gòu)是合適的,云端數(shù)目增大并未顯著提高云合并的時間開銷。

圖11 云合并運(yùn)行時間比較

5.4 實(shí)驗(yàn)三:BDCCA的有效性評估

為驗(yàn)證本文所提BDCCA的有效性,本組實(shí)驗(yàn)將 BDCCA 與經(jīng)典 CCA(記為 NaiveCCA)、ApproxCCA[32]和LS-CCA[33]進(jìn)行對比分析,考察不同云滴群大小、不同云端數(shù)目以及不同數(shù)據(jù)總?cè)萘肯拢湫拖嚓P(guān)系數(shù)的精度以及BDCCA的執(zhí)行效率。

典型相關(guān)系數(shù)的精度用其誤差error刻畫。error定義為 NaiveCCA在原始大數(shù)據(jù)上所得典型相關(guān)系數(shù) rNavieCCA分別與其他幾種方法所得典型相關(guān)系數(shù)之差的絕對值,即

其中, r0取 rBDCCA、rApproxCCA或rLS-CCA。rBDCCA表示BDCCA在云滴群上所得的典型相關(guān)系數(shù),而rApproxCCA和rLS-CCA分別表示ApproxCCA和LS-CCA在原數(shù)據(jù)上所得的典型相關(guān)系數(shù)。

基于BDCCA求典型相關(guān)系數(shù)的過程為:對于每個實(shí)驗(yàn),首先在每個云端并行調(diào)用算法 1的BDMBCG生成每個端點(diǎn)云,并將生成的云傳回中心云端;其次根據(jù)式(11)進(jìn)行云合并;第三采用文獻(xiàn)[30]中的多維正向正態(tài)云發(fā)生器產(chǎn)生中心云滴群drop( X,μx)和 d rop( Y,μy);最后在X和Y上執(zhí)行CCA操作。

本節(jié)所有實(shí)驗(yàn)在每個云端前兩步的參數(shù)設(shè)置同實(shí)驗(yàn)二,且所有實(shí)驗(yàn)在數(shù)據(jù)集 PAMAP2和 IDS上進(jìn)行。在PAMAP2數(shù)據(jù)集上,實(shí)驗(yàn)將手部IMU作為一組(包括17個屬性),而胸部 IMU作為另一組(包括17個屬性);而IDS數(shù)據(jù)集則選取前12個連續(xù)屬性為一組,其余連續(xù)屬性為另一組。

5.4.1 云滴群大小對典型相關(guān)系數(shù)的影響

本實(shí)驗(yàn)設(shè)置 25個云端,每個云端的數(shù)據(jù)選取方式與實(shí)驗(yàn)二相同。對于給定的云滴群大小 di,實(shí)驗(yàn)重復(fù) 30次,每次都重新挑選數(shù)據(jù)。對每個典型相關(guān)系數(shù),其誤差定義如式(13)所示。取各次所得典型相關(guān)系數(shù)誤差的算術(shù)平均值作為平均誤差。

由于BDCCA計算典型相關(guān)系數(shù)是在云滴群上進(jìn)行的,而其他CCA方法則在原始大數(shù)據(jù)上進(jìn)行,因此當(dāng)數(shù)據(jù)總?cè)萘抗潭ê螅频稳旱囊?guī)模并不影響ApproxCCA和LS-CCA所得典型相關(guān)系數(shù)的誤差,因?yàn)樵诓煌频稳捍笮∠拢瑀ApproxCCA和rLS-CCA為常數(shù)。故本實(shí)驗(yàn)僅僅考察不同云滴群大小下 BDCCA所得典型相關(guān)系數(shù)誤差的變化情況。

圖12為不同云滴群大小下前2個典型相關(guān)系數(shù)的平均誤差。由圖12可看出:①隨著云滴群規(guī)模的增大,前2個典型相關(guān)系數(shù)的誤差均逐漸降低,但當(dāng)云滴群大小超過150時,其降低趨勢趨于平緩。此現(xiàn)象的啟發(fā)是,適當(dāng)增大云滴群規(guī)模有助于降低典型相關(guān)系數(shù)的誤差,但是當(dāng)其規(guī)模增大到一定程度后,再增加云滴數(shù)目對于降低誤差的貢獻(xiàn)并不大。②當(dāng)云滴群大小超過100時,相關(guān)系數(shù)的誤差均較小,其值未超過0.2,多數(shù)在0.1范圍內(nèi)。此現(xiàn)象從相關(guān)性這一側(cè)面揭示了大數(shù)據(jù)的稀疏價值特性,即大量數(shù)據(jù)中蘊(yùn)含的相關(guān)性通過少量云滴即得以刻畫,這與本文研究的最初設(shè)想是一致的。

圖12 不同云滴群大小下典型相關(guān)系數(shù)誤差

5.4.2 云端數(shù)目的影響

在數(shù)據(jù)總?cè)萘亢驮频稳捍笮【o定的情況下,本實(shí)驗(yàn)評估云端數(shù)目對典型相關(guān)系數(shù)的精度及運(yùn)行時間的影響。與 5.4.1節(jié)的實(shí)驗(yàn)相似,當(dāng)數(shù)據(jù)總?cè)萘抗潭ê螅贫艘?guī)模也不會影響 ApproxCCA和LS-CCA所得典型相關(guān)系數(shù)的誤差,因此本實(shí)驗(yàn)關(guān)于典型相關(guān)系數(shù)誤差也僅僅考察BDCCA所得典型相關(guān)系數(shù)誤差隨云端數(shù)目變化而變化的情況。誤差定義如式(13)所示。

云滴群大小設(shè)置為100。從數(shù)據(jù)集PAMAP2和IDS中重復(fù)抽取100次數(shù)據(jù),每次隨機(jī)抽取 2 × 105條相鄰記錄。當(dāng)云端數(shù)目 nci給定后,第i個云端分配的記錄數(shù)目為其中表示向下取整。實(shí)驗(yàn)對不同的云端數(shù)目 nci重復(fù) 10次。圖 13為不同云端數(shù)目下第1典型相關(guān)系數(shù)的平均誤差,而圖14為不同云端數(shù)目下的平均運(yùn)行時間。

5.4.3 數(shù)據(jù)容量的影響

本實(shí)驗(yàn)考察數(shù)據(jù)總?cè)萘繉DCCA所得典型相關(guān)系數(shù)的精度和運(yùn)行時間的影響。從數(shù)據(jù)集PAMAP2和IDS中重復(fù)抽取若干次數(shù)據(jù),每次隨機(jī)抽取 1 × 105條相鄰記錄,直至所取數(shù)據(jù)達(dá)到所需容量 nD為止。共進(jìn)行10組實(shí)驗(yàn),云端數(shù)目設(shè)置為,即每個云端分配 1 × 106條記錄。云滴群大小設(shè)置為100。每組實(shí)驗(yàn)重復(fù)10次,取每次所得典型相關(guān)系數(shù)誤差的平均值作為輸出誤差,而取所有云端的最大運(yùn)行時間作為 BDCCA的運(yùn)行時間。

圖13 不同云端數(shù)目下典型相關(guān)系數(shù)的誤差

圖14 不同云端數(shù)目下的平均運(yùn)行時間

表1為不同總數(shù)據(jù)容量下前2個典型相關(guān)系數(shù)的平均誤差。誤差定義如式(13)所示。由表1可知:1)從總體上看,BDCCA、ApproxCCA和LS-CCA對應(yīng)典型相關(guān)系數(shù)誤差都隨著數(shù)據(jù)總?cè)萘康脑黾佣仙髢烧呤浅掷m(xù)地快速上升,且上升幅度較大,而BDCCA在上升過程中存在波動,且上升幅度略小;2)當(dāng)數(shù)據(jù)總?cè)萘枯^小時,BDCCA對應(yīng)典型相關(guān)系數(shù)誤差略大于 ApproxCCA和 LS-CCA對應(yīng)誤差,而當(dāng)數(shù)據(jù)總?cè)萘枯^大時,后兩者對應(yīng)誤差迅速超過前者對應(yīng)誤差(見表中粗體)。上述現(xiàn)象表明,在數(shù)據(jù)容量較大的情況下,BDCCA所得典型相關(guān)系數(shù)精度相對略高,從這個意義上說,BDCCA用于大數(shù)據(jù)分析是適宜的。

表1 不同數(shù)據(jù)容量下典型相關(guān)系數(shù)平均誤差

圖 15為不同容量下的平均運(yùn)行時間。由圖15可見,BDCCA的平均運(yùn)行時間并未因數(shù)據(jù)容量的增大而顯著增加,但 ApproxCCA、LS-CCA和NaiveCCA的平均運(yùn)行時間則隨著數(shù)據(jù)容量的增加而呈線性遞增趨勢。此現(xiàn)象表明,如果數(shù)據(jù)容量增大時對等地增加云端數(shù)目,則BDCCA能獲得較快的處理速度,這恰是大數(shù)據(jù)的巨大規(guī)模特性所歡迎的。

圖15 不同數(shù)據(jù)總?cè)萘肯缕骄\(yùn)行時間

總之,上述實(shí)驗(yàn)結(jié)果表明,基于所設(shè)計的大數(shù)據(jù)分布式云架構(gòu)所提出的BDCCA以增加系統(tǒng)資源(即云端)為代價,可獲得一定的計算精度和較快的處理速度,這對于大數(shù)據(jù)快速處理是適宜的。

6 結(jié)束語

本文提出了一種面向大數(shù)據(jù)的CCA方法BDCCA。該方法在容量較小的中心云滴群上進(jìn)行CCA操作,提高了大數(shù)據(jù) CCA的執(zhí)行效率。為了快速產(chǎn)生中心云滴,首先設(shè)計了一種面向大數(shù)據(jù)挖掘的分布式云架構(gòu),為本文大數(shù)據(jù)存儲和計算建立了研究基礎(chǔ);其次重點(diǎn)對多維逆向正態(tài)云發(fā)生器進(jìn)行改進(jìn),以提高其在大數(shù)據(jù)環(huán)境下產(chǎn)生云的效率;提出了一種一次性合并多個多維云的云合并運(yùn)算方法,以加快云合并速度。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的合理性和有效性,一方面該方法以增加系統(tǒng)資源(即云端)為代價,可獲得一定的計算精度和較快的處理速度;另一方面該方法從相關(guān)性這一側(cè)面揭示了大數(shù)據(jù)的稀疏價值特性。本研究可用于大數(shù)據(jù)特征融合、機(jī)器學(xué)習(xí)和數(shù)據(jù)降維等領(lǐng)域。

[1] MINNESOTA M. Big data: science in the petabyte era[J]. Nature,2008, 455(7209):1-136.

[2] SAKAR C O, KURSUN O. A method for combining mutual information and canonical correlation analysis: predictive mutual information and its use in feature selection[J]. Expert Systems with Applications,2012, 39(3):3333-3344.

[3] OLCAY K, ETHEM A, OLEG V, et al. Canonical correlation analysis using within-class coupling[J]. Pattern Recognition Letters, 2011, 32(2):134-144.

[4] KAMALIKA C, SHAM M K, KAREN L, et al. Multi-view clustering via canonical correlation analysis[A]. Proc of the 26th International Conference on Machine Learning[C]. New York, ACM, USA, 2009.129-136.

[5] 楊靜, 李文平, 張健沛. 基于秩 2更新的多維數(shù)據(jù)流典型相關(guān)跟蹤算法[J]. 電子學(xué)報, 2012, 40(9):1765-1774.YANG J, LI W P, ZHANG J P. A tracking algorithm based on rank two modifications for canonical correlation analysis of multidimensional data streams[J]. Acta Electronica Sinica, 2012, 40(9):1765-1774.

[6] 顧鑫, 徐正全, 劉進(jìn). 基于云理論的可信研究及展望[J]. 通信學(xué)報,2011, 32(7):176-181.GU X, XU Z Q, LIU J. Review of cloud based trust model[J]. Journal on Communications, 2011, 32(7):176-181.

[7] 黃海生, 王汝傳. 基于隸屬云理論的主觀信任評估模型研究[J]. 通信學(xué)報, 2008,29(4):13-19.HUANG H S, WANG R C. Subjective trust evaluation model based on membership cloud theory[J]. Journal on Communications, 2008, 29(4): 13-19.

[8] 蔣嶸, 李德毅. 基于形態(tài)表示的時間序列相似性搜索[J]. 計算機(jī)研究與發(fā)展, 2000, 37(5):601-608.JIANG R, LI D Y. Similarity search based on shape representation in time-series data sets[J]. Journal of Computer Research & Development,2000, 37(5):601-608.

[9] 許凱, 秦昆, 黃伯和等. 基于云模型的圖像區(qū)域分割方法[J]. 中國圖象圖形學(xué)報, 2010, 15(5):757-763.XU K, QIN K, HUANG B H, et al. A new method of region based on image segmentation based on cloud model[J]. Journal of Image and Grphics, 2010, 15(5):757-763.

[10] HOTELLING H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3):321-377.

[11] 彭巖, 張道強(qiáng). 半監(jiān)督典型相關(guān)分析算法[J]. 軟件學(xué)報, 2008,19(11):2822-2832.PENG Y, ZHANG D Q. Semi-supervised canonical correlation analysis algorithm[J]. Journal of Software, 2008, 19(11):2822-2832.

[12] 顧晶晶, 陳松燦, 莊毅. 用局部保持典型相關(guān)分析定位無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)[J]. 軟件學(xué)報, 2010, 21(11):2883-2891.GU J J, CHEN S C, ZHUANG Y. Localization in wireless sensor network using locality preserving canonical correlation analysis[J]. Journal of Software, 2010, 21(11):2883-2891.

[13] LI D Y, HAN J W. Knowledge representation and discovery based on linguistic atoms[J]. Knowledge-based Systems, 1998, 7(10):431-440.

[14] PHILIP R. Big Data Analytics[R]. TDWI Best Parctices Report, 2011.1-38.

[15] BENJAMIN H B, MARK R B, KEITH A S, et al. Large-scale electrophysiology: acquisition, comprression, encryption, and storage of big data[J]. Journal of Neurosience Methods, 2009, 180(1):185-192.

[16] ARONOVA E, BAKER K, ORESKES N. Big science and big data in biology: from the international geophysical year through the international biological program to the long term ecological research (LTER) network[J].Historical Studies in the Natural Sciences, 2010, 40(8): 183-224.

[17] WERNER C. Scientif i c perspectivism: a philosopher of science’s response to the challenge of big data biology[J]. Studies in History and Philosophy of Biological and Biomedical Sciences, 2012, 43(1):69-80.

[18] ALFREDO C, YEOL S, KAREN C D. Analytics over largescale multidimensional data: the big data revolution[A]. Proc of the DOLAP’11[C]. Glasgow, 2011. 101-103.

[19] STEVEN C H H, WANG J L, ZHAO P L, et al. Online feature selection for mining big data[A]. Proc of the Big-Mine’12[C]. New York:ACM, USA, 2012. 93-100.

[20] SIMON B, DUODUO L. On clusterization of ''big data'' streams[A].Proc of the 3rd International Conference on Computing for Geospatial Research and Applications[C]. New York:ACM, USA, 2012.1-6.

[21] JOHN L. Parallel machine learning on big data[J]. XRDS, 2012, 19(1):60-62.

[22] THOMAS C, PEGGY H, MELANIE M, et al. Building a big data research program at a small university[J]. JCSC, 2012, 28(2):95-102.

[23] YU C, CHENG J Q, FLORIN R. GLADE: big data analytics made easy[A]. Proc of the SIGMOD’12[C]. New York: ACM, USA, 2012.697-700.

[24] KYUSEOK S. MapReduce algorithms for big data analysis[A]. Proc of the 38th International Conference on Very Large Data Bases (VLDB)[C].New York: ACM, USA, 2012. 2016-2017.

[25] JENS D, JORGE A. Efficient big data processing in hadoop MapReduce[A]. Proc of the 38th International Conference on Very Large Data Bases(VLDB)[C]. New York: USA, ACM, 2012. 2014-2015.

[26] DIVYAKANT A, SUDIPTO D, AMR E A. Big data and cloud computing: current state and future opportunities[A]. Proc of the EDBT 2011[C]. New York: ACM, USA, 2011. 530-533.

[27] XU H Q, LI Z, GUO S M, et al. CloudVista: interactive and economical visual cluster analysis for big data in the cloud[A]. Proc of the 38th International Conference on very Large Data Bases(VLDB)[C]. New York: USA, ACM, 2012. 1886-1889.

[28] COLIN T, DIGITAL P. Big data security[J]. Network Security, 2012,7(2):5-8.

[29] SOTIRIS K. Combining bagging, boosting, rotation forest and random subspace methods[J]. Artificial Intelligence Review, 2011, 35(3):223-240.

[30] 李德毅, 杜鷁. 不確定性人工智能[M]. 北京: 國防工業(yè)出版社,2005. 224-227.LI D Y, DU Y. Artificial Intelligence with Uncertainty[M]. Beijing:National Defence Industry Press, 2005. 224-227.

[31] TAVALLAEE M, BAGHERI E, LU W, et al. A detailed analysis of the KDD CUP 99 data set[A]. Proc of the Second IEEE International Conference on Computational Intelligence for Security and Defense Applications[C]. Ottawa, Canada, 2009. 53-58.

[32] WANG Y L, ZHANG G X, QIAN J B. ApproxCCA: an approximate correlation analysis algorithm for multidimensional data streams[J].Knowledge-Based Systems, 2011, 24(7):952-962.

[33] SUN L, JI S W. Canonical correlation analysis for multilabel classification: a least-squares formulation, extensions, and analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011,33(1):194-200.

猜你喜歡
實(shí)驗(yàn)
我做了一項(xiàng)小實(shí)驗(yàn)
記住“三個字”,寫好小實(shí)驗(yàn)
我做了一項(xiàng)小實(shí)驗(yàn)
我做了一項(xiàng)小實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
有趣的實(shí)驗(yàn)
小主人報(2022年4期)2022-08-09 08:52:06
微型實(shí)驗(yàn)里看“燃燒”
做個怪怪長實(shí)驗(yàn)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 久久精品66| 中文字幕在线不卡视频| 人妻丰满熟妇AV无码区| 成人国产精品2021| 亚洲综合狠狠| 99无码中文字幕视频| 国产亚洲精品91| 国产乱子伦一区二区=| 欧美成人看片一区二区三区 | 亚洲日本韩在线观看| 精品天海翼一区二区| 久热精品免费| 国产亚洲欧美在线专区| 99热这里只有成人精品国产| 婷婷亚洲最大| 依依成人精品无v国产| 国产制服丝袜91在线| 亚洲国产高清精品线久久| 亚洲天堂伊人| 欧美国产日韩在线| 秋霞午夜国产精品成人片| 亚洲男人的天堂久久精品| 996免费视频国产在线播放| 五月天福利视频| 日韩欧美综合在线制服| 99热亚洲精品6码| 亚洲国产成熟视频在线多多| 国产美女在线免费观看| 手机精品福利在线观看| 久久成人免费| 精品久久久久久久久久久| yjizz视频最新网站在线| 波多野结衣视频一区二区 | 亚洲高清无码久久久| 免费jizz在线播放| 欧美yw精品日本国产精品| 亚洲精品国产日韩无码AV永久免费网| 无码'专区第一页| 人人爽人人爽人人片| 国产成人欧美| 嫩草国产在线| 极品国产在线| 日本尹人综合香蕉在线观看| 日本免费a视频| 国产三级国产精品国产普男人| a级毛片在线免费| 日本三级欧美三级| 伊人久久大香线蕉成人综合网| 无码免费的亚洲视频| 内射人妻无套中出无码| 最新国产午夜精品视频成人| 青青草原国产精品啪啪视频| 最近最新中文字幕在线第一页| 黄色在线不卡| 国产一二三区在线| 国产亚洲精品无码专| 国产日韩欧美黄色片免费观看| 91成人在线免费视频| 国产成熟女人性满足视频| 青青草国产在线视频| 91小视频在线| 青青国产在线| 国产精品19p| 自拍偷拍欧美日韩| 亚洲 日韩 激情 无码 中出| 欧美成人日韩| 色噜噜狠狠色综合网图区| 日本午夜影院| 在线观看亚洲成人| hezyo加勒比一区二区三区| 在线观看网站国产| 91欧美在线| 国产免费怡红院视频| 九一九色国产| 午夜不卡视频| 黄色网在线| 蜜桃视频一区二区三区| 国产一区二区三区夜色| 亚洲浓毛av| 日韩精品一区二区三区大桥未久 | 亚洲精品手机在线| www中文字幕在线观看|