文/褚冬生 李光耀 肖慶國
波數(shù)據(jù)是指無法使用傳統(tǒng)工具或方法進(jìn)行分析處理的,以信號為載體或可以表征為波動形式的數(shù)據(jù)集合。作為一種特殊的大數(shù)據(jù),波數(shù)據(jù)涵蓋了聲音數(shù)據(jù)、心電圖數(shù)據(jù)、地震波數(shù)據(jù)和工業(yè)傳感器數(shù)據(jù)等具有明顯振動特征的數(shù)據(jù)。波數(shù)據(jù)的結(jié)構(gòu)復(fù)雜、數(shù)量龐大、增長迅速,具有復(fù)雜性、多樣性、間接性等特性,不能直接利用傳統(tǒng)的統(tǒng)計(jì)等分析方法,需要利用縱向信息對數(shù)據(jù)進(jìn)行分析。
波數(shù)據(jù)的來源是多方式多途徑的,大體可概括為:
(1)自然界中的振動產(chǎn)生的波動數(shù)據(jù);
(2)醫(yī)療過程中采集到的具有波動特性的人類生命體征數(shù)據(jù);
(3)工業(yè)生產(chǎn)制造過程中產(chǎn)生的、由傳感器采集到的具有波動特性的數(shù)據(jù);
(4)大量離散數(shù)據(jù)統(tǒng)計(jì)后形成的具有波動特征數(shù)據(jù)。
海量的波數(shù)據(jù)隱藏著大量信息,結(jié)合波數(shù)據(jù)的特性與機(jī)器學(xué)習(xí)方法來挖掘波數(shù)據(jù)的內(nèi)在信息價(jià)值是大數(shù)據(jù)時(shí)代下的一種創(chuàng)新和應(yīng)用。
機(jī)器學(xué)習(xí)是人工智能領(lǐng)域中最能夠體現(xiàn)智能的一個(gè)分支[2]。1956年,在達(dá)特茅斯會議上,阿瑟 薩繆爾提出了“機(jī)器學(xué)習(xí)”概念,將其定義為“不顯式編程地賦予計(jì)算機(jī)能力的研究領(lǐng)域”。機(jī)器學(xué)習(xí)致力于研究如何通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能。機(jī)器學(xué)習(xí)的主要內(nèi)容是從數(shù)據(jù)中產(chǎn)生模型的算法。在大數(shù)據(jù)時(shí)代,巨大的數(shù)據(jù)儲量和高效率的計(jì)算設(shè)備使得以神經(jīng)網(wǎng)絡(luò)為代表機(jī)器學(xué)習(xí)算法展現(xiàn)出卓越的性能。
如圖1所示,機(jī)器學(xué)習(xí)的完整周期由4個(gè)階段構(gòu)成:
(1)定義目標(biāo)問題;
(2)整理數(shù)據(jù)集;
(3)建立模型,調(diào)節(jié)參數(shù);
(4)模型測試。
自然語言處理中的文本數(shù)據(jù)經(jīng)過onehot[3]或word2vec[4]處理后才可以作為機(jī)器學(xué)習(xí)模型的輸入,計(jì)算機(jī)視覺中的圖像數(shù)據(jù)需要經(jīng)過多層卷積[5]操作才能得到表征圖像的語義向量。與自然語言處理領(lǐng)域和計(jì)算機(jī)視覺領(lǐng)域中的數(shù)據(jù)處理過程類似,波數(shù)據(jù)也需要經(jīng)過數(shù)據(jù)預(yù)處理提取特征后才可以作為機(jī)器學(xué)習(xí)模型的輸入數(shù)據(jù)。
基于波數(shù)據(jù)具有的連續(xù)性、波動性以及周期性等特性,我們采用信號分析領(lǐng)域中的處理方法對波數(shù)據(jù)進(jìn)行預(yù)處理。
3.1.1 傅里葉分析方法
傅里葉分析(Fourier analysis)是分析學(xué)中的一個(gè)重要分支。通過傅里葉變換,可以將任何連續(xù)測量的波形數(shù)據(jù),分解成為為不同頻率的正弦波信號的無限疊加。傅里葉變換公式如下:

其中t是時(shí)間,i是變換因子,F(xiàn)(ω)是f(t)的像函數(shù),f(t)是F(ω)的像原函數(shù)。
正弦波形是成分最為單一的一種波形,任何一種正弦波形都可以用振幅、相位和偏距表示。通過對原始波數(shù)據(jù)進(jìn)行傅里葉分析,得到多組振幅、相位、偏距的線性組合向量作為原始波數(shù)據(jù)的特征表達(dá)。
3.1.2 小波分析方法
與傅里葉分析方法相比,小波分析(Wavelet analysis)是頻率的局部化分析,聚焦信號的任意細(xì)節(jié)的效果,可以解決傅立葉變換在處理波數(shù)據(jù)時(shí)造成的時(shí)間信息丟失的問題。

圖1:機(jī)器學(xué)習(xí)的完整周期

表1:波數(shù)據(jù)處理過程主要使用的淺層學(xué)習(xí)模型

表2:波數(shù)據(jù)處理過程中使用的深度學(xué)習(xí)模型
小波變化公式如下:

其中s表示范圍,p表示位置,t表示時(shí)間。對于保留時(shí)間信息的波數(shù)據(jù),使用小波分析方法分析后可得到一系列關(guān)于時(shí)間-范圍的小波信號組合,將這些小波信號通過傅里葉分析得到的特征向量加權(quán)組合,即可得到原始波數(shù)據(jù)的特征表達(dá)。
按照機(jī)器學(xué)習(xí)算法模型的計(jì)算復(fù)雜度,可以將機(jī)器學(xué)習(xí)算法模型分為淺層學(xué)習(xí)模型和深度學(xué)習(xí)模型。
3.2.1 淺層學(xué)習(xí)模型
淺層學(xué)習(xí)模型在結(jié)構(gòu)上基本可以看成帶有一層隱層結(jié)點(diǎn)如支持向量機(jī)(SVM)模型、集成學(xué)習(xí)(Boosting)模型,或不帶隱層結(jié)點(diǎn)如線性回歸(Linear Regression)模型和決策樹(Decision Tree)模型。淺層學(xué)習(xí)模型可解釋性強(qiáng),在小樣本的數(shù)據(jù)集上泛化性好。波數(shù)據(jù)處理過程主要使用的淺層學(xué)習(xí)模型如表1所示。
3.2.2 深度學(xué)習(xí)模型
深度學(xué)習(xí)通過建立具有階層結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)實(shí)現(xiàn)端到端的監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)。Rosenblatt[6]在1957年提出的單層神經(jīng)網(wǎng)絡(luò)又稱感知器是第一個(gè)具有學(xué)習(xí)能力的人工神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示。g表示z1和z2的激活函數(shù),a1到a4表示輸入神經(jīng)元的數(shù)值,W11到W22分別表示每條連接上的權(quán)值。

圖2:單層網(wǎng)絡(luò)結(jié)構(gòu)圖
單層神經(jīng)網(wǎng)絡(luò)可以擬合任意的線性函數(shù),但無法擬合如異或運(yùn)算等非線性函數(shù)。在單層神經(jīng)網(wǎng)絡(luò)中添加中間隱藏層成為深度網(wǎng)絡(luò)來加強(qiáng)神經(jīng)網(wǎng)絡(luò)的擬合能力。
隨著計(jì)算機(jī)運(yùn)算能力的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展也越來也快。2012年提出的AlexNet[7]由5層卷積層與3層分類層構(gòu)成,并獲得了當(dāng)年的ImageNet圖像識別比賽的冠軍;2014年由牛津大學(xué)的視覺幾何組(Visual Geometry Group)和Google DeepMind公司合作研發(fā)的VGG-Net[8]證明了網(wǎng)絡(luò)的深度是決定模型能力優(yōu)良的關(guān)鍵部分;2016年何愷明、任少卿等提出的ResNet[9]網(wǎng)絡(luò)模型解決了深層次網(wǎng)絡(luò)模型中的梯度消失問題。波數(shù)據(jù)由于其固有特性,在處理過程中我們使用的深度學(xué)習(xí)模型如表2所示。
波數(shù)據(jù)作為一種特殊的大數(shù)據(jù),具有一些大數(shù)據(jù)的特征,如:大量性、多維性(時(shí)間、空間)、實(shí)時(shí)性[10],同時(shí)又因?yàn)閿?shù)據(jù)單調(diào)導(dǎo)致價(jià)值密度低。因此,相較于傳統(tǒng)大數(shù)據(jù)如圖像大數(shù)據(jù)、文本大數(shù)據(jù)的分析處理方法,波數(shù)據(jù)的分析處理方法在數(shù)據(jù)的特征提取部分存在著很大的不同。由于波數(shù)據(jù)與信號數(shù)據(jù)的特性具有較高的相似性,本文采取了信號分析領(lǐng)域的信號處理方法來實(shí)現(xiàn)特征提取。機(jī)器學(xué)習(xí)算法模型的選擇則需要綜合考慮算法任務(wù),數(shù)據(jù)集的規(guī)模、及計(jì)算資源、任務(wù)時(shí)間要求等外部
因素后選取適合的算法模型。