999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監(jiān)督假設(shè)的半監(jiān)督稀疏度量學(xué)習(xí)

2019-10-18 11:13:18王倩影
關(guān)鍵詞:監(jiān)督

王倩影 李 煒

(河北經(jīng)貿(mào)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院 河北 石家莊 050051)

0 引 言

度量學(xué)習(xí)[1]的本質(zhì)是學(xué)習(xí)一個(gè)映射空間,使得同類樣本間的距離更近,異類樣本間的距離更遠(yuǎn)。近年來,度量學(xué)習(xí)在眾多領(lǐng)域得到了廣泛應(yīng)用,如人臉識別[2-4]、圖像檢索[5-7]等。根據(jù)不同的訓(xùn)練樣本,度量學(xué)習(xí)可以分為無監(jiān)督度量學(xué)習(xí)、有監(jiān)督度量學(xué)習(xí)和半監(jiān)督度量學(xué)習(xí)。無監(jiān)督度量學(xué)習(xí)的訓(xùn)練樣本為無標(biāo)記數(shù)據(jù),有監(jiān)督度量學(xué)習(xí)的訓(xùn)練樣本給定了正負(fù)限制的樣本對,但沒有將無標(biāo)記樣本利用起來。因此人們嘗試將大量無標(biāo)記樣本數(shù)據(jù)加入到有標(biāo)記樣本中一起訓(xùn)練來進(jìn)行學(xué)習(xí),由此產(chǎn)生了半監(jiān)督度量學(xué)習(xí)[8]。

由于現(xiàn)實(shí)應(yīng)用中存在大量無標(biāo)記樣本,半監(jiān)督度量學(xué)習(xí)是當(dāng)前的一個(gè)研究熱點(diǎn)。Joachims等[9]依據(jù)半監(jiān)督支持向量機(jī)(S3VM)提出了基于標(biāo)記切換的組合優(yōu)化算法,使S3VM在數(shù)據(jù)集上取得了不錯(cuò)的效果。Chapelle等[10-11]提出了半監(jiān)督學(xué)習(xí)有關(guān)高維數(shù)據(jù)的三個(gè)假設(shè):光滑假設(shè)、聚類假設(shè)和流形假設(shè),并據(jù)此提出了低密度分割算法,得到了很好的分類效果。現(xiàn)今對半監(jiān)督度量學(xué)習(xí)方法的研究只利用了三個(gè)半監(jiān)督假設(shè)中的一項(xiàng)或兩項(xiàng),沒有一個(gè)方法滿足所有的三個(gè)半監(jiān)督假設(shè)。而且在大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈現(xiàn)出維度高的特點(diǎn),常見的度量學(xué)習(xí)方法基于原始特征產(chǎn)生度量,使得度量矩陣很復(fù)雜。利用高維數(shù)據(jù)的潛在稀疏性建立稀疏正則化模型,可以有效地處理高維數(shù)據(jù)。文獻(xiàn)[12]據(jù)此提出了基于L1正則化的模型lasso。但目前存在的稀疏正則化模型沒有結(jié)合半監(jiān)督度量學(xué)習(xí)中的三個(gè)半監(jiān)督假設(shè),把無標(biāo)記樣本充分利用起來。

為了充分利用無標(biāo)記樣本,本文從間隔損失函數(shù)入手,依據(jù)三個(gè)半監(jiān)督假設(shè),建立了半監(jiān)督假設(shè)正則項(xiàng),并結(jié)合稀疏正則項(xiàng),提出了基于半監(jiān)督假設(shè)的半監(jiān)督稀疏度量學(xué)習(xí)算法。最后通過實(shí)驗(yàn)驗(yàn)證了本文所提算法的有效性。

1 間隔損失函數(shù)

1.1 問題描述

在學(xué)習(xí)一個(gè)度量時(shí),樣本對的限制是指兩個(gè)給定的樣本是否在同一類,若在一類則稱為一個(gè)正約束,若不在一類則稱為一個(gè)負(fù)約束。所要學(xué)習(xí)的度量是要使得屬于同一類的兩個(gè)樣本距離更近,屬于不同類的兩個(gè)樣本距離更遠(yuǎn)。三樣本為一組的約束是對樣本對約束的拓展。在三樣本組約束(xi,xj,xk)中,(xi,xj)之間的距離要求比(xi,xk)之間的距離小。因此,若(xi,xj)是一個(gè)正約束,(xi,xk)是一個(gè)負(fù)約束,則(xi,xj,xk)就是一個(gè)三樣本組約束。但反之不成立,即并不能由(xi,xj)之間的距離比(xi,xk)之間的距離小,得到(xi,xj)屬于同一類,(xi,xk)屬于不同類的結(jié)果。當(dāng)給定一些三樣本組約束時(shí),我們將要學(xué)習(xí)一個(gè)滿足如下條件的度量:如圖1所示,對每一個(gè)三樣本組約束學(xué)習(xí)的度量要使得(xi,xj)之間的距離小于(xi,xk)之間的距離。

圖1 三樣本組約束示意圖

類標(biāo)信息可以轉(zhuǎn)化成三樣本組約束。每個(gè)三樣本組約束由三個(gè)樣本(xi,xj,xk)組成,其中,xi是所要討論的樣本。希望學(xué)習(xí)得到這樣的距離DM(xi,xj)和DM(xi,xk)滿足:

φ={(xi,xj,xk)|DM(xi,xj)

(1)

1.2 損失函數(shù)

本文參考LMNN的損失函數(shù),對有標(biāo)記樣本的損失函數(shù)定義如下:

(2)

文獻(xiàn)[13-14]證明了該損失函數(shù)的有效性,但此函數(shù)在運(yùn)用過程中對噪聲數(shù)據(jù)較為敏感,容易出現(xiàn)過擬合現(xiàn)象,并且沒有將無標(biāo)記樣本利用起來。為了解決這些問題,引入半監(jiān)督假設(shè)正則項(xiàng)將無標(biāo)記樣本充分利用起來,過擬合通常發(fā)生在特征(參數(shù))較多的時(shí)候,引入L1正則項(xiàng),L1正則化會產(chǎn)生稀疏解,部分分量會變成0,相當(dāng)于對原始特征做了特征提取。

2 正則化的半監(jiān)督度量學(xué)習(xí)

2.1 半監(jiān)督假設(shè)正則項(xiàng)

數(shù)據(jù)分布可以由樣本及其近鄰所反映,因此我們可以通過樣本間的相似度以及區(qū)域密度來描述樣本及其近鄰間的關(guān)系。若給定樣本集X=[x1,x2,…,xn],以及與其相對應(yīng)的相似矩陣S=[Sij],本文根據(jù)三個(gè)半監(jiān)督假設(shè)來建立正則項(xiàng)。提出的正則項(xiàng)為:

(3)

式中:

(4)

N(i)是xi由歐氏距離確定的鄰域點(diǎn)的集合,在正則項(xiàng)中引入的Sij是xi和xj之間的相似度。根據(jù)聚類假設(shè),引入密度指標(biāo)βi∈R+,它是一個(gè)有關(guān)樣本xi密度的函數(shù)。

結(jié)合間隔損失函數(shù)和提出的正則項(xiàng),我們得到一個(gè)新的度量學(xué)習(xí)方法:

(5)

式中:λ1用是來調(diào)整正則項(xiàng)的權(quán)重參數(shù)。

2.2 稀疏正則項(xiàng)

通常度量學(xué)習(xí)任務(wù)中的特征數(shù)量較多,在預(yù)測或分類時(shí),難以對特征進(jìn)行選擇,但是如果代入這些特征得到的模型是一個(gè)稀疏模型,即只有少數(shù)特征對這個(gè)模型有貢獻(xiàn),絕大部分特征是沒有貢獻(xiàn)的,此時(shí)我們可以只關(guān)注這些對模型有貢獻(xiàn)的特征。L1正則化有助于生成這樣一個(gè)稀疏權(quán)值矩陣,進(jìn)而用于特征提取。

目標(biāo)函數(shù)變?yōu)椋?/p>

(6)

式中:λ2用是來調(diào)整正則項(xiàng)的權(quán)重參數(shù)。

2.3 問題優(yōu)化

學(xué)習(xí)一個(gè)度量,我們可以看成是學(xué)習(xí)一個(gè)映射,把特征空間中的樣本映射到另外一個(gè)新的空間中,新空間中的歐式距離即為所求的度量。具體地,學(xué)習(xí)一個(gè)馬氏矩陣M等價(jià)于學(xué)習(xí)一個(gè)線性映射LT:Rm→Rr,其中L=[l1,l2,…,lr]∈Rm×r。因此,我們可以這樣計(jì)算兩個(gè)樣本間的距離:

(xi-xj)TM(xi-xj)=

(7)

式中:M=LLT是所要學(xué)習(xí)的度量。

為了簡化目標(biāo)函數(shù),我們引入一個(gè)新的記號。對于要研究的樣本xi,引入權(quán)重矩陣W(i),這是一個(gè)對角陣:

重新整理正則項(xiàng):

(8)

根據(jù)式(8)得:

tr(XUXTLLT)=tr(XUXTM)

(9)

目標(biāo)函數(shù)最后變?yōu)橄率剑?/p>

(10)

本文所提出的半監(jiān)督稀疏度量學(xué)習(xí)方法有如下優(yōu)點(diǎn):

(2) 聚類假設(shè)表明分界線(面)應(yīng)該從低密度區(qū)域穿過,也就是說分布在高密度區(qū)域的樣本點(diǎn)之間的距離應(yīng)較小。式(6)正則項(xiàng)中的βi可以保證分布在高密度區(qū)域樣本點(diǎn)之間的距離被最小化,如果這些樣本之間存在較大的距離將會受到較大的懲罰。

(3) 根據(jù)流形假設(shè),樣本間的距離要沿著流形來測量。在受到半監(jiān)督學(xué)習(xí)中基于樣本圖的啟發(fā)后,我們在正則項(xiàng)中引入了相似度Sij,這個(gè)相似性是根據(jù)高斯核來計(jì)算的,它可以引導(dǎo)新的度量。

(4) 引入稀疏正則項(xiàng),本文引入的的L1正則項(xiàng)使得度量矩陣具有稀疏性,有助于了解不同原始特征的重要程度,滿足應(yīng)用對可理解性的需求。

3 模型求解

梯度下降法是一種常用的一階優(yōu)化方法,是求解優(yōu)化問題最經(jīng)典的方法之一。

Ft=λ2tr(M(t))+λ1tr(XUXTM(t))+

(11)

式中:|{φ(t)}|指集合{φ(t)}中元素的個(gè)數(shù),M(t+1)則可以通過M(t)向Ft的梯度相反方向移動一個(gè)步長得到,即:

M(t+1)=M(t)-γ▽Ft

重復(fù)此過程,直到滿足了所有三樣本組約束,或者達(dá)到預(yù)給定好的循環(huán)次數(shù)。算法描述如算法1所示。

算法1梯度下降算法

輸入:有標(biāo)記樣本Xl

無標(biāo)記本Xu

示性矩陣Y

輸出:度量M

1.初始化三樣本組約束的個(gè)數(shù)k,半正定矩陣M,最大循環(huán)次數(shù)T;

2. fort=1:Tdo

3. 根據(jù)M(t)、Y和Xl確定不滿足約束的三樣本組集合φ(t)

4. ifφ(t)為空集 then

5. break

6. else

7. 計(jì)算當(dāng)前目標(biāo)函數(shù)Ft的梯度

8. 更新M,M(t+1)=M(t)-γ▽Ft

9. 將M(t+1)投影到半正定矩陣子空間中得到半正定度量

10. end for

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)設(shè)置

在本節(jié)中,將把本文提出的基于半監(jiān)督假設(shè)的半監(jiān)督稀疏度量學(xué)習(xí)算法(RS3ML)與S3ML、半監(jiān)督判別分析(SDA)、LRML、基于核方法的半監(jiān)督度量學(xué)習(xí)算法Kernel-A和Kernel-β進(jìn)行分析比較,通過比較結(jié)果來測試本文所提方法的有效性。實(shí)驗(yàn)中,以歐氏距離作為比較的基準(zhǔn)。

我們把類標(biāo)信息分別轉(zhuǎn)化為樣本對約束和三樣本組約束。本文所提出的算法的參數(shù)依據(jù)文獻(xiàn)[15]進(jìn)行設(shè)置。

4.2 實(shí)驗(yàn)結(jié)果

從University of California Irvine(UCI) machine learning repository中選出五個(gè)數(shù)據(jù)集對各種算法進(jìn)行1-NN的分類實(shí)驗(yàn)。五個(gè)數(shù)據(jù)集分別為Wine、Iris、Dermatology、Glass Identification(Glass)、Balance Scale(Balance)。其中:Wine數(shù)據(jù)集中記錄的是意大利同一地區(qū)三種不同的葡萄酒品種的相關(guān)信息,Balance中記錄的是天平的重量和距離,Dermatology數(shù)據(jù)集用于判定鱗狀疾病的類型,Glass數(shù)據(jù)集記錄的是不同類型的玻璃的氧化物含量的數(shù)據(jù),Iris中包含的是不同種類鳶尾花的一些信息。各個(gè)數(shù)據(jù)集的基本信息如表1所示。

實(shí)驗(yàn)中,所有的數(shù)據(jù)都被隨機(jī)分為有標(biāo)記數(shù)據(jù)集Xl和無標(biāo)記數(shù)據(jù)集Xu,并且每類只給了五個(gè)有標(biāo)記樣本,這些有標(biāo)記樣本用來訓(xùn)練度量和K近鄰分類器。每個(gè)實(shí)驗(yàn)將會在同一數(shù)據(jù)集上重復(fù)30次,每次試驗(yàn)都隨機(jī)地選取訓(xùn)練樣本,實(shí)驗(yàn)結(jié)果給出了這30次實(shí)驗(yàn)結(jié)果的均值。

圖2、圖3和圖4結(jié)合1-NN分類器給出了不同度量算法的識別結(jié)果。縱坐標(biāo)均為重復(fù)30次實(shí)驗(yàn)所取得的平均分類錯(cuò)誤率。可以看出,兩個(gè)核方法Kernel-A和Kernel-β在數(shù)據(jù)集上的表現(xiàn)不太穩(wěn)定。本文提出的RS3ML算法與S3ML、SDA等其他算法比較,在五個(gè)數(shù)據(jù)集上的分類錯(cuò)誤率均為最低。實(shí)驗(yàn)結(jié)果表明,相比其他度量算法,RS3ML算法效果明顯,學(xué)習(xí)性能更優(yōu)。

圖3 算法組2的錯(cuò)誤率比較

圖4 算法組3的錯(cuò)誤率比較

5 結(jié) 語

本文基于三個(gè)半監(jiān)督假設(shè)提出了一個(gè)半監(jiān)督稀疏度量學(xué)習(xí)算法。與其他方法不同的是,本文所提出的方法結(jié)合了所有三個(gè)半監(jiān)督假設(shè),充分利用了大量的未標(biāo)記樣本,并利用L1范數(shù)使得度量矩陣具有稀疏性,從而減少計(jì)算機(jī)存儲負(fù)擔(dān),提高學(xué)得模型的可解釋性。最后在公開數(shù)據(jù)上的實(shí)驗(yàn)驗(yàn)證了本文提出的方法的有效性。

猜你喜歡
監(jiān)督
請你監(jiān)督
推動聯(lián)動監(jiān)督取得扎實(shí)成效
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
期待聯(lián)動監(jiān)督再發(fā)力
公民與法治(2020年3期)2020-05-30 12:29:40
做到監(jiān)督常在 形成監(jiān)督常態(tài)
論審計(jì)監(jiān)督全覆蓋的實(shí)施
監(jiān)督見成效 舊貌換新顏
夯實(shí)監(jiān)督之基
持續(xù)監(jiān)督 打好治污攻堅(jiān)戰(zhàn)
績效監(jiān)督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
主站蜘蛛池模板: 久久久精品无码一二三区| 玩两个丰满老熟女久久网| 青青操视频在线| 中文字幕乱妇无码AV在线| 2021国产精品自拍| 免费看美女自慰的网站| 国产成人一区免费观看| 国产无码精品在线播放| 91精品国产自产在线观看| 精品国产成人av免费| 亚洲天堂视频在线观看免费| 激情无码字幕综合| 亚洲IV视频免费在线光看| 日韩AV手机在线观看蜜芽| 久久精品无码中文字幕| 一本大道香蕉中文日本不卡高清二区 | 青青操国产| 午夜综合网| 亚洲国产清纯| 亚洲成a人在线播放www| 亚洲黄色视频在线观看一区| 精品国产福利在线| 欧美日韩在线国产| 污污网站在线观看| 亚洲欧洲日本在线| 久久久亚洲色| 亚洲不卡影院| 韩国自拍偷自拍亚洲精品| 欧美成人第一页| 国产导航在线| 国产黄视频网站| 久久无码高潮喷水| 成人国产精品网站在线看| 毛片免费高清免费| 亚洲精品日产AⅤ| 亚洲男人在线天堂| 无码高潮喷水专区久久| 亚洲五月激情网| 亚洲乱码视频| 欧美性久久久久| 无码区日韩专区免费系列| 亚洲欧美自拍中文| 国产乱人激情H在线观看| 亚洲AV色香蕉一区二区| 欧美69视频在线| 亚洲无码精彩视频在线观看| 97国产精品视频自在拍| 91亚洲精选| 国产白浆在线观看| 东京热高清无码精品| 99中文字幕亚洲一区二区| 人妻丝袜无码视频| 欧美人在线一区二区三区| 久久久久久尹人网香蕉| 国产SUV精品一区二区| 五月婷婷欧美| 无码精油按摩潮喷在线播放| 久久综合色视频| 人人爽人人爽人人片| 伊人国产无码高清视频| a亚洲视频| 亚洲欧美另类视频| 欧美黑人欧美精品刺激| 国产无码制服丝袜| 色婷婷成人网| 精品99在线观看| 男人天堂亚洲天堂| 国产区91| 91年精品国产福利线观看久久| 久久午夜夜伦鲁鲁片无码免费| 蜜桃视频一区二区三区| 依依成人精品无v国产| 国产精品美人久久久久久AV| 国产香蕉97碰碰视频VA碰碰看| 免费高清毛片| 丁香亚洲综合五月天婷婷| 丰满人妻中出白浆| 国产肉感大码AV无码| 亚洲国内精品自在自线官| 又污又黄又无遮挡网站| 国产原创第一页在线观看| 国产在线视频福利资源站|