999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談度量學習

2018-10-21 10:49:49王楠鑫蔣玉婷
科技信息·中旬刊 2018年9期
關鍵詞:優化

王楠鑫 蔣玉婷

摘要:本文主要介紹了一種常用的機器學習方法——度量學習。度量學習旨在學得一個合適的距離來優化分類器的性能,提高分類器的效率。本文對度量學習的基本概念做簡介,并分析5E38見的度量學習形式和方法,最后討論了一些度量學習研究中的前沿問題。

關鍵詞:度量學習

一、度量學習簡介

在機器學習任務中,樣本之間的距離是一個十分重要的因素,絕大多數機器學習模型和算法都直接或間接地使用了樣本之間的距離。比如,在常見的“K近鄰”分類器中,樣本間的距離很大程度上影響了最終分類效果的好壞[1]。實際上,幾乎所有分類算法都可以在某個特定的距離下等價于“近鄰分類器”。在機器學習任務中,我們也常常通過特征選擇、特征提取等手段來對尋找數據更好的表示,或是達到降維的目的,而尋求數據更好的表示或降維最終是為了在得到的子空間中學習,這本質上就是基于子空間中的距離進行學習。既然如此,我們完全可以直接尋找一個合適的距離,并利用這個學到的距離來完成各種任務。可以說,各種特征選擇、特征提取和表示學習方法都相當于是在做度量學習。總而言之,度量學習的目的就是尋找一個合適的距離定義,使得在這種距離定義下,相似樣本離得較近,而不相似樣本離得較遠,進而來優化某個機器學習任務。

距離往往用來衡量對象之間的相關性。常見的距離有歐幾里得距離、馬氏距離[2]、余弦距離、曼哈頓距離等。一般來講,距離度量是一個二元函數,它需要滿足四個條件:非負性、自反性、對稱性和三角不等式。若某個二元函數d滿足非負性、對稱性和三角不等式,且,則稱d為一個“偽距離度量”,它具有距離度量的大部分性質,也常用于機器學習任務。

二、基于馬氏距離的度量學習

為了能夠學得一個合適的距離,首先必須將距離“參數化”,即使用某些參數來定義一個距離函數。最常用的選擇是“馬氏距離”,它相當于考慮樣本各個特征權重和特征間相關性的歐式距離,定義為:

其中我們要求矩陣是一個半正定矩陣,即學到的馬氏距離實際上是一個“偽度量”。要學一個馬氏距離,實際上就是要學一個矩陣。如此一來,我們就可以依據這樣一種距離的定義形式來構造各種優化問題,從而完成各種機器學習任務。一般來說,基于馬氏距離的度量學習任務可以以優化問題的形式描述為:

其中L是某個關于的目標函數。比如說,訓練樣本給我們提供了一些弱監督信息,即某些樣本是相似的,某些樣本是不相似的。設P表示相似樣本對構成的集合,即若y)∈P本X和Y是相似的;設N表示不相似樣本對構成的集合,即若y)∈N本X和Y是不相似的。現在我們希望在學到的距離下,相似樣本間的距離較小而不相似樣本間的距離較大,那么可以將優化問題構造為:

上式表示我們希望尋找一個矩陣,使得在這種馬氏距離下,相似樣本的距離之和盡量小,而不相似樣本的就離之和盡量大。有時,我們只需要不相似樣本之間的距離達到某個既定的閾值即可,而不需要其盡量大,那么優化問題可以寫為:

這相當于對原優化問題的第二項取“hinge”損失。由于通過這樣一種方式學得的距離考慮了數據提供的弱監督信息,使得相似樣本距離小而不相似樣本距離大,所以往往可以提高分類器的性能。

前文說到,使用降維方法本質上是在學習某種特定的距離度量,而馬氏距離也可以認為是對原空間的樣本做映射之后的歐式距離。設原數據樣本∈R^D,矩陣,那么它可以將數據樣本映射為R維。在映射后的空間中,兩個樣本X和Y之間的歐式距離為:

若將替換為一個矩陣,那么就得到了與馬氏距離相同的形式。我們可以將直接使用馬氏距離表示的度量學習問題稱為“Mahalanobis Distance Metric Learning”,簡稱為“MDML”[3],而將基于映射矩陣的度量學習問題稱為“Projection Distance Metric Learning”,簡稱為“PDML”。我們可以看出,一旦學得了映射矩陣就可以獲得相應的馬氏距離矩陣,也就是說這兩種表示之間是相通的,但在使用時仍有一些區別。從優化的角度來講,若使用“MDML”,則目標函數往往是關于矩陣的線性函數,雖然相似樣本間的距離和不相似樣本間的距離符號相反,但線性函數必定是凸函數,這使得我們往往可以構造關于矩陣的凸優化問題。若使用“PDML”,目標函數往往是關于矩陣P的二次函數,而且相似樣本間的距離和不相似樣本間的距離符號相反,雖然凸函數的非負線性加權仍是凸函數,但前后兩部分的凹凸性相反,從而整個優化問題的凸性得不到保證。凸優化問題在求解時有很好的性質,比如必定可以找到全局最優解等。也就是說,使用“MDML”更方便于優化。但是,從映射矩陣的角度考慮問題也有其意義,比如可以考慮映射的正交性,可以降低計算開銷等。

三、度量學習中的前沿問題

度量學習是一個十分值得研究的話題,度量學習領域中也存在一些待解決的問題。本部分將介紹一些關于度量學習可能的研究主題。

考慮多個度量的學習。度量學習的最終目的是提高分類器的性能,一個具體的距離度量就好比是一種空間變換,或是一種特征提取的方法。我們知道,某個單一的簡單的學習器可能不會具有特別號的效果,受此啟發,我們可以在度量學習中引入多個不同的距離,對不同類的樣本設計不同的距離度量,甚至對每一個樣本都設計一個特定的距離度量。實際上這一思路在機器學習中十分常見,比如“Gaussian Mixture”,比如“Ensemble”。可以這樣的角度來理解多度量學習:不同的類的樣本會來自不同的分布,而不同的分布會具有不同的規律,也就具有不同的適用于分類的特征,所以使用多度量是合理的。另外,從映射矩陣的角度來考慮,學習一個馬氏距離相當于學習一個線性映射,而簡單的線性關系未必能很好地刻畫數據之間的聯系,通過引入多個線性變換,可以使得模型具有更強的表示能力。

參考文獻:

[1]彭凱,汪偉,楊煜普.基于余弦距離度量學習的偽K近鄰文本分類算法[J],上海交通大學自動化系系統控制與信息處理教育部重點實驗室,2014

[2]梅江元.基于馬氏距離的度量學習算法研究及應用[J],哈爾濱工業大學,2016

[3]楊緒兵,王一雄,陳斌.馬氏度量學習中的幾個關鍵問題研究及幾何解釋[J],南京林業大學信息科學技術學院,揚州大學信息工程學院,2013

猜你喜歡
優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
PEMFC流道的多目標優化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
圍繞“地、業、人”優化產業扶貧
今日農業(2020年16期)2020-12-14 15:04:59
事業單位中固定資產會計處理的優化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 91亚洲视频下载| 久久久久国产一区二区| 亚洲 欧美 偷自乱 图片| 精品国产www| 一本一道波多野结衣一区二区 | 国产精品香蕉| 青草精品视频| 青青草原偷拍视频| 亚洲精品人成网线在线| 国产精品三级专区| 人妖无码第一页| 亚洲精品国产成人7777| 欧美日本视频在线观看| 国产成人精品男人的天堂下载 | www.亚洲色图.com| 日韩精品成人网页视频在线| 久久99蜜桃精品久久久久小说| 成人亚洲国产| 国产亚洲视频免费播放| 精品久久人人爽人人玩人人妻| 亚洲欧洲日本在线| 亚洲综合在线最大成人| 波多野结衣一级毛片| 国产成人精彩在线视频50| 99久视频| 2021精品国产自在现线看| 亚洲swag精品自拍一区| 久久网综合| 欧美日韩国产精品综合 | 色屁屁一区二区三区视频国产| 性欧美在线| 美女一级免费毛片| 国产一级小视频| 欧美三级日韩三级| 久久这里只有精品免费| 成人av手机在线观看| 激情影院内射美女| 亚洲资源站av无码网址| 国产对白刺激真实精品91| 2021国产精品自产拍在线观看 | 国产欧美日韩va另类在线播放 | 粗大猛烈进出高潮视频无码| 区国产精品搜索视频| 亚洲综合色区在线播放2019| 91精品国产一区| 精品综合久久久久久97| 久久久受www免费人成| 91久久国产热精品免费| 国产玖玖视频| 美女被操黄色视频网站| 青青草原国产一区二区| 欧美日韩午夜| 午夜无码一区二区三区| 福利视频久久| 九九精品在线观看| 国产免费观看av大片的网站| 国产地址二永久伊甸园| 毛片在线播放a| 国产精品人莉莉成在线播放| 午夜福利在线观看成人| 亚洲国产天堂久久综合| 98超碰在线观看| 全部毛片免费看| 狠狠ⅴ日韩v欧美v天堂| 精品三级网站| 免费一级毛片在线播放傲雪网| 啪啪永久免费av| 91久久偷偷做嫩草影院| 亚洲无线国产观看| 在线观看网站国产| 日韩东京热无码人妻| 精品国产一二三区| 国产特级毛片aaaaaa| 大陆国产精品视频| 国产精品55夜色66夜色| 欧美日韩午夜视频在线观看| 第一页亚洲| 欧美三级不卡在线观看视频| 国产乱人激情H在线观看| 国产美女无遮挡免费视频网站| 91无码人妻精品一区二区蜜桃| 成人国产免费|