999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器學(xué)習(xí)之監(jiān)督學(xué)習(xí)釋義

2019-09-25 06:37:52MartinHeller
計(jì)算機(jī)世界 2019年35期
關(guān)鍵詞:規(guī)范化分類模型

Martin Heller

監(jiān)督學(xué)習(xí)可把標(biāo)記的訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為經(jīng)過調(diào)優(yōu)的預(yù)測(cè)模型。

機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,包括從數(shù)據(jù)中自動(dòng)創(chuàng)建模型的算法。從高層次上講,機(jī)器學(xué)習(xí)有四種:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和主動(dòng)機(jī)器學(xué)習(xí)。由于強(qiáng)化學(xué)習(xí)和主動(dòng)機(jī)器學(xué)習(xí)相對(duì)較新,因此此類列表有時(shí)會(huì)省略它們。你也可以把半監(jiān)督學(xué)習(xí)添加到列表中,也不算錯(cuò)。

什么是監(jiān)督學(xué)習(xí)?

監(jiān)督學(xué)習(xí)是從帶有正確答案(目標(biāo)值)的經(jīng)過標(biāo)記的訓(xùn)練數(shù)據(jù)開始的。在學(xué)習(xí)過程之后,將得到一個(gè)經(jīng)過調(diào)優(yōu)的權(quán)重集的模型,這可以用于預(yù)測(cè)尚未標(biāo)記的類似數(shù)據(jù)的答案。

你想要的是訓(xùn)練一個(gè)沒有過度擬合或者欠擬合的高精度模型。高精度意味著你已經(jīng)優(yōu)化了損失函數(shù)。在分類問題的情景中,準(zhǔn)確性是模型產(chǎn)生正確輸出的示例的比例。

過度擬合意味著模型與它所看到的數(shù)據(jù)關(guān)聯(lián)過于緊密,以致于不能推廣應(yīng)用到它所沒有看到的數(shù)據(jù)。欠擬合意味著模型不夠復(fù)雜,無法捕獲數(shù)據(jù)中的潛在趨勢(shì)。

選擇損失函數(shù)來反映模型的“不足之處”將損失最小化以找到最佳模型。對(duì)于數(shù)值(回歸)問題,損失函數(shù)通常是均方誤差(MSE),也可表示為均方根誤差(RMSE)或者均方根偏差(RMSD)。這對(duì)應(yīng)于數(shù)據(jù)點(diǎn)和模型曲線之間的歐幾里得距離。對(duì)于分類(非數(shù)值)問題,損失函數(shù)可以基于一種度量方法,包括ROC曲線下面積(AUC)、平均精度、精度恢復(fù)和對(duì)數(shù)損失等。

為了避免過度擬合,通常把標(biāo)記過的數(shù)據(jù)分為兩組,多數(shù)用于訓(xùn)練,少數(shù)用于驗(yàn)證和測(cè)試。驗(yàn)證集損失一般高于訓(xùn)練集損失,但這是你所關(guān)心的,因?yàn)椴粦?yīng)該表現(xiàn)出對(duì)模型的偏見。

對(duì)于小數(shù)據(jù)集,使用固定的維持集進(jìn)行測(cè)試驗(yàn)證可能會(huì)導(dǎo)致統(tǒng)計(jì)值較低。解決這一問題的一種方法是使用交叉驗(yàn)證方法,其中不同的折疊(數(shù)據(jù)子集)輪流作為不同訓(xùn)練階段的維持集。

我提到了AUC是ROC曲線下的區(qū)域。ROC是接收機(jī)工作特性曲線;該術(shù)語(yǔ)來自無線電信號(hào)分析,但從本質(zhì)上講,ROC曲線通過繪制真正值比率與假正值比率的關(guān)系來顯示分類器的靈敏度。ROC曲線下的區(qū)域越大越好,這樣,當(dāng)你使用它作為損失函數(shù)的基礎(chǔ)時(shí),實(shí)際上希望最大化AUC。

機(jī)器學(xué)習(xí)的數(shù)據(jù)清理

原始數(shù)據(jù)都不是很干凈。為了更好地應(yīng)用于機(jī)器學(xué)習(xí),必須很好地過濾數(shù)據(jù)。例如,你需要:

1. 查看數(shù)據(jù)并排除任何有大量缺失數(shù)據(jù)的列。

2. 再次查看數(shù)據(jù),并選擇要用于預(yù)測(cè)的列(特征選擇)。特征選擇是你在迭代時(shí)想要改變的內(nèi)容。

3. 去掉剩余列中仍缺少數(shù)據(jù)的所有行。

4. 糾正明顯的拼寫錯(cuò)誤,并合并相同的條目。例如,U.S.、US、USA和美國(guó)應(yīng)合并為一個(gè)類別。

5. 去掉數(shù)據(jù)超出范圍的行。例如,如果你分析紐約市內(nèi)的出租車行駛路線,想篩選出某些數(shù)據(jù)行,這些行中的上客和下客經(jīng)緯度坐標(biāo)點(diǎn)位于都市區(qū)域邊界框之外。

可以做的還有很多,而這將取決于收集的數(shù)據(jù)。這可能很乏味,但是如果你在機(jī)器學(xué)習(xí)流水線中設(shè)置了數(shù)據(jù)清理步驟,就可以隨意修改并重復(fù)這一工作。

機(jī)器學(xué)習(xí)的數(shù)據(jù)編碼與規(guī)范化

要使用分類數(shù)據(jù)進(jìn)行機(jī)器分類,需要將文本標(biāo)簽編碼為另一種形式。有兩種常見的編碼方法。

一種是標(biāo)簽編碼,這意味著每個(gè)文本標(biāo)簽值都被一個(gè)數(shù)字替換。另一種是one-hot編碼,這意味著每一文本標(biāo)簽值都被轉(zhuǎn)換為包含一個(gè)二進(jìn)制值(1或0)的列。大多數(shù)機(jī)器學(xué)習(xí)框架都具有為你進(jìn)行轉(zhuǎn)換的功能。一般來說,最好使用one-hot編碼,因?yàn)闃?biāo)簽編碼有時(shí)會(huì)使機(jī)器學(xué)習(xí)算法誤認(rèn)為編碼的列是有序的。

使用數(shù)字?jǐn)?shù)據(jù)進(jìn)行機(jī)器回歸時(shí),通常需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化。否則,范圍較大的數(shù)字可能傾向于控制特征向量之間的歐幾里得距離,其效果會(huì)被放大,但是以犧牲其他字段為代價(jià),并且最陡的下降優(yōu)化可能難以收斂。機(jī)器學(xué)習(xí)的數(shù)據(jù)規(guī)范化和標(biāo)準(zhǔn)化方法有很多種,包括最小最大規(guī)范化、均值規(guī)范化、標(biāo)準(zhǔn)化和單位長(zhǎng)度縮放等。這一過程通常被稱為特征縮放。

機(jī)器學(xué)習(xí)的特征工程

特征是指所觀察到的現(xiàn)象中的個(gè)體可測(cè)量屬性或者特性?!疤卣鳌钡母拍钆c解釋變量概念有關(guān),而解釋變量用于線性回歸等統(tǒng)計(jì)方法。特征向量將一行的所有特征組合成一個(gè)數(shù)字向量。

選擇特征的一種技巧是選擇一組能解釋問題的最小獨(dú)立變量。如果兩個(gè)變量高度相關(guān),要么它們應(yīng)組合成一個(gè)特征,要么應(yīng)該刪除其中一個(gè)。有時(shí)人們進(jìn)行主分量分析,將相關(guān)變量轉(zhuǎn)換成一組線性不相關(guān)的變量。

人們用來構(gòu)造新特征或者減少特征向量維數(shù)的一些轉(zhuǎn)換其實(shí)很簡(jiǎn)單。例如,把死亡年份與出生年份相減,就得到了死亡年齡,這是壽命和死亡率分析的主要獨(dú)立變量。在其他情況下,特征構(gòu)造可能不那么明顯。

常用的機(jī)器學(xué)習(xí)算法

有幾十種機(jī)器學(xué)習(xí)算法,從線性回歸和邏輯回歸到深度神經(jīng)網(wǎng)絡(luò)和集成(其他模型的組合),復(fù)雜程度各不相同。而一些最常見的算法包括:

·線性回歸,又名最小二乘回歸(用于數(shù)值數(shù)據(jù))。

·邏輯回歸(用于二元分類)。

·線性判別分析(用于多類別分類)。

·決策樹(用于分類和回歸)。

·樸素貝葉斯(用于分類和回歸)。

·K最近鄰居,又名KNN(用于分類和回歸)。

·學(xué)習(xí)向量量化,又名LVQ(用于分類和回歸)。

·支持向量機(jī),又名SVM(用于二元分類)。

·隨機(jī)森林,一種“打包”(自舉聚合)集成算法(用于分類和回歸)。

·提升方法,包括AdaBoost和XGBoost,是一種集成算法,可以創(chuàng)建一系列模型,其中每個(gè)增量模型都試圖糾正前一個(gè)模型的錯(cuò)誤(用于分類和回歸)。

·神經(jīng)網(wǎng)絡(luò)(用于分類和回歸)。

超參數(shù)調(diào)整

超參數(shù)是自由變量,而不是機(jī)器學(xué)習(xí)模型中被調(diào)整的權(quán)重。超參數(shù)隨算法的不同而不同,但通常包括學(xué)習(xí)速率,該參數(shù)用于控制批量計(jì)算錯(cuò)誤后所應(yīng)用的校正深度。

一些產(chǎn)品化的機(jī)器學(xué)習(xí)平臺(tái)現(xiàn)在提供自動(dòng)超參數(shù)調(diào)整功能。本質(zhì)上,你告訴系統(tǒng)想要改變哪些超參數(shù),可能想要優(yōu)化什么指標(biāo),系統(tǒng)會(huì)在允許的次數(shù)范圍內(nèi)掃描這些超參數(shù)。(谷歌云機(jī)器學(xué)習(xí)引擎的超參數(shù)調(diào)整功能從TensorFlow模型中提取適當(dāng)?shù)亩攘恐笜?biāo),因此你不必指定它。)

掃描超參數(shù)的搜索算法主要有三種:貝葉斯優(yōu)化、網(wǎng)格搜索和隨機(jī)搜索。貝葉斯優(yōu)化往往是最有效的。你能夠很容易地在代碼中實(shí)現(xiàn)自己的超參數(shù)掃描功能——即使你所使用的平臺(tái)沒有自動(dòng)執(zhí)行。

總之,監(jiān)督學(xué)習(xí)把標(biāo)記過的訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為經(jīng)過調(diào)優(yōu)的預(yù)測(cè)模型。在此過程中,你應(yīng)該清理數(shù)據(jù)并使之規(guī)范化,設(shè)計(jì)一組線性不相關(guān)的特征參數(shù),并嘗試使用多種算法來找到最佳模型。

Martin Heller是InfoWorld的特約編輯和審稿人。他曾是一名網(wǎng)絡(luò)和Windows編程顧問,1986年至2010年間開發(fā)過數(shù)據(jù)庫(kù)、軟件和網(wǎng)站。

原文網(wǎng)址

https://www.infoworld.com/article/3403403/supervised-learning-explained.html

猜你喜歡
規(guī)范化分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
價(jià)格認(rèn)定的規(guī)范化之路
商周刊(2017年23期)2017-11-24 03:24:09
教你一招:數(shù)的分類
3D打印中的模型分割與打包
狂犬?、蠹?jí)暴露規(guī)范化預(yù)防處置實(shí)踐
主站蜘蛛池模板: 日本人妻丰满熟妇区| 青草午夜精品视频在线观看| 永久在线精品免费视频观看| 亚洲美女视频一区| 91精品国产自产在线老师啪l| 啊嗯不日本网站| 激情综合图区| 欧美色伊人| 超碰aⅴ人人做人人爽欧美 | AⅤ色综合久久天堂AV色综合 | 精品久久国产综合精麻豆| 亚洲最大情网站在线观看| 91精品福利自产拍在线观看| 久996视频精品免费观看| 一级毛片免费观看久| 久久久久亚洲精品成人网| 综合色区亚洲熟妇在线| 91无码国产视频| 九九热这里只有国产精品| 久久这里只有精品66| 无码区日韩专区免费系列| 久久这里只有精品免费| 日韩欧美国产精品| 亚洲国产成人在线| 欧洲高清无码在线| 国产女人在线观看| 国产9191精品免费观看| 日韩第一页在线| 亚洲水蜜桃久久综合网站| 免费观看男人免费桶女人视频| 日韩成人在线视频| 91视频精品| 国产日韩AV高潮在线| 中文字幕第1页在线播| 国产欧美日韩综合一区在线播放| 欧美日韩国产在线观看一区二区三区 | 国产玖玖玖精品视频| 欧洲亚洲一区| 欧美国产精品不卡在线观看| 久996视频精品免费观看| 国产精品夜夜嗨视频免费视频 | 1024你懂的国产精品| 99精品视频九九精品| 国产幂在线无码精品| 原味小视频在线www国产| 波多野吉衣一区二区三区av| 久久91精品牛牛| 久久青青草原亚洲av无码| 亚洲色图另类| 99国产在线视频| 青青操视频免费观看| av在线人妻熟妇| 精品国产成人高清在线| 99久久亚洲精品影院| 国产免费羞羞视频| 日韩精品免费在线视频| 波多野结衣视频网站| 亚洲黄网视频| AV在线天堂进入| 69综合网| 亚洲精品欧美重口| 性欧美久久| 日韩专区第一页| 久草中文网| 国产va在线观看| 五月天香蕉视频国产亚| 无码视频国产精品一区二区| 欧美一区二区精品久久久| 国产人成网线在线播放va| 97se亚洲综合在线天天| 在线观看免费黄色网址| 女人毛片a级大学毛片免费| 自偷自拍三级全三级视频 | 久久久久免费看成人影片| 久久综合丝袜日本网| 亚洲欧美日韩中文字幕一区二区三区 | 国产鲁鲁视频在线观看| 全免费a级毛片免费看不卡| 中文字幕免费播放| 影音先锋亚洲无码| 国产人成在线观看| 在线观看欧美精品二区|