999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

線性分類器與神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)處理方面的應(yīng)用

2020-09-28 07:05:41陳琦軒余華云
電腦知識(shí)與技術(shù) 2020年16期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

陳琦軒 余華云

摘要:在機(jī)器學(xué)習(xí)誕生之時(shí)起,線性回歸分類器便體現(xiàn)出優(yōu)越的性能,然而,隨著時(shí)代的進(jìn)步,每類訓(xùn)練樣本數(shù)量增大,線性分類器的速度變得很慢,也凸顯了線性分類的一個(gè)致命弱點(diǎn):對大樣本數(shù)據(jù)束手無策。即當(dāng)用于訓(xùn)練的樣本數(shù)量大于樣本的維數(shù)時(shí),線性分類器會(huì)無法工作。解決的辦法之一是對分類器作局部化處理從而對數(shù)據(jù)進(jìn)行篩選,避免大樣本數(shù)據(jù)問題的出現(xiàn)。然而,隨著神經(jīng)網(wǎng)絡(luò)的興起,對于大樣本數(shù)據(jù)的處理,也有了更多的新興的處理辦法。

關(guān)鍵詞:機(jī)器學(xué)習(xí);線性回歸分類器;局部化處理;神經(jīng)網(wǎng)絡(luò);大樣本數(shù)據(jù)

中圖分類號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)16-0198-02

1局部線性回歸分類器

在機(jī)器學(xué)習(xí)領(lǐng)域中,分類的目的是指將具有相似特征的對象聚集在一起。而一個(gè)線性分類器會(huì)透過特征的線性組合來做出分類決定,以達(dá)到此種目的。對象的特征通常被描述為特征值,而在向量中則描述為特征向量。

1.1 Softmax線性回歸

Softmax是除SVM(支持向量機(jī))外,另一種常見的線性分類模型,是邏輯回歸推廣的一種形式。

Softmax作為線性分類器的一種,可以從兩個(gè)方面來研究它:評(píng)分函數(shù),也有人稱之為目標(biāo)函數(shù)(score function)和損失函數(shù)(loss function)。

1.1.1 Score function

Score function: f(xi;W;b)=Wxi+b。

Softmax的評(píng)分函數(shù)與多類別支持向量機(jī)是一樣的,都是“線性分類器”的一種,既然都是線性分類器,其計(jì)算目標(biāo)的公式必定是經(jīng)典的線性公式。其中,Softmax對目標(biāo)的解釋:轉(zhuǎn)換為概率分布。分類器將目標(biāo)向量看成是沒有歸一化處理的對數(shù)概率分布。經(jīng)過轉(zhuǎn)化以后得到相對應(yīng)類的概率。例如,三個(gè)數(shù)字1、2、3,取max每次都會(huì)取到3,但是把它們映射成三個(gè)概率,取到3的概率最大,但也有取到其他兩個(gè)數(shù)的可能,三個(gè)概率和為1,這就是Softmax值。即分類器會(huì)對線性運(yùn)算產(chǎn)生的目標(biāo)向量進(jìn)行相應(yīng)的轉(zhuǎn)化:通過特定函數(shù)將當(dāng)前樣本對各個(gè)類的評(píng)分轉(zhuǎn)換成當(dāng)前樣本相對應(yīng)其相對類的概率,這個(gè)概率就是模型的輸出。這也是Softmax命名的緣由。因?yàn)榫€性運(yùn)算的結(jié)果在某些情況下不具備很好的解釋性,因此在輸出之前“對目標(biāo)進(jìn)行轉(zhuǎn)化”(比如將目標(biāo)轉(zhuǎn)化為概率)是一種很常見的做法。

1.1.2 Loss function

通過以下公式來計(jì)算模型在樣本xi上的loss:

Li[=-log(efyi∑jefj])

這種損失的計(jì)算方式稱之為交叉熵,與多類別支持向量機(jī)的折葉損失不同,這是由于兩者對評(píng)分的解釋不一樣。Softmax的損失函數(shù)是希望正確的概率越高越好。

下面,在Jupyter Notebook中用Softmax分類器來處理下面模型。該數(shù)據(jù)集來源于斯坦福公開課程。數(shù)據(jù)圖形如下所示:

既然是線性分類器,就有線性公式y(tǒng)=wx+b。初始化w以及b。線性分類器只需要做簡單的乘法,就可得到各個(gè)類別的目標(biāo)。用損失函數(shù)來計(jì)算損失,即預(yù)測結(jié)果和真實(shí)結(jié)果的差值。理想情況下希望正確的類要比其他類有更高的評(píng)分,這樣損失就會(huì)很低。如果正確類的評(píng)分低,則損失就會(huì)很高。量化這種數(shù)據(jù)的方法有很多。在這個(gè)例子中用前面提到的交叉熵?fù)p失。

正確類別的概率值[efyi∑jefj]越大,Li函數(shù)的值就會(huì)越小,損失就會(huì)很小,即得到的結(jié)果與期待的目標(biāo)結(jié)果差距很小。若正確類別的概率值越小,Li函數(shù)的值就會(huì)越大,那么損失就會(huì)很大。那么得到的結(jié)果就與目標(biāo)數(shù)值差距較大。

得到了單個(gè)樣本的損失,又知道訓(xùn)練樣本的容量,就可以計(jì)算出每個(gè)樣本的平均損失:1/N∑iLi。

由目標(biāo)矩陣score計(jì)算得出訓(xùn)練樣本所對應(yīng)各個(gè)類別的概率值。通過softmax函數(shù),把三個(gè)分?jǐn)?shù)映射為三個(gè)概率。然后將得到的矩陣中的值進(jìn)行?log運(yùn)算。得到了一個(gè)一維數(shù)組,其中每個(gè)元素都是相應(yīng)訓(xùn)練樣本的正確類別的概率。之后計(jì)算完整的損失。

由此得到的loss會(huì)很大,需要減小loss的值。當(dāng)導(dǎo)數(shù)為0的時(shí)候,會(huì)出現(xiàn)極值點(diǎn)。于是損失(loss)對目標(biāo)(score)求導(dǎo),根據(jù)鏈?zhǔn)角髮?dǎo)法則得到?loss/?score=?loss/?prob*?prob/?score。這里損失由正確類別的概率值決定,而正確類別的概率值由各個(gè)類別分?jǐn)?shù)共同決定,所以求得應(yīng)分別是對三個(gè)分?jǐn)?shù)的導(dǎo)數(shù),最后損失loss對各個(gè)分?jǐn)?shù)的導(dǎo)數(shù)為Pk?1(k=yi)。現(xiàn)在得到了?loss/?score,我們想得到的是?loss/?w(w為權(quán)重),而?loss/?w=?loss/?score*?score/?w。最后對權(quán)值和偏置進(jìn)行更新。重復(fù)此過程10000次,得到的損失結(jié)果如下圖所示:

可以發(fā)現(xiàn)從很早開始損失就沒有變化了。打印出精度。

結(jié)果精確度為0.54,這不是一個(gè)令人滿意的結(jié)果。這也說明線性分類器在處理大量非線性數(shù)據(jù)時(shí)并不能很好的擬合數(shù)據(jù)曲線。

2 BP神經(jīng)網(wǎng)絡(luò)

之前已經(jīng)介紹了Softmax的工作原理:將分?jǐn)?shù)轉(zhuǎn)換為概率,然后得到預(yù)測結(jié)果,把預(yù)測結(jié)果拿來和期待的目標(biāo)結(jié)果作比較,并通過損失函數(shù)算出預(yù)測結(jié)果與目標(biāo)結(jié)果的偏差。把每個(gè)訓(xùn)練樣本都重復(fù)這樣的步驟,最后再綜合所有的損失并得到平均損失。然后通過修改權(quán)值和偏置來使這個(gè)損失降低。

而神經(jīng)網(wǎng)絡(luò)的不同之處,就是在結(jié)構(gòu)上增加了一層數(shù)據(jù)層,稱之為隱藏層。

神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元的結(jié)構(gòu)都是相同的:每個(gè)神經(jīng)元接受多個(gè)輸入信號(hào),對輸入信號(hào)進(jìn)行線性運(yùn)算:output=wx+b=∑i wixi+b。

數(shù)據(jù)經(jīng)過輸入層傳到隱含層,在隱含層會(huì)經(jīng)過激勵(lì)函數(shù)f(一般為非線性函數(shù))的處理后再傳輸?shù)捷敵鰧樱谳敵鰧右矔?huì)經(jīng)過與在隱含層相同的激勵(lì)函數(shù)f的處理,最后得出結(jié)果,正向傳播結(jié)束。計(jì)算出結(jié)果與期待值誤差后再反向傳播并借用誤差更新權(quán)值,上一層的輸出作為下一層的輸入。而這個(gè)非線性激勵(lì)函數(shù)f,也是神經(jīng)網(wǎng)絡(luò)為什么能夠處理非線性數(shù)據(jù)的原因。

下面繼續(xù)在jupyter notebook中用bp神經(jīng)網(wǎng)絡(luò)的方法去擬合上面的函數(shù)曲線。因?yàn)樵黾恿艘粚訑?shù)據(jù)層即我們的隱藏層,所以相比于線性處理初始化的一組權(quán)重和偏置,我們要增加一組,即初始化兩組權(quán)重和偏置。并使用ReLu函數(shù)作為隱藏層神經(jīng)元的激勵(lì)函數(shù)。函數(shù)表達(dá)式為ReLu(x)=max{0,x},取0和自變量x之中的的最大值。與softmax線性分類器的操作原理基本一致:想得到?score/?output的權(quán)重以及?score/?output的偏置,先計(jì)算損失對分?jǐn)?shù)的導(dǎo)數(shù)?loss/?score。這里由鏈?zhǔn)角髮?dǎo)法則可以求出損失對各層權(quán)重的導(dǎo)數(shù)和損失對偏置的導(dǎo)數(shù)。然后通過反向傳播來更新各層的權(quán)重和偏置。跟線性處理一樣我們迭代10000次,看看損失。

相較于Softmax處理的結(jié)果,迭代10000次后損失率已經(jīng)降低到了一個(gè)很低的水準(zhǔn)。最后打印出精度:

最后的精度也比Softmax高出很多,可以說bp神經(jīng)網(wǎng)絡(luò)更好的擬合了數(shù)據(jù)曲線。結(jié)果讓人非常滿意。

3結(jié)語

由這個(gè)實(shí)驗(yàn)我們可以看出,在特定情況下對于非線性數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)往往比線性處理器有更好的處理效果,能更好的擬合數(shù)據(jù)曲線。但線性分類模型的作用依然不可忽略,它是非線性分類模型的基礎(chǔ),很多非線性模型都是從線性分類模型的基礎(chǔ)上演化而來,并且在機(jī)器學(xué)習(xí)并不漫長的歷史進(jìn)程中,線性分類模型也在實(shí)踐中證明過自己的作用。無論是線性分類還是神經(jīng)網(wǎng)絡(luò),在人工智能日益影響我們生活的今天,只會(huì)發(fā)揮越來越重要的作用。

參考文獻(xiàn):

[1]WidrowB,Lehr M A.30 years of adaptive neural networks:perceptron,Madaline,andbackpropagation[J].Proceedings of the IEEE, 1990,78(9):1415-1442.

[2] 于秀麗. 對神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的研究[D].天津:河北工業(yè)大學(xué), 2003.

[3] 張鈴.支持向量機(jī)理論與基于規(guī)劃的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[J].計(jì)算機(jī)學(xué)報(bào),2001,24(2):113-118.

[4] 趙薇,黃敬雯,靳聰,等.基于卷積神經(jīng)網(wǎng)絡(luò)的聲學(xué)場景分類算法研究[J].中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,26(2):24-30.

[5] 劉彩紅.BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的研究[J].西安工業(yè)大學(xué)學(xué)報(bào),2012,32(9):723-727.

[6] 許建生,盛立東.基于改進(jìn)的支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)的識(shí)別算法[C]//第八屆全國漢字識(shí)別學(xué)術(shù)會(huì)議論文集.紹興,2002:84-89.

[7] 陳永義,俞小鼎,高學(xué)浩,等.處理非線性分類和回歸問題的一種新方法(I)——支持向量機(jī)方法簡介[J].應(yīng)用氣象學(xué)報(bào),2004,15(3):345-354.

[8] 李錦繡. 基于Logistic回歸模型和支持向量機(jī)(SVM)模型的多分類研究[D].武漢:華中師范大學(xué), 2014.

[9] 王琳. 支持向量機(jī)及相關(guān)理論研究[D].大連:遼寧師范大學(xué), 2010.

[10] 陶卿,曹進(jìn)德,孫德敏.基于支持向量機(jī)分類的回歸方法[J].軟件學(xué)報(bào),2002,13(5):1024-1028.

【通聯(lián)編輯:梁書】

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 真人高潮娇喘嗯啊在线观看| 青青久久91| 四虎精品免费久久| 伊人天堂网| 亚洲不卡网| 98精品全国免费观看视频| 亚洲中文字幕在线一区播放| 国产91成人| 老司国产精品视频| 亚洲AV无码不卡无码| 成人一级免费视频| 人妻免费无码不卡视频| 在线国产91| 一本综合久久| 日韩第一页在线| 午夜综合网| 国产一区亚洲一区| 亚洲欧美日韩另类| 国产在线精品99一区不卡| 亚洲黄色片免费看| 久久久精品无码一区二区三区| 2019国产在线| 亚洲精品免费网站| 国产真实乱子伦视频播放| 18禁高潮出水呻吟娇喘蜜芽| 亚洲欧洲自拍拍偷午夜色| 尤物亚洲最大AV无码网站| 亚洲欧美精品日韩欧美| 亚洲人成影视在线观看| 米奇精品一区二区三区| 久久国产拍爱| 午夜精品国产自在| 无码网站免费观看| 欧美视频免费一区二区三区| 国产精品一老牛影视频| 国产中文在线亚洲精品官网| 亚洲第一视频网站| 亚洲天堂视频在线免费观看| 亚洲国产精品无码AV| 国产欧美日韩18| 国产日韩欧美成人| 亚洲精品片911| 国产亚洲视频播放9000| 亚洲三级色| 色天天综合| 国产香蕉一区二区在线网站| 久久精品66| 一级毛片高清| 国产精品美女网站| 成人字幕网视频在线观看| 性视频久久| AV不卡在线永久免费观看| 国产丝袜丝视频在线观看| 国产精品人人做人人爽人人添| 日韩精品一区二区三区免费| 成人午夜网址| 99热这里只有精品2| 青草视频网站在线观看| 亚洲有无码中文网| 国产丰满大乳无码免费播放 | 亚洲va视频| 九一九色国产| 亚洲欧美日韩精品专区| 国产迷奸在线看| 久久国产亚洲欧美日韩精品| 亚洲不卡av中文在线| 成人亚洲天堂| 丁香婷婷久久| 成人免费视频一区二区三区 | 88av在线| 一本久道热中字伊人| 国产精品主播| 国产成人精品2021欧美日韩| 91精品视频播放| www.91在线播放| 欧美色综合网站| 久久99国产视频| 伦精品一区二区三区视频| 国产91视频观看| 国产成人做受免费视频| 日韩免费毛片视频| 美女国内精品自产拍在线播放|