999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TensorFlow的深度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法研究

2021-12-08 04:14:04王保敏阮進(jìn)軍
關(guān)鍵詞:優(yōu)化模型

王保敏,王 睿,阮進(jìn)軍,慈 尚

(安徽商貿(mào)職業(yè)技術(shù)學(xué)院 信息與人工智能學(xué)院,安徽 蕪湖 241002)

深度神經(jīng)網(wǎng)絡(luò)可以視為添加了若干個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),它是感知機(jī)的拓展.感知機(jī)的基本結(jié)構(gòu)包括輸入層和輸出層,輸入層用于接收來自外界的信號(hào),其模型如圖1所示.

圖1 感知機(jī)模型結(jié)構(gòu)

感知機(jī)輸出和輸入之間的關(guān)系是線性的,經(jīng)過學(xué)習(xí)可得到的輸出結(jié)果為

(1)

經(jīng)過神經(jīng)元激活函數(shù),可以得到最終的輸出結(jié)果為1或者-1[1]:

(2)

可以看出,一個(gè)簡(jiǎn)單的感知機(jī)模型能夠解決的僅僅是二分類問題.對(duì)于復(fù)雜的非線性模型,感知機(jī)模型無法通過學(xué)習(xí)得到理想的結(jié)果.隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)逐步替代了感知機(jī),其對(duì)感知機(jī)模型做了3個(gè)方面的拓展:首先,在輸入和輸出之間增加了隱藏層,可以根據(jù)需要設(shè)計(jì)成多層結(jié)構(gòu),從而增強(qiáng)了模型的表達(dá)能力;其次,輸出層的神經(jīng)元不再局限于兩個(gè)結(jié)果,而是可以為多個(gè)結(jié)果輸出,這樣模型可以靈活應(yīng)用于分類回歸以及其他機(jī)器學(xué)習(xí)領(lǐng)域的降維和聚類等問題;最后,神經(jīng)網(wǎng)絡(luò)對(duì)感知機(jī)的激活函數(shù)做了擴(kuò)展,可以是tanx、Softmax或者ReLU等,比如在Logistic回歸里面通常采用的是Sigmoid函數(shù),即:f(x)=1/(1-e-x).不同的激活函數(shù),在不同程度上都增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的表達(dá)能力.

圖2 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

從結(jié)構(gòu)上看,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)是一個(gè)包含了多個(gè)隱藏層的網(wǎng)絡(luò),由輸入層、隱藏層和輸出層組成,層與層之間是全連接關(guān)系.雖然DNN內(nèi)部組成部分關(guān)聯(lián)性較大,但是從微觀范圍來看,基本與感知機(jī)類似,局部輸入和輸出之間是線性關(guān)系.從總體上看,DNN本質(zhì)上是一個(gè)非線性非凸函數(shù)[2],其基本結(jié)構(gòu)如圖2所示.

1 問題分析

深度學(xué)習(xí)是一種基于特征的學(xué)習(xí)方法,而特征是通過學(xué)習(xí)過程從數(shù)據(jù)中提取出來的[3],一般可以通過兩個(gè)步驟實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)的優(yōu)化.首先是通過前向傳播算法得到模型的輸出值(預(yù)測(cè)值),同時(shí)計(jì)算輸出預(yù)測(cè)值和真實(shí)值的差值;其次利用BP(Back Propagation)算法求得損失函數(shù)對(duì)模型中每個(gè)參數(shù)的偏導(dǎo)數(shù)(梯度),最終通過偏導(dǎo)數(shù)和學(xué)習(xí)率(learning rate)使用梯度下降算法迭代計(jì)算出各個(gè)參數(shù)的取值.

1.1 過擬合問題

在實(shí)際應(yīng)用場(chǎng)景中,并非僅僅是使用深度神經(jīng)網(wǎng)絡(luò)去模擬訓(xùn)練數(shù)據(jù),而是通過訓(xùn)練,使得模型更加貼合實(shí)際從而最大程度地判斷未知數(shù)據(jù).判斷模型在未知數(shù)據(jù)中的性能,并不能完全根據(jù)其在訓(xùn)練數(shù)據(jù)上的表現(xiàn)結(jié)果,原因在于存在著過擬合問題.所謂過擬合,指的是當(dāng)模型復(fù)雜程度變高之后,雖然能夠較好地刻畫出訓(xùn)練數(shù)據(jù)中的隨機(jī)噪音,但是在挖掘和提煉訓(xùn)練數(shù)據(jù)中的通用規(guī)則或者特征等方面表現(xiàn)出了局限性.過擬合由于過度關(guān)注了訓(xùn)練數(shù)據(jù)中的噪音而忽視了問題的整體規(guī)律.

1.2 參數(shù)值突變問題

權(quán)重weight和偏差bias在神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中可能出現(xiàn)更新幅度過大或者過小,從而表現(xiàn)出參數(shù)值在迭代過程中出現(xiàn)“突變”現(xiàn)象,導(dǎo)致訓(xùn)練過程中遇到異常波動(dòng)狀況,降低了模型在未知數(shù)據(jù)上的健壯性.為便于說明這一問題,假設(shè)某個(gè)參數(shù)x在訓(xùn)練過程中得到了原始10個(gè)數(shù)值,用集合表示,記為x={-10,2,5,6,1,8,3,5,6,3,-1},顯然可以看出這10個(gè)值存在較大的波動(dòng)性,尤其是-10作為參數(shù)將會(huì)是一個(gè)“噪音”,代入模型后,會(huì)對(duì)訓(xùn)練結(jié)果產(chǎn)生較大的干擾,不利于模型的訓(xùn)練效率和結(jié)果求解.

2 計(jì)算方法優(yōu)化

針對(duì)上述問題,本文分別引入了正則化思想解決過擬合問題,采用滑動(dòng)平均模型解決參數(shù)值突變問題,提高模型的訓(xùn)練效果.

2.1 正則化處理

為了優(yōu)化模型參數(shù),避免過擬合問題,一個(gè)常用的方法是對(duì)模型進(jìn)行正則化(regularization)處理[4].正則化通過約束參數(shù)的范數(shù)來降低模型的復(fù)雜度,其基本方法是在損失函數(shù)中增加能夠表現(xiàn)模型復(fù)雜程度的附加項(xiàng)[5].假設(shè)模型中的損失函數(shù)為P(θ),描述模型復(fù)雜程度的函數(shù)是Q(ω),那么正則化處理的方式是:在優(yōu)化P(θ)的同時(shí),優(yōu)化Q(ω),即綜合優(yōu)化P(θ)+λQ(ω),其中λ為模型復(fù)雜損失在總損失中的比重,θ代表神經(jīng)網(wǎng)絡(luò)模型中的所有參數(shù),包括權(quán)值ω和偏移值b.通常模型復(fù)雜程度是由權(quán)重ω所決定.常用的描述模型復(fù)雜度的函數(shù)Q(ω)有兩種,一種是L1正則化,對(duì)ω取模后求和,計(jì)算公式為:

(3)

另一種是L2正則化,對(duì)ω平方取模后求和,計(jì)算公式為:

(4)

公式(3)和(4)中ωi表示模型中第i個(gè)權(quán)重參數(shù).上述兩種正則化方法的思想都是試圖通過限制模型中權(quán)值的大小來減少擬合訓(xùn)練數(shù)據(jù)過程中出現(xiàn)的隨機(jī)噪音,但L1正則化和L2正則化是存在很大差異的.L1正則化可以讓參數(shù)在訓(xùn)練過程中變?yōu)?,顯示出更稀疏的性質(zhì),從而有利于模型類似特征的選取.L2正則化避免了這種情況的出現(xiàn),因?yàn)楫?dāng)參數(shù)取值很小時(shí),其平方更小以至于可以忽略,且L2正則化公式是可導(dǎo)的,在優(yōu)化時(shí)會(huì)令求損失函數(shù)的偏導(dǎo)變得更加簡(jiǎn)潔.在實(shí)際應(yīng)用中,可以同時(shí)使用L1正則化和L2正則化:

(5)

其中:α為L(zhǎng)1正則化項(xiàng)所占系數(shù).

2.2 指數(shù)移動(dòng)平均模型

在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,為了使模型結(jié)果不發(fā)生突變,參數(shù)更新幅度不能過大或者過小,且更新后的參數(shù)值與之前的參數(shù)值需要有關(guān)聯(lián),要盡量避免異常的參數(shù)值,即使遇到一些突變的數(shù)值,也需要對(duì)其進(jìn)行抑制,從而保障模型的魯棒性.為解決參數(shù)值突變問題,在模型中采用了指數(shù)移動(dòng)平均算法(Exponential Moving Average, EMA),對(duì)不同階段的權(quán)重進(jìn)行平滑處理,以此來預(yù)測(cè)未知事物趨勢(shì)[7],從而在一定程度上提高模型在測(cè)試數(shù)據(jù)集上的表現(xiàn).

滑動(dòng)平均模型的基本思想是對(duì)每個(gè)變量αt維護(hù)一個(gè)影子變量vt,vt與αt的初始值相同,在每次更新變量αt時(shí),影子變量vt的值也做相應(yīng)調(diào)整,被設(shè)置為:

vt=vt-1·β+αt·(1-β),

(6)

其中:β為衰減率,決定模型參數(shù)的更新速度.從滑動(dòng)平均模型與深度學(xué)習(xí)的關(guān)系來看,使用滑動(dòng)平均模型可令整體參數(shù)數(shù)據(jù)更加平滑,屏蔽了數(shù)據(jù)噪音,杜絕了異常值的出現(xiàn).

3 基于TensorFlow的優(yōu)化方法實(shí)現(xiàn)

3.1 正則化處理方法實(shí)現(xiàn)

TensorFlow是由Google開發(fā)的一種開源框架,借助其強(qiáng)大的深度學(xué)習(xí)功能,能夠高效進(jìn)行高性能數(shù)值計(jì)算[8].在TensorFlow中,損失函數(shù)可以加入正則化的部分,代碼如下:

loss=tf.reduce_mean(tf.square(y_-y))

tf.contrib.layers.l2_regularizer(lambda)(w)

以上代碼中,loss為損失函數(shù),它包含兩個(gè)部分,分別是用于衡量模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)效果的均方誤差損失函數(shù),以及抑制隨機(jī)噪音出現(xiàn)的正則化項(xiàng).TensorFlow提供tf.contrib.layers.l1_regularizer()函數(shù)計(jì)算L1的值,tf.contrib.layers.l2_regularizer()計(jì)算L2正則化項(xiàng)的值.在簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)中,這樣可以很好地計(jì)算包含正則化項(xiàng)的損失函數(shù).

3.2 指數(shù)移動(dòng)平均模型實(shí)現(xiàn)

定義變量v1,其類型為tf.float32,初始值是0,用以計(jì)算指數(shù)移動(dòng)平均值:

v1=tf.Variable(0,dtype=tf.float32)

定義變量step,表示神經(jīng)網(wǎng)絡(luò)中選代的輪數(shù),其作用是用以動(dòng)態(tài)控制衰減率:

step=tf.Variable(0,trainable=False)

定義類(class)來計(jì)算指數(shù)移動(dòng)平均值,其中0.98為初始化時(shí)的衰減因子:

ema = tf.train.ExponentialMovingAverage(0.98, step)

定義一個(gè)操作用來更新變量的滑動(dòng)平均值,需要傳入的參數(shù)是一個(gè)變量列表,每執(zhí)行一次操作列表中的變量將同時(shí)更新一次:

maintain_average_op=ema.apply([v1])

4 實(shí)驗(yàn)與結(jié)果分析

為驗(yàn)證正則化處理和采用滑動(dòng)平均模型的效果,本文在MNIST數(shù)據(jù)集上實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)優(yōu)化算法,識(shí)別數(shù)據(jù)集上的手寫數(shù)字[9].

對(duì)MNIST數(shù)據(jù)集中的每張圖片,像素矩陣大小為28*28,在TensorFlow中為方便輸入,將其處理為一個(gè)長(zhǎng)度等于784的一維數(shù)組,即輸入層的節(jié)點(diǎn)數(shù)為784,輸出層的節(jié)點(diǎn)數(shù)為10(代表0到9).此外模型的基本參數(shù)設(shè)定如下:隱藏層節(jié)點(diǎn)數(shù)為500,基礎(chǔ)學(xué)習(xí)率為0.5,學(xué)習(xí)率的衰減率為0.99,正則化項(xiàng)在損失函數(shù)中的比重為0.001,訓(xùn)練輪數(shù)為50 000,滑動(dòng)平均衰減率為0.98.有關(guān)正則化損失函數(shù)和指數(shù)學(xué)習(xí)率設(shè)置的說明和代碼如下.

創(chuàng)建正則化函數(shù)regularizer:

regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)

定義需要正則化處理的項(xiàng)regularization(其中weights1為從輸入層到隱藏層的權(quán)重參數(shù),weights2為從隱藏層到輸出層的權(quán)重參數(shù)):

regularization = regularizer(weights1) + regularizer(weights2)

定義損失函數(shù)loss(由交叉熵cross_entropy_mean和正則化損失regularization兩部分組成):

loss=cross_entropy_mean + regularization

設(shè)置指數(shù)衰減型學(xué)習(xí)率learning_rate(其中基礎(chǔ)學(xué)習(xí)率LEARNING_RATE_BASE為常量0.5,global_step為訓(xùn)練輪數(shù),每次訓(xùn)練使用的樣本數(shù)BATCH_SIZE為常量100,滑動(dòng)平均衰減率LEARNING_RATE_DECAY為常量0.98):

learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE,global_step,mnist.train.num_examples/BATCH_SIZE,LEARNING_RATE_DECAY)

定義訓(xùn)練步驟train_step(采用梯度下降優(yōu)化器GradientDescentOptimizer實(shí)現(xiàn)損失函數(shù)loss最小化):

train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss,global_step=global_step)

優(yōu)化前后,訓(xùn)練輪數(shù)與正確率之間的關(guān)系曲線如圖3所示.

(a)優(yōu)化前

(b)優(yōu)化后 圖3 訓(xùn)練輪數(shù)與識(shí)別正確率關(guān)系曲線

由圖3可以看出,相比優(yōu)化前,優(yōu)化后的訓(xùn)練模型曲線更加平滑,這一趨勢(shì)在訓(xùn)練輪數(shù)為10 000至20 000區(qū)間內(nèi)表現(xiàn)尤為明顯,顯示出較高的性能.其次,從正確率上看,經(jīng)過50 000輪訓(xùn)練,說明優(yōu)化效果更好.

5 結(jié)論

隨著計(jì)算機(jī)硬件性能和計(jì)算能力的提升,深度神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于語音識(shí)別和圖形圖像識(shí)別,其識(shí)別準(zhǔn)確率和速率大大超過了人類.本文使用正則化和指數(shù)滑動(dòng)平均算法能夠優(yōu)化模型的訓(xùn)練參數(shù)[10],能夠有效避免過擬合問題,降低數(shù)據(jù)“噪音”對(duì)模型訓(xùn)練的影響.

猜你喜歡
優(yōu)化模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲欧美激情另类| 国产超碰在线观看| 亚洲国语自产一区第二页| 久久人人97超碰人人澡爱香蕉| 国产青青草视频| 国产精品无码AV中文| 一区二区三区四区在线| 中文字幕亚洲精品2页| 国产视频一区二区在线观看| 玖玖精品在线| 亚洲精品无码专区在线观看| 日本高清在线看免费观看| 黄片一区二区三区| 91福利一区二区三区| 欧美国产在线精品17p| 国产亚洲精品91| 国产精品久久久精品三级| 72种姿势欧美久久久大黄蕉| 亚洲成a人片| 国产精品免费入口视频| 高清国产在线| a毛片免费观看| 99精品久久精品| 久久青草视频| 欧美一区二区丝袜高跟鞋| 91极品美女高潮叫床在线观看| 色婷婷成人网| jizz国产视频| 国产成人三级| 国产精品99一区不卡| 蜜桃视频一区二区三区| 日本一区二区不卡视频| 日韩国产一区二区三区无码| 亚欧美国产综合| 亚洲国产av无码综合原创国产| 免费高清毛片| 中文毛片无遮挡播放免费| 久久无码av三级| 国产屁屁影院| 国产成人精品2021欧美日韩| 亚洲第一网站男人都懂| 99视频有精品视频免费观看| 美女无遮挡免费网站| 青青青视频蜜桃一区二区| 中文字幕欧美日韩| 九九免费观看全部免费视频| 亚洲人成网18禁| 在线欧美一区| 综合久久五月天| 人妻丝袜无码视频| 免费人成在线观看视频色| 亚洲欧美精品一中文字幕| 欧美怡红院视频一区二区三区| 香蕉久久国产超碰青草| 网久久综合| 国产在线精品网址你懂的| 欧美精品亚洲精品日韩专区| 91青青视频| 日韩午夜伦| 一级毛片免费播放视频| 日本a级免费| 国产精品护士| 久久黄色一级视频| 久久综合色播五月男人的天堂| 国产精品hd在线播放| 精品欧美日韩国产日漫一区不卡| 黄色片中文字幕| 在线a网站| 欧美a级在线| 九色综合视频网| 国产精品视频a| 日日拍夜夜操| 97色婷婷成人综合在线观看| 中文字幕丝袜一区二区| 亚洲Av综合日韩精品久久久| a级高清毛片| 熟女视频91| 性色生活片在线观看| 亚洲精品波多野结衣| 色综合a怡红院怡红院首页| 日韩高清中文字幕| 在线网站18禁|