邢彤彤,孫仁誠,邵峰晶,隋毅
(青島大學計算機科學技術學院,山東青島 266071)
從MCCULLOCH等[1]提出神經網絡的初步概念以及神經元的數學模型開始,針對神經網絡的研究得到迅速發展。特別是深度學習[2]在圖像領域的優秀表現,使其在機器學習[3]中脫穎而出。其中,卷積網絡[4]的概念也越來越受到人們的關注和重視,尤其是在圖像分類的處理中,卷積神經網絡的表現非常突出。盡管訓練越來越深的網絡存在一些困難,但是卷積神經網絡還是取得了較好的成績,并且還在不斷的優化、突破。
深度學習的本質就是學習、優化權重的值,使其達到一個最優解的狀態。通過文獻[5]提出的卷積神經網絡可視化方式可清楚地觀察到卷積神經網絡每一層的權值情況,這其中需要更新權重的層,包括卷積層、BN 層和FC 層等。在尋找最優解的過程中,權重的初始化就是得到最優解的重要前提。如果權重初始化不合適,則可能會導致模型反向傳播[6]失效,陷入局部最優解,使得模型預測效果不理想,甚至使損失函數震蕩,模型無法收斂,即使用不同的權重初始化方法,能夠直接影響模型的訓練速度和最終精確度。因此,一個優秀的權重初始化方法是模型提升收斂速度和最終精確度的重要前提。
在深度學習領域中,卷積神經網絡的權重初始化可以采取多種方式,如高斯(正態)分布初始化[7]、均勻分布初始化[8]、截斷高斯分布初始化[9](該初始化方法與高斯分布初始化相似,但分布形式為截尾分布)以及主成分洗牌初始化[10]等方法。其中,目前較為流行的權值初始化方法,如Xavier 初始化方法[11]和He 初始化方法[12]是在正態分布和均勻分布的基礎上進行了改進。Xavier 初始化為了增加網絡各層之間信息傳播的流暢性,遵循了(正向傳播)各層激活值方差和(反向傳播)各層狀態值的梯度方差在傳播中保持一致的原則,通過均勻分布來進行權重初始化調整。He 初始化在Xavier 初始化的基礎上稍加改變,遵循(正向傳播)各層狀態值方差和(反向傳播)各層激活值的梯度方差在傳播中保持一致的原則,在與ReLU 激活函數[13]的共同作用下,可以得到較好的收斂效果。然而,使用這兩種權重初始化方法的網絡依然存在訓練時間長、需要數據量大的問題。文獻[14]在實驗過程中發現預訓練模型[15]的權重參數分布可能存在冪律分布的現象,經過其后期驗證得出預訓練權重存在局部冪律的性質。
本文從Pytorch 中圖像分類相關的預訓練模型[16]入手,分析預訓練模型的權重分布,提出一種標準化的對稱冪律(Normalized Symmetric Power Law,NSPL)初始化方法。分析權重初始化面臨的主要問題,研究預訓練網絡模型的權重分布,發現權重分布具備冪律分布的特征。在此基礎上,基于標準化對稱冪律分布,給出權重數據生成及初始化算法。
權重有效初始化可以防止激活值在深度神經網絡的正向傳遞過程中出現梯度爆炸或者梯度消失。模型經過權重初始化后,在訓練、更新權重時主要會出現以下2 種情況:
2)如果初始權重太大,會導致輸入狀態也較大,對sigmoid 激活函數來講,激活函數的值會變得飽和,從而出現梯度消失的問題。
1)如果初始權重太小,導致神經元的輸入過小,隨著層數的不斷增加,會出現信號消失的問題,也會導致sigmoid 激活函數[17]中強調的丟失非線性的能力,因為在0 附近sigmoid 函數是近似線性的。
無論上述哪一種情況發生,損失梯度要么太大或要么太小,更新信息都無法有效地向后傳遞,網絡則需要很長時間才能收斂。研究人員研究了各種初始化方法來避免這些問題,如:通過保持一層網絡的輸入和輸出方差不變來防止梯度消失的Xavier 初始化方法;He 初始化方法通過加重權重方差的方式彌補ReLU 激活函數[18]1/2 為零的狀態。
目前針對權重初始化方法的思路更多偏向于正態分布和均勻分布,但還不能更好地以合適的數據對深度學習網絡進行初始化。若使模型的初始權重分布與訓練后模型權重的分布接近,將有助于模型獲得最優解,減少模型的訓練時間。因此,尋找一個更合適的數學分布規律來進行權重初始化,是本文探討并驗證的核心問題。
網絡模型的訓練實質就是更新權值并找到最優權值的過程。預訓練模型的權值就是網絡訓練最終找到的最優權值,若可以從預訓練模型的權值中總結出規律,研究并制定一種權重初始化的方法,有助于提升網絡模型的訓練速度和最終精確度。
針對權重初始化目前存在的問題,本文提出一種有效的權重初始化方法,具體解決思路如下:1)從預訓練模型的權值入手,查看并分析預訓練模型的權值分布規律;2)通過分析預訓練模型的權值分布特征,發現權重分布具有冪律分布特征,進一步進行冪律分布擬合的檢驗實驗,考慮制定一種以冪律分布為基礎的權重初始化方法;3)優化數據分布結構,制定標準化的對稱冪律分布數據,即本文提出的NSPL 初始化方法。
本文從預訓練模型的權重入手,查看并分析預訓練模型的權重分布規律,探究冪律分布在權重初始化中的作用。對比實驗結果表明,本文提出的方法有助于減少網絡權重的訓練時間,具有提升網絡最終精確度的能力。
本節使用的是Pytorch 框架下torchvision 中的預訓練模型,它是基于ImageNet 數據集上訓練出來的,通過查看預訓練模型的權值,對預訓練模型權值做相關統計分布分析。依據冪律分布的判斷性質,在雙對數坐標下,冪律分布表現為一條斜率冪指數為負數的直線,這一線性關系是判斷給定的實例中隨機變量是否滿足冪律的依據。本文對AlexNet 和ResNet18 預訓練模型的所有卷積層權重進行雙對數線性擬合,并計算其擬合優度R2。
首先針對AlexNet[19]網絡的卷積層權值分布進行處理。依次讀取AlexNet預訓練模型的權重參數,并使用概率分布來可視化權值的分布情況。該網絡的五層卷積層權值數據的概率分布情況如圖1 所示,其預訓練模型權重的雙對數擬合圖如圖2 所示。根據AlexNet預訓練模型的權值分布情況,可以通過其高峰、長尾的特點,進一步對更深層的ResNet18[20]預訓練模型進行相同的實驗。其中,ResNet18 共有17 層(加上輸入層)卷積層,其權值概率密度分布情況如圖3 所示,其預訓練模型權重的雙對數擬合圖如圖4 所示。
高潮立馬掏出手機,調出“詩的妾”那條在去溫州的列車上發來的短信,一看時間,19:47/23/07/2011,一下子驚呆了!高潮知道,那樁舉世聞名的動車交通事故,發生在幾天前的七月二十三日晚間。高潮顧不得許多了,立馬破戒,撥打“詩的妾”的手機,他聽到的是一個彬彬有禮而缺少溫度的聲音:您撥打的電話已關機,請稍后再撥……
從圖1 和圖3 可以看出,這兩個網絡的預訓練模型權值數據皆具有高峰、長尾的特點。在各種數學分布中,同樣具有該特點的是冪律分布,推斷預訓練模型的權重分布單側傾向冪律分布。從圖2 和圖4中的雙對數線性擬合結果可以看出,所有層權重線性擬合優度R2值都是在0.8 左右,可以得出預訓練網絡模型的權重分布并不完全為冪律分布,屬于指數截斷的冪律分布[21]。從數據上來看,實際分布中權值接近于0 的數據少于冪律分布,但根據對深度網絡模型正則化[22]研究結果,在損失函數中加入L1 或L2 正則化項[23],將使模型中更多的權值為0 或者接近于0,且模型的泛化能力更強。基于此,本文以冪律分布來初始化網絡,而沒有采用指數截斷的冪律分布。本文制定一種標準化的對稱冪律分布的權重初始化方法,用來確定冪律分布在權值中的作用。

圖1 AlexNet 預訓練模型權重數據概率分布Fig.1 Probability distribution of weight data of AlexNet pre-training model

圖2 AlexNet 預訓練模型權重的雙對數擬合圖Fig.2 Double log-fitting diagram of AlexNet pre-training model weight

圖3 ResNet18 預訓練模型權重數據概率分布Fig.3 Probability distribution of weight data of ResNet18 pre-training model

圖4 ResNet18 預訓練模型權重的雙對數擬合圖Fig.4 Doublelog-fitting diagram of ResNet18 pre-training model weight
歸一化的對稱冪律函數推導過程如下:
1)冪律分布的公式為:

2)標準化過程,令:

通過計算得:

將c代入式(1)得:

式(4)即為單側標準化的冪律分布函數公式。
標準化對稱冪律函數為:

本節算法致力于生成指定數量的標準化對稱冪律數據,用來初始化不同網絡模型,具體步驟如下:
清翁方綱亦在其《石洲詩話》中云:“馬戴五律……直可與盛唐諸賢儕伍,不當以晚唐論矣?!盵13]如其《宿翠微寺》“積翠含微月,遙泉韻細風”[5],《夜下湘中》“露洗寒山遍,波搖楚月空”[5],其中“微月”妙,承“含”極妙。明楊慎評曰:“‘積靄沉斜月,孤燈照落泉’,喻鳧詩也?!e翠含微月,遙泉韻細風’,馬戴詩也。二詩幽思同而句法亦相似?!盵14]“含、韻、洗、搖”等動詞的使用含蓄蘊藉,自然融洽,渾然天成,以動詞巧妙連綴意象,還有如:“余霞媚秋漢,迥月濯滄波”(《秋郊夕望》)[5]、“微紅拂秋漢,片白透長波”(《落照》)[5]、“霓虹侵棧道,風雨雜江聲”(《送人游蜀》)[5]頗有盛唐之氣象。
現代建筑在設計時除保證建筑的安全性、舒適度、智能化和生態環境因素外,還應注重能源的有效使用和節約,減小外圍護結構的傳熱系數,強化建筑外圍護結構的隔熱構造。
步驟2將標準化的冪律函數做對稱,得到標準化的對稱冪律函數。
步驟3分別計算網絡模型中各個卷積層的參數數量。
步驟4運用本文算法得到對應數量的參數值,分別對網絡的卷積層權值重新初始化。生成的權值應當符合分布要求,并且無大量、連續的相同數據。
1)對稱冪律函數的生成算法
手機端也能查看控制系統發送來的數據,在手機上使用應用程序讀取數據并轉化成數據曲線,使數據可視化程度提高.在20 m范圍內可通過手機對機器人主體機身系統或機械臂進行控制,增加了人機互動性.
依據算法設計,算法1 可以得到標準化的對稱冪律分布函數。
算法1標準化的對稱冪律函數
通過實驗分別對比同一個網絡下不同初始化方法的初始精確度和最終模型精確度的差異,最終得出本文提出的NSPL 初始化可以有效提高模型的訓練速度和最終精確度。


2)對稱冪律數據生成
步驟1根據冪律分布的公式,推導出標準化的冪律函數(見2.1 節)。
在算法1 建立了標準化的對稱冪律分布函數后,根據計算出的網絡模型每一層的權重參數量,使用算法2 來生成對稱冪律數據。
算法2對稱冪律數據生成算法

為驗證本文提出的NSPL 初始化方法有助于縮短網絡訓練時間,提高網絡的最終精確度,設置以下的對比實驗:運用cifar10 數據集分別在AlexNet 網絡和ResNet-32 網絡上進行訓練,而在訓練過程中每一個網絡都將使用3 種權重初始化方法進行初始化,分別為He 的均勻分布初始化、He 的正態分布初始化[16]和NSPL 初始化。
雙及物構式(雙賓構式)是指在句法層面的動詞能同時攜帶間接賓語和直接賓語的語言形式,其結構可以碼化為[NSVN1N2]。雙及物構式的基本意義可以表述為“客體實際的、成功的轉移”,也就是“客體從初始領有者被傳遞給最終領有者的過程”。這就要求進入雙及物構式的動詞必須具有“給予”義,必須能支配三個名詞性成分,動詞后的“N1”應該是有生命的。但是我們發現,許多非“給予”類、非“三價”動詞也能進入雙及物構式;處于“N1”位置上的名詞也并非都是有生命的,這其中一定有什么因素在起作用,本小節就擬探討這個問題。
本文兩組實驗的流程設計如下:
1)獲取數據集,設置網絡模型;
2)計算并記錄每一層網絡模型參數量;
3)利用算法1 制作出標準化的對稱冪律分布函數;
4)利用算法2 生成與網絡模型參數量對應大小的對稱冪律數據;
5)使用3 種不同的權重初始化方法對網絡模型的參數進行初始化;
2)ResNet32 網絡各層權重數量
7)每一輪訓練集結束后,使用驗證集進行準確率驗證,并記錄該準確率。
筆者采用線上、線下相結合的混合式教學模式:首先開始上課時,我們對線上內容進行測驗或課前問題答案展示,這樣做可以監督學生線上自覺進行微課視頻的學習,增強了同學們的成就感和滿足感,激發了同學們學習編程的興趣和自信心,同時也給學生提供了鍛煉自我的機會。
卷積層權重參數量的計算公式為:

其中:in_channels 表示輸入的通道數;out_channels表示輸出的通道數;kernel_size 表示卷積核的大小。
1)AlexNet 網絡各層權重數量
很明顯,在理論上而言,大題難度對試卷難度的影響由其所占的比重決定.第三大題總分為70分,對試卷難度的影響也最大.第三大題的難度提高0.1,整個試卷的難度將會增加0.04667.相應地,提高0.1個單位的第二大題的難度,整個試卷的難度只會增加0.0133.通過這個線性關系式,我們可以定量地描述題目難度與試卷難度之間的線性關系,由此推斷解答題在全卷難度穩定中發揮的作用最大.
結合式(6)計算AlexNet 網絡所有卷積層的權重數量,如表1 所示。

表1 AlexNet 網絡各層權重數量Table 1 Weight quantity of each layer of AlexNet network
6)使用訓練集進行訓練,學習權重參數;
ResNet32 網絡是以block 塊為基本單位組成的網絡結構,因此在此處以不同的block 來對不同的卷積層的情況進行描述。結合式(6)計算該網絡卷積層種類以及對應的權重參數量,如表2 所示。

表2 ResNet-32 網絡各層權重數量Table 2 Weight quantity of each layer of ResNet-32 network
下文所有權重數據與ResNet32 網絡相似,此處僅以AelxNet 為示例。
1)NSPL 初始化數據。使用本文提出的算法結合AlexNet 的五層卷積層所需要的權重參數量,生成NSPL 初始化數據。本文算法生成的權重初始化數據分布如圖5 所示。從圖5 可以看出,該數據充分展現了冪律分布的高峰、長尾現象。因為是標準化的對稱冪律分布,所以高峰和長尾特征比較明顯。
隨著經濟建設的高速發展,我國已經進入高鐵、掃碼支付、共享單車和網購新四大發明時代,信息化已經成為這個時代的明顯特征。這個時代的學生具有明顯的信息化特征,以智能手機為代表的智能終端幾乎人手一臺。在這個背景下,通過變革傳統課堂教師講、學生聽的授課方式,用信息化教學的理念,對課程體系進行重建勢在必行。

圖5 對稱冪律初始化數據分布Fig.5 Distribution of symmetric power law initialization data
本文實驗是對比使用不同權重初始化的網絡訓練首輪次訓練后的測試集精確度及后續網絡模型的收斂速度。通過對比同一訓練輪次下的不同初始化方法達到的精確度,得出其中一個初始化方法更有助于提升網絡訓練速度和最終模型準確率的結論。
H公司的財務人員、銷售人員、行政人員基本是大專學歷以下,而應收賬款管理需要很強的專業性,他們又有本職工作需要投入大量精力,因而很難將應收賬款管理工作做好。因此,員工素質不高也是H公司應收賬款持續增多、壞賬增加原因之一。

圖6 He 方法的正態分布初始化數據分布Fig.6 Distribution of normal distribution initialization data of He method
3)He 的均勻分布初始化數據。使用He 均勻分布初始化方法對網絡權重進行初始化,讀取網絡初始權值,也就是該初始化方法生成的數據,該權重初始化方法的數據分布如圖7 所示。該初始化方法是Pytorch1.7 中默認的初始化方法,當網絡不指定初始化方法時,會調用該方法對卷積層進行初始化。

圖7 He 方法的均勻分布初始化數據分布Fig.7 Distribution of uniformly distributed initialization data for He method
對比實驗過程如下:
1)實驗設計
本文實驗使用cifar-10 數據集,在AlexNet 網絡和ResNet32 網絡上進行實驗,將NSPL 初始化的實驗結果與He 的正態分布初始化、均勻分布初始化方法的實驗結果進行對比分析。
cifar10 數據集是一個更接近現實物品的RGB彩色圖像,包含10 個類別,每個類別有6 000 個圖像,分別為50 000 張訓練圖片和10 000 張測試圖片。本文實驗在訓練集上進行模型訓練,使用測試集進行測試,以對比測試集的準確度。
2)He 方法的正態分布初始化數據。使用He 正態分布初始化方法對網絡權重進行初始化,讀取網絡初始權值,將其數據分布可視化,如圖6 所示。該方法的權值數據分布就是非常典型的正態分布鐘形圖像,依據該方法對方差的計算和控制可以看出每一層數據分布情況的不同。
實際線路長度大于 10 km 時,可將整個線路分割為多個 10 km 的小線路段,即在式(4)中增加線路數,同時將該條線路中幾個點看作是故障點進行計算[24]。
2)實驗過程
針對AlexNet 網絡和ResNet32 網絡,分別使用上文中提到的3 種方法進行權重初始化。網絡每一輪次訓練結束都用驗證集測試當前網絡的準確度并進行記錄,將3 種精確度對應的所有輪次的驗證集精確度進行對比分析。(1)在AlexNet 網絡實驗過程中,使用的超參數設置如下:隨機梯度下降法(Stochastic Gradient Descent,SGD)優化器,動量momentum=0.9,批尺寸batch_size=64,學習率lr=0.015,測試尺寸test_batch=1 000,訓練輪次epochs=30,損失函數使用CrossEntropyLoss。
為推動全球耕地建設保護、生態文明建設及農業可持續發展,奧特奇作物科學中國區業務經理馬衛民表示,賽土豐科研團隊經過長期的研究與實驗,對微生物進行規模化培養,篩選代謝提取物,用于激活土壤中有益的微生物,解決土壤因缺乏微生物帶來的土傳病害等諸多問題,進一步促進作物根系發展,以期實現農民增產增收。
圖8 所示為3 種不同權重初始化方法在AlexNet網絡上各個輪次的訓練精確度。
隨著互聯網信息技術和智能電子設備的不斷發展,微課作為一個新的教學產物出現在了我國的教育計劃中。微課主要指視頻內容在十分鐘之內的一種教學方式,在簡短的視頻中要集中重點語文知識和其他相關的拓展內容,通過調查我們發現,微課的教學效率是非常高的,微課憑借簡短而精練的內容深深吸引了學生的注意力。雖然微課不能濃縮一節課的全部內容,但是通過板塊化教學,使得微課將一個個重點知識變得生動有趣,學生理解起來也非常容易。在信息技術快速發展的時代背景下,微課作為移動教學的一種方式,既滿足了不同學習能力學生的學習要求,還達到了教育部要求的深度教學。

圖8 AlexNet 訓練精確度對比Fig.8 Comparison of AlexNet training accuracy
在AlexNet 網絡的對比實驗中,通過圖8 可以看出NSPL 初始化方法和He 正態分布初始化的初始輪次精確度優于He 均勻分布初始化,NSPL 初始化方法相較于He 的均勻分布和正態分布初始化方法的最終精確度也有微弱的提升。本文實驗進一步使用了具有更高復雜度的ResNet32 網絡模型來驗證NSPL 初始化的使用效果。(2)在ResNet32 網絡實驗過程中,使用的超參數設置如下:SGD 優化器,動量momentum=0.9,批尺寸batch_size=128,學習率為lr=0.01,測試尺寸test_epochs=100,訓練輪次epochs=30,損失函數使用CrossEntropyLoss。
圖9 所示為3 種不同權重初始化方法在ResNet32 網絡上各個輪次的訓練精確度對比,通過圖9 可以看出,在模型精確度提升的過程中,NSPL初始化有助于優化網絡的訓練過程,加快收斂速度。

圖9 ResNet32 訓練精確度對比Fig.9 Comparison of ResNet32 training accuracy
通過圖8 實驗結果對比可以發現,He 的正態分布初始化方法和本文提出的NSPL 始化方法在初始輪次中有較高的準確度。在最終模型趨于穩定時,NSPL 初始化的精確度比He 的正態分布初始化方法提高3%??偟貋碚f,NSPL 初始化在AlexNet 網絡上具有優化網絡模型訓練過程的優點。
通過圖9 實驗結果對比可以發現,在更為復雜的ResNet32 網絡中,NSPL 初始化方法在首輪次中的精確度比He 初始化方法的精確度提高60%,并且模型收斂的速度更快,其最終精確度比He 初始化方法提高8%。在更深層的網絡中,NSPL 初始化方法具有更優秀的表現。
師:同學們,這節課老師和大家一起復習了相似的性質、判定和應用,在復習過程中我們梳理了知識,小結方法,提煉了策略,這三者合起來就形成我們的解題能力.當然能力永遠是第二位的,那么第一位是什么呢?那是“意識”,就是我們要“想到用”相似來解題,“意識”讓我們“想到用”,能力讓我們“會用”,如何才能“用好”“用巧”?這就要求我們站在一定的高度,掌握一定的數學思想,關于這一點我們同學也許不太理解.下面我來解決這個問題,同學們“今天這節課老師主要和大家探討了幾個題目?”
通過上述兩組對比實驗可以發現,NSPL 初始化方法有助于提升網絡訓練的速度和最終準確度,說明冪律分布也可以作為一種權重初始化的模型方法。
本文通過理論推導和實驗驗證,提出一種提升網絡模型訓練速度和精確度的權重初始化方法——對稱冪律(NSPL)初始化方法。同時,設置2 種網絡結構,在3 種不同權重初始化下進行對比實驗,使用cifar10 數據集分別訓練,對比每一輪次的模型訓練精確度。實驗結果表明,本文NSPL 初始化方法能夠優化網絡訓練過程,加快收斂速度。本文采用的是標準化后的對稱冪律數據,并沒有深入研究截斷冪律分布擬合的情況,下一步將統計并分析大量預訓練模型的權重參數分布情況,結合不同網絡模型的層數及不同數據集等影響權重初始化的因素,制定出更有針對性的基于冪律分布的初始化方法。