999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT預訓練模型壓縮技術分析

2020-09-16 13:29:19李進
科學與信息化 2020年14期

李進

摘要:基于語言模型的預訓練已經在很多自然語言處理任務中取得了顯著的性能,然而由于起巨大的模型容量和復雜的計算,往往需要消耗大量的存儲資源,在資源受限的設備上難以發揮其性能優勢,本文對當前被廣泛應用的BERT壓縮技術從效率,性能以及壓縮強度等多個角度進行了分析。

關鍵詞:預訓練;模型壓縮;BERT

1預訓練模型BERT

預訓練模型BERT采用Transformer模型中提出的編碼層結構,應用了多層堆疊編碼層,每個編碼層由自注意力子層及前饋神經網絡子層組成,并在每個子層后應用了殘差連接和層正則化操作,以多任務學習作為訓練目標。任務一是掩碼預言模型,即隨機掩蓋語句子中15%的詞,并通過模型對掩蓋掉的詞進行預測,值得注意的是,在BERT中并不是將所選擇15%的詞全部使用MASK標簽進行掩蓋,而是將其劃分為三份,其中80%用MASK標簽掩蓋,10%不做任何操作,10%隨機替換為其他詞。任務二是預測兩個句子之間的關系,即句子B是否為句子A的下文,以此來捕捉句子之間的關系,BERT模型因為其強大的性能和泛化能力在多項NLP任務中取得了最佳性能,但是由于其龐大的模型容量以及對存儲的巨大消耗,也衍生了很多針對BERT的壓縮技術。

2基于知識精煉技術的BERT壓縮

知識精煉技術是一種常用的模型壓縮手段,其主要的方式主要使子模型去學習教師模型的預測結果,從教師模型預測得到的更軟的分布中去學習教師模型中的知識,從而使子模型能夠達到模擬教師模型行為的目的。在BERT模型中同樣也可以應用類似的技術進行模型的壓縮。在DistilBERT壓縮中,其壓縮對象是減少模型的神經網絡層數,構建層數更少的子模型,通過使用知識精煉手段,使子模型學習教師模型的輸出層的預測。同時設計了余弦相似度損失,來對其子模型和教師模型的隱藏層狀態,即如果將12層的教師模型壓縮為3層,則另子模型的第1,2,3層分別的輸出分別使用余弦相似度來計算,其與教師模型第4,8,12層之間的差異。最終子模型的損失函數包括三項,分別是,BERT模型訓練目標的損失,知識精煉的損失,以及余弦相似度計算得到的損失項。同時在構建子模型初始化時,放棄了隨即初始化的手段,通過從教師模型中抽取子模型規模大小的神經網絡層數來構建子模型,成功地將模型容量壓縮了40%,并維持了97%的性能,同時實現了60%的加速。

3Tiny-BERT壓縮技術”

Tiny-BERT壓縮技術同樣是基于知識精煉技術對BERT模型進行壓縮,相比于普通的知識精煉技術只在模型的輸出層進行約束,Tiny-BERT壓縮針對構成BERT模型的每一層的不同輸出位置都進行了約束。如果以學習類比,DistilBERT便是直接學習了正確答案和部分的中間過程,而Tiny-BERT則是對中間過程進行了更詳細的拆分,進行更細致的學習。在預訓練階段,Tiny-BERT講教師模型中的層分為不同的神經網絡層組,將對應組的知識精煉于子模型的一層之上,完成多層對一層的映射。例如,將12NBERT模型壓縮為4層,則將教師模型劃分為3組,令子模型中對應的層學習教師模型每組中最后一層的行為。同時針對每層網絡中不同位置的輸出設計了不同的知識遷移方式,例如對于層輸出和自注意力機制得到的注意力分布,設計了均方誤差損失,來衡量子網絡和教師網絡之間的差異。對于子模型和教師模型的輸入層,同樣應用了均方誤差損失,對輸出層,采用了與DistilBERT同樣的方式,將各個位置上的損失累加于損失函數之上作為正則化項,使子模型充分學習到教師模型的表現行為。與DistilBERT中復用了教師模型中的參數不同,Tiny-BERT壓縮中子模型的參數采用隨機初始化的方式,因此可以選擇更小的隱藏層維度,同時在層的維度和隱藏層的維度對教師模型進行壓縮,壓縮比率更大。此外對于下游任務的微調過程,Tiny-BERT壓縮采用了兩階段學習框架,即在對特定的任務進行微調時,同樣使用與預訓練階段同樣的知識精煉方式,以便于子模型能夠充分捕捉到教師模型中的普遍的域內知識和特定任務相關的知識。最終實現了只使用133%的參數量,便達到了教師模型97%的性能表現。

4對比分析

目前階段,針對BERT模型的壓縮主要分為兩個方面,即對模型層數的壓縮和模型的隱藏維度的壓縮。常用的壓縮手段則包括模型的量化,剪枝和知識精煉。其中知識精煉因為其性能優異,操作簡單成為了主要的研究方向。相比于傳統知識精煉對輸出層的約束,對于BERT模型這種復雜網絡結構,只對模型的輸出層進行約束并不能使子模型充分學習到教師模型的性能。因此往往需要設計額外的損失函數來進行約束。但是額外的損失計算也帶來了額外的計算量,往往需要計算計算更多的中間信息的約束狀態。因此在實際應用過程中,可以根據計算成本合理的選擇額外的損失數量,不同的衡量向量之間差異的指標。此外,如果不考慮維度的壓縮,可以考慮復用教師模型的參數來構建子模型。如果需要縮減隱藏層的維度,則需要重新初始化指定維度的模型,或利用一些特殊的手段從教師模型中得到對應維度的參數。

主站蜘蛛池模板: 在线国产资源| 亚洲综合一区国产精品| 亚洲欧洲日产国码无码av喷潮| 91麻豆精品视频| 92午夜福利影院一区二区三区| 成人福利在线免费观看| 亚洲乱强伦| 日本影院一区| 国产69精品久久久久孕妇大杂乱 | 2048国产精品原创综合在线| 无码国内精品人妻少妇蜜桃视频| 中文字幕人妻av一区二区| 国产成人精品一区二区| 亚洲国产精品美女| 五月婷婷综合色| 成人一级黄色毛片| 亚洲经典在线中文字幕| 黄色污网站在线观看| 国产在线八区| 中字无码av在线电影| 国产杨幂丝袜av在线播放| 国产精品色婷婷在线观看| 日韩成人免费网站| 性欧美在线| 欧美午夜在线观看| 精品一区二区久久久久网站| 国产精品亚洲精品爽爽| 国产视频大全| 中文字幕日韩视频欧美一区| 国产精品亚洲αv天堂无码| 丁香婷婷激情网| 久久永久免费人妻精品| 亚洲午夜综合网| 免费大黄网站在线观看| 在线永久免费观看的毛片| 国产欧美日韩专区发布| 国产香蕉在线| 欧美色丁香| 亚洲成人网在线观看| 在线播放91| 成人在线观看一区| 高清国产在线| 久久国产精品夜色| 亚洲啪啪网| 久久情精品国产品免费| 2021最新国产精品网站| 国产三级毛片| 中文字幕2区| 欧美a在线看| 国产精品自在在线午夜| 五月婷婷丁香综合| 四虎国产成人免费观看| 免费播放毛片| 伊人婷婷色香五月综合缴缴情| 国产第一页免费浮力影院| 亚欧美国产综合| 黑人巨大精品欧美一区二区区| 久久一本日韩精品中文字幕屁孩| 99re在线视频观看| 国产福利一区视频| 欧美激情第一欧美在线| 色窝窝免费一区二区三区| 日本亚洲欧美在线| 亚洲无码不卡网| 精品视频一区在线观看| 成人小视频在线观看免费| 国产精品第一区在线观看| 成人午夜亚洲影视在线观看| 91亚洲影院| 国产一区亚洲一区| 欧美性猛交一区二区三区| 97超级碰碰碰碰精品| 欧美高清视频一区二区三区| 国产99在线观看| 成人精品视频一区二区在线| 亚洲视频免费在线看| 亚洲男人天堂久久| 青青草国产精品久久久久| 国产精品男人的天堂| 小说 亚洲 无码 精品| 亚洲天堂日韩在线| 又黄又爽视频好爽视频|