999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT預訓練模型壓縮技術分析

2020-09-16 13:29:19李進
科學與信息化 2020年14期

李進

摘要:基于語言模型的預訓練已經在很多自然語言處理任務中取得了顯著的性能,然而由于起巨大的模型容量和復雜的計算,往往需要消耗大量的存儲資源,在資源受限的設備上難以發揮其性能優勢,本文對當前被廣泛應用的BERT壓縮技術從效率,性能以及壓縮強度等多個角度進行了分析。

關鍵詞:預訓練;模型壓縮;BERT

1預訓練模型BERT

預訓練模型BERT采用Transformer模型中提出的編碼層結構,應用了多層堆疊編碼層,每個編碼層由自注意力子層及前饋神經網絡子層組成,并在每個子層后應用了殘差連接和層正則化操作,以多任務學習作為訓練目標。任務一是掩碼預言模型,即隨機掩蓋語句子中15%的詞,并通過模型對掩蓋掉的詞進行預測,值得注意的是,在BERT中并不是將所選擇15%的詞全部使用MASK標簽進行掩蓋,而是將其劃分為三份,其中80%用MASK標簽掩蓋,10%不做任何操作,10%隨機替換為其他詞。任務二是預測兩個句子之間的關系,即句子B是否為句子A的下文,以此來捕捉句子之間的關系,BERT模型因為其強大的性能和泛化能力在多項NLP任務中取得了最佳性能,但是由于其龐大的模型容量以及對存儲的巨大消耗,也衍生了很多針對BERT的壓縮技術。

2基于知識精煉技術的BERT壓縮

知識精煉技術是一種常用的模型壓縮手段,其主要的方式主要使子模型去學習教師模型的預測結果,從教師模型預測得到的更軟的分布中去學習教師模型中的知識,從而使子模型能夠達到模擬教師模型行為的目的。在BERT模型中同樣也可以應用類似的技術進行模型的壓縮。在DistilBERT壓縮中,其壓縮對象是減少模型的神經網絡層數,構建層數更少的子模型,通過使用知識精煉手段,使子模型學習教師模型的輸出層的預測。同時設計了余弦相似度損失,來對其子模型和教師模型的隱藏層狀態,即如果將12層的教師模型壓縮為3層,則另子模型的第1,2,3層分別的輸出分別使用余弦相似度來計算,其與教師模型第4,8,12層之間的差異。最終子模型的損失函數包括三項,分別是,BERT模型訓練目標的損失,知識精煉的損失,以及余弦相似度計算得到的損失項。同時在構建子模型初始化時,放棄了隨即初始化的手段,通過從教師模型中抽取子模型規模大小的神經網絡層數來構建子模型,成功地將模型容量壓縮了40%,并維持了97%的性能,同時實現了60%的加速。

3Tiny-BERT壓縮技術”

Tiny-BERT壓縮技術同樣是基于知識精煉技術對BERT模型進行壓縮,相比于普通的知識精煉技術只在模型的輸出層進行約束,Tiny-BERT壓縮針對構成BERT模型的每一層的不同輸出位置都進行了約束。如果以學習類比,DistilBERT便是直接學習了正確答案和部分的中間過程,而Tiny-BERT則是對中間過程進行了更詳細的拆分,進行更細致的學習。在預訓練階段,Tiny-BERT講教師模型中的層分為不同的神經網絡層組,將對應組的知識精煉于子模型的一層之上,完成多層對一層的映射。例如,將12NBERT模型壓縮為4層,則將教師模型劃分為3組,令子模型中對應的層學習教師模型每組中最后一層的行為。同時針對每層網絡中不同位置的輸出設計了不同的知識遷移方式,例如對于層輸出和自注意力機制得到的注意力分布,設計了均方誤差損失,來衡量子網絡和教師網絡之間的差異。對于子模型和教師模型的輸入層,同樣應用了均方誤差損失,對輸出層,采用了與DistilBERT同樣的方式,將各個位置上的損失累加于損失函數之上作為正則化項,使子模型充分學習到教師模型的表現行為。與DistilBERT中復用了教師模型中的參數不同,Tiny-BERT壓縮中子模型的參數采用隨機初始化的方式,因此可以選擇更小的隱藏層維度,同時在層的維度和隱藏層的維度對教師模型進行壓縮,壓縮比率更大。此外對于下游任務的微調過程,Tiny-BERT壓縮采用了兩階段學習框架,即在對特定的任務進行微調時,同樣使用與預訓練階段同樣的知識精煉方式,以便于子模型能夠充分捕捉到教師模型中的普遍的域內知識和特定任務相關的知識。最終實現了只使用133%的參數量,便達到了教師模型97%的性能表現。

4對比分析

目前階段,針對BERT模型的壓縮主要分為兩個方面,即對模型層數的壓縮和模型的隱藏維度的壓縮。常用的壓縮手段則包括模型的量化,剪枝和知識精煉。其中知識精煉因為其性能優異,操作簡單成為了主要的研究方向。相比于傳統知識精煉對輸出層的約束,對于BERT模型這種復雜網絡結構,只對模型的輸出層進行約束并不能使子模型充分學習到教師模型的性能。因此往往需要設計額外的損失函數來進行約束。但是額外的損失計算也帶來了額外的計算量,往往需要計算計算更多的中間信息的約束狀態。因此在實際應用過程中,可以根據計算成本合理的選擇額外的損失數量,不同的衡量向量之間差異的指標。此外,如果不考慮維度的壓縮,可以考慮復用教師模型的參數來構建子模型。如果需要縮減隱藏層的維度,則需要重新初始化指定維度的模型,或利用一些特殊的手段從教師模型中得到對應維度的參數。

主站蜘蛛池模板: 国产精品网曝门免费视频| 日本AⅤ精品一区二区三区日| 欧美国产日韩另类| 熟女日韩精品2区| 欧美精品二区| AⅤ色综合久久天堂AV色综合| 91精品视频在线播放| 福利在线一区| 97影院午夜在线观看视频| 99精品热视频这里只有精品7| 高清无码不卡视频| 国产国产人免费视频成18| 日韩AV无码免费一二三区| 91精品日韩人妻无码久久| 毛片在线看网站| 国产麻豆福利av在线播放| 久久黄色影院| 国产一区二区三区在线观看视频 | 久久大香伊蕉在人线观看热2| 国产毛片高清一级国语| av一区二区人妻无码| 美女国产在线| 伊人成色综合网| 五月综合色婷婷| 搞黄网站免费观看| 国产精品毛片一区视频播| 亚卅精品无码久久毛片乌克兰| 欧美成人看片一区二区三区| 91丝袜美腿高跟国产极品老师| 自拍偷拍欧美日韩| 亚洲av日韩综合一区尤物| 亚洲综合第一页| 精品国产网站| 国产69囗曝护士吞精在线视频| 全部免费特黄特色大片视频| 欧美成a人片在线观看| 国产av剧情无码精品色午夜| 日本免费a视频| 97se亚洲| 波多野结衣一二三| 国产精品视频公开费视频| 亚洲天堂精品视频| 再看日本中文字幕在线观看| 欧美一区二区精品久久久| 人妻精品全国免费视频| 亚洲精品片911| 欧美激情视频一区| 18黑白丝水手服自慰喷水网站| 在线观看亚洲精品福利片| 国产成人毛片| 福利姬国产精品一区在线| 欧美在线一级片| 国产91特黄特色A级毛片| 91精品国产情侣高潮露脸| 国产成人无码久久久久毛片| 国产成人a毛片在线| 欧美日韩另类在线| 99久久精品免费视频| 亚洲有码在线播放| 国产91av在线| 欧美日本激情| 国产尤物视频网址导航| 一级毛片在线播放免费观看 | 黄色网址手机国内免费在线观看| 国产经典免费播放视频| 欧美色亚洲| 国产自在线拍| 亚洲色偷偷偷鲁综合| 夜夜高潮夜夜爽国产伦精品| 色悠久久久| 黄片一区二区三区| 少妇精品在线| 22sihu国产精品视频影视资讯| 日韩成人免费网站| 国产精品午夜福利麻豆| 亚欧美国产综合| 久久中文字幕不卡一二区| 91精品久久久无码中文字幕vr| 成年人视频一区二区| 国产无码网站在线观看| 欧美一级视频免费| 久久久久88色偷偷|