999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT預(yù)訓(xùn)練模型壓縮技術(shù)分析

2020-09-16 13:29:19李進(jìn)
科學(xué)與信息化 2020年14期

李進(jìn)

摘要:基于語言模型的預(yù)訓(xùn)練已經(jīng)在很多自然語言處理任務(wù)中取得了顯著的性能,然而由于起巨大的模型容量和復(fù)雜的計(jì)算,往往需要消耗大量的存儲(chǔ)資源,在資源受限的設(shè)備上難以發(fā)揮其性能優(yōu)勢(shì),本文對(duì)當(dāng)前被廣泛應(yīng)用的BERT壓縮技術(shù)從效率,性能以及壓縮強(qiáng)度等多個(gè)角度進(jìn)行了分析。

關(guān)鍵詞:預(yù)訓(xùn)練;模型壓縮;BERT

1預(yù)訓(xùn)練模型BERT

預(yù)訓(xùn)練模型BERT采用Transformer模型中提出的編碼層結(jié)構(gòu),應(yīng)用了多層堆疊編碼層,每個(gè)編碼層由自注意力子層及前饋神經(jīng)網(wǎng)絡(luò)子層組成,并在每個(gè)子層后應(yīng)用了殘差連接和層正則化操作,以多任務(wù)學(xué)習(xí)作為訓(xùn)練目標(biāo)。任務(wù)一是掩碼預(yù)言模型,即隨機(jī)掩蓋語句子中15%的詞,并通過模型對(duì)掩蓋掉的詞進(jìn)行預(yù)測(cè),值得注意的是,在BERT中并不是將所選擇15%的詞全部使用MASK標(biāo)簽進(jìn)行掩蓋,而是將其劃分為三份,其中80%用MASK標(biāo)簽掩蓋,10%不做任何操作,10%隨機(jī)替換為其他詞。任務(wù)二是預(yù)測(cè)兩個(gè)句子之間的關(guān)系,即句子B是否為句子A的下文,以此來捕捉句子之間的關(guān)系,BERT模型因?yàn)槠鋸?qiáng)大的性能和泛化能力在多項(xiàng)NLP任務(wù)中取得了最佳性能,但是由于其龐大的模型容量以及對(duì)存儲(chǔ)的巨大消耗,也衍生了很多針對(duì)BERT的壓縮技術(shù)。

2基于知識(shí)精煉技術(shù)的BERT壓縮

知識(shí)精煉技術(shù)是一種常用的模型壓縮手段,其主要的方式主要使子模型去學(xué)習(xí)教師模型的預(yù)測(cè)結(jié)果,從教師模型預(yù)測(cè)得到的更軟的分布中去學(xué)習(xí)教師模型中的知識(shí),從而使子模型能夠達(dá)到模擬教師模型行為的目的。在BERT模型中同樣也可以應(yīng)用類似的技術(shù)進(jìn)行模型的壓縮。在DistilBERT壓縮中,其壓縮對(duì)象是減少模型的神經(jīng)網(wǎng)絡(luò)層數(shù),構(gòu)建層數(shù)更少的子模型,通過使用知識(shí)精煉手段,使子模型學(xué)習(xí)教師模型的輸出層的預(yù)測(cè)。同時(shí)設(shè)計(jì)了余弦相似度損失,來對(duì)其子模型和教師模型的隱藏層狀態(tài),即如果將12層的教師模型壓縮為3層,則另子模型的第1,2,3層分別的輸出分別使用余弦相似度來計(jì)算,其與教師模型第4,8,12層之間的差異。最終子模型的損失函數(shù)包括三項(xiàng),分別是,BERT模型訓(xùn)練目標(biāo)的損失,知識(shí)精煉的損失,以及余弦相似度計(jì)算得到的損失項(xiàng)。同時(shí)在構(gòu)建子模型初始化時(shí),放棄了隨即初始化的手段,通過從教師模型中抽取子模型規(guī)模大小的神經(jīng)網(wǎng)絡(luò)層數(shù)來構(gòu)建子模型,成功地將模型容量壓縮了40%,并維持了97%的性能,同時(shí)實(shí)現(xiàn)了60%的加速。

3Tiny-BERT壓縮技術(shù)”

Tiny-BERT壓縮技術(shù)同樣是基于知識(shí)精煉技術(shù)對(duì)BERT模型進(jìn)行壓縮,相比于普通的知識(shí)精煉技術(shù)只在模型的輸出層進(jìn)行約束,Tiny-BERT壓縮針對(duì)構(gòu)成BERT模型的每一層的不同輸出位置都進(jìn)行了約束。如果以學(xué)習(xí)類比,DistilBERT便是直接學(xué)習(xí)了正確答案和部分的中間過程,而Tiny-BERT則是對(duì)中間過程進(jìn)行了更詳細(xì)的拆分,進(jìn)行更細(xì)致的學(xué)習(xí)。在預(yù)訓(xùn)練階段,Tiny-BERT講教師模型中的層分為不同的神經(jīng)網(wǎng)絡(luò)層組,將對(duì)應(yīng)組的知識(shí)精煉于子模型的一層之上,完成多層對(duì)一層的映射。例如,將12NBERT模型壓縮為4層,則將教師模型劃分為3組,令子模型中對(duì)應(yīng)的層學(xué)習(xí)教師模型每組中最后一層的行為。同時(shí)針對(duì)每層網(wǎng)絡(luò)中不同位置的輸出設(shè)計(jì)了不同的知識(shí)遷移方式,例如對(duì)于層輸出和自注意力機(jī)制得到的注意力分布,設(shè)計(jì)了均方誤差損失,來衡量子網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的差異。對(duì)于子模型和教師模型的輸入層,同樣應(yīng)用了均方誤差損失,對(duì)輸出層,采用了與DistilBERT同樣的方式,將各個(gè)位置上的損失累加于損失函數(shù)之上作為正則化項(xiàng),使子模型充分學(xué)習(xí)到教師模型的表現(xiàn)行為。與DistilBERT中復(fù)用了教師模型中的參數(shù)不同,Tiny-BERT壓縮中子模型的參數(shù)采用隨機(jī)初始化的方式,因此可以選擇更小的隱藏層維度,同時(shí)在層的維度和隱藏層的維度對(duì)教師模型進(jìn)行壓縮,壓縮比率更大。此外對(duì)于下游任務(wù)的微調(diào)過程,Tiny-BERT壓縮采用了兩階段學(xué)習(xí)框架,即在對(duì)特定的任務(wù)進(jìn)行微調(diào)時(shí),同樣使用與預(yù)訓(xùn)練階段同樣的知識(shí)精煉方式,以便于子模型能夠充分捕捉到教師模型中的普遍的域內(nèi)知識(shí)和特定任務(wù)相關(guān)的知識(shí)。最終實(shí)現(xiàn)了只使用133%的參數(shù)量,便達(dá)到了教師模型97%的性能表現(xiàn)。

4對(duì)比分析

目前階段,針對(duì)BERT模型的壓縮主要分為兩個(gè)方面,即對(duì)模型層數(shù)的壓縮和模型的隱藏維度的壓縮。常用的壓縮手段則包括模型的量化,剪枝和知識(shí)精煉。其中知識(shí)精煉因?yàn)槠湫阅軆?yōu)異,操作簡(jiǎn)單成為了主要的研究方向。相比于傳統(tǒng)知識(shí)精煉對(duì)輸出層的約束,對(duì)于BERT模型這種復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),只對(duì)模型的輸出層進(jìn)行約束并不能使子模型充分學(xué)習(xí)到教師模型的性能。因此往往需要設(shè)計(jì)額外的損失函數(shù)來進(jìn)行約束。但是額外的損失計(jì)算也帶來了額外的計(jì)算量,往往需要計(jì)算計(jì)算更多的中間信息的約束狀態(tài)。因此在實(shí)際應(yīng)用過程中,可以根據(jù)計(jì)算成本合理的選擇額外的損失數(shù)量,不同的衡量向量之間差異的指標(biāo)。此外,如果不考慮維度的壓縮,可以考慮復(fù)用教師模型的參數(shù)來構(gòu)建子模型。如果需要縮減隱藏層的維度,則需要重新初始化指定維度的模型,或利用一些特殊的手段從教師模型中得到對(duì)應(yīng)維度的參數(shù)。

主站蜘蛛池模板: 国产精品va| 视频二区国产精品职场同事| 国产v精品成人免费视频71pao| 爱做久久久久久| 国产性精品| 91亚洲精品国产自在现线| 人妻无码一区二区视频| 亚洲91精品视频| 国产精品主播| 欧美中出一区二区| 国产亚洲精品无码专| 国产午夜精品一区二区三区软件| 国产成人精品在线1区| 国产浮力第一页永久地址| 国产国产人在线成免费视频狼人色| 中文字幕av无码不卡免费| 国产成人91精品免费网址在线 | 国产欧美日韩va另类在线播放 | 人人爽人人爽人人片| 国产成人福利在线| 久久狠狠色噜噜狠狠狠狠97视色| 国产黄色片在线看| 国产主播福利在线观看| 国产天天射| 色精品视频| 国产一区二区三区夜色| 黄色一级视频欧美| 精品少妇人妻av无码久久| 国产av一码二码三码无码 | 黄色网站不卡无码| 国产系列在线| 999国产精品永久免费视频精品久久 | 亚洲不卡影院| 国产门事件在线| 国产在线观看一区精品| 伊人久久大香线蕉影院| 色综合天天娱乐综合网| 看av免费毛片手机播放| 国产菊爆视频在线观看| 久久a级片| 国产精品冒白浆免费视频| 在线观看网站国产| 114级毛片免费观看| 高清精品美女在线播放| 亚洲人成人无码www| 沈阳少妇高潮在线| 欧美人人干| 国产素人在线| 欧美成人免费| 国产精品免费福利久久播放| 97se亚洲| 亚洲天堂日韩在线| 免费国产不卡午夜福在线观看| 日本www在线视频| 国产精品亚洲综合久久小说| 国产精品页| 免费观看三级毛片| 伊人久久久久久久久久| 亚洲精品无码不卡在线播放| 日韩国产无码一区| 亚洲精品另类| 欧美在线免费| 日本免费福利视频| 强奷白丝美女在线观看| 国产乱子伦精品视频| 国产欧美专区在线观看| 99无码中文字幕视频| 亚洲三级影院| 亚洲精品自拍区在线观看| 露脸国产精品自产在线播| 国产精品一区在线观看你懂的| av在线人妻熟妇| 国产免费自拍视频| 在线观看亚洲人成网站| 日本在线免费网站| 国产日本欧美在线观看| 国产精品不卡片视频免费观看| 国产在线自揄拍揄视频网站| 91小视频在线| 女人爽到高潮免费视频大全| 91精品啪在线观看国产91九色| 亚洲三级电影在线播放|