999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)處理框架的神經(jīng)網(wǎng)絡(luò)壓縮方法研究

2022-03-07 03:38:24齊勇軍湯海林
江西科學(xué) 2022年1期
關(guān)鍵詞:深度方法

齊勇軍,湯海林

(廣東白云學(xué)院大數(shù)據(jù)與計(jì)算機(jī)學(xué)院,510450,廣州)

1 問(wèn)題提出

隨著人工智能的繼續(xù)發(fā)展需要具有更強(qiáng)的系統(tǒng)觀,具備更好的抽象能力將人工智能面臨的復(fù)雜問(wèn)題化繁為簡(jiǎn),借鑒和使用計(jì)算機(jī)程序語(yǔ)言、網(wǎng)絡(luò)和系統(tǒng)等多個(gè)領(lǐng)域中的經(jīng)典方法,并以合理層級(jí)框架和有效工具的形式,充分提高人工智能研究和實(shí)踐的效率和創(chuàng)新能力。人工智能系統(tǒng)涵蓋了從專(zhuān)用硬件加速器到新的體系結(jié)構(gòu),再到語(yǔ)言、框架和編譯,最后到分布式系統(tǒng)和網(wǎng)絡(luò)資源分配、調(diào)度和執(zhí)行管理等多個(gè)層次,關(guān)注包括可用性、可擴(kuò)展性、異構(gòu)性、大規(guī)模可伸展性、性能和能耗、可靠性、安全隱私等在內(nèi)的多個(gè)維度。用于圖像分類(lèi)的VGG、GoogleNet、ResNet等神經(jīng)網(wǎng)絡(luò)算法接連在ImageNet挑戰(zhàn)賽上大放異彩[1]。同時(shí),用于目標(biāo)檢測(cè)的R-CNN、YOLOv3、Cascade R-CNN[2]等網(wǎng)絡(luò)不斷演化迭代,促進(jìn)了現(xiàn)代計(jì)算機(jī)視覺(jué)應(yīng)用飛速發(fā)展。從循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被廣泛應(yīng)用于自然語(yǔ)言處理中,隨后逐漸出現(xiàn)了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、預(yù)訓(xùn)練語(yǔ)言模型(BERT)等優(yōu)化方法,為自然語(yǔ)言理解等應(yīng)用作出了突出貢獻(xiàn),共同將深度神經(jīng)網(wǎng)絡(luò)推向了繁榮發(fā)展的黃金時(shí)代。

深度神經(jīng)網(wǎng)絡(luò)持續(xù)增長(zhǎng)的算力需求,對(duì)硬件處理的性能和能效提出了更高的要求。根據(jù)OpenAI發(fā)布的AI計(jì)算量報(bào)告,AI所需的計(jì)算量呈現(xiàn)出每年增長(zhǎng)10倍的趨勢(shì)[3]。與之相對(duì)應(yīng)的是隨著摩爾定律放緩而下降的處理器發(fā)展速度。據(jù)《計(jì)算機(jī)體系結(jié)構(gòu):量化研究方法》中的數(shù)據(jù)顯示[4-5],當(dāng)前傳統(tǒng)處理器和工藝的算力每?jī)赡晏嵘s1倍。因此,通用處理器的算力無(wú)法滿足深度神經(jīng)網(wǎng)絡(luò)的計(jì)算需求已經(jīng)成為公認(rèn)的結(jié)論。根據(jù)OpenAI的估算,算力峰值為28 TFLOPS的NVIDIA V100大約需要355 a才能完成GPT-3的訓(xùn)練。為滿足深度神經(jīng)網(wǎng)絡(luò)對(duì)算力持續(xù)增長(zhǎng)的需求,主要從軟件算法和硬件架構(gòu)2個(gè)層面開(kāi)展。在算法層面,稀疏化、量化和知識(shí)蒸餾是常見(jiàn)的神經(jīng)網(wǎng)絡(luò)壓縮方法。其中,稀疏化方法利用稀疏編碼等方式減少網(wǎng)絡(luò)中節(jié)點(diǎn)和節(jié)點(diǎn)間連接的數(shù)量以提高計(jì)算效率,量化方法則通過(guò)將神經(jīng)網(wǎng)絡(luò)中的浮點(diǎn)運(yùn)算轉(zhuǎn)換為定點(diǎn)運(yùn)算以實(shí)現(xiàn)硬件加速。文中主要面向這2種壓縮方式介紹深度學(xué)習(xí)處理架構(gòu)優(yōu)化方法。知識(shí)蒸餾是非常有效的壓縮算法,其核心思想是將復(fù)雜模型(teacher)中的暗知識(shí)(dark knowledge)蒸餾提取并遷移到簡(jiǎn)單模型(student)中,使后者在實(shí)現(xiàn)輕量級(jí)的同時(shí)保持精確的預(yù)測(cè)效果。隨后通過(guò)不同類(lèi)型的知識(shí)和蒸餾方法對(duì)知識(shí)蒸餾算法做出了拓展和優(yōu)化,如Liu等人使用集成MT-DNN網(wǎng)絡(luò)訓(xùn)練單個(gè)MT-DNN網(wǎng)絡(luò),Tang[6]等人使用BERT網(wǎng)絡(luò)訓(xùn)練BILSTM網(wǎng)絡(luò),Yim[7]等人從ResNet32中蒸餾基于關(guān)系的知識(shí)訓(xùn)練ResNet14模型。在架構(gòu)層面,針對(duì)深度神經(jīng)網(wǎng)絡(luò)的運(yùn)算及訪存特點(diǎn),在指令集架構(gòu)、存儲(chǔ)層次和運(yùn)算單元等方面出現(xiàn)了大量定制化架構(gòu)的工作。在算法和架構(gòu)優(yōu)化方法不斷涌現(xiàn)的基礎(chǔ)上,通過(guò)大幅擴(kuò)展優(yōu)化空間,采用軟硬件協(xié)同設(shè)計(jì)的方式已成為提升深度學(xué)習(xí)處理性能和能效的重要趨勢(shì)。

本文將從算法和架構(gòu)協(xié)同的角度,介紹如何為稀疏推理和量化訓(xùn)練等神經(jīng)網(wǎng)絡(luò)壓縮方法提供相應(yīng)的硬件架構(gòu)支持,為構(gòu)建高能效深度學(xué)習(xí)處理器提供范例。

2 稀疏推理架構(gòu)支持

2.1 認(rèn)識(shí)稀疏化方法

早期的稀疏化方法多用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程[8],如Dropout、稀疏表示、稀疏代價(jià)函數(shù)等。稀疏化的核心思想是通過(guò)賦零值等方式減少神經(jīng)網(wǎng)絡(luò)中的參數(shù)量,同時(shí)保證網(wǎng)絡(luò)精度,以減少深度學(xué)習(xí)中冗余矩陣乘法帶來(lái)的時(shí)間和能量消耗。在2016年國(guó)際表征學(xué)習(xí)大會(huì)上,由Han[9]等人提出的深度壓縮方法使用網(wǎng)絡(luò)剪枝、共享權(quán)重和霍夫曼編碼等技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行稀疏化,該方法可以在不損失精度的前提下,將神經(jīng)網(wǎng)絡(luò)的權(quán)值數(shù)量減少至原來(lái)的1/10。稀疏化也被廣泛應(yīng)用到優(yōu)化神經(jīng)網(wǎng)絡(luò)的推理過(guò)程[10]。谷歌的研究人員發(fā)現(xiàn),對(duì)一個(gè)固定容量的稠密網(wǎng)絡(luò)進(jìn)行30%的稀疏化,其性能會(huì)有適度提升,直到超過(guò)70%的稀疏度[11],其精度才會(huì)明顯下降。基于此,谷歌聯(lián)合Deep Mind開(kāi)發(fā)了Tensor Flow Lite和XNNPACKML中的新功能和工具庫(kù)[12],用戶(hù)可以通過(guò)張量重排、量級(jí)剪枝等功能在模型大小、推理速度和預(yù)測(cè)質(zhì)量之間進(jìn)行調(diào)試,最終得到優(yōu)化的稀疏化網(wǎng)絡(luò)模型。

目前,通用的處理器架構(gòu)在進(jìn)行稀疏神經(jīng)網(wǎng)絡(luò)推理時(shí)仍無(wú)法使獲得的收益最大化,針對(duì)稀疏神經(jīng)網(wǎng)絡(luò)的加速器微架構(gòu)亟待優(yōu)化。傳統(tǒng)加速器只能處理規(guī)則的矩陣和向量運(yùn)算[13],對(duì)于不規(guī)則連接的稀疏神經(jīng)網(wǎng)絡(luò)只能按照全連接的矩陣或向量的方式進(jìn)行運(yùn)算。雖然CPU和GPU都有其對(duì)應(yīng)的稀疏矩陣運(yùn)算加速庫(kù)sparse BLAS和cuSPARSE,但在對(duì)AlexNet進(jìn)行稀疏化后,其在GPU和CPU上的性能提升并不顯著,表現(xiàn)差強(qiáng)人意。

因此,由于稀疏神經(jīng)網(wǎng)絡(luò)具有拓?fù)浣Y(jié)構(gòu)和計(jì)算不規(guī)則帶來(lái)的缺陷,在其加速器設(shè)計(jì)中,面積低效、訪存低效和并行低效成為目前公認(rèn)的三大難題。

2.2 基于Cambricon-X:稀疏神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)

針對(duì)稀疏神經(jīng)網(wǎng)絡(luò)加速器面臨的面積低效、訪存低效和并行低效三大難題,Zhang等人提出了一種新的加速器Cambricon-X,它不僅可以有效地處理原始的稠密神經(jīng)網(wǎng)絡(luò),還可以高效處理被大量剪枝的稀疏網(wǎng)絡(luò)。

Cambricon-X加速器的體系結(jié)構(gòu)如圖1所示。它包括控制處理器、緩存區(qū)控制器、神經(jīng)元緩存器(包括輸入神經(jīng)元緩存器NBin和輸出神經(jīng)元緩存器NBout)、直接內(nèi)存存取模塊和包含多個(gè)處理單元的計(jì)算單元。該架構(gòu)最大的特點(diǎn)是它的多個(gè)處理單元和緩存區(qū)控制器可以在處理過(guò)程中充分利用神經(jīng)網(wǎng)絡(luò)模型的稀疏性和不規(guī)則性。具體而言,緩存區(qū)控制器中集成了一個(gè)有T個(gè)索引單元(Indexing Module,IM)的模塊,每個(gè)索引單元對(duì)應(yīng)一個(gè)Tn處理單元,基于控制處理器解碼后的指令從神經(jīng)元緩存區(qū)的NBin中選擇所需的神經(jīng)元,然后將神經(jīng)元傳輸?shù)剿B接的處理單元中。在接收到神經(jīng)元后,處理單元可以使用本地存儲(chǔ)的壓縮突觸執(zhí)行高效的計(jì)算。系統(tǒng)在處理單元中完成計(jì)算后,將收集結(jié)果以在專(zhuān)用功能單元上進(jìn)行進(jìn)一步處理,或直接寫(xiě)回輸出模塊NBout。此外,為了避免布線擁塞,所有處理單元都以胖樹(shù)拓?fù)溥B接。值得注意的是,加速器在處理稠密的神經(jīng)網(wǎng)絡(luò)時(shí)可以繞過(guò)索引單元,以避免影響稠密神經(jīng)網(wǎng)絡(luò)的處理速度。由于突觸的不規(guī)則分布,多個(gè)處理單元以異步方式工作來(lái)獲得更高的效率。

圖1 Cambricon-X 整體架構(gòu)

研究人員用一些有代表性的稀疏網(wǎng)絡(luò)對(duì)Cambricon-X加速器進(jìn)行了評(píng)估。結(jié)果表明,與代表性的神經(jīng)網(wǎng)絡(luò)加速器DianNao相比,Cambricon-X加速器平均可實(shí)現(xiàn)7.23倍的速度提升和6.43倍的能效提升,其功耗僅為954 mW,面積開(kāi)銷(xiāo)為6.38 mm2。與采用稀疏庫(kù)(即cuSPARSE)的GPU相比,該加速器平均可實(shí)現(xiàn)10.6倍的速度提升和29.43倍的能效提升。與采用稀疏庫(kù)(即稀疏BLAS)的CPU相比,該加速器平均可達(dá)到144.41倍的加速。

2.3 基于Cambricon-S:面向稀疏不規(guī)整性的加速器架構(gòu)

Cambricon-X可以高效處理稀疏神經(jīng)網(wǎng)絡(luò),但由于稀疏所帶來(lái)的網(wǎng)絡(luò)不規(guī)整性,硬件無(wú)法完全利用稀疏性帶來(lái)的好處。為此,提出了一種軟硬件協(xié)同的方法來(lái)有效解決稀疏網(wǎng)絡(luò)的不規(guī)整性。

2.3.1 在軟件方面的架構(gòu) 研究人員通過(guò)觀察神經(jīng)網(wǎng)絡(luò)中的權(quán)值分布發(fā)現(xiàn)了其具有局部收斂性,即在訓(xùn)練過(guò)程中,絕對(duì)值偏大或者偏小的權(quán)值往往會(huì)聚集成簇。圖2給出了全連接層到輸出層的權(quán)重分布情況。基于此,提出了一種粗粒度修剪算法以減少稀疏突觸的非規(guī)整性。具體方法是,將權(quán)值參數(shù)矩陣進(jìn)行分塊,且從網(wǎng)絡(luò)拓?fù)渲杏谰脛h除符合某些特定條件的權(quán)值塊,同時(shí)在訓(xùn)練中迭代使用粗粒度修剪技術(shù),可以在避免精度損失的同時(shí)大大降低數(shù)據(jù)量,實(shí)現(xiàn)更好的稀疏性。結(jié)果表明,該方法使稀疏網(wǎng)絡(luò)的不規(guī)整性平均降低至原來(lái)的約1/20。若與局部量化一起,粗粒度修剪技術(shù)將顯著降低索引的大小并提高網(wǎng)絡(luò)壓縮率。例如,在AlexNet上索引大小可縮減為原來(lái)的1/102,并得到79倍的網(wǎng)絡(luò)壓縮率,且精度幾乎無(wú)損失。

圖2 權(quán)重的局部收斂性

2.3.2 在硬件方面的架構(gòu) 為了進(jìn)一步提高加速器的結(jié)構(gòu)性能,提出了一款針對(duì)粗粒度修剪技術(shù)的硬件加速器Cambricon-S,其架構(gòu)如圖3所示。

圖3 Cambricon-S 整體架構(gòu)

該加速器包含具有共享索引的神經(jīng)元選擇模塊(加速器的關(guān)鍵組件)以處理靜態(tài)稀疏性,以及具有多個(gè)處理單元的神經(jīng)功能單元以并行計(jì)算不同的輸出神經(jīng)元。其中每個(gè)處理單元都包含一個(gè)本地突觸選擇器模塊,以處理動(dòng)態(tài)稀疏性。存儲(chǔ)模塊由神經(jīng)元緩存區(qū)(包括輸入神經(jīng)元緩存器NBin和輸出神經(jīng)元緩存器NBout)和突觸索引緩存區(qū)組成;控制模塊由控制處理器和指令緩存區(qū)組成,其中控制處理器將來(lái)自指令緩存區(qū)的各種指令有效地解碼為所有其他模塊的詳細(xì)控制信號(hào)。系統(tǒng)通過(guò)多個(gè)計(jì)算單元同時(shí)處理一個(gè)權(quán)值塊相關(guān)的計(jì)算,共享輸入數(shù)據(jù)和稀疏數(shù)據(jù)索引,可降低稀疏網(wǎng)絡(luò)的非規(guī)整性,從而提高計(jì)算單元的利用率和處理效率。同時(shí),通過(guò)使用面向粗粒度稀疏的壓縮數(shù)據(jù)表示方法,可大大降低訪存總數(shù)據(jù)量。與Cambricon-X相比,Cambricon-S加速器在性能和能效方面分別提高了1.71倍和1.37倍,頻率為1 GHz時(shí),其算力達(dá)到了512 GOP/s,且面積僅為6.73 mm2,功耗僅為798.55 mW。

3 量化訓(xùn)練架構(gòu)支持

3.1 認(rèn)識(shí)量化方法

量化方法的核心思想是用低開(kāi)銷(xiāo)的定點(diǎn)數(shù)代替高開(kāi)銷(xiāo)的浮點(diǎn)數(shù)(如float32),以減少訓(xùn)練和推理過(guò)程中冗余的時(shí)間和內(nèi)存消耗。早期的量化嘗試,例如麻省理工學(xué)院在模型壓縮論文中的聚類(lèi)量化和英特爾實(shí)驗(yàn)室在增量網(wǎng)絡(luò)量化中使用的移位量化,為后續(xù)的量化研究提供了基礎(chǔ)[14]。提出了IAO量化方法,針對(duì)推理過(guò)程進(jìn)行定點(diǎn)量化,并將該工作應(yīng)用到Tensor Flow Lite中。

研究表明,低位寬定點(diǎn)數(shù)可以在一定程度上準(zhǔn)確高效地執(zhí)行深度神經(jīng)網(wǎng)絡(luò)的推理,但對(duì)于訓(xùn)練過(guò)程來(lái)說(shuō),使用量化技術(shù)可能會(huì)導(dǎo)致顯著的準(zhǔn)確性損失。大多數(shù)已有的量化訓(xùn)練研究都對(duì)所有網(wǎng)絡(luò)層使用統(tǒng)一的精度(位寬),如何在每一次訓(xùn)練迭代中都能保證模型的精度成為了目前量化方法的一大挑戰(zhàn)。

基于對(duì)反向傳播中訓(xùn)練精度與計(jì)算位寬之間相關(guān)性的觀察,提出了一種有效的自適應(yīng)逐層確定位寬的定點(diǎn)訓(xùn)練方法,在不改變超參數(shù)和不降低精度的前提下,利用定點(diǎn)訓(xùn)練大規(guī)模的深度神經(jīng)網(wǎng)絡(luò)。在每一層的訓(xùn)練中,該方法會(huì)自動(dòng)找到權(quán)值、激活值和激活梯度的最佳量化分辨率,即最小的比特寬度,同時(shí)不顯著改變數(shù)據(jù)的均值。具體而言,首先在量化之前計(jì)算數(shù)據(jù)的均值,之后使用int8量化數(shù)據(jù)并計(jì)算量化誤差。如果量化誤差比超過(guò)一定閾值,就增大量化位寬。循環(huán)上述過(guò)程直至量化誤差比低于閾值為止。

實(shí)驗(yàn)結(jié)果表明:該自適應(yīng)定點(diǎn)訓(xùn)練方法可以達(dá)到與float32相當(dāng)?shù)木龋骄葥p失僅為0.02%(精度損失范圍為-1.4%~1.3%)。在Intel Xeon Gold 6154上運(yùn)行的結(jié)果表明,該方法可以在AlexNet的訓(xùn)練中達(dá)到高于float 32方法2.52倍的加速效果。

使用自適應(yīng)定點(diǎn)訓(xùn)練方法,深度學(xué)習(xí)處理器將不再需要大量昂貴的浮點(diǎn)硬件單元來(lái)支持深度學(xué)習(xí)訓(xùn)練任務(wù),取而代之的是對(duì)芯片面積和功耗要求更低的輕量級(jí)定點(diǎn)硬件單元。這樣一來(lái),在相同的芯片面積或功耗約束下,可以大大提高深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練性能,這對(duì)芯片設(shè)計(jì)者和用戶(hù)來(lái)說(shuō)無(wú)疑是一個(gè)好消息。

3.2 基于Cambricon-Q:量化訓(xùn)練加速器架構(gòu)

為了將以自適應(yīng)定點(diǎn)訓(xùn)練方法為代表的量化訓(xùn)練方法有效地部署到現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)加速器上,需要在硬件層面對(duì)大量數(shù)據(jù)(例如神經(jīng)元和權(quán)重)進(jìn)行實(shí)時(shí)統(tǒng)計(jì)量化和高精度的權(quán)重更新,為此提出了首款高效量化訓(xùn)練架構(gòu)Cambricon-Q。Cambricon-Q是一個(gè)由ASIC加速核心和近數(shù)據(jù)處理(Near-Data-Processing,NDP)引擎組成的混合架構(gòu),其結(jié)構(gòu)如圖4所示。

圖4 Cambricon-Q 整體架構(gòu)

ASIC加速核心用于對(duì)切片數(shù)據(jù)執(zhí)行基于統(tǒng)計(jì)的局部量化,在提高計(jì)算效率的同時(shí)顯著減少數(shù)據(jù)訪問(wèn)量。它由用于矩陣/矢量計(jì)算的PE陣列,用于標(biāo)量運(yùn)算的標(biāo)量功能單元和3個(gè)片上緩存區(qū)(分別用于輸入神經(jīng)元(NBin),輸出神經(jīng)元(NBout)和突觸緩存)等組成。此外,它還包括3個(gè)專(zhuān)門(mén)設(shè)計(jì)的量化單元以有效支持對(duì)硬件友好的量化技術(shù):一個(gè)用于執(zhí)行實(shí)時(shí)統(tǒng)計(jì)和局部動(dòng)態(tài)量化的統(tǒng)計(jì)量化單元,2個(gè)與NBin和突觸緩存耦合的量化緩存控制器,以管理以不同方式量化的數(shù)據(jù)的量化緩存控制器參數(shù)(例如縮放比例和偏移)。與傳統(tǒng)基于統(tǒng)計(jì)的量化不同,加速核心可連續(xù)地對(duì)整個(gè)數(shù)據(jù)的每個(gè)分區(qū)切片并進(jìn)行統(tǒng)計(jì)分析和重構(gòu)。

數(shù)據(jù)處理引擎用于高精度權(quán)重更新,它將一個(gè)可配置的優(yōu)化器集成到DRAM中,以減少權(quán)重更新中數(shù)據(jù)傳輸帶來(lái)的消耗。引擎由2個(gè)專(zhuān)用模塊組成:SQU優(yōu)化器和NDP優(yōu)化器,可以通過(guò)將可配置的優(yōu)化器集成到DRAM中來(lái)實(shí)現(xiàn)權(quán)重的原位更新。

在各種網(wǎng)絡(luò)模型上進(jìn)行了實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與邊緣GPU和TPU進(jìn)行了比較。結(jié)果表明,與邊緣GPU(如JetsonTX2)相比,Cambricon-Q加速器訓(xùn)練的能效提高了6.41倍,性能提高了4.2倍。與TPU相比,Cambricon-Q深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的能效提高了1.62倍,性能提高了1.7倍。此外,與GPU上的全精度訓(xùn)練相比,其精度損失小于0.4%。

4 總結(jié)

隨著深度學(xué)習(xí)已經(jīng)蓬勃發(fā)展,現(xiàn)如今已滲透到各行各業(yè)并取得了良好的效果,未來(lái)10年,深度學(xué)習(xí)將進(jìn)一步覆蓋自動(dòng)駕駛、智能醫(yī)療、智慧制造等更廣泛的應(yīng)用領(lǐng)域。以深度學(xué)習(xí)框架為核心的開(kāi)源深度學(xué)習(xí)平臺(tái)大大降低了人工智能技術(shù)的開(kāi)發(fā)門(mén)檻,有效提高了人工智能應(yīng)用的質(zhì)量和效率。深度學(xué)習(xí)能力的持續(xù)提升也不斷增強(qiáng)了對(duì)高性能和高能效深度學(xué)習(xí)處理架構(gòu)的需求,面向稀疏化和量化這兩類(lèi)典型的神經(jīng)網(wǎng)絡(luò)壓縮方法,本文從軟硬件協(xié)同的角度介紹了如何從硬件架構(gòu)為其提供專(zhuān)門(mén)的支持和優(yōu)化,旨在為實(shí)現(xiàn)更深入的跨層次軟硬件協(xié)同優(yōu)化,從而為進(jìn)一步提升深度學(xué)習(xí)處理能效的相關(guān)研究提供參考。

猜你喜歡
深度方法
深度理解一元一次方程
學(xué)習(xí)方法
深度觀察
深度觀察
深度觀察
深度觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
提升深度報(bào)道量與質(zhì)
新聞傳播(2015年10期)2015-07-18 11:05:40
主站蜘蛛池模板: 色九九视频| 国产成人h在线观看网站站| 日韩免费视频播播| 伊人天堂网| 免费在线a视频| 久草视频中文| 国产自在自线午夜精品视频| 久久香蕉欧美精品| 亚洲乱码精品久久久久..| 国产精品女熟高潮视频| 蝌蚪国产精品视频第一页| 毛片手机在线看| 99精品欧美一区| 成人午夜网址| 国产手机在线小视频免费观看| 久久亚洲中文字幕精品一区| 午夜电影在线观看国产1区| 91香蕉视频下载网站| 免费无码又爽又黄又刺激网站 | 2018日日摸夜夜添狠狠躁| 国产流白浆视频| 天天色天天综合网| 久久免费成人| 999精品视频在线| 免费国产在线精品一区| 日本一本在线视频| 91破解版在线亚洲| 日韩小视频在线播放| 91精品国产自产在线老师啪l| 99国产在线视频| 精品国产中文一级毛片在线看| 在线看片中文字幕| 国产毛片高清一级国语 | 国产精品yjizz视频网一二区| 国产精品精品视频| 日韩国产另类| 国产激爽爽爽大片在线观看| 日韩中文字幕免费在线观看| 一本久道久综合久久鬼色| 国产在线视频导航| 亚洲一区网站| 国产成在线观看免费视频| 欧美综合成人| 日韩精品一区二区三区免费在线观看| 色婷婷在线影院| 国产爽歪歪免费视频在线观看| 国产熟女一级毛片| 久久这里只有精品66| 亚洲日本一本dvd高清| 99热国产这里只有精品9九| 东京热av无码电影一区二区| 毛片网站在线看| 日韩区欧美国产区在线观看| 2021国产在线视频| 国产女人在线| 久久综合九色综合97婷婷| 人妻丰满熟妇αv无码| 91亚洲免费视频| 国产清纯在线一区二区WWW| 成人综合网址| av性天堂网| 色婷婷亚洲十月十月色天| 亚洲人成网站在线观看播放不卡| 久久久久国产一区二区| 99精品在线看| 久久综合五月婷婷| 国产精品手机在线观看你懂的| 日本一区二区三区精品AⅤ| 国产一区二区在线视频观看| 亚洲精品爱草草视频在线| 日韩福利在线视频| 精品伊人久久大香线蕉网站| 亚洲国产成人自拍| 国产视频一二三区| 亚洲乱码视频| 亚洲国产精品VA在线看黑人| 97青青青国产在线播放| 精品无码视频在线观看| 99精品视频九九精品| 亚洲天堂视频在线观看免费| 国产香蕉在线视频| 最近最新中文字幕在线第一页|