999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器評(píng)估方法

2021-12-20 12:35:32石永泉景乃鋒
計(jì)算機(jī)工程 2021年12期
關(guān)鍵詞:指令

石永泉,景乃鋒

(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)

0 概述

隨著大數(shù)據(jù)、深度學(xué)習(xí)和云計(jì)算的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)需要處理的數(shù)據(jù)量越來(lái)越大,對(duì)硬件算力的要求也日益提高。傳統(tǒng)馮·諾依曼體系結(jié)構(gòu)中內(nèi)存單元和運(yùn)算單元之間的大量數(shù)據(jù)流動(dòng)會(huì)導(dǎo)致計(jì)算單元的長(zhǎng)時(shí)間空閑,限制數(shù)據(jù)處理速度并進(jìn)一步增加系統(tǒng)功耗[1]。相比傳統(tǒng)馮·諾依曼體系結(jié)構(gòu),存算一體(Processing-in-Memory,PIM)體系結(jié)構(gòu)將權(quán)值數(shù)據(jù)的存儲(chǔ)與機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法中的向量矩陣乘法(Matrix-Vector Multiplication,MVM)運(yùn)算在憶阻器件[2]上實(shí)現(xiàn),成為解決訪存瓶頸的有效途徑。

盡管存算一體體系結(jié)構(gòu)為解決存儲(chǔ)墻問(wèn)題提供了新的思路和方法,但是存算一體神經(jīng)網(wǎng)絡(luò)加速器的架構(gòu)設(shè)計(jì)依然面臨很多挑戰(zhàn)。存算一體神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)設(shè)計(jì)需要對(duì)加速器進(jìn)行精確的建模和仿真,模型中需要包含數(shù)據(jù)訪存、指令譯碼等細(xì)節(jié)信息[3],并通過(guò)軟件模擬器方式實(shí)現(xiàn)[4]。然而,對(duì)于大規(guī)模深度神經(jīng)網(wǎng)絡(luò),軟件模擬器仿真的時(shí)間開銷往往是不可接受的。傳統(tǒng)硬件模擬器雖然仿真時(shí)間短,但是僅支持單一的網(wǎng)絡(luò),靈活性較差[5-6]。本文提出一種基于現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器評(píng)估方法,同時(shí)設(shè)計(jì)硬件資源的軟件分時(shí)復(fù)用方案,并在DIGILENT ZYBO-Z7 開發(fā)板上進(jìn)行阻變神經(jīng)網(wǎng)絡(luò)加速器評(píng)估方法的軟硬件設(shè)計(jì)。

1 面向存算一體加速器的架構(gòu)和指令集分析

1.1 憶阻器陣列的計(jì)算特性

憶阻器陣列集成計(jì)算和存儲(chǔ)功能,一般通過(guò)非易失性阻變隨機(jī)訪問(wèn)存儲(chǔ)器(Resistive Random Access Memory,ReRAM)[7]實(shí)現(xiàn)。在神經(jīng)元結(jié)構(gòu)中,突觸可以根據(jù)其兩端的神經(jīng)元激勵(lì)發(fā)生變化。在憶阻器陣列中,可在ReRAM 器件兩端外加電壓改變電導(dǎo)[8]進(jìn)行神經(jīng)計(jì)算。如圖1 所示,利用ReRAM 器件的特性,可以外加輸入數(shù)字電壓(INP),將電壓進(jìn)行數(shù)模轉(zhuǎn)換(DAC)得到模擬電壓值,加在器件兩端的模擬電壓和器件預(yù)編程的電導(dǎo)通過(guò)歐姆定律和基爾霍夫定律計(jì)算得到流出器件的電流,將電流值進(jìn)行模數(shù)轉(zhuǎn)換(ADC)后得到計(jì)算的數(shù)字輸出結(jié)果(OUT),實(shí)現(xiàn)存算一體的功能。

圖1 ReRAM 陣列向量矩陣乘法運(yùn)算原理Fig.1 Principle of ReRAM array MVM operation

1.2 面向存算一體加速器的架構(gòu)分析

存算一體神經(jīng)網(wǎng)絡(luò)加速器通常進(jìn)行分層拓?fù)浼軜?gòu)設(shè)計(jì)。文獻(xiàn)[9]對(duì)存算一體神經(jīng)網(wǎng)絡(luò)加速器進(jìn)行Chip、Tile、IMA、Crossbar 的四層架構(gòu)設(shè)計(jì)。Chip 以集中網(wǎng)絡(luò)的形式連接多個(gè)Tile;Tile 通過(guò)共享總線連接多個(gè)IMA、累加器等功能單元;IMA 通過(guò)共享總線連接多個(gè)Crossbar、數(shù)模轉(zhuǎn)換器等功能單元。文獻(xiàn)[10]給出Chip、Tile、VMM、Crossbar 的分層拓?fù)浼軜?gòu)設(shè)計(jì),數(shù)據(jù)可在Tile 間進(jìn)行粗粒度的流水,減少Tile 間不必要的數(shù)據(jù)流動(dòng)。文獻(xiàn)[11]實(shí)現(xiàn)Node、Tile、Core 的三層架構(gòu)設(shè)計(jì),其中Core 包含多個(gè)流水的MVM 運(yùn)算單元和三級(jí)指令流水線,數(shù)據(jù)在Core 和Crossbar 中都可進(jìn)行流水計(jì)算,提升內(nèi)部訪存帶寬[12]。

1.3 面向存算一體加速器的指令集分析

相較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)加速器[13],存算一體神經(jīng)網(wǎng)絡(luò)加速器將標(biāo)量計(jì)算盡量放在CPU 上進(jìn)行,向量計(jì)算的向量規(guī)模也無(wú)需特殊指定。AMBROSI 等[14]于2018 年提出一種存算一體神經(jīng)網(wǎng)絡(luò)加速器的指令集,相較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)加速器指令集[15]增加了在不同層次間進(jìn)行數(shù)據(jù)搬運(yùn)的指令,ANKIT 等[16]于2020 年又加入了進(jìn)行外積計(jì)算的OPA 指令及轉(zhuǎn)置矩陣和向量乘法運(yùn)算的MVTM指令,但不支持對(duì)ReRAM 陣列的在線編程[17-18]。

2 基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器

2.1 架構(gòu)和指令集設(shè)計(jì)

2.1.1 架構(gòu)設(shè)計(jì)

為對(duì)神經(jīng)網(wǎng)絡(luò)各層運(yùn)算進(jìn)行有效的資源分配,提升內(nèi)部帶寬并減少不必要的數(shù)據(jù)移動(dòng),神經(jīng)網(wǎng)絡(luò)加速器需要進(jìn)行分層拓?fù)浼軜?gòu)設(shè)計(jì),基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器支持Core、Tile、Crossbar的三層架構(gòu)。

如圖2 所示,Crossbar 主要進(jìn)行向量和矩陣的乘法運(yùn)算,每個(gè)Crossbar 包含ReRAM 陣列、保存輸入輸出數(shù)據(jù)的緩存單元、信號(hào)轉(zhuǎn)換器等功能模塊。Tile主要進(jìn)行神經(jīng)網(wǎng)絡(luò)的層級(jí)運(yùn)算,包含存放數(shù)據(jù)的SRAM、一定數(shù)量的Crossbar 和用于將Crossbar 的計(jì)算結(jié)果進(jìn)行激活操作的向量運(yùn)算單元(ALU)。Core中主要進(jìn)行網(wǎng)絡(luò)級(jí)別的運(yùn)算,包含指令譯碼模塊、一定數(shù)量的Tile、加載數(shù)據(jù)到各自Tile 對(duì)應(yīng)SRAM 的數(shù)據(jù)加載單元(LU)、保存數(shù)據(jù)到動(dòng)態(tài)隨機(jī)訪問(wèn)存儲(chǔ)器(Dynamic Random Access Memory,DRAM)的數(shù)據(jù)回存單元(SU)和進(jìn)行池化操作的向量運(yùn)算單元。DRAM 保存編譯產(chǎn)生的指令和數(shù)據(jù),每個(gè)Core 通過(guò)各自的指令隊(duì)列連接在指令發(fā)射模塊上接收指令,數(shù)據(jù)通過(guò)直接存儲(chǔ)器訪問(wèn)(Direct Memory Access,DMA)傳遞給各個(gè)Core。

圖2 阻變神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)Fig.2 Architecture of resistive neural network accelerator

2.1.2 指令集設(shè)計(jì)

由于存算一體神經(jīng)網(wǎng)絡(luò)加速器的器件和架構(gòu)特點(diǎn)以及神經(jīng)網(wǎng)絡(luò)的計(jì)算特性,因此存算一體神經(jīng)網(wǎng)絡(luò)加速器的指令集也有其特殊性。基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)加速器指令的基礎(chǔ)上新增在線編程的LdWGT 指令,用于配置SetTile 等指令,加速器指令集設(shè)置如表1 所示。

表1 加速器指令集Table 1 Instruction set of accelerator

在上述架構(gòu)和指令集模型下,基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器的主要計(jì)算流程如圖3 所示。

圖3 阻變神經(jīng)網(wǎng)絡(luò)加速器計(jì)算流程Fig.3 Calculation procedure of resistive neural network accelerator

2.2 加速器軟硬件設(shè)計(jì)

2.2.1 加速器硬件設(shè)計(jì)

本文設(shè)計(jì)的加速器包含了阻變神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)的所有主要功能模塊,包括DMA、DRAM、指令發(fā)射模塊、指令隊(duì)列、指令譯碼模塊、數(shù)據(jù)加載模塊、數(shù)據(jù)回存模塊、SRAM、向量計(jì)算單元和向量矩陣乘法運(yùn)算單元。由于硬件規(guī)模的限制,各個(gè)Core、Tile、Crossbar 的運(yùn)算任務(wù)只能串行進(jìn)行,阻變神經(jīng)網(wǎng)絡(luò)加速器的向量矩陣乘法運(yùn)算單元主要通過(guò)乘累加樹實(shí)現(xiàn)。對(duì)比圖2、圖4 中的指令隊(duì)列接收每個(gè)Core 的指令并經(jīng)由指令譯碼模塊發(fā)送到各個(gè)功能模塊中執(zhí)行。在指令的執(zhí)行過(guò)程中:所有的Tile 都通過(guò)同一數(shù)據(jù)加載模塊和數(shù)據(jù)回存模塊執(zhí)行Load、Store 指令和SRAM 進(jìn)行交互;所有的MVM 指令和ALU 指令分別在向量矩陣乘法運(yùn)算單元和向量計(jì)算單元中串行執(zhí)行。

圖4 阻變神經(jīng)網(wǎng)絡(luò)加速器硬件結(jié)構(gòu)Fig.4 Hardware structure of resistive neural network accelerator

ReRAM 陣列的規(guī)模一般很大,但FPGA 存儲(chǔ)和運(yùn)算資源有限,ALU 和MVM 指令運(yùn)算能力有限,因此需要將權(quán)值矩陣和輸入矩陣進(jìn)行分割重組,每次進(jìn)行小規(guī)模的運(yùn)算,將運(yùn)算結(jié)果按照數(shù)據(jù)索引進(jìn)行相應(yīng)的累加。通過(guò)對(duì)FPGA 硬件資源的分時(shí)復(fù)用完成較大規(guī)模ReRAM 陣列的模擬。

通過(guò)修改硬件結(jié)構(gòu)可實(shí)現(xiàn)分時(shí)復(fù)用的硬件調(diào)度,但由于積累全部ReRAM 陣列規(guī)模的輸入數(shù)據(jù)和權(quán)重?cái)?shù)據(jù)計(jì)算模塊才能開始計(jì)算,且硬件上需要增加Buffer 積累數(shù)據(jù),同時(shí)計(jì)算單元在運(yùn)行時(shí)也會(huì)長(zhǎng)時(shí)間空等,造成不必要的性能損失,因此為降低硬件設(shè)計(jì)的復(fù)雜度并提升運(yùn)行效率,本文設(shè)計(jì)加速器的軟件庫(kù)支持分時(shí)復(fù)用的軟件調(diào)度。

2.2.2 加速器軟件庫(kù)設(shè)計(jì)

由于硬件設(shè)計(jì)上的差異,表1 所述的指令集不能直接執(zhí)行在阻變神經(jīng)網(wǎng)絡(luò)加速器上。設(shè)計(jì)C++軟件庫(kù)將表1 中的指令轉(zhuǎn)換為硬件支持的指令,軟件庫(kù)同時(shí)支持硬件資源分時(shí)復(fù)用的軟件調(diào)度。

1)指令重新翻譯編譯器生成的指令是面向ReRAM規(guī)模的指令,其讀寫和運(yùn)算的數(shù)據(jù)規(guī)模均是ReRAM 規(guī)模,而FPGA 上實(shí)現(xiàn)的運(yùn)算模塊遠(yuǎn)達(dá)不到該規(guī)模,這樣的指令送到硬件上執(zhí)行僅求得小規(guī)模的部分和,與最終結(jié)果有很大的差距。因此,需要將數(shù)據(jù)切分為適配FPGA 運(yùn)算模塊的大小進(jìn)行運(yùn)算,并對(duì)Store、Load、Pooling、Activation 等指令增加index、size 等字段并轉(zhuǎn)換為適配運(yùn)算模塊的指令,保證轉(zhuǎn)換前后的指令進(jìn)行等價(jià)的操作。此外,由于ReRAM 陣列的器件特性,因此LdWGT 等部分指令無(wú)法在FPGA 上執(zhí)行。FPGA 硬件資源有限,多Core 多Tile 的并行計(jì)算只能串行進(jìn)行,Move 等部分指令在串行系統(tǒng)中的功能與在并行系統(tǒng)中的功能有所差異。因此,對(duì)上述指令進(jìn)行如表2 所示的指令轉(zhuǎn)譯。

表2 指令轉(zhuǎn)譯Table 2 Instruction translation

2)軟件分時(shí)復(fù)用調(diào)度不改變硬件結(jié)構(gòu),而是在運(yùn)行時(shí)對(duì)保存在DRAM 上的指令內(nèi)容和數(shù)據(jù)排布方式進(jìn)行調(diào)整,硬件上執(zhí)行的依舊是與算力相匹配的指令。將ReRAM 規(guī)模的輸入向量和輸出向量切分為n個(gè)FPGA 乘累加樹輸入規(guī)模的子向量,ReRAM 規(guī)模的權(quán)值矩陣相應(yīng)地切分為n×n個(gè)FPGA 乘累加樹權(quán)值規(guī)模的子塊矩陣。編譯生成的一條MVM 指令進(jìn)行ReRAM 陣列規(guī)模的矩陣乘法運(yùn)算在FPGA 乘累加樹上要分成n×n次實(shí)現(xiàn)。如圖5 所示,運(yùn)算時(shí)主要以輸入向量?jī)?yōu)先的方式進(jìn)行調(diào)度,運(yùn)行時(shí)每次加載一個(gè)輸入子向量和相同輸入通道下的n個(gè)子塊矩陣,分別進(jìn)行向量矩陣乘法運(yùn)算,相應(yīng)得到n個(gè)輸出子向量的部分和。阻變神經(jīng)網(wǎng)絡(luò)加速器在一個(gè)周期內(nèi)可以獲得一個(gè)子向量和子塊矩陣的向量矩陣乘法的結(jié)果,因此一個(gè)ReRAM 規(guī)模的向量矩陣乘法運(yùn)算至少需要n×n個(gè)周期才能完成。

圖5 MVM 運(yùn)算調(diào)度Fig.5 Scheduling of MVM operation

通過(guò)指令的重新翻譯和MVM 運(yùn)算的調(diào)度,可以靈活地將更多的神經(jīng)網(wǎng)絡(luò)框架編譯成基于FPGA模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器支持的指令集,從而支持更多網(wǎng)絡(luò)的性能評(píng)估。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

選取DIGILENT ZYBO-Z7 開發(fā)板進(jìn)行基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器的軟硬件設(shè)計(jì)。DIGILENT ZYBO-Z7 集 成Xilinx ZYNQ-7020 芯 片和ARM Cortex-A9 處理器核。ARM Cortex-A9 處理器上移植Ubuntu 18.04 操作系統(tǒng)對(duì)硬件運(yùn)行時(shí)進(jìn)行控制。FPGA 芯片上實(shí)現(xiàn)了主要的運(yùn)算和控制邏輯,資源使用情況如表3 所示,F(xiàn)PGA 片上存儲(chǔ)(BRAM)和乘累加運(yùn)算資源(DSP)已被充分利用。

表3 FPGA 資源使用情況Table 3 FPGA resources usage

3.2 實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)環(huán)境的約束下,阻變神經(jīng)網(wǎng)絡(luò)加速器工作在100 MHz 主頻的時(shí)鐘下,單周期可以獲得1 個(gè)1×16 的向量和16×16 的矩陣的乘法運(yùn)算結(jié)果或1×16 的向量運(yùn)算結(jié)果。

3.2.1 陣列性能評(píng)估

為評(píng)估加速器對(duì)陣列仿真的加速性能,選取存算一體神經(jīng)網(wǎng)絡(luò)加速器軟件模擬器MNSIM[19]進(jìn)行對(duì)比。針對(duì)不同規(guī)模的ReRAM 陣列,阻變神經(jīng)網(wǎng)絡(luò)加速器的仿真時(shí)間和加速比如表4 所示。加速器主要通過(guò)提供并行的運(yùn)算單元和流水運(yùn)算對(duì)MVM 操作進(jìn)行硬件加速,但由于訪存延遲無(wú)法忽略,因此對(duì)于不同規(guī)模的陣列,仿真時(shí)間并沒(méi)有成倍增加。MNSIM 軟件仿真平臺(tái)主要通過(guò)高主頻的CPU 串行完成MVM,隨著陣列規(guī)模的提升,MNSIM 的仿真時(shí)間顯著增加,本文提出的阻變神經(jīng)網(wǎng)絡(luò)加速器評(píng)估方法可加速40.0~252.9 倍。

表4 加速器對(duì)不同規(guī)模ReRAM 陣列仿真的加速效果Table 4 Acceleration effect of accelerators on ReRAM array simulation of different scales

3.2.2 網(wǎng)絡(luò)性能評(píng)估

為評(píng)估加速器對(duì)神經(jīng)網(wǎng)絡(luò)仿真的加速性能,選取軟件模擬器DNN NeuroSim[20]進(jìn)行對(duì)比,為與本文提出的神經(jīng)網(wǎng)絡(luò)加速器的功能相匹配,省略了模擬器對(duì)功耗和面積的估算。映射VGG-8、Resnet 等深度神經(jīng)網(wǎng)絡(luò),并在Intel?CoreTMi5-8500 處理器上運(yùn)行模擬器。圖6 給出了對(duì)比結(jié)果,其中縱坐標(biāo)的執(zhí)行時(shí)間已經(jīng)過(guò)對(duì)數(shù)處理,對(duì)于小規(guī)模神經(jīng)網(wǎng)絡(luò),本文提出的神經(jīng)網(wǎng)絡(luò)加速器可以獲得129.2 倍的加速比。對(duì)于深度神經(jīng)網(wǎng)絡(luò)Resnet,隨著網(wǎng)絡(luò)層數(shù)的提升,本文提出的阻變神經(jīng)網(wǎng)絡(luò)加速器評(píng)估方法可以獲得194.7~234.2倍的加速比。

圖6 加速器對(duì)神經(jīng)網(wǎng)絡(luò)仿真的加速效果Fig.6 Acceleration effect of accelerators on neural network simulation

4 結(jié)束語(yǔ)

針對(duì)阻變神經(jīng)網(wǎng)絡(luò)加速器的軟件仿真速度慢、硬件模擬靈活性差等問(wèn)題,本文提出一種基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器評(píng)估方法,通過(guò)軟件庫(kù)指令的重新翻譯和MVM 運(yùn)算調(diào)度,實(shí)現(xiàn)多層次存算一體架構(gòu)和指令集的行為仿真以及主流神經(jīng)網(wǎng)絡(luò)的快速性能評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文評(píng)估方法相比MNSIM 和DNN NeuroSim 軟件模擬器在仿真過(guò)程中運(yùn)行速度更快。由于ReRAM 器件的非理想特性,ReRAM 陣列在進(jìn)行向量矩陣乘法運(yùn)算時(shí)會(huì)產(chǎn)生誤差,因此后續(xù)將在基于FPGA 模擬的阻變神經(jīng)網(wǎng)絡(luò)加速器評(píng)估方法中加入ReRAM 器件的非理想特性模型,以評(píng)估其對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的影響,提升評(píng)估方法的精確度和可靠性。

猜你喜歡
指令
聽我指令:大催眠術(shù)
ARINC661顯控指令快速驗(yàn)證方法
LED照明產(chǎn)品歐盟ErP指令要求解讀
殺毒軟件中指令虛擬機(jī)的脆弱性分析
巧用G10指令實(shí)現(xiàn)橢圓輪廓零件倒圓角
中斷與跳轉(zhuǎn)操作對(duì)指令串的影響
科技傳播(2015年20期)2015-03-25 08:20:30
基于匯編指令分布的惡意代碼檢測(cè)算法研究
一種基于滑窗的余度指令判別算法
歐盟修訂電氣及電子設(shè)備等產(chǎn)品安全規(guī)定
家電科技(2014年5期)2014-04-16 03:11:28
MAC指令推動(dòng)制冷劑行業(yè)發(fā)展
汽車零部件(2014年2期)2014-03-11 17:46:27
主站蜘蛛池模板: 一级毛片在线播放免费观看| 人妻夜夜爽天天爽| 欧美成人国产| AV无码一区二区三区四区| jizz亚洲高清在线观看| 国产亚洲精久久久久久久91| 99re免费视频| 国产在线观看91精品亚瑟| 五月激情婷婷综合| 综合色亚洲| 国内自拍久第一页| 97超碰精品成人国产| 国产精品中文免费福利| 91高清在线视频| 亚洲高清在线天堂精品| 国产午夜不卡| 国产成人乱无码视频| 精品久久久久久成人AV| 欧美日本不卡| 国产精品亚洲专区一区| 免费无码AV片在线观看国产| 久久久久人妻精品一区三寸蜜桃| 亚洲欧洲国产成人综合不卡| 日韩欧美中文在线| 精品国产福利在线| 精品国产中文一级毛片在线看 | 91小视频在线| 欧美怡红院视频一区二区三区| 免费国产一级 片内射老| 沈阳少妇高潮在线| 黄片在线永久| 91综合色区亚洲熟妇p| 国产精品亚洲一区二区三区z| 在线免费看片a| 亚洲色图在线观看| 五月婷婷中文字幕| 日本午夜精品一本在线观看| 91福利免费| 欧美亚洲一区二区三区导航| 高清无码手机在线观看| 国产精品自在在线午夜 | 久久中文电影| 97在线免费视频| 国产亚洲精品在天天在线麻豆 | 重口调教一区二区视频| 欧美h在线观看| 激情综合图区| 一级一级特黄女人精品毛片| 国产女人在线| 亚洲欧美日韩中文字幕在线一区| 九九热在线视频| 日本一区二区三区精品国产| 亚洲成a人在线播放www| 亚洲水蜜桃久久综合网站| 久久人体视频| 波多野衣结在线精品二区| 青草视频免费在线观看| 一本二本三本不卡无码| 欧洲一区二区三区无码| 青青青伊人色综合久久| 国产在线欧美| 美女无遮挡免费视频网站| 日本一区二区三区精品AⅤ| 国产剧情伊人| 国产成人综合亚洲欧洲色就色| 亚洲日本中文字幕乱码中文 | 好吊妞欧美视频免费| 亚洲精品无码av中文字幕| 伊人AV天堂| 亚洲精品少妇熟女| 九色视频线上播放| 日本亚洲成高清一区二区三区| 亚洲黄色高清| 国产精品毛片一区视频播| 先锋资源久久| 国产精品丝袜在线| 亚洲一区精品视频在线| 久青草网站| 99久久国产综合精品女同| 国产精品极品美女自在线| 亚洲午夜国产精品无卡| 国产不卡国语在线|