999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種適用于非穩態淺海信道的強化學習自適應調制方案

2022-12-09 09:26:14邱逸凡張小康陳東升
廈門大學學報(自然科學版) 2022年6期

邱逸凡,張小康,陳東升,童 峰

(1.廈門大學水聲通信與海洋信息技術教育部重點實驗室,福建廈門361005;2.廈門大學海洋與地球學院,福建廈門361102;3.廈門大學深圳研究院,廣東深圳518000)

有限帶寬和長傳播時延使得水聲信道呈現比陸上無線信道復雜得多的傳輸特性.而由于淺海域存在強烈的海面和海底反射,以及各類人為噪聲的影響,淺海信道相較于深海信道表現出更為強烈的時、空、頻變參特性,對淺海信道水聲通信提出了更高的要求[1].

自適應調制技術是提高通信系統信道適應性的有效手段,相對于在同一調制方式下調整調制參數的自適應調制方法,采用多調制方式的自適應調制可在淺海信道這類惡劣信道下提供更大的適應范圍.Benson等[2]提出了一種基于時延擴展和多普勒擴展以及信噪比條件來選擇相干調制和非相干調制的自適應調制系統;Mani等[3]在此基礎上提出了用可實現的信息速率和均衡后的信噪比作為評判標準的可變速率自適應調制編碼技術,并通過實驗驗證其可行性;Radosevic等[4]和Wan等[5]提出了利用自適應比特和功率分配來實現正交頻分復用(orthogonal frequency division multiplexing,OFDM)自適應調制的算法,并提出了新的評判通信性能的指標.邱逸凡等[6]提出了一種利用信噪比、多徑、多普勒作為信道狀態信息,多種通信制式切換的自適應調制方案,利用該信息,能夠有效全面地反映信道條件,仿真結果證明相較于單一制式,該方案能有效提升通信性能.

雖然上述方案相較于單一制式有不少性能的提升,但是在水聲信道條件下,這些傳統基于閾值判斷和反饋的自適應調制方式因時延較長而存在反饋過時的問題,往往導致反饋信息無法反映當前信道狀態,從而造成性能下降.近些年,隨著人工智能研究的火熱開展,機器學習被廣泛應用于各個領域[7-8].作為其中分支之一的強化學習,因其在與環境交互過程中通過在線試錯獲取數據,并自主學習實現模型優化的特點,十分適用于數據量有限、動態變化的水聲環境.已有不少相關的文獻將強化學習應用于諸如路由協議[9]、水下物聯網的網絡中繼和能量控制[10]、水下機器人(AUV)和節點定位[11]以及自適應通信[12-14]等方向中.強化學習能夠通過不斷試錯和探索學習信道變化,故根據反饋的獎勵和狀態值能夠實現對下一狀態的預測,從而有效解決反饋過時的問題.

Song等[12]提出了一種基于Dyna-Q的自適應調制算法,利用有效信噪比衡量信道狀態,通過Dyna-Q算法預測下一狀態和通信吞吐量,并在移動AUV場景下進行了效果驗證;蘇為等[13]提出了一種基于強化學習的自適應調制編碼方案,該方案在無需知道信道模型的先驗知識下可以根據信道質量服務的需求,來選擇傳輸策略,以提高通信效率;李萍等[14]提出了一種基于Sarsa算法的自適應調制方法,仿真結果表明該方法可以保證系統可靠性的同時提高通信吞吐量.總體而言,將強化學習應用于水聲通信自適應調制的相關研究還比較有限,且目前的研究大都是基于同一通信制式進行調制參數的優化調整,對于具有復雜時-空-頻變參特性的淺海水聲信道而言,具有多個不同通信制式的自適應調制方案可提供更為突出的調整能力.此外,Abdallah等[15]中提出針對嘈雜的非穩態環境,Q學習(QL)算法和Dyna-Q算法都存在一定程度的性能下降,而淺海信道正是一個變化頻繁且復雜的環境,這可能導致學習過程中,原有環境已經發生變化.

針對以上情況,本文設計了一種基于重復更新Q學習(RUQL)算法的淺海信道自適應調制方案,該算法解決了QL存在的策略偏離的問題[15],同時保持了簡單性.實驗設立5種水聲通信調制制式,通過試錯和探索來學習出每一狀態下的最優調制選擇,從而在無需預先知道信道模型的情況下實現自適應以提升通信吞吐量,并利用海試數據進行的自適應調制性分析驗證本文方案的有效性.

1 淺海信道模型

描述聲波在海洋中的傳播有3類常用的模型:射線聲學模型、簡正波模型和拋物線方程近似模型[16].簡正波模型通常用于描述500 Hz以下的聲傳播,而拋物線方程在計算復雜度上比射線模型大得多.因此描述高頻水聲通信模型常基于射線聲學進行信道建模.水聲信道沖激響應可以用式(1)描述:

(1)

其中,Ap(t)表示幅度響應,τp(t)是時變信道的時間延遲,δ為狄拉克函數.

淺海信道中,由于海面和海底界面的存在,聲波傳播可以看成柱面擴展,其傳播損失可用下式表示[17]:

10lgA(l,f)=NF+10lgl+

lα(f,S,T,c,pH,z),

(2)

其中:l是發射機和接收機的距離(m);f是頻率(kHz);參數NF是一個歸一化因子,與發射功率的倒數有關;α(f,S,T,c, pH,z)是衰減系數(dB/m),與環境參數頻率f(kHz)、鹽度S(ppt)、溫度T(℃)、聲速c(m/s)、酸堿度pH和深度z(m)有關.

水聲信道中的噪聲可以分為環境噪聲和外部干擾噪聲,環境噪聲包含擾動、艦船、風成和熱噪聲等.這些噪聲源組合在統計學上可以近似看成是非白高斯噪聲.而淺海區域中,生物、人工機械噪聲頻發,這也使通信環境變得更加惡劣.針對此類信道,能夠根據環境選擇最優調制方式的通信體制顯得十分必要.

2 基于RUQL的自適應調制

強化學習作為機器學習的分支之一,是一種通過觀察智能體與環境交互過程中得到的獎賞來學習對應的策略,以實現長期回報最大化的方法.通常用于解決決策、資源分配等問題.馬爾可夫模型作為強化學習中的基本模型,可以用來描述水聲通信的過程.一個馬爾可夫過程包含動作集、狀態集、狀態轉移概率和回報函數四要素[18].由于水聲信道的時-空-頻隨機變化的特點,狀態轉移概率難以得知,因而采用強化學習思想中的時序差分學習,該思想結合了蒙特卡洛方法和動態規劃兩種思想的特點,既可以直接從與環境交互的經驗中學習策略,亦可基于目前已得到的其他狀態的估計值來更新當前狀態的價值函數.其中,QL和Sarsa兩種經典算法被廣泛應用.

Sarsa算法與QL算法都是基于Q表來學習最優策略,不同之處在于Sarsa算法進行Q表更新時,當前狀態下選擇的動作,和下一個狀態選擇的動作都是已知的.即QL在選擇下一個動作時,是遵循maxQ的結果,其行為和行為值函數更新選擇的是不同的策略.而Sarsa算法在選擇下一個動作時遵循貪婪策略,計算Q表時也是用貪婪策略選擇的動作計算得來.因此,Sarsa算法相較于QL算法更加保守.Sarsa算法更新公式如下所示:

Q(St,At)←Q(St,At)+α[Rt+1+

γQ(St+1,At+1)-Q(St,At)],

(3)

式中,Q為動作價值函數,S為狀態集合,A為動作集合,R為獎勵值,α為當前經驗的權重,γ為折扣系數,t為當前時刻.

與Sarsa算法不同,QL更新動作價值函數無需知道下一刻的動作,直接根據下一時刻Q表的最大值進行更新,與生成數據的策略無關,故是一種離軌策略.其更新公式如下:

Q(St,At)←Q(St,At)+α[Rt+1+

γmaxQ(St+1,At+1)-Q(St,At)],

(4)

Sarsa和QL算法都是基于無模型的強化學習算法,而Dyna-Q則是將基于模型和無模型的強化學習相結合.它既在模型中學習,也在交互中學習.即在每個迭代過程中,先和環境交互并更新價值函數、策略函數,接著進行n次模型的模擬預測,同樣更新價值函數、策略函數.這樣同時利用了與環境交互的經驗以及模型的預測,相比傳統QL能夠加速學習過程.

在靜止的馬爾科夫環境中,QL算法可以得出最優策略.然而,由于水聲信道的復雜性,實際環境并不總是靜止的.而在非平穩環境中,QL算法會存在策略偏差問題[15].策略偏差問題指的是,在傳統QL算法的學習過程中,那些具有暫時性低值的最優行動被執行的頻率較低,因此,這些行動的值被更新的頻率較低.這會造成一個現象,即當代理人學習最佳行動之前,環境可能已經發生了變化,從而導致性能下降.

RUQL的基本思想是調整傳統QL算法中的學習率,使得較少選擇的動作具有較高的學習速率.如果以低概率π(s,a)選擇一個動作,那么不是更新相應的動作值Q(s,a)一次,而是重復更新1/π(s,a)次.更新表達式與QL的更新表達式式(4)一致.

在本文中,考慮使用貪婪算法,即

(5)

其中:π(s,a)為在狀態s下選擇動作a的概率;是一個小常數,表示探索率,越高,代理人會更積極地探索行動空間.

本文將表征水聲信道條件的輸出信噪比和多普勒頻偏作為狀態集合,而將采用的調制方式作為動作集合,用通信速率和誤碼率的綜合評估作為獎勵值,輸出信噪比的定義如下所示.

(6)

其中,Psignal是信號功率,Pnoise是噪聲功率.

傳統自適應調制方案根據仿真來獲得信道質量與調制制式之間的關系,并把它以查表的形式儲存在通信機中.但實際上由于信道不完全服從理想的分布,加性噪聲也不全是高斯的,導致了固定的切換閾值很難滿足誤碼率的要求.而基于強化學習的自適應調制編碼算法則可以克服這個問題,它不依賴于完美的數學模型,能夠根據系統的實際誤碼率性能來確定信道狀態和通信制式之間的對應關系.

3 自適應調制方案

傳統的自適應調制方案采用閾值判斷的方法,通過將信道狀態劃分為多個區間,將接收端獲得的信道狀態信息反饋到發射端,然后根據預先設定的區間選擇下一個調制方式.但由于時延的影響,這種方法存在反饋過時的問題,導致當前的狀態信息并不能很好地反映當前實際信道,造成通信性能的下降.因此將強化學習與自適應調制相結合,在與信道的交互過程中不斷更新狀態-動作值函數,并利用該函數學習出動態信道下的最佳自適應調制策略,在保證誤碼率的同時,提高吞吐量性能.

所謂自適應調制,則是能夠根據信道狀態自適應選擇滿足誤碼率前提下的最優調制編碼體制,在信道條件差時選擇穩健的調制方式以保證誤碼率,而在信道條件好時選擇高速的調制方式以提升吞吐量.因此,誤碼率和通信速率是自適應調制方案綜合考慮的兩個指標.給出系統吞吐量的定義[12],當誤碼率大于0.1時,此時通信視為失敗,成功傳輸的比特數已無意義,故此時吞吐量記為0,表達式如下:

(7)

其中:RBE為實際誤碼率;Vt為通信速率,單位為bit/s.

自適應調制的目標是實現Φ的長期最大化,因此將Φ映射到強化學習中,則可將每次選擇調制方式后獲得的獎勵與誤碼率和通信速率聯系起來.目前水聲通信中常用的通信制式主要分為非相干調制、單載波調制、多載波調制三類.其中多進制頻移鍵控(Multiple-ary frequency shift keying,MFSK)、多進制相移鍵控(multiple-ary phase shift keying,MPSK)和OFDM分別為3類中的典型制式,而直接擴頻序列(direct sequence spread spectrum,DSSS)因其魯棒性強也被廣泛應用.考慮到海洋環境的復雜性,以及不同應用場景對水聲數據傳輸需求的多樣性,不同通信體制能提供的水聲信道適應能力比不同調制參數要強,因此本文從不同制式出發,制定出不同制式切換的方案.同時根據實驗室現有換能器帶寬條件,在各自能夠達到的最大速率基礎上制定了每種制式的通信速率,以表現各種制式在相應場景下的工作特點,設置5種制式:差分正交PSK(DQPSK)、差分二進制PSK(DBPSK)、OFDM、8進制FSK(8FSK)、DSSS.

自適應調制方案的目標為:保證誤碼率的同時,最大化系統吞吐量.因此,可以將獎勵與每一次成功傳輸的比特數聯系起來,本文設計的獎勵函數R如下:

R=

(8)

其中:Vti為第i個制式的通信速率;P為反饋鏈路出錯的概率,這里假設存在某些時刻由于環境影響,導致接收端獲得的獎勵值并不能正確反饋給發射端,從而影響下一次的Q表更新;Pfail為0~1的隨機概率.

由于本文采用的每種通信制式的通信速率大小不同,使得在誤碼率0.1以下時,即使高速率制式誤碼率比低速率制式更高,但是吞吐量上仍然會大于低速率制式.因此,誤碼率在0.1以下時,將不再考慮誤碼率對通信性能的影響,只考慮通信速率,同時速率越高,獎勵值越高.系統在接收端解調后,得到信道狀態信息和獎勵值,并將這些值返回到發射端,發射端根據獎勵值和當前狀態更新Q表,并采用貪婪算法選擇下一個調制方式.每一個輪次代表一次完整的狀態變化過程,從初始狀態到終止狀態.經歷多輪迭代過程后,算法收斂.基于RUQL的自適應調制算法,具體步驟如下.

1) 初始化Q(s,a),?St∈S,At∈A;

2) 重復經歷一個軟次:

初始化狀態St;

3) 重復一輪中的每一步

用Q表計算策略π,

根據策略π選取一個調制方式At,

執行調制方式At,觀察獎勵值r和下一個狀態s′,

循環1/π(s,a)次:

更新Q表

Q(St,At)←Q(St,At)+α[Rt+1+

結束

s←s′,

直至終止狀態,返回2);

4) 獲得最終策略.

在經過多次迭代之后,智能體即發射端可以獲得策略,即調制制式的選擇準則.當信道狀態變化時,則發射端能夠根據反饋信息和策略,選擇使長期吞吐量最大化的制式,從而達到性能的穩定提升.

4 實驗結果及分析

4.1 實驗設置

實驗數據采集地點為廈門五緣灣海域,海域水深8 m,收發機距離為608 m,布放深度為5 m.發射時,信號經聲卡、功放、變壓器由發射換能器發出;接收時,先由換能器接收信號,再經過前置放大和帶通濾波后得到最終的接收信號.換能器帶寬為13~18 kHz,采樣頻率96 kHz,信號帶寬4.8 kHz,中心頻率15.5 kHz.錄制信號共包含DQPSK、OFDM、DPBSK、8FSK、DSSS 5種制式,對應通信速率分別為2 381,2 044,1 172,155,55 bit/s.取每種制式錄制數據中的一幀作為原始接收數據,進行實錄噪聲、多普勒疊加以模擬信道時變.

在接收端,5種通信制式均采用經典方法接收機結構,如表1所示[19-21].所取5種制式原始接收數據的RSN在15~23 dB之間,圖1為5種通信制式原始接收數據對應的信道響應,可看出信道存在較為明顯的多徑結構,多徑擴展均在3 ms左右.

圖1 被測信道的沖激響應Fig.1Impulse response of the tested channel

表1 5種調制方式接收機結構

4.2 數據處理

在得到每種制式的原始接收數據和實錄環境噪聲后,為了體現通信過程信道變化,在原始接收數據上根據設置的RSN進行實錄噪聲疊加和多普勒頻偏添加,采用時域重采樣對整個輸入信號進行多普勒的疊加.為了便于Q表的建立,將RSN和多普勒頻偏進行離散化處理.RSN和多普勒頻偏分別設置為0~15 dB和0~8 Hz.

定義fDP為多普勒頻偏值(Hz),因此可以將RSN和多普勒頻偏組成一個二元組(RSN,fDP),作為狀態的表征.為了體現信道的動態變化,將設置兩種信道變化過程,每隔一段時間D后,采用另一種變化過程,以此構造一個非穩態環境.第一種變化過程:設置初始狀態(15,0),隨后的每一個狀態按照RSN減小1 dB、多普勒不變,例如(14,0),(13,0)……,直至RSN減為0 dB;下一狀態RSN變為15 dB,多普勒頻偏增加 1 Hz,即(15,1),重復上述操作;如此反復,直至終止狀態(0,8),從初始狀態到終止狀態共有144種狀態.第二種變化過程:設置初試狀態為(15,8), 隨后的每一個狀態按照RSN減小1 dB、多普勒不變,例如(14,8),(13,8)……,直至RSN減為0 dB;下一個狀態RSN變為15 dB,多普勒減小1 Hz,即(15,7);如此反復,直至終止狀態(0,0),同樣一共有144種狀態.

由上述過程可知,在每次RUQL算法的迭代過程中,一共會經歷144種信道狀態,在每個狀態下,RUQL選擇一種調制方式,發射一次數據包,因此共有144個數據通信包.強化學習中設置參數α=0.1,γ=0.1;為了更快收斂,將貪婪算法中的設置為0.1,D設置為10,即每10次迭代后環境發生一次變化.P=0.1,即獎勵值反饋鏈路出錯的概率為0.1.

同樣地,對文獻[12, 14]提出的Dyna-Q算法和Sarsa算法以及傳統QL算法進行上述的迭代訓練過程,作為對比實驗.

最后,為進一步驗證該方案的可行性,讓信道隨機變化,觀察本文算法是否仍能有效工作.

4.3 實驗結果

4.3.1 信道規律變化

信道變化按照4.2中的設置進行,對本文算法得到的結果進行分析,圖2(a)和(b)分別給出迭代次數為400和700次時,通信數據包的RBE情況.可以看出,隨著迭代次數的增加,RBE超過0.1的次數明顯減少.

在700次迭代后,算法收斂,得到策略π.當某一狀態出現后,接收端記錄該狀態和獎勵值,并反饋到發射端,發射端即可根據下一狀態和策略π選擇最優調制方式.根據策略π進行調制方式的選擇并統計每次接收數據包的RBE和最終得到的Φ,結果如圖3所示.可以看到在整個發射過程中,所有的數據包的RBE都低于0.1,且總吞吐量最大,達到了131 411 bit.同時加入通信過程中隨信道變化所采用的通信制式表,如表2所示,隨著信道條件逐漸惡劣,所選擇的調制方式從高速率制式逐漸切換到了穩健的低速率制式.

圖2 迭代過程中的RBE曲線Fig.2Curve of RBE in iterative process

圖3 基于RUQL的自適應調制方案性能圖Fig.3The performance of adaptive modulation scheme based on RUQL

表2 發射過程中每種狀態下對應的調制方式

圖4 自適應調制方案的誤碼率曲線對比圖Fig.4Comparison of RBE of adaptive modulation schemes

同樣的,將本文算法與Dyna-Q、QL算法和Sarsa算法,以及采用基于閾值判斷的自適應調制方法[6]進行對比.結果表明:Dyna-Q和QL算法在嘈雜非平穩環境中,效果幾乎接近一致.這是因為雖然Dyna-Q有效地提高了所有行動的學習率,但是由于反饋鏈路存在出錯的情況,最佳行動的Q值在收到嘈雜的負獎勵時可能會下降.然而,對于本文自適應算法,雖然反饋鏈路出錯帶來的獎勵負值同樣會導致RUQL的Q值下降,但一旦誤碼率低于0.1的行動被嘗試且反饋鏈路不出錯,RUQL將提高該行動的學習率,從而更快地從該效應中恢復過來.同時,RUQL的促進作用隨著行動的選擇越來越頻繁而減弱,學習在嘈雜時變得穩定,從而導致其性能高于其他算法.另外,正如前文所分析的,由于Sarsa算法比較保守,其性能低于QL、Dyna-Q和本文算法;固定閾值自適應算法由于反饋延遲問題,在所有自適應調制算法中性能最差.Dyna-Q自適應調制法最后得到的系統總吞吐量為129 647 bit.基于QL算法的自適應調制方法能達到的系統總吞吐量為129 743 bit.基于Sarsa算法的自適應調制方法能達到的系統總吞吐量為128 633 bit.而基于固定閾值判斷的自適應調制方法最終的總吞吐量為125 862 bit.如表3所示,在系統吞吐量上,本文算法相較于Dyna-Q、QL、Sarsa和固定閾值判斷的自適應算法分別提升了1.4%、1.3%、2.2%和4.4%.其余單一制式算法,隨著信道條件變差,誤碼率逐漸超過0.1,故系統吞吐量不再隨著接收數據包序列增加而提升.

表3 自適應算法效果對比表

固定閾值判斷、Dyna-Q、QL和Sarsa算法的誤碼率對比曲線如圖4所示,可以看出,4種算法中,還有不少誤碼率大于0.1的情況出現.

4.3.2 信道隨機變化

接下來,讓信道隨機變化,統計各種制式的誤碼率和系統總吞吐量.信道RSN和多普勒具體變化如圖5所示.從圖6可以看出,在隨機的信道變化狀態下,RUQL的誤碼率始終保持在0.1以下,而其他自適應調制算法都出現了誤碼率大于0.1的情況.且如圖7所示,本文自適應調制方案實現的系統吞吐量始終保持在最高,本文提出的算法相較于其他自適應調制算法方法仍能保持較好的性能.

圖5 隨機信道狀態變化情況Fig.5The changing process of random channel state

圖6 信道隨機變化下各種自適應調制方案性能圖Fig.6The RBE of several adaptive modulation scheme under random channel variation

(b)為(a)中右上角方框的放大圖.圖7 信道隨機變化下各種自適應調制方案的性能圖Fig.7The performance of several adaptive modulation scheme under random channel variation

5 結 論

本文設計了一種基于RUQL算法的淺海水聲通信自適應調制技術方案,采用RSN和多普勒頻偏作為表征環境狀態的要素,在DQPSK、OFDM、DBPSK、8FSK、DSSS 5種通信制式中進行優化選擇,綜合誤碼率和系統吞吐量設計了相關的獎勵函數.實驗結果表明該方案相較于傳統方法能獲得更好的誤碼率和系統吞吐量.基于本文獲得的初步結論,下一步將開展不同淺海信道條件下的實驗評估,從而對所提方案進行更充分的有效性分析和性能對比.

主站蜘蛛池模板: 亚洲中文字幕在线精品一区| 亚洲精品色AV无码看| 亚洲视频三级| 99热这里只有精品免费国产| 午夜久久影院| 亚洲第一福利视频导航| 国产亚洲高清视频| 午夜无码一区二区三区| 天天色天天操综合网| 91精品国产自产在线老师啪l| a级毛片免费看| 中国成人在线视频| 欧美三级日韩三级| 免费人成在线观看成人片 | 97超爽成人免费视频在线播放| 欧美一区二区啪啪| 露脸国产精品自产在线播| 人人爱天天做夜夜爽| 欧美狠狠干| 欧美激情第一区| 亚洲男人的天堂在线| 亚洲欧美精品日韩欧美| 国产拍在线| 欧美激情综合一区二区| 亚洲女人在线| 精品国产欧美精品v| 91国语视频| 成人无码区免费视频网站蜜臀| 大香网伊人久久综合网2020| 午夜视频www| 国产真实乱人视频| 超清无码一区二区三区| a国产精品| 国产精品福利尤物youwu| 精品欧美视频| 九色综合视频网| 色哟哟国产精品一区二区| 国产成人精品第一区二区| 熟女视频91| 亚洲综合狠狠| 2021国产v亚洲v天堂无码| 国产91久久久久久| 国产激爽大片在线播放| 久一在线视频| 午夜啪啪网| 欧美区一区二区三| 欧美日本激情| 香蕉在线视频网站| 国产伦精品一区二区三区视频优播 | 内射人妻无套中出无码| 91在线中文| 国产噜噜在线视频观看| 国产精品毛片在线直播完整版 | 大乳丰满人妻中文字幕日本| 亚洲无码37.| 18禁色诱爆乳网站| 日本久久网站| 手机在线国产精品| 成人亚洲天堂| 欧美啪啪视频免码| 久久亚洲精少妇毛片午夜无码 | 九九热精品免费视频| 国产地址二永久伊甸园| 婷婷激情亚洲| 在线精品自拍| 人妻精品久久久无码区色视| 99ri国产在线| 毛片免费视频| 亚洲一区第一页| 亚洲视频二| 欧美一区二区三区国产精品| 蜜臀AV在线播放| 高清无码一本到东京热| 一级不卡毛片| 亚洲天堂成人在线观看| 成色7777精品在线| 亚洲三级片在线看| 99久久精彩视频| 欧美精品三级在线| 亚洲欧美天堂网| 国产一区二区精品高清在线观看| 国产凹凸一区在线观看视频|