999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的無人機集群協同作戰決策方法

2023-11-29 10:50:30趙琳呂科郭靖宏晨向賢財薛健王泳
計算機應用 2023年11期
關鍵詞:智能模型

趙琳,呂科,郭靖,宏晨,向賢財,薛健,王泳

基于深度強化學習的無人機集群協同作戰決策方法

趙琳1,呂科1,郭靖2,宏晨3,向賢財1,薛健1,王泳4*

(1.中國科學院大學 工程科學學院,北京 100049; 2.沈陽航空航天大學 電子信息工程學院,沈陽 110136; 3.北京聯合大學 機器人學院,北京 100101; 4.中國科學院大學 人工智能學院,北京 100049)( ? 通信作者電子郵箱wangyong@ucas.ac.cn)

在無人機(UAV)集群攻擊地面目標時,UAV集群將分為兩個編隊:主攻目標的打擊型UAV集群和牽制敵方的輔助型UAV集群。當輔助型UAV集群選擇激進進攻或保存實力這兩種動作策略時,任務場景類似于公共物品博弈,此時合作者的收益小于背叛者。基于此,提出一種基于深度強化學習的UAV集群協同作戰決策方法。首先,通過建立基于公共物品博弈的UAV集群作戰模型,模擬智能化UAV集群在合作中個體與集體間的利益沖突問題;其次,利用多智能體深度確定性策略梯度(MADDPG)算法求解輔助UAV集群最合理的作戰決策,從而以最小的損耗代價實現集群勝利。在不同數量UAV情況下進行訓練并展開實驗,實驗結果表明,與IDQN(Independent Deep Q-Network)和ID3QN(Imitative Dueling Double Deep Q-Network)這兩種算法的訓練效果相比,所提算法的收斂性最好,且在4架輔助型UAV情況下勝率可達100%,在其他UAV數情況下也明顯優于對比算法。

無人機;多集群;公共物品博弈;多智能體深度確定性策略梯度;協同作戰決策方法

0 引言

智能化的無人機(Unmanned Aerial Vehicle,UAV)適合應用在高速、復雜和多變的現代軍事行動當中,智能UAV集群具備更高的自主性,可以在復雜的對抗博弈中找到最優的決策[1]。將UAV投入戰場既降低了作戰成本又大幅減少了人員傷亡,具有明顯的作戰優勢。多集群UAV協同作戰的攻擊模式能夠應對更復雜的作戰任務,同時完成多目標打擊。因此在任務中提高多UAV集群間的配合,以及平衡多UAV之間的利益博弈,成為提高作戰效率、降低損耗的關鍵研究[2]。

UAV的自主機動決策能力直接影響了它在智能戰爭中的勝率。但空戰中的決策問題研究具有多智能體、動作空間大、維度高、視野長等特點,因此求解困難。通常采用智能算法求最優解[3],或引入博弈論求均衡解[4]。近些年隨著強化學習的發展,強化學習算法在解決UAV空戰決策問題中起到了越來越重要的作用。

UAV及集群對抗中的決策問題研究主要分為兩類:一類是研究UAV在空戰中姿態、位置與速度的決策占優問題,另一類是研究集群中UAV決策比例問題。其中,第一類研究成果相對豐富,如利用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法[5]處理UAV連續空間動作問題:文獻[6-7]中利用DDPG算法建立UAV空戰中的決策模型,提高了機動決策的自主控制精度;文獻[8]中為提高DDPG算法效率,利用最大熵逆強化學習算法構造獎勵結構,解決空戰決策稀疏獎勵問題,同時將正則化引入策略網絡,加強了決策模型在不完全信息環境中的魯棒性。以上研究成果為UAV空戰中的一對一智能決策模型,DDPG算法在處理多智能體問題時會變得不穩定,基于它改進的多智能體深度確定性策略梯度(Multi-Agent DDPG, MADDPG)算法[9]則更適合解決UAV集群決策問題。文獻[10]中在戰前只掌握敵方部分火力信息的前提下,基于MADDPG算法構造了動態UAV集群任務決策模型,驗證了MADDPG算法在處理多機決策問題時的穩定性更強。

在實際作戰中,決策的優劣也體現在控制己方資源及損耗上。UAV執行的任務未必是單一的,可能是連續的多段任務。此外,由于UAV在執行任務中很難補充資源,分配過多資源給其中一項任務將導致個體生存能力的降低,這也是第二類UAV空戰決策研究的目的及關鍵。

目前公共物品博弈在社會性研究之中比較廣泛,理性個體傾向于在單次任務中保持自身實力。為了將UAV更加智能化,將博弈思想引入UAV集群執行任務,此時個體UAV對集體的貢獻低,自身損耗小,但是對UAV集群完成任務會產生消極影響。UAV個體利益與集群利益產生沖突,個體的獎勵與損失模型可以視為公共物品博弈模型。由于UAV作戰場景的特殊性,目前的相關研究還較少,其中禹明剛等[11]基于多元公共品演化博弈求解UAV集群對抗中個體選擇為集體貢獻者的比例。受該研究的啟發,為了提高UAV決策中的智能性,本文提出一種基于深度強化學習的UAV集群協同作戰決策方法。該方法設計了一種異構UAV集群協同對地攻擊決策模型,根據集群中UAV的價值和載荷,為UAV分配不同的作戰攻擊任務,實現兩編隊UAV集群協同打擊目標,分別是主攻目標的打擊型UAV集群和牽制敵方的輔助型UAV集群;同時,輔助型UAV集群制定決策時面臨著公共物品博弈,在能檢測敵方火力信息的前提下,利用MADDPG算法求解輔助型UAV集群動態最優的作戰決策。

1 UAV集群合作對地攻擊模型

UAV集群合作對地攻擊模型的場景如圖1所示,我方作為攻擊方為藍方,擁有由攜帶炮彈的UAV集群組成空中力量;敵方作為防御方為紅方,擁有對UAV能產生有效打擊的地面防空力量。藍方目標為打擊紅方碉堡,紅方采取防御反擊。藍方由兩編隊UAV集群共同組成:一隊為執行打擊目標(碉堡)任務的打擊型UAV集群,另一隊為牽制紅方火力的輔助型UAV集群。假定紅方沒有特殊武器和空中攔截能力,主要的防空力量組成為坦克部隊(RT)、防空導彈部隊(RD)和碉堡(R)的自身防御系統。

圖1 UAV集群協同對地攻擊模型

藍方在完成自身任務的同時,為降低自身損耗,保證任務結束之后仍有更好的戰斗力,會派出兩支載荷不同的UAV隊伍:負責打擊目標的UAV集群自身價值較低,但是攜帶可以有效攻擊碉堡的彈藥;協同輔助的UAV集群自身價值較高,除攜帶彈藥外還攜帶干擾彈。文獻[12]中提到UAV釋放干擾彈可以誘騙敵方紅外制導武器脫離真目標,因此本文中假設UAV可以通過釋放干擾彈的方法避免受到敵方攻擊傷害。

1.1 輔助型UAV集群決策模型

1.2 打擊型UAV集群攻擊模型

1.3 公共物品博弈模型

傳統的公共物品博弈是指向公共池中投入資源,參與者可共享投資結果的博弈方式,研究成本與收益之間的關系,帶閾值的公共物品博弈設置了取得回報的門檻,符合作戰中為UAV集群對敵方打擊設置成功條件。智能性提高了集體中個體的自私性,在對抗中,UAV的搭便車行為雖然會帶來更高的收益,但利用合適的獎懲機制,它的選擇將受到最終合作效果的約束。UAV作戰博弈中涉及的參與者數量多、對抗過程較長,傳統的博弈論求解方法很難直接在此應用。因此本文利用MADDPG算法[9]求解此問題,構建了合適的獎勵函數,既滿足UAV智能化要求,又避免集體發生“公地悲劇”。

2 基于MADDPG算法的UAV集群協同作戰決策模型

2.1 基于MADDPG算法的模型

本文利用MADDPG算法[9]訓練UAV集群協同作戰決策,MADDPG算法可以視為DDPG算法[5]的多智能體版本變體。DDPG算法由DQN(Deep Q-Network)與確定性策略梯度(Deterministic Policy Gradient, DPG)組合得到。DPG是Actor-Critic算法的變體,DPG結構上具有兩個神經網絡:策略網絡(Actor)與價值網絡(Critic)。DPG改進Actor,使它輸出確定行為,在此基礎上引入DQN后增加了經驗回放與雙網絡,使Actor與Critic分別增加了一個目標網絡,提高了價值網絡的穩定性。在復雜的動態多UAV場景下,多個UAV同時與環境交互,每架UAV的決策在訓練中變化也會成為造成環境的變化從而影響其他UAV決策。不穩定的環境會影響DDPG算法收斂,而采用集中訓練和分散執行框架的MADDPG算法可以使每架UAV所處的環境仍然可以被視為穩定。MADDPG算法的主要改進點是利用可觀察全局信息的Critic指導Actor進行個體訓練。

圖2 基于MADDPG算法的模型結構

2.2 獎勵函數設計

在深度強化學習模型中,影響UAV行為的主要因素是獎勵結構。參照文獻[14],如果相互合作的獎勵大于個體的獎勵最大化,則個體傾向于學習尋求協作解決任務的策略。本文模型的特征可以近似為公共物品博弈模型,理性UAV想要保留實力拒絕貢獻,但集群為了完成任務需要UAV貢獻。為了平衡理性個體利益與集體利益間的沖突,本文設計了引導UAV“搭便車”行為的獎勵函數,UAV輸出動作后,環境依據獎勵函數返回對應獎勵。

同樣按照圖3可以對右側底板進行分析(圖4),得出巷道左側的極限破壞深度y′1和沿滑動面KJ的有效滑動力T′1為

5)在每步攻擊后,判斷碉堡情況,根據表1中的條件判斷打擊碉堡任務是否完成。

表1 判斷 k 步攻擊后任務成敗的條件

3 實驗與結果分析

3.1 實驗環境及參數設計

本文使用TensorFlow框架構建訓練網絡,訓練時硬件環境:AMD Ryzen 9 5950X CPU,Nvidia RTX3090顯卡,內存64 GB。

表2 作戰單位給對方造成的初始毀傷概率

3.2 實驗結果及分析

為驗證本文算法的有效性,另外建立了基于IDQN(Independent DQN)[15]與ID3QN(Imitative Dueling Double DQN)[16]這兩種算法的模型與本文算法進行對比,使用的超參數與本文一致。

訓練中得到的輔助UAV集群在每一回合累計獎勵變化如圖3所示。每種算法各訓練3次,圖3中線條代表3次實驗均值,陰影代表3次實驗標準差,可以看出,本文算法收斂效果穩定。隨著訓練次數的增加,使用本文算法訓練輔助UAV集群在5 000回合訓練后即可學習到最大獎勵,在訓練回合數達到2萬回合后,累計獎勵曲線趨于平緩,總體呈收斂趨勢,最優決策下獲得的累計獎勵為515.132;而另外兩種算法訓練效果較差,IDQN無法在探索到的最大獎勵處收斂,而ID3QN趨向收斂至負獎勵。

輔助UAV集群基于三種算法訓練得到的攻擊決策,使打擊碉堡任務成功的比率如圖4所示。利用本文算法訓練UAV的獲勝比率為100%,在經過6 000回合訓練呈收斂趨勢。結合圖3可以看出,只有基于本文算法訓練的輔助UAV集群在最大獎勵處收斂得到的決策方法,可保證打擊碉堡任務得以完成。

圖3 采用3種算法得到的累計獎勵收斂曲線

由于本文算法將輔助型UAV的最優決策作為訓練目標,因此通過修改輔助型UAV數這一參數,并調整獎勵函數,對比三種算法下的多智能體強化學習模型,驗證輔助型UAV數對模型結果的影響,實驗結果如圖5所示。從圖5可以看出,修改UAV數對實驗結果的影響顯著。在不改變打擊型UAV數的前提下,三種算法都無法讓3架輔助UAV完成任務。與4架輔助UAV的情況相比,增加輔助UAV數導致結果不穩定,但相較于其他兩種對比算法,本文算法的優勢更明顯。

圖4 3種算法訓練UAV的獲勝比率

通過分析以上實驗結果可知:一方面,在多UAV混合關系的強化學習環境中,輔助型UAV之間既存在合作關系也包含了競爭關系,增加UAV數的同時會增加混合關系復雜性,難以預知將給實驗結果帶來消極或積極的影響;另一方面,本文實驗也驗證了在構建的多UAV集群公共物品博弈的環境下,MADDPG算法是針對多智能體環境進行設計的,具有針對集中訓練、分散執行的特點,能適用于不穩定的多智能體環境問題。MADDPG算法假定每個智能體都擁有自己的獎勵函數,使智能體在混合關系模型中能夠自適應地調整策略,增強穩定性,更適用于解決個體與集體收益沖突的實際問題。

4 結語

在公共物品博弈中,理性個體在合作中會產生“搭便車”的行為,雖然這種行為可以幫助個體節約成本、減小損失,但是會對集體產生威脅。本文通過設置獎勵函數構建了公共物品博弈框架,利用MADDPG算法訓練UAV集群學習到最好的作戰決策。通過實驗驗證,當UAV集群在對敵時自身力量超過敵方力量時,UAV可以利用MADDPG算法在個體利益與集體利益的博弈中學習,選擇最優決策,有效避免發生“公地悲劇”。

本文除了基于MADDPG算法訓練外,同時與IDQN與ID3QN這兩種算法進行對比實驗,從累計獎勵曲線和任務成功率曲線可以驗證本文算法在多智能體中應用的有效性。

本文為不同價值的UAV主觀分配了作戰任務,但為了更好地適應實際戰斗時變性,在未來的研究里UAV應根據價值與載荷不同自主分配作戰任務。同時在下一步研究中,將結合UAV性能及作戰特點,在對抗中添加更多隨機的影響因素,構造自主機動生成UAV對戰決策方法,更廣泛適用于復雜的真實戰場環境。

[1] AYAMGA M, AKABA S, NYAABA A A. Multifaceted applicability of drones: a review[J]. Technological Forecasting and Social Change, 2021, 167: No.120677.

[2] 馬子玉,何明,劉祖均,等. 無人機協同控制研究綜述[J]. 計算機應用, 2021, 41(5):1477-1483.(MA Z Y, HE M, LIU Z J, et al. Survey of unmanned aerial vehicle cooperative control[J]. Journal of Computer Applications, 2021, 41(5): 1477-1483.)

[3] 黃長強,趙克新,韓邦杰,等. 一種近似動態規劃的無人機機動決策方法[J]. 電子與信息學報, 2018, 40(10): 2447-2452.(HUANG C Q, ZHAO K X, HAN B J, et al. Maneuvering decision-making method of UAV based on approximate dynamic programming[J]. Journal of Electronics Information Technology, 2018, 40(10): 2447-2452.)

[4] 李世豪,丁勇,高振龍. 基于直覺模糊博弈的無人機空戰機動決策[J]. 系統工程與電子技術, 2019, 41(5): 1063-1070.(LI S H, DING Y, GAO Z L. UAV air combat maneuvering decision based on intuitionistic fuzzy game theory[J]. Systems Engineering and Electronics, 2019, 41(5): 1063-1070.)

[5] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2019-07-05) [2023-03-27].https://arxiv.org/pdf/1509.02971.pdf.

[6] YANG Q, ZHU Y, ZHANG J, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm[C]// Proceedings of the IEEE 15th International Conference on Control and Automation. Piscataway: IEEE, 2019: 37-42.

[7] LI Y, HAN W, WANG Y. Deep reinforcement learning with application to air confrontation intelligent decision-making of manned/unmanned aerial vehicle cooperative system[J]. IEEE Access, 2020, 8: 67887-67898.

[8] KONG W, ZHOU D, YANG Z, et al. UAV autonomous aerial combat maneuver strategy generation with observation error based on state-adversarial deep deterministic policy gradient and inverse reinforcement learning[J]. Electronics, 2020, 9(7): No.1211.

[9] LOWE R, WU Y, TAMAR A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]// Proceedings of the 31st Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6382-6393.

[10] 李波,越凱強,甘志剛,等. 基于MADDPG的多無人機協同任務決策[J]. 宇航學報, 2021, 42(6): 757-765.(LI B, YUE K Q, GAN Z G, et al. Multi-UAV cooperative autonomous navigation based on multi-agent deep deterministic policy gradient[J]. Journal of Astronautics, 2021, 42(6): 757-765.)

[11] 禹明剛,何明,張東戈,等. 基于多元公共品演化博弈的無人作戰集群策略占優條件[J]. 系統工程與電子技術, 2021, 43(9): 2553-2561.(YU M G, HE M, ZHANG D G, et al. Strategy dominance condition of unmanned combat cluster based on multi-player public goods evolutionary game[J]. Systems Engineering and Electronics, 2021, 43(9): 2553-2561.)

[12] 邢炳楠,杜忠華,杜成鑫. 采用彈道修正技術的紅外干擾彈性能優化[J]. 國防科技大學學報, 2022, 44(2): 141-149.(XING B N, DU Z H, DU C X. Performance optimization of infrared interference decoy based on trajectory correction technique[J]. Journal of National University of Defense Technology, 2022, 44(2): 141-149.)

[13] 黃捷,陳謀,姜長生. 無人機空對地多目標攻擊的滿意分配決策技術[J]. 電光與控制, 2014, 21(7): 10-13, 30.(HUANG J, CHEN M, JIANG C S. Satisficing decision-making on task allocation for UAVs in air-to-ground attacking[J]. Electronics Optics and Control, 2014, 21(7): 10-13, 30.)

[14] GRONAUER S, DIEPOLD K. Multi-agent deep reinforcement learning: a survey[J]. Artificial Intelligence Review, 2022, 55(2): 895-943.

[15] TAMPUU A, MATIISEN T, KODELJA D, et al. Multiagent cooperation and competition with deep reinforcement learning[J]. PLoS ONE, 2020, 12(4): No.e0172395.

[16] 相曉嘉,閆超,王菖,等. 基于深度強化學習的固定翼無人機編隊協調控制方法[J]. 航空學報, 2021, 42(4): No.524009.(XIANG X J, YAN C, WANG C, et al. Coordination control method for fixed-wing UAV formation through deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(4): No.524009.)

UAV cluster cooperative combat decision-making method based on deep reinforcement learning

ZHAO Lin1, LYU Ke1, GUO Jing2, HONG Chen3, XIANG Xiancai1, XUE Jian1, WANG Yong4*

(1,,100049,;2,,110136,;3,,100101,;4,,100049,)

When the Unmanned Aerial Vehicle (UAV) cluster attacks ground targets, it will be divided into two formations: a strike UAV cluster that attacks the targets and a auxiliary UAV cluster that pins down the enemy. When auxiliary UAVs choose the action strategy of aggressive attack or saving strength, the mission scenario is similar to a public goods game where the benefits to the cooperator are less than those to the betrayer. Based on this, a decision method for cooperative combat of UAV clusters based on deep reinforcement learning was proposed. First, by building a public goods game based UAV cluster combat model, the interest conflict problem between individual and group in cooperation of intelligent UAV clusters was simulated. Then, Muti-Agent Deep Deterministic Policy Gradient (MADDPG) algorithm was used to solve the most reasonable combat decision of the auxiliary UAV cluster to achieve cluster victory with minimum loss cost. Training and experiments were performed under conditions of different numbers of UAV. The results show that compared to the training effects of two algorithms — IDQN (Independent Deep Q-Network) and ID3QN (Imitative Dueling Double Deep Q-Network), the proposed algorithm has the best convergence, its winning rate can reach 100% with four auxiliary UAVs, and it also significantly outperforms the comparison algorithms with other UAV numbers.

Unmanned Aerial Vehicle (UAV); multi-cluster; public goods game; Multi-Agent Deep Deterministic Policy Gradient (MADDPG); cooperative combat decision-making method

1001-9081(2023)11-3641-06

10.11772/j.issn.1001-9081.2022101511

2022?10?13;

2023?04?19;

國家重點研發計劃項目(2018AAA0100804)。

趙琳(1998—),女,遼寧盤錦人,博士研究生,主要研究方向:深度強化學習、無人機集群控制、博弈論; 呂科(1971—),男,寧夏西吉人,教授,博士,CCF會員,主要研究方向:人工智能、計算機視覺; 郭靖(1997—),男,陜西咸陽人,碩士,主要研究方向:深度強化學習、無人機集群控制; 宏晨(1974—),男,寧夏青銅峽人,副教授,博士,主要研究方向:無人機集群控制; 向賢財(1997—),男,湖北施恩人,碩士研究生,主要研究方向:深度強化學習、多智能體系統控制; 薛健(1979—),男,江蘇宜興人,教授,博士,CCF會員,主要研究方向:多智能體系統控制、圖像處理; 王泳(1975—),男,山東濟南人,研究員,博士,主要研究方向:復雜系統建模與優化、模式識別、數據挖掘。

V279+.2

A

2023?04?21。

This work is partially supported by National Key Research and Development Program of China (2018AAA0100804).

ZHAO Lin, born in 1998, Ph. D. candidate. Her research interests include deep reinforcement learning, unmanned aerial vehicle cluster control, game theory.

LYU Ke, born in 1971, Ph. D., professor. His research interests include artificial intelligence, computer vision.

GUO Jing, born in 1997, M. S. His research interests include deep reinforcement learning, unmanned aerial vehicle cluster control.

HONG Chen, born in 1974, Ph. D., associate professor. His research interests include unmanned aerial vehicle cluster control.

XIANG Xiancai, born in 1997, M. S. candidate, His research interests include deep reinforcement learning, multi-agent system control.

XUE Jian, born in 1979, Ph. D., professor. His research interests include multi-agent system control, image processing.

WANG Yong, born in 1975, Ph. D., research fellow. His research interests include modeling and optimization of complex systems, pattern recognition, data mining.

猜你喜歡
智能模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
3D打印中的模型分割與打包
主站蜘蛛池模板: 午夜一区二区三区| 美女视频黄频a免费高清不卡| 99热这里只有精品国产99| 国产欧美日韩在线在线不卡视频| 无码中文字幕加勒比高清| 欧美不卡视频一区发布| 国产www网站| 一级毛片不卡片免费观看| 色爽网免费视频| 亚洲综合精品香蕉久久网| 91久久大香线蕉| 色综合a怡红院怡红院首页| 中文字幕欧美日韩高清| 一本色道久久88亚洲综合| 国产丰满成熟女性性满足视频| 久久久噜噜噜| 久久国产亚洲偷自| 伊人久热这里只有精品视频99| 人妻少妇久久久久久97人妻| 日本黄色不卡视频| 日韩国产无码一区| 欧美日在线观看| 毛片网站在线播放| 国产H片无码不卡在线视频| 女人18毛片一级毛片在线 | 91久久天天躁狠狠躁夜夜| 婷婷激情五月网| 亚洲欧洲一区二区三区| 久久香蕉国产线看观看精品蕉| 成人伊人色一区二区三区| 免费不卡在线观看av| 人妻少妇乱子伦精品无码专区毛片| 亚洲青涩在线| 性欧美在线| 亚洲精品麻豆| 欧美人与牲动交a欧美精品| 亚洲天堂在线免费| 国产精品尤物在线| 亚洲男女在线| 成年人国产网站| 亚洲成人在线免费| 噜噜噜久久| 日韩精品一区二区三区swag| 手机成人午夜在线视频| 国产主播在线观看| 中文字幕在线观| 操操操综合网| 日本亚洲成高清一区二区三区| 精品一区国产精品| 久久国产免费观看| 国产在线97| 中文字幕伦视频| 国产麻豆精品手机在线观看| 国产精品男人的天堂| 中文字幕佐山爱一区二区免费| 国产97区一区二区三区无码| 波多野结衣国产精品| 精品国产免费人成在线观看| 国产麻豆福利av在线播放| 国产成人三级在线观看视频| 精品无码一区二区三区在线视频| 国产超碰一区二区三区| 亚洲日本在线免费观看| 国产h视频免费观看| 99精品一区二区免费视频| 国产精品无码久久久久AV| 国产成+人+综合+亚洲欧美| 国产又粗又猛又爽| 亚洲中文字幕无码mv| 久久伊人操| 久久婷婷国产综合尤物精品| 亚洲天堂2014| 免费观看亚洲人成网站| 国产99在线| 天天躁日日躁狠狠躁中文字幕| 国产精品私拍在线爆乳| 一级香蕉人体视频| 中文字幕色在线| 婷婷综合在线观看丁香| 亚洲人免费视频| 九色最新网址| 亚洲人成网站18禁动漫无码|