999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于STDP獎勵調節的類腦面向目標導航

2023-04-24 02:30:36戴嘉偉晁麗君
導航定位與授時 2023年2期
關鍵詞:動作智能環境

戴嘉偉,熊 智,晁麗君,楊 闖

(南京航空航天大學自動化學院導航研究中心,南京 211106)

0 引言

面向目標導航是智能體自主執行任務(如自主偵察與救援)的前提和基礎。隨著人工智能的迅猛發展,在自然或人為災害后的惡劣環境中,智能體能夠代替人類最大限度地降低目標搜尋等任務難度,并提高任務效率。由于智能體工作逐漸面向非結構化和未知環境,如何快速準確地搜索出一條由初始狀態到目標狀態的安全路徑成為當前智能體規劃的技術難點,即面向目標導航問題。

1970年左右,研究人員就已經開始了對智能體面向目標導航算法的研究[1]。傳統方法中,文獻[2]采用快速擴展隨機樹(rapidly-exploring random tree,RRT)算法,對規劃航路點進行無人機飛行動力學約束和局部航路動態規劃。RRT算法[3-4]無需對規劃空間進行預先處理且概率完備,但在節點拓展時盲目性和隨機性大,缺乏較強的目的導向性。智能啟發式方法[5-6]是受自然規律啟迪而模仿出的算法,具備一定的自我學習、自我更新和記憶能力。文獻[7]采用自適應學習粒子群算法,提出了一種基于協同進化的粒子群算法以解決機器人路徑規劃問題,更好地調整全局和局部搜索能力,解決了粒子群優化的停滯問題,但啟發式算法[8]在未知環境下往往會陷入局部最小問題。除了傳統和啟發式方法之外,基于強化學習的規劃算法如時間差分模型等也被廣泛應用于各種自治系統的路徑規劃[9],但在連續狀態空間中智能體會陷入維數災難,收斂緩慢。此外,近年來基于深度強化學習的智能體導航方法解決了復雜目標任務難以建模的問題。文獻[10]提出了一種基于優化深度Q網絡(deep Q-network, DQN)算法的全局路徑規劃模型,解決了傳統方法中路徑冗余問題,但現實環境和模擬環境的差異性導致智能體可移植性差、計算量大,且訓練過程復雜困難。這類基于傳統馮諾依曼計算結構的規劃方法在面對復雜目標導航問題時具備離散狀態下的有效處理能力,但是其龐大的計算量導致計算效率低下及訓練困難的問題,同時缺少生理學結構的研究,不具備生理學可解釋性,因而需要探索發展基于新型計算模型的,能適應非結構化、未知環境的面向目標導航方式。

為解決現有面向目標導航方法存在的問題,本文提出了一種基于脈沖神經網絡的智能體類腦面向目標導航方法。根據生物大腦海馬體(hippocampus,HC)和腹側被蓋區(ventral tegmental area,VTA)到前額葉皮層(prefrontal cortex,PFC)中動作細胞(action cell, AC)調節現象,采用基于脈沖響應模型的脈沖時間依賴可塑性(spike-timing-depen-dent plasticity,STDP)學習規則,構建了前額葉皮層環狀動作細胞的脈沖神經網絡模型,利用動作細胞群脈沖放電現象表征智能體的運動方向和速度。本文所提模型能夠同時記憶陌生環境中的障礙物和目標位置,通過動作細胞決策實現智能體的面向目標類腦導航功能,同時具備對于多種陌生環境下的面向目標導航能力,具有一定的模型泛化能力。

1 動物面向目標導航機理

生理學上的大腦導航關鍵區域結構示意圖如圖1所示。1971年,J.O’Keefe等發現在海馬體中位置細胞(place cell, PC)存在著空間特定位置選擇性放電現象[11]。動物在到達環境區域時,位置細胞會記憶特定環境信息信標點,迅速生成并且形成穩定的位置野[12-13],同時位置細胞群的放電活動隨著動物到達特定信標點時顯著提高,進而實現了對動物當前位置的編碼[14]能力。動物導航以大腦海馬區中的大量位置細胞集群放電為基礎,逐漸形成穩定編碼空間環境認知地圖[15]的位置野。但是單一海馬位置細胞對環境信息的表征能力并不能實現動物導航過程中的行為決策,需要通過和前額葉皮層構建特定的動態突觸連接結構,形成大腦導航命令和控制中樞神經網絡[16]。

圖1 面向目標導航關鍵腦區Fig.1 Key brain regions for target-driven navigation

生物在環境探索過程中進行目標導航的流程如下:1)由視覺皮層或感覺皮層等接收處理環境狀態信息更新,向大腦腹側被蓋區傳遞環境獎勵信號;2)腹側被蓋區中的多巴胺能神經元接收環境獎勵信號生成獎勵調節信息,海馬體位置細胞生成空間認知信息實現位置信息編碼,兩者進一步通過伏隔核(nucleus accumben,NA)神經元形成前饋通路影響前額葉皮層動作細胞;3)前額葉皮層動作細胞激活依賴PC-AC前饋通路信號和AC橫向通路信號,動作細胞群集群放電影響丘腦(thalamus,Tha)確定生物運動方向;4)通過運動皮層確定運動輸出,更新智能體位置信息,最終完成面向目標導航的過程。具體流程如圖2所示。

圖2 生物導航行為模型Fig.2 Model of biological navigation behavior

2 類腦目標導航模型

根據生物目標導航行為模型,設計了如圖3所示的基于STDP獎勵調節的類腦面向目標導航算法流程,主要內容為:1)構建了海馬體位置細胞和前額葉皮層動作細胞的脈沖神經網絡模型,分別表征智能體位置空間和動作空間信息;2)位置細胞采用前饋連接模型影響動作細胞激活,動作細胞群采用橫向競爭模型輸出動作細胞膜電位;3)根據動作細胞放電率,設計了智能體動作選擇函數,同時基于脈沖神經網絡權值更新方法,智能體接收到環境獎勵調節信息后,采用STDP學習規則更新位置細胞到動作細胞的前饋突觸權值。

圖3 基于STDP獎勵調節的目標導航算法流程Fig.3 Workflow of brain-inspired target-driven navigation algorithm based on STDP reward modulation

2.1 位置細胞建模

當生物處在空間特定的范圍內時,海馬體內某些錐體細胞會出現最大頻率放電現象[17-18],而在其他位置則很少甚至沒有放電現象,則該細胞被稱作位置細胞,其放電現象所對應的環境生物活動范圍則被稱為該細胞的位置野。只要環境處于長期穩定狀態,位置細胞的位置野在環境中的大小、形狀、分布以及最大放電頻率都可以維持較長時間的平穩狀態,這一特性說明了位置細胞的位置表征能力具有良好的穩定性[19]。

在面向目標的導航任務需求下,根據大腦行為決策生理學依據,位置細胞采用位置野信息密集編碼智能體所處的整體空間環境。假設智能體在t時刻的位置由笛卡爾坐標系中的Pos(t)=(x(t),y(t))來表示,智能體當前位置可由位置細胞群放電現象聯合編碼。假設在智能體所處空間環境中均勻分布著Npc=121個位置細胞,位置細胞的位置野半徑為σ=0.4 m,位置細胞的放電率ri可建模為一個非齊次泊松過程

ri(Pos(t))=

(1)

位置細胞放電率ri由智能體當前位置(x,y)到位置細胞中心(xi,yi)的函數關系來表征,當智能體恰好位于位置野中心(xi,yi)時,位置細胞放電率最大,通過這種集群放電編碼方式,位置細胞即可表征整個空間環境。為了保證在保持導航精度的同時縮短計算時間,令λ=400 Hz,位置細胞的放電率會處在較高水平,并且放電率隨著相對距離的增大而逐漸減小。

由于位置細胞建模為泊松神經元,則瞬時放電率為ri的位置細胞在t1~t2時間段內產生n個脈沖序列的概率為

(2)

2.2 動作細胞建模

如圖4所示,位置細胞作為類腦面向目標導航系統的輸入,通過加權系數wff投射到所有動作細胞。這些前饋加權系數初始化為win,并且在最大權值wmax和最小權值wmin之間有界,這樣使得興奮性刺激和抑制性刺激均能通過位置細胞對動作細胞產生影響,同時動作細胞之間通過橫向權重wlc互相連接。根據神經科學理論,神經元在放電之后的短暫時間內存在不應期,即對輸入信號不響應。為了在脈沖序列中模擬這個過程,在神經元放電之后的不應期內,將瞬時放電頻率置為0。在不應期結束之后,瞬時放電頻率在限定時間內逐漸回到原始值。t時刻動作細胞j的膜電位為

圖4 位置細胞-動作細胞模型Fig.4 Model of place cells to action cells

(3)

(4)

動作細胞脈沖響應處于隨機狀態,動作細胞放電率遵循依賴于動作細胞j膜電位的非齊次泊松過程

(5)

定義動作細胞j和k之間的橫向連通權重為

(6)

f(j,k)=(1-δjk)eφcos(θj-θk)

(7)

式中,θj=2jπ/Nac,Nac=40為動作細胞個數;Z為歸一化因子;w-=-300;w+=100;f(j,k)為動作細胞(j,k)間橫向連接函數。橫向連接函數隨動作選擇方向相似度單調遞增,δ為狄拉克函數,φ=20為放電率調節因子。因此,當存在神經元同時處于相似的放電頻率時,動作細胞神經元會處于興奮性刺激連接狀態,否則處于相互抑制性狀態,這保證了任意時間只會存在部分具有相似放電活動的動作細胞處于活躍狀態,使得整體運動軌跡平滑且連續。

2.3 基于STDP獎勵調節的面向目標類腦導航

2.3.1 面向目標類腦導航模型

在實驗環境中,智能體位置信息由位置細胞編碼,而智能體運動方向和速度決策由動作細胞決定。當遇到障礙物,環境邊界或目標點獲得獎勵信號時,智能體通過STDP獎勵調節規則調節位置細胞和動作細胞之間的前饋連接突觸權重。動作細胞之間通過橫向連接互相影響,當動作細胞神經元存在相似放電現象時,動作細胞神經元會處于興奮性狀態,否則處于抑制性狀態。因此,智能體運動決策依賴于動作細胞,而動作細胞的激活依賴于位置細胞的前饋連接和動作細胞間的橫向連接。

動作空間由脈沖神經網絡建模的動作細胞表示。不同的動作細胞分別表示不同的運動方向,通過橫向連接確保細胞間互相競爭,實現勝者為王的局面。來自位置細胞前饋連接和來自動作細胞橫向的競爭連接共同作用,經式(3)輸出動作細胞膜電位,聯合決定動作細胞脈沖響應,最后由脈沖響應動作細胞放電率決定每個時刻前進的速度和方向。智能體的運動由動作細胞決定,設速度參數a0=0.1 m,采用動作細胞神經元aj表示笛卡爾平面上不同的前進策略

aj=a0(sin(θj), cos(θj))

(8)

智能體的動作選擇過程根據動作細胞神經元放電率,由濾波脈沖序列Yj和核函數γ決定

(9)

(10)

在連續運動情況下,需要動作細胞在每個時刻t都即時輸出動作選擇。每個動作細胞j表示了方向aj,t時刻前額葉皮層動作選擇過程中的動作細胞放電率為ρj(t),決定了最優的前進方向a(t),a(t)為所有動作神經元決策方向的加權均值,如式(12)所示

ρj(t)=(Yj°γ)(t)

(11)

(12)

式中,Nac為動作細胞數量;°表示映射的乘積,即(Yj°γ)(t)=Yj(γ(t))。在動作細胞數目足夠多的情況下,該動作決策機制使得智能體具備了任意方向的連續移動能力,同時提高了導航定位和動作選擇的準確性。當動作a(t)確定之后,智能體的位置信息根據式(13)進行更新

(13)

智能體根據t時刻動作選擇a(t)移動,當到達訓練邊界時,通過指向邊界內部的單位向量u(x(t))與抗拒距離d=0.01 m轉至訓練區域內部。為避免較大的邊界效應,邊界上的位置細胞和指向邊界外的動作細胞間的前饋連接權重設置為0。

2.3.2 基于STDP獎勵調節的突觸權值更新方法

興奮性和抑制性突觸的權值變化效率受到多種可塑性機制的影響,其中STDP建立在神經元脈沖模式的相關性基礎上,是赫布可塑性的一種形式。STDP的確切形式會因為不同類型的突觸形式而不同。在其最常見的形式中,突觸時間依賴的可塑性表明,突觸前脈沖發生后不久突觸后脈沖就發生(前-后模式,pre-post)會導致突觸權值的增加,即突觸的長期增強(long-term potentiation,LTP),突觸權重的增加隨著兩次脈沖時間的不同呈指數衰減;反之,當突觸前脈沖發生在突觸后脈沖之后(后-前模式,post-pre)會導致神經元間突觸經歷一個長期抑制(long-term depression,LTD)。現在人們普遍認為,記憶和學習與STDP密切相關[20-21]。在數學上,突觸強度的變化可以表示為

(14)

本文的學習模型考慮了突觸前和突觸后神經元之間的多個脈沖相互作用。在非對稱形式學習規則中,STDP函數由式(15)中函數定義

(15)

如果Δt>0,即權值變化為正,則認為發生了突觸的長期增強;另一方面,如果Δt<0,即發生了突觸的長期抑制,那么突觸權重減小。A+和A-分別是定義LTP和LTD窗口大小的標度常數,τ+和τ-定義了2個窗口的衰減率,其中A+=0.1,A-=-0.15,τ+=τ-=20 ms。

STDP規則中,突觸的強度和突觸后脈沖的概率之間存在線性關系:權重越大,下一個神經元就越有可能發生放電現象。因此,一旦突觸增強,其后續增強的機會就會增加。然而,在生物學中,突觸權重不能任意增大。因此,本文將興奮性突觸的大小限制在0~3 mV之間,抑制性突觸的大小限制在0~1 mV之間。對于獎勵調節STDP模型,在突觸ji上從神經元i到神經元j的權值變化wji可以寫成

Δwji(t)=eji(t)d(t)

(16)

式中,eji表示t時刻從神經元i到神經元j的資格跡;d(t)為獎賞函數。資格跡函數由以下函數給出

(17)

式中,stdp(tpost-tpre)為根據STDP學習規則變化的突觸權值;τc=10 ms是表征資格跡衰減率的時間常數。

在獲得獎勵后,多巴胺(dopamine,DA)獎勵函數d(t)會隨著時間的推移而增加,然后呈指數衰減到基礎水平

(18)

(19)

式中,DA(t)為多巴胺濃度(M);τd=0.2 s為DA時間常數,確保突觸權重不會發生劇烈的跳變。圖5所示為本文資格跡追蹤影響下的突觸強度變化示意圖,pre-post脈沖對產生了興奮性刺激下的資格跡響應,并且在此期間使得受到多巴胺激勵的突觸強度增強。

圖5 突觸權值受資格跡影響示意圖Fig.5 Model of synaptic weights affected by the eligibility trace

3 仿真實驗及結果分析

為驗證本文所提智能體類腦面向目標導航算法的有效性,設計圖6所示單障礙4 m×4 m的正方形實驗環境,進行目標導航實驗驗證,實時記錄并保存實驗中動作細胞放電率和突觸權重等相關參數。智能體的起點固定為環境邊界左下角(0,0),圓形目標點半徑為0.25 m,正方形障礙物邊長為0.5 m。在智能體對環境的逐步探索過程中,獲取環境反饋獎勵信號,至智能體到達未知目標點或者最大探索時間結束時,采用第2章中STDP權重更新方法優化突觸權值。多次訓練后,智能體能夠以較優路徑到達未知目標點。

(a) 1次實驗

(b) 4次實驗

(c) 8次實驗

(d) 12次實驗

(e) 16次實驗

(f) 20次實驗圖6 避障條件下的目標導航軌跡Fig.6 Target navigation trajectory in obstacle conditions

當訓練開始時,智能體初始化前饋突觸和橫向突觸權重,并采用隨機策略對環境進行探索,同時學習從起點到未知目標點的導航方式。實驗中將單次探索最大時間Tmax設置為50 s,智能體可以在Tmax的最大持續時間內自由探索環境,如果在單次探索最大時間內發現未知目標并獲得獎勵,則一次探索提前終止,同時進入神經不應期,300 ms后重新開始新一輪探索。為了在脈沖序列中模擬這個過程,在神經元放電之后的不應期內,通過抑制所有位置細胞的活性,將瞬時放電頻率置為0。

在4 m×4 m的正方形測試環境中,智能體通過多次訓練學習,能夠在陌生環境中迅速找到目標位置,并且實現從起始位置到目標位置的局部導航任務。圖6所示為智能體在測試環境中不同訓練次數下的目標導航軌跡,圖6(a)~(f)分別為1次、4次、8次、12次、16次及20次實驗的智能體路徑圖,圖7所示為對應的動作細胞導航策略圖,圖8所示為對應的位置細胞前饋突觸平均權重圖。在前12輪實驗中,智能體由于初步進入陌生環境,尚未遍歷整個環境,對于環境探索的隨機策略導致了運動軌跡的隨機性,同時運動策略和突觸平均權重較為混亂,難以實現準確穩定的目標導航。在約12次訓練后,智能體已經完成了隱藏目標點的探索過程,在面對環境中心的障礙物時,智能體運動策略已經顯示出避讓趨勢,且障礙附近和遠離最優路徑的突觸權值逐漸降低,此后實驗中智能體具有了面向目標導航的能力。在第20次實驗時,智能體已經實現了在障礙環境中的無碰撞面向目標導航任務。

圖7 運動策略Fig.7 Behavioral strategy

圖8 位置細胞前饋平均權重Fig.8 Average weight of place-cell feed-forward synapses

根據實驗結果可以看出,經過約12次訓練之后,在沒有外在路標參考情況下,智能體已經初步具備向目標點移動的目標導航能力,且靠近目標位置的前饋突觸權值持續得到強化,表明智能體位置細胞-動作細胞模型已經記憶了障礙物和目標點位置,智能體在路徑規劃中動作細胞選擇模型動作規劃能力不斷提高。經過20次左右的訓練,智能體已經學會從起點以無碰撞路徑實現面向目標的穩定避障導航。

為進一步驗證本文提出的基于STDP學習規則的目標導航方法的有效性和收斂性能,在相同的單障礙實驗環境中,采用目標導航算法中經典強化學習方法Q-learning算法對智能體進行路徑尋優實驗。對傳統Q-learning模型和STDP模型分別進行10次80輪實驗,再求取平均規劃路徑長度和平均規劃用時,其中平均規劃路徑長度40輪實驗后均收斂,故截取前40輪實驗結果。仿真實驗結果如圖9和圖10所示。在更新地圖動作細胞過程中,由于需要重復遍歷整體陌生環境,采用STDP模型的智能體在初始路徑規劃長度上明顯大于傳統Q-learn-ing方法。而且,在后續得到目標點獎勵后,通過STDP學習規則和資格跡延遲獎勵,能夠有效加速規劃路徑長度收斂,平均規劃路徑長度縮短了15.9%,并且在算法規劃時間上,STDP模型對比傳統Q-learning方法具有明顯的優勢。

圖9 平均規劃路徑長度對比Fig.9 Comparison of average path-planning length

圖10 平均規劃用時對比Fig.10 Comparison of average path-planning time

為了研究STDP模型在復雜環境中的導航能力和環境適應性,通過迷宮仿真環境進行該問題的探索驗證。模擬仿真環境如圖11(a)迷宮環境所示,智能體從環境下方起點開始,且能夠在迷宮中自由探索。本實驗在目標附近設置了黑色U 形障礙,在智能體對環境的逐步探索過程中,獲取環境反饋獎勵信號,至智能體到達未知目標點或者最大探索時間結束時,采用第2章中STDP權重更新方法優化突觸權值,多次訓練后,智能體能夠以較優路徑到達未知目標點。圖11(b)迷宮規劃軌跡使用不同顏色表示了智能體從實驗次數1~75的運行軌跡,仿真初始階段(藍線部分)學習如何避開墻壁和障礙物,當到達一次目標之后,后面的軌跡則會重復學習獎勵高的軌跡,后續階段(紅色部分)表示智能體已學到的軌跡可以適應面向目標的迷宮環境導航。

(a) 迷宮環境

(b) 迷宮規劃軌跡

(c) 迷宮運動策略圖11 迷宮環境類腦目標導航實驗Fig.11 Brain-inspired target navigation experiment in maze

通過智能體中位置細胞到動作細胞的前饋連接權重大小,可以深入了解在導航過程中學習到的權重分布,導航運動策略如圖11(c) 所示。圖中以不同顏色對智能體的權重強度進行區分,藍色表示強度最低,紅色表示強度最高。在迷宮環境下的實驗可以看出,智能體經過對環境的任意探索,40次實驗之后已經學習到面向目標導航的趨勢,并學習到了適應U形迷宮的導航策略;在變更驗證環境后,本文提出的STDP模型也能夠適應多種障礙環境下的面向目標導航任務,初步具備多環境下的泛化導航能力。

4 結論

本文針對無先驗知識空間中面向目標導航問題,主要工作如下:

1)根據動物導航過程生理學依據,構建了基于脈沖神經網絡的海馬體位置細胞和前額葉皮層動作細胞的特征表示模型,提出了一種基于STDP學習規則的面向目標類腦導航方法。

2)仿真實驗表明,該模型能夠有效地學習連續空間中面向目標位置的導航策略,實現障礙環境中穩定的學習和導航活動。本文所提出的類腦導航模型在單障礙環境中算法收斂性能優于傳統Q-learning方法,平均路徑規劃長度縮短了15.9%,平均路徑規劃用時為30 ms,具有明顯優勢。迷宮環境中,本文模型在40次實驗后也能適應面向目標導航任務,對進一步發展未知環境下智能體面向目標導航方法具有較好的參考意義。

猜你喜歡
動作智能環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
環境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
主站蜘蛛池模板: 国产一二视频| 无码aⅴ精品一区二区三区| 国产精品福利在线观看无码卡| 三区在线视频| 日本欧美午夜| 国产H片无码不卡在线视频| 国产91小视频在线观看 | 国产精品一区在线麻豆| 亚洲AV人人澡人人双人| 综合久久五月天| 亚洲第一在线播放| 中文字幕免费播放| 亚洲国产精品日韩专区AV| 性色一区| 18禁高潮出水呻吟娇喘蜜芽| 亚洲成年人片| 成人在线不卡视频| 国产正在播放| 久久国产精品国产自线拍| 欧美成人第一页| 亚洲欧美综合另类图片小说区| 中文字幕在线免费看| 亚洲第一成年人网站| 黄片在线永久| 美女潮喷出白浆在线观看视频| a级毛片免费播放| 中文字幕 欧美日韩| 欧美日韩国产精品综合 | 国产在线视频二区| 亚洲天堂首页| 综合五月天网| 欧美国产日韩在线| 国产精品永久在线| 国产全黄a一级毛片| 91最新精品视频发布页| 永久毛片在线播| 天天综合网色中文字幕| 免费啪啪网址| 99久久99视频| 在线精品自拍| 国产成人免费视频精品一区二区| 亚洲精品国产成人7777| 精品无码一区二区三区电影| 久久精品aⅴ无码中文字幕 | 精品国产亚洲人成在线| 伊人久久大香线蕉aⅴ色| 91在线日韩在线播放| 亚洲精品黄| 中文字幕天无码久久精品视频免费| 欧美一区福利| 华人在线亚洲欧美精品| 国产精品无码作爱| 国产国模一区二区三区四区| 欧美19综合中文字幕| 伊人成人在线视频| 一级毛片a女人刺激视频免费| 毛片免费高清免费| 日韩精品无码免费专网站| 国产啪在线| 黄色网站在线观看无码| 丁香五月激情图片| 精品视频一区二区观看| 国产第一页亚洲| 欧美成人免费| 91年精品国产福利线观看久久 | 在线综合亚洲欧美网站| 国产在线观看第二页| 2020精品极品国产色在线观看| 欧洲日本亚洲中文字幕| 免费国产不卡午夜福在线观看| 亚欧美国产综合| 国产精品吹潮在线观看中文| 男女精品视频| 99久久人妻精品免费二区| 欧美日本二区| 99re在线视频观看| 国产黄色爱视频| 亚洲九九视频| 伊人狠狠丁香婷婷综合色| 久久久久88色偷偷| 久久综合色88| 伊人蕉久影院|