999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

風險敏感馬氏決策過程與狀態擴充變換*

2023-02-03 08:07:14馬帥夏俐
關鍵詞:優化策略

馬帥,夏俐

中山大學管理學院,廣東廣州 510275

馬氏決策過程(MDP,Markov decision process),又稱馬氏控制過程(controlled Markov process)或隨機動態規劃(stochastic dynamic programming),其主要研究對象是轉移結構受控的隨機動態系統。根據系統的狀態,決策者選取一個動作來控制或影響系統的演化,這種狀態-動作映射即為一個策略。在無后效性的策略作用下,MDP將產生一個含報酬信號的馬氏過程(MRP,Markov reward process)。在隨機報酬過程{Rt}的基礎上,MDP的優化準則(optimality criterion)量化了策略的性能。經典的優化準則主要考慮風險中性(risk-neutral)的累計報酬期望,主要分為累積(折扣)準則與長期平均準則。由于期望準則滿足全期望公式且具有時間一致性(time-consistency),該準則下的最優策略可通過Bellman 最優方程迭代得到。由于風險中性優化準則的良好性質,此類準則已被廣泛研究[1-2]。然而經典理論中無風險概念的優化準則無法滿足諸如金融、交通、醫療與能源等領域中風險敏感(risk-sensitive)工程問題的實際要求,即決策者難以接受伴有高風險的高收益。

隨著人們對風險的愈發重視,針對MDP 中風險準則的研究漸受關注。該研究通常包含兩類問題,一類是當MDP 模型信息不完備,由參數不確定性造成的風險。此類問題通常被稱為魯棒控制(robust control),決策者需針對最壞情況下的參數組合進行優化[3]。本文主要研究由MDP 內在隨機性引起的風險,此類問題被稱為風險敏感MDP(risk-sensitive MDP)。風險敏感MDP 是一個重要研究方向,通常對標風險中性MDP,與魯棒控制和微分博弈(differential game)存在密切的聯系,是對傳統風險中性MDP 的擴展。風險敏感MDP 中,決策者需選取一個最優策略,在該策略下可以生成一個“好”的隨機報酬過程{Rt},其中Rt為t∈N 時刻所得一步報酬。對“好”的量化體現于優化準則中,通常用風險測度(risk measures)將一個策略下的{Rt}轉化為標量,并考查該策略是否滿足可能存在的約束集。風險敏感MDP 中的風險測度ρ可以分為兩類,一類著重考查{Rt}的動態性,通常定義為

其中ρt為t∈N 時刻的條件風險測度,此類風險測度被稱為Markov風險測度(Markov risk measure)[4-5]。另一類測度定義在一個由{Rt}簡化而來的靜態隨機變量,該靜態隨機變量通常被定義為累積(折扣)報酬或平均報酬。以無限階段MDP為例,給定折扣因子γ∈(0,1),其累積折扣報酬定義為

該隨機變量也被稱為收益(return),經典的期望準則與一系列風險測度皆定義于此類靜態隨機變量。相比于Markov 風險測度,基于靜態隨機變量的風險測度被廣泛研究,主要可分為三類:基于方差的測度、基于效用的測度與基于分位數的測度。

方差作為隨機變量的中心二階矩,是一種天然的風險測度。風險敏感MDP中的方差準則包括:

收益方差V(Φ),該準則針對收益的方差進行優化。Sobel 為帶有確定性報酬的MRP 收益方差給出了解析解[6]。Mannor 和Tsitsiklis 證明了有限階段的均值-方差問題為NP-難[7]。Tamar 等[8]為多種基于收益方差的優化準則提出了基于策略梯度的優化方法。Xie等[9]針對均值-方差問題提出了坐標下降法。

相比于前兩類方差,該準則旨在量化一步報酬的穩定性。Sobel和Chung研究了帶有均值約束的單鏈MDP中穩態方差優化問題[12-13]。Prashanth 等[14]應用Actor-Critic 算法估計策略梯度,進而優化穩態方差,該方法的局部收斂性可通過常微分方程證明。Gosavi[15]針對穩態方差提出了Q-learning算法,該算法在假設下可收斂。Xia[16]針對穩態方差的時變性,提出了“偽方差”的概念,進而提出了高效的策略迭代算法。基于該算法,Ma等[17]在穩態方差的基礎上引入折扣因子,以一步報酬波動性現值的累積為優化目標,針對一類基于該方差的優化準則提出了兩層優化算法框架,并在該框架下提出了值迭代算法,并證明其局部收斂性。

由于有著諸多良好性質,基于方差的優化準則被廣泛應用于金融、能源、交通與制造業等領域的風險敏感決策問題。金融市場中,Markowitz將方差引入優化目標,在投資組合領域提出了均值-方差優化方法[18]。這種方法被廣泛應用于投資組合及對沖等金融問題[19]。能源領域中,當間歇性清潔能源(風電、水電、太陽能等)接入電網,如何借助儲能設施,建立合理的充/放電策略,使得電網的穩態負載方差較小,對電網的安全性與經濟性至關重要[20]。交通系統中,交通擁堵與安全等問題往往與交通流的波動性直接相關,尤其是在不久的將來,智能網聯車逐漸增多,如何調控此類異質交通流將會成為研究熱點[21]。工業界中,方差可以作為產品質量控制的優化目標,進而平穩生產流程,減小產品質量波動[22]。當被考查隨機變量的分布近似正態分布時,方差是一個良好的風險測度。然而當分布的對稱性較差,或隨機變量的正/負偏差需要區別對待時,方差不再是一個合適的優化準則。

效用理論始于經濟學,最早由Morgenstern 和von Neumann于1947年提出[23]。效用理論將隨機收益所產生的效用定義為確定性等價物(certainty equivalent),即與該隨機收益具有相同效用值的確定性收益,該確定性收益取決于決策者對不同風險情況的主觀評價。經典案例有阿萊悖論(Allais Paradox)[24]與圣彼得堡悖論(St.Petersburg Paradox)[25]。阿萊悖論表示,決策者更愿意選擇100%的概率得到100 萬元,而非10%的概率得到500 萬元,89%的概率得到100萬元,1%的概率無收益,即使前者的期望收益小于后者。該情況出現的原因被歸結為確定性效應(certainty effect),即決策者過度重視確定性的收益。圣彼得堡悖論表示,人們不愿意以較大的付出來參與一場收益期望無限大的游戲。該游戲中,參與者需投擲一枚硬幣,若第一次投擲為正面,可得收益2且游戲結束;若第一次投擲為反面,則繼續投擲,若第二次為正面則可得得收益4,且游戲結束,如此,參與者若投擲不成功則繼續投擲,直到成功。若第n次投擲成功,則收益為2n,游戲結束。人們不愿意以較大的付出來參與該游戲的原因主要被歸結于決策者會弱化小概率事件的意義。上述例子中決策者的主觀態度可以通過效用函數進行量化。風險敏感MDP 中,效用函數形式通常為U-1{E[U(Φ)]}.指數效用(exponential utility)是效用函數族中的經典形式,被應用于最早的風險敏感MDP模型[26],由于其結構的良好性質,可以構成特殊的乘法形式Bellman方程。該效用可表示為

即U(x) ?exp(βx).Chung等[27]首次針對收益的指數效用研究了基于收益分布的不動點定理。B?uerle等[28]證明MDP中指數效用準則可通過定義擴充狀態空間進而通過值迭代算法求解。Zhang為連續時間MDP中的指數效用準則建立了最優方程,并證明了最優確定性平穩策略的存在性[29]。實際工程中,指數效用準則被應用于軍事[30]、金融[31]與交通[32]等領域。

分位數是對隨機變量分布最直接的刻畫。風險價值(VaR,value at risk)是一種經典的基于分位數的測度,它起源于金融界,由JP 摩根(J P Morgan)于20 世紀80 年代提出,并于90 年代被列入到《巴塞爾協議》中。作為商業銀行資產風險評估的標準之一,VaR 刻畫了在一定的概率水平(α)下收益的最小可能值(τ)。從數學上講,數值對(τ,α)為隨機變量累積分布函數(CDF,cumulative distribution function)上的點,而α-VaR 即α分位點。Filar 等[33]為風險敏感MDP 中基于VaR 的研究定義了兩類問題:給定α下τ的優化與給定τ下α的優化。雖然兩個問題都是對收益CDF 的直接優化,但在風險敏感MDP 中的方法卻不盡相同[34]。VaR 雖然是一種直觀的風險測度,但并不具有良好的數學性質(如凸性),不能很好地度量尾部風險,且不滿足一致性公理。在VaR 的基礎上,Rockafellar 等[35]于2000 年提出一種新的風險測度——條件風險價值(CVaR,conditional VaR)。CVaR 又被稱為expected shortfall、average value at risk 或expected tail loss,它量化了在收益不小于給定VaR 值的條件下收益的平均值。與VaR 相比,CVaR 滿足次可加性、正齊次性、單調性及傳遞不變性,因而CVaR 是一種一致性(coherent)風險測度[36]。由于具有較好的數學性質,CVaR在風險敏感MDP中具有較為廣泛的研究。Borkar和Jain針對帶有CVaR約束的有限階段MDP問題提出了動態規劃算法,并證明了算法的收斂性。然而該算法涉及連續變量的積分,在實際應用中難以實施[37]。B?uerle和Ott證明了CVaR準則下存在最優Markov策略,該策略定義在包含了累積報酬的擴充狀態空間上[38]。基于該擴充空間,Haskell 和Jain 為CVaR 準則下的MDP 問題提出了基于數學規劃的算法,然而該非凸規劃需要通過求解一系列的線性規劃進行近似求解[39]。Prashanth 針對帶有CVaR 約束的MDP問題提出了策略梯度算法,該算法可收斂至局部最優[40]。Chow 等從魯棒優化的角度分析了CVaR 準則下的MDP 問題,證明了其與帶約束魯棒優化問題的等價性,并提出了近似值迭代算法[41]。除了金融領域[42],CVaR也被廣泛應用于能源[43]、交通[44]與醫療[45]等領域中。針對CVaR的綜述,見文獻[46]。

由文獻綜述可見,針對不同的風險測度,學者們提出了諸多理論方法,然而理論方法與工程問題常存有差異。對于風險敏感MDP 而言,這種差異的主要形式之一就是報酬函數的差異。當系統的不確定性來源復雜時,風險敏感MDP 中的報酬函數形式將隨之變得復雜。理論方法中的MDP 報酬通常是確定性的、基于當前狀態的[47-51],即Rt=r(Xt,Kt),其中r為報酬函數,Xt與Kt分別為t∈N 時刻的狀態與動作;而工程問題中的報酬可能是隨機的、基于狀態轉移的,如Rt~r(Xt,Kt,Xt+1),其中r為報酬分布函數。這種報酬函數形式的差異對風險中性的期望準則而言無關緊要,通常方法即將報酬函數進行線性簡化(見定義1)。然而對于風險敏感MDP 而言,這種對報酬函數的簡化將改變隨機報酬過程{Rt},進而改變絕大部分風險測度。以累積折扣報酬的方差為例,Sobel 為帶有確定性報酬函數的無限階段離散MRP給出了方差評估算法,然而該方法無法直接應用于帶有隨機報酬的MRP[6]。針對此類問題,一種解決方案是對報酬函數進行簡化,然而該簡化將改變MRP 的{Rt},進而改變累積折扣報酬的方差。另一種方法是針對此類問題開發專門的(ad hoc)算法,但這種算法的設計開發需要工程相關的從業人員對問題本質有著深度的理解。如何從實際問題出發,考慮絕大部分風險測度,將針對簡單模型的理論方法與實際中的復雜工程問題合理對接,是風險敏感MDP中的一個重要問題,具有一定的理論意義和廣泛的應用背景。

狀態擴充變換(SAT,state augmentation transformation)針對風險敏感MDP,將帶有復雜報酬函數的MDP 變換為帶有簡單報酬函數的MDP,且保證相同策略(原始策略與對應擴充策略)下MRP 的隨機報酬過程{Rt}不變。本文針對MDP中的策略評價,通過數值實驗,在給定策略下的MDP中考查三類常用的風險測度:方差、指數效用與條件風險價值,并對比通過SAT 與報酬函數簡化所得三類風險的差異,進而驗證SAT對帶有復雜報酬函數/隨機策略的MDP中風險敏感策略評價的有效性。理論驗證與數值實驗均表明,當報酬函數形式較為復雜時,狀態擴充變換可在簡化報酬函數的同時保持風險測度不變。故而在不確定性來源復雜的風險敏感工程問題中,需通過SAT 而非簡化報酬函數來對MDP進行報酬函數形式上的簡化。最后,討論SAT的一些潛在發展方向。

1 風險敏感MDP模型

1.1 MDP模型

本文主要研究無限階段時齊(time-homogeneous)離散MDP,其狀態與動作數量均為有限。一個MDP可定義如下:

(i)確定性的、基于狀態的報酬rDS:S×A→R;

(ii)確定性的、基于狀態轉移的報酬rDT:S×A×S→R;

(iii)隨機性的、基于狀態的報酬rSS:S×A→Δ(R);

(iv)隨機性的、基于狀態轉移的報酬rST:S×A×S→Δ(R).r∈{rDS,rDT,rSS,rST}為系統的報酬函數或報酬分布函數,令Rt∈[-C,C]為t時刻的一步報酬,其中C∈R 為一步報酬絕對值的上確界。簡潔起見,相同報酬函數表述也被使用于MRP。對于隨機性報酬,本文僅考慮離散隨機報酬分布。

策略描述了決策者如何選擇動作。針對無限階段MDP,本文僅考查平穩Markov策略,即當前動作的選擇僅依賴于當前狀態而非整個歷史,且策略不隨時間改變。用D表示平穩Markov策略空間,其可進一步分為確定性策略空間Dd與隨機性策略空間Dr。M在策略d∈Dd的作用下將構成Md=S,rd,pd,μ,γ②此處忽略策略對狀態空間的可能影響。。需 注 意 的 是,M在 策 略d∈Dr的 作 用 下 構 成 的Md不 能 直 接 表 述 為S,rd,pd,μ,γ,這是因為該表述暗示了報酬函數的部分簡化,進而改變{Rt}。這也是下文中,情況3無法與情況2建立等價性的原因。

定義1(報酬函數線性簡化) 給定一個M與策略d∈D,若所得MRP的報酬(分布)函數rd非rDS型,則可通過計算條件期望將rd簡化為rDS。考慮最一般化的形式,以一個帶有rST的M在隨機策略d∈Dr下所生成的Md為例,其報酬函數可作如下線性簡化:

其中supp{rd( · |x,a,y)}表示分布rd( · |x,a,y)的支集(support)。

當優化準則為風險中性的平均準則或折扣準則時,報酬函數的線性簡化不會影響策略的最優性。然而優化目標為風險測度時,報酬函數的線性簡化將改變Md的{Rt},進而改變策略的最優性。下文將介紹三種常用風險測度的計算或估計。

1.2 風險測度

本部分內容主要介紹三種經典風險測度:方差、指數效用與CVaR。針對MRP的收益,三種風險測度可定義如下。

方差 方差作為隨機變量的中心二階矩,是最具代表性的風險測度之一。MRP中收益的方差定義為

其中Eμ與Vμ為給定系統初始狀態分布μ時的期望與方差。Sobel基于Bellman 方程,為帶有確定性報酬的MRP中收益的方差提供了一種高效計算方法。

定理1為MRP收益的方差給出了一種類Bellman方程的高效算法,但該算法僅針對帶有確定性報酬的MRP。

指數效用 給定一個風險敏感系數β∈R,MRP的指數效用為

其中O( · )為無窮小漸近。由此可知,當β<0 時,該準則為一種風險規避準則。當β足夠小時,該準則可以用收益的期望與方差近似估計。

CVaR CVaR 是當收益值超過某置信度下的VaR 情況時的條件數學期望,VaR 是收益在給定置信度α∈(0,1)下的最小收益值。給定一個置信度α,MRP的VaR定義為:

雖然CVaR 作為一類一致性風險測度,具有良好的數學性質,但難以在MRP 中被高效評估。本文通過假設收益的分布近似服從正態分布,進而對指數效用與CVaR進行近似估計。

假設1 MRP的收益近似服從正態分布。

在假設1下,CVaR可如下估計:

其中g與G分別表示標準正態分布N (μ,σ2)的概率密度函數和累積分布函數,該式被稱為逆米爾斯比率(inverse Mills ratio)。更多常用常見分布的CVaR表達式可見文獻[52]。

當一個帶有rST的MDP/MRP 需要應用一種針對帶有rDS模型的理論方法時,該如何處理方法與模型在報酬函數上的差異?一種方法是為特定問題開發新算法,但這種方法需要工程相關的從業人員對問題本質有著深度的理解。另一種方法是應用SAT將其變換為一個帶有確定性報酬的MDP/MRP。

2 狀態擴充變換

針對理論方法與實際問題由于報酬函數的差異而引起的風險測度優化與評估的問題,本文研究了狀態擴充變換(以下簡稱SAT)[53]。該方法針對上述問題,從策略優化與評價兩個角度為兩類MDP/MRP建立等價形式,即對于一個帶有復雜報酬函數的MDP/MRP,SAT 可以將其轉換為一個帶有簡單報酬函數的MDP/MRP,且兩者的{Rt}相同。本文針對MDP 中的策略評價,考查三類不確定性來源:由狀態轉移導致的不確定性、報酬本身的隨機性與策略的隨機性。將不確定性來源依次擴展,定義如下三種情況。

情況1:帶有rDT的Md;

情況2:帶有rST的Md;

情況3:帶有rST的M和一個d∈Dr.

其中情況1 為早期SAT 考慮的問題,因其針對帶有基于狀態轉移報酬函數的MRP,故又稱狀態轉移變換[54]。情況2 為情況1 的拓展,考慮了更一般化的報酬函數。情況3 將問題進一步擴展,將由策略引起的隨機性考慮進來。三種情況中前者為后者的特殊形式,若以“ ?”表示此種關系,則有

對于情況3下的SAT有如下定理。

定理2(SAT 作用下的隨機報酬過程等價性) 對于任意MDPM=S,A,r,p,μ,γ,其中r為rST形式,在策略d∈Dr下所產生的Md與SAT變換所得M?d的{Rt}相同。

證明 考慮Md下任意樣本路徑ω=(s0,a0,s1,j1,a1,s2,j2,a2,…)。對任意t∈N,令ω(t) =(s0,a0,s1,j1,a1,s2,j2,a2,…,st,at,st+1,jt+1)及其概率P(Ω(t) =ω(t))。對應該樣本路徑,在M?d下

該定理描述了情形3 中兩個帶有不同類型報酬函數的MRP 關于{Rt}的等價性,而當兩個MRP 的{Rt}相同時,其風險測度必然相同。針對MDP 的SAT 被證明于文獻[53],并于文獻[55]從概率空間的角度被進一步補充。值得注意的是,當直接將SAT 應用于MDP進行策略優化時,由于狀態空間的擴充,對應策略空間也需要擴充。應在擴充策略空間上增加相應約束,進而保證其與原策略空間的一一映射關系,詳見文獻[55]。由定理2出發,可得針對情況1與2的推論,此處以情況2 為例給出相應推論。

針對該推論的證明詳見文獻[53]。依據推論1,以一個帶有rSS報酬函數的二狀態MRP 為例,SAT 的作用如圖1 所示。圖中圓圈表示隨機過程的狀態,箭頭表示狀態轉移,其上方的數字表示對應的轉移概率,狀態旁的方框表示報酬,隨機性報酬表示為報酬值與括號中的概率。該圖示直觀地解釋了SAT 在簡化報酬函數的同時保持{Rt}不變的原理,即將對一步報酬有影響的因素綜合為一個擴充狀態,該擴充狀態可以被理解為與報酬對應的“情況”。SAT作用下產生的隨機過程保留了原過程的Markov性,且新的轉移核可由原MRP 的轉移核與報酬/策略的分布計算而得。圖1 中,帶有隨機報酬的狀態y被擴充為兩個狀態:y1與y2,分別代表了狀態為y時,獲取報酬值為-1 與1 的兩種“情況”。基于擴充狀態空間,該MRP的轉移概率可由原轉移概率與狀態y上的報酬分布計算而得。

圖1 一個MRP在報酬函數線性簡化與SAT作用下的兩種變換Fig. 1 The linear reward simplification and the SAT on an MRP

3 數值實驗

本部分內容以圖1 所示MRP 為例,通過數值實驗考查報酬函數簡化對三種風險測度的影響,同時驗證SAT的有效性。由于指數效用與CVaR的估計均基于假設1,首先驗證該假設對于此MRP是否成立,該驗證可量化為近似分布與真實分布的誤差分布的尾部概率。

3.1 近似分布的誤差

當ACDF與AECDF相似度較高時,該近似分布的誤差概率界效果較好。

3.2 仿真結果

設初始分布μ(x) = 1(即初始狀態為x),γ=0.95,M=20,N=100,H=500,此時δ'≤1.454 9 × 10-10。通過應用Monte Carlo 仿真模擬,可獲取N個分位數的均值與樣本標準差,進而繪制帶有誤差區域的AECDF。分別計算報酬函數簡化與SAT 作用后的MRP 的期望與方差,并在假設1 下繪制兩者的ACDF。三條分布曲線如圖2 所示。由圖可見,在假設1 下,SAT 所得收益的ACDF 與AECDF 相似度較高(δ≈0.016 3),而報酬函數簡化所得收益的ACDF與AECDF相似度很低。

圖2 近似經驗分布(AECDF)與假設1下的兩個近似分布(ACDF)對比,兩者的方差分別在報酬函數簡化與SAT作用下通過定理1進行估計Fig. 2 A comparison between the approximated empirical CDF and the two approximated CDFs,whose variances are calculated by Theorem 1 with the aid of the SAT and the reward simplification,respectively

SAT與報酬函數簡化作用下MRP的三種風險測度與仿真結果對比于表1。通過對比可見,SAT下的方差和CVaR與仿真結果較為接近,而報酬函數簡化下的結果則相差甚遠。在不同風險敏感參數下對比指數效用,可見相對報酬函數簡化下的結果,SAT 所得結果與仿真結果更為接近。隨著風險敏感參數的增大,SAT對指數效用的估計精度也逐漸降低,這是因為式(1)中的誤差項隨著風險敏感參數的增大而增大。

表1 三種風險測度在SAT、報酬函數簡化與仿真模擬中的結果對比Table 1 The comparison among the three risk measures with the SAT,the reward simplification and the simulation

4 結論與展望

風險敏感MDP 是一類廣泛且重要的隨機動態決策問題,由于不同風險測度的特性各有不同,且風險敏感的應用場景較多,目前研究活躍且成果豐富。然而理論方法與實際問題間常有差異,若不能妥善處理此類差異,則將錯誤評估風險程度,以致決策失敗。本文針對無限階段風險敏感MDP 理論方法與實際問題在報酬函數上的差異,研究了SAT 方法,并通過仿真實驗,對比了SAT 與報酬函數簡化對三類常用的風險測度的影響。數值結果顯示,通過SAT 所得到的數值與仿真結果較為接近,而報酬函數簡化將大幅改變風險測度值。SAT的本質在于通過擴充狀態空間,保留了完整的{Rt}信息,進而在簡化報酬函數的同時保持風險測度不變。該方法為理論研究提供了帶有不同報酬函數的MRP 間的等價性,并為相關從業人員提供了一種直接將理論方法應用于復雜實際問題的解決方案。

SAT 在策略評價情景中的應用較為直觀,而在決策優化情景中的應用則較為復雜。將SAT 直接應用于MDP進而優化決策時,由于擴充了狀態空間,該MDP的策略空間也被擴充,故需對擴充策略空間加以約束,以保證與原策略空間的一一對應。SAT 的另一個問題是狀態空間規模的擴充導致問題維度組合式增大。考慮到定義在擴充狀態空間上的轉移概率與原MDP 的轉移概率信息量相同,如何降低擴充問題的維度是值得研究的問題。Ma 和Yu 針對擴充狀態的相似性,給出了狀態歸并(state lumping)的條件,滿足該條件的狀態可歸并為一個狀態,且不影響風險測度[55]。處理該問題的另一種思路是從報酬值的差異程度出發,當兩個擴充狀態由同一原始狀態擴充而來,且兩者報酬值差異不大時,可近似為一個狀態,這種近似會導致風險測度的改變,而這種差異的上界應為報酬值差異的函數。

猜你喜歡
優化策略
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
基于“選—練—評”一體化的二輪復習策略
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 四虎影视无码永久免费观看| 福利视频一区| 国产成人精品免费视频大全五级| 亚洲欧洲日韩久久狠狠爱| 色偷偷男人的天堂亚洲av| 国产亚洲欧美在线视频| 国产精品一线天| 亚洲AV电影不卡在线观看| 亚洲欧州色色免费AV| 亚洲美女一区二区三区| 日本一区二区不卡视频| 影音先锋丝袜制服| 亚洲一欧洲中文字幕在线| 久久综合久久鬼| 99re视频在线| 亚洲精品不卡午夜精品| 日韩精品中文字幕一区三区| 欧美97欧美综合色伦图| 国产区福利小视频在线观看尤物| 亚洲一区免费看| 久操线在视频在线观看| 有专无码视频| 欧美黄色网站在线看| 成人午夜网址| 国产精品丝袜在线| 婷婷色中文网| 欧美日韩在线成人| 国产一区二区人大臿蕉香蕉| 国产男女免费完整版视频| 亚洲首页国产精品丝袜| 亚洲人成电影在线播放| 欧美激情综合| 中文字幕免费在线视频| 在线亚洲小视频| 成人国产精品网站在线看| 精品欧美一区二区三区久久久| 日韩免费毛片| 国产精品伦视频观看免费| 国产不卡一级毛片视频| a国产精品| 99久久人妻精品免费二区| 亚洲区一区| 91娇喘视频| 国产十八禁在线观看免费| 亚洲看片网| 精品福利网| 国产91精品调教在线播放| 国产精品人人做人人爽人人添| 亚洲国产第一区二区香蕉| 看av免费毛片手机播放| 99无码中文字幕视频| 国产欧美日韩精品综合在线| 国产精品永久不卡免费视频| 毛片手机在线看| 亚洲天堂成人| 91无码网站| 精品丝袜美腿国产一区| 午夜精品区| 亚洲第一视频区| 精品国产91爱| 亚洲综合久久成人AV| 亚洲第一香蕉视频| 国产在线自乱拍播放| 精品福利视频网| 日本成人精品视频| 国产96在线 | 女人18毛片一级毛片在线| 亚洲第一成年网| 中文字幕中文字字幕码一二区| 国产成人亚洲无吗淙合青草| 一区二区三区国产精品视频| 91在线无码精品秘九色APP| 五月天久久婷婷| 国语少妇高潮| 久久久国产精品免费视频| 午夜精品影院| 一本大道AV人久久综合| 伊人蕉久影院| 国产1区2区在线观看| 98超碰在线观看| 久久久久久久97| 亚洲中文字幕在线观看|