999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強化學習在決策分析類課程中的教學探索

2024-11-07 00:00:00王天宇楊敏
教育教學論壇 2024年36期
關鍵詞:課程改革教學模式

[摘 要] 近年來,強化學習不斷成為研究和應用的熱點話題,受到廣泛關注??紤]到強化學習與決策過程分析的緊密關聯,將強化學習納入決策分析類課程成了一個不可忽視的需求。探討如何在“決策分析導論”中融合強化學習模型的方法。與傳統“機器學習”和“強化學習”課程不同,教學策略強調對概念的理解,減少公式復雜性,更多地展現其實際應用和案例,如AlphaGo、MIT機器狗等熱門話題,以增強學生的學習興趣。特別是通過改良的尋寶游戲示例,進一步深化學生對智能體與環境交互的認知。這種教學探索不僅豐富了課程內容,還為管理類教學方法帶來了創新,期望更好地培養新一代決策者。

[關鍵詞] 強化學習;決策分析;教學模式;課程改革

[基金項目] 2021年度北京航空航天大學經濟管理學院課程團隊建設項目“決策分析”(KCTD-2021-JCFX);2023年度北京航空航天大學工業工程專業一流專業建設項目;2022年度北京航空航天大學研究生教育與發展研究專項基金“促進知識共享的工程項目管理課程教學設計——一種激進建構主義的視角”(JG2022006)

[作者簡介] 王天宇(1990—),男,山東東營人,博士,北京航空航天大學經濟管理學院講師,主要從事行為運籌學研究;楊 敏(1975—),男,江西樂安人,博士,北京航空航天大學經濟管理學院副教授(通信作者),主要從事風險和決策分析與項目管理設計研究。

[中圖分類號] G642.0 [文獻標識碼] A [文章編號] 1674-9324(2024)36-0001-04 [收稿日期] 2023-08-23

強化學習(reinforcement learning)是蓬勃發展的深度學習在決策分析領域的新興方向。通過模擬代理在動態環境決策中持續試錯學習優化策略以最大化預期收益的方法,應對實際問題中的不確定性、復雜性,并為決策制定提供更精準、靈活的解決方案,推動決策分析領域的實踐與創新。強化學習在自動駕駛、智能游戲及金融投資等領域中被廣泛應用,用于訓練智能體在復雜環境中不斷調整決策,實現最優化的行為策略。同時,為引導高等學校瞄準世界科技前沿,不斷提高人工智能領域科技創新、人才培養和國際合作交流等能力,為我國新一代人工智能發展提供戰略支撐,2018年4月教育部印發了《高等學校人工智能創新行動計劃》。雖然“機器學習”課程建設已經得到了快速發展[1],但強化學習在決策分析領域內容的結合的探索仍然較少。本文以高等院校管理類課程“決策分析導論”為例,介紹在管理類研究生課程中引入強化學習的嘗試和探索,分析并提出針對管理類課程教學方法改革的一些措施。

一、課程建設背景

(一)“決策分析導論”課程現狀

決策分析(decision analysis)研究如何在不確定性條件下做出理性的決策。它基于主觀概率論和效用理論,提供了一套完整的公理系統指導決策[2],包括規范決策(應該如何決策)和描述決策(人們實際如何決策)兩大領域[3]。“決策分析導論”課程現階段內容是決策分析領域的基礎知識,包括決策陷阱、理性決策行為、不確定情況下的決策分析、多屬性決策分析以及多人決策分析等內容,旨在培養學生在復雜決策環境下的分析能力和決策能力。其知識背景發展始于20世紀中葉,隨著不同學科的融合和技術的進步,這些概念逐漸深化和應用于實際決策問題中,如多屬性決策分析的發展與決策分析和運籌學的交叉有關,起源可以追溯到20世紀中葉。層次分析法(analytic hierarchy process, AHP)由美國運籌學家托馬斯·塞蒂(T. L. Saaty)于20世紀70年代中期提出,而TOPSIS法和其他多屬性決策方法則在隨后的幾十年中逐步發展完善。期望效用理論是20世紀中期出現的概念,由諾貝爾經濟學獎獲得者馮·諾依曼和約翰·納什等人發展起來。針對“決策分析導論”課程的教學改革包括挖掘該課程中的思政元素,或引入Excel等工具輔助決策[4-5]。

(二)強化學習

強化學習是一種試錯的機器學習方法,通過智能體與環境的互動來學習。智能體根據其動作從環境中獲得反饋,然后利用這些反饋更新其知識和經驗在未來做出更好的決策。強化學習屬于機器學習技術的一部分,但與監督學習、非監督學習等其他方法有所不同。強化學習的學習過程中沒有預先提供正確答案,而是通過獎勵反饋和實驗試錯來學習。這種學習過程具有延時性,智能體的動作會影響后續的環境反饋。強化學習是一個與時間序列相關的過程,涉及序貫決策的制定。隨著深度學習模型的發展,深度強化學習技術將深度學習與傳統強化學習相結合,實現了對復雜環境的更好表征。這種技術在自動駕駛、機械臂控制等復雜場景中有重要應用。著名的深度強化學習應用之一是谷歌DeepMind于2016年開發的AlphaGo程序,通過強化學習在圍棋領域取得了突破,先后戰勝了圍棋大師李世石和柯杰。這一成就引起了廣泛的關注,也使深度強化學習開始受到更多學生的關注。此外,深度強化學習技術還在生物工程、機械制造、化學分析、藥物合成等領域有應用,能夠推動各個需要決策支持的學科的發展。

二、基于強化學習的計算機輔助決策內容教學探索

(一)教學內容重點和難點

因大多數高校開展了機器學習、人工智能類相關課程的教學工作,學生對從監督學習、非監督學習到強化學習都有概念性的涉獵。特別是強化學習,一般不作為重點內容學習。此外,由于“決策分析導論”課程面向管理類專業方向研究生,學生在本科階段所選擇的相關課程,如“機器學習導論”“數據挖掘導論”等前導課程以淺嘗輒止的科普類教學為主。學生通?!爸淙欢恢渌匀弧保踔廖幢亍爸淙弧?。這是因為,作為機器學習和決策科學的交叉,對強化學習的理解本身需要扎實的基礎知識。不僅包括管理類本科課程“概率與統計”“最優化方法”等,也包括學生較為薄弱的“隨機過程”。此外,對機器學習的深入理解,需要學生有對算法和計算復雜性理論的深刻理解。例如,強化學習本身作為一種啟發式算法(heuristic algorithm),其優勢在于較小的計算復雜度和出色的表現。然而,大部分學生并不清楚如何度量計算的復雜度和啟發式算法的表現。總之,差異化較大的前導課程教學背景和薄弱的算法相關理論基礎,成了在“決策分析導論”課程中引入強化學習的教學難點。

(二)面向管理類學生的教學設計

面向管理方向學生差異化較大的前導課程教學背景和薄弱的算法相關理論基礎的特點,為了保證不同背景的學生可以在課程學習過程中有較好的收獲,筆者采用基礎扎實、前沿引領、實驗豐富、循序漸進的教授方式。具體方式如下。

1.前導課程知識的簡要補充。針對差異化較大的前導課程教學背景這一特點,有必要為學生進行前導知識的補充和鋪墊。這對沒有選修過相應課程的學生來說,其與強化學習之間的邏輯關系并不明確。因此,不同于其他課程回顧性地介紹背景知識,“決策分析導論”課程既要把背景知識當作新知識來講,又要主次分明、結合本課程的教學特點。例如,在介紹機器學習基礎理論時,“決策分析導論”課程選取決策樹和人工神經網絡作為重點,其他模型,甚至非監督學習(unsupervised learning)僅做簡要提及或忽略。決策樹本身可作為監督學習(supervised learning)的代表性算法,其具有良好的可解釋性,更易于理解和講授,而作為“決策分析”課程內容,在此過程中有必要向學生闡述清楚“決策樹”這一名詞在決策分析方法和機器學習模型中代表不同的含義:在前者中,決策樹作為決策主體用于風險決策以最大收益期望值或最大效用期望值為原則進行決策分析的工具,其每個節點代表一個決策點(decision)或一個事件點(event);而在后者中,決策樹并不是決策主體使用的工具,而是機器學習進行有監督分類(classification)的模型,所謂的“決策”其實是計算機的決策,更確切地說,應為“判斷”。

通過以上解釋,提前規避了學生在今后科研或學習過程中接觸“決策樹”這一模型,與“決策分析導論”課程以及運籌學中的“決策樹”可能產生的混淆。

2.模型抓重點,少公式、多講解。在介紹強化學習模型時,緊扣與“決策分析導論”課程之間的相關性和與“機器學習”“強化學習”這些專業課之間的差異化?!皼Q策分析導論”課程整體以概念、方法和理解為主,涉及的公式推導較少。在筆者的教學經驗中,在介紹機器決策和機器輔助決策時突然引入大量公式推導會導致學生理解困難,以及后續注意力無法集中。為此,筆者僅保留無法規避的公式,如貝爾曼方程(Bellman equation)等。

給出公式本身,先簡單解釋各個變量的含義,即R為當前狀態s的收獲,Psa為轉移到s'狀態的概率,γ為折現率," " " "分別為動作和狀態空間。但重點向學生強調本公式代表的意義和遞歸計算的思想,即狀態的價值函數(value function)是由自己本身定義的。這對于沒有算法理論基礎的學生來說理解并不容易,則需要拓展對遞歸算法的介紹。反之,不應以過多時間展示貝爾曼方程是如何推導得出的。

3.突出應用和案例。在教學中引入大量的應用實例講解,這得益于強化學習廣泛的應用屬性和話題屬性。例如,學生從自媒體、社交媒體廣泛地了解關于AlphaGo如何戰勝人類圍棋大師,以及美國麻省理工學院(MIT)設計的機器狗如何通過訓練從走路摔倒到熟練完成跑跳動作等新聞?!皼Q策分析導論”課程將重啟AlphaGo、MIT機器狗等具有熱度的話題,讓學生對其模型、訓練過程和算法有更深入的理解。此外,介紹單智能體強化學習經典算法DQN最早成功應用于雅達利(Artari)游戲,其趣味性和娛樂性有效吸引學生注意力和課堂專注度。在此過程中為了深化學生對強化學習中智能體與環境的探索交互過程的認知,筆者采用改良的經典尋寶游戲(robot in a room),通過講述強化學習算法Double DQN如何在尋寶游戲中學習、反饋和決策,培養學生泛化這一過程的能力。

尋寶游戲是廣泛應用于強化學習教學中經典的例子,如Carnegie Mellon University的10-601B和University of California, Berkeley的CS188。一個機器人在地圖中采取某種移動策略以達到某個目標地點并獲得最大收益,如圖1所示。該經典例子是確定性問題(deterministic),即若機器人采取某個移動行為,則必然導致相應的移動結果。筆者在教學中發現經典版本的問題過于簡化決策環境,學生完全無法體會為何以馬爾可夫決策過程(Markov decision process)建模。此問題以基于規則(rule-based)的策略就可以迎刃而解,即“總是通往目標地點的最短路徑”。為此,筆者將此例改為隨機環境,即解釋為“機器人所在環境有頻發地震,在機器人選擇左行時,有80%的概率在下一時刻到達左方,也有10%的概率啟動失敗,和10%的概率因地震而偏移至下方”。這令問題更接近現實情況,也更適用于MDP模型,讓學生對隨機問題決策和混合策略有更具象的理解。

結語

強化學習在決策分析領域蓬勃發展,通過試錯學習優化策略以應對實際問題的不確定性和復雜性。在管理類課程中引入強化學習,筆者通過補充前導知識、突出模型應用和案例,提高了學生的學習興趣。盡管面臨學生背景差異和算法理論難點,創新的教學設計使強化學習融入課程,為學生提供了更豐富的學習體驗。這一探索為管理類課程的教學方法改革提供了啟示,有望助力新一代決策者在復雜決策環境中取得更好的效果。

參考文獻

[1]李君,陳萬明,董莉.“新工科”建設背景下人工智能領域研究生培養路徑研究[J].學位與研究生教育,2021(2):29-35.

[2]BIER V M , FRENCH S. From the editors: decision analysis focus and trends[J].Decision analysis,2020,17(1):1-8.

[3]KEENEY R L , SEE K E , VON WINTERFELDT D. Evaluating academic programs: with applications to US graduate decision science programs[J].Operations research,2006,54(5):813-828.

[4]何明宇,侯忠坤.淺議EXCEL在風險決策分析教學中的應用[J].商場現代化,2012(21):178-180.

[5]陳俊霖,李明珍,楊雨.管理決策分析課程教學中課程思政研究[J].高教學刊,2021,7(33):153-156+160.

The Teaching Exploration of Reinforcement Learning in Decision Analysis Courses

WANG Tian-yu, YANG Min

(School of Economics and Management, Beihang University, Beijing 100191, China)

Abstract: In recent years, reinforcement learning has become a hot topic in research and application, and has attracted wide attention. Considering the close correlation of reinforcement learning in the analysis of the decision process, the inclusion of reinforcement learning in the decision analysis course becomes a demand that cannot be ignored. This paper discusses how to integrate reinforcement learning models in the introduction to decision analysis. Different from the traditional machine learning and reinforcement learning courses, this teaching strategy emphasizes the understanding of concepts, reducing formula complexity, and presents more practical applications and cases, such as AlphaGo and MIT robot dog, to enhance students’ interest in learning. In particular, through the improved examples of the treasure hunting, it can further deepen the students’ cognition of the interaction between the agent and the environment. This kind of teaching exploration not only enriches the course content, but also brings innovation to the management teaching method, hoping to better cultivate a new generation of decision makers.

Key words: reinforcement learning; decision analysis; teaching mode; curriculum reform

猜你喜歡
課程改革教學模式
群文閱讀教學模式探討
“思”以貫之“學、練、賽、評”教學模式的實踐探索
體育教學(2022年4期)2022-05-05 21:26:58
“以讀帶寫,以寫促讀”教學模式的實踐探索
甘肅教育(2020年12期)2020-04-13 06:25:48
《建筑裝飾施工組織與管理》課程改革之初探
中職學校計算機專業“雙證融通”課程改革與探索
“雙創”形勢下高職財務管理課程改革探索
商業會計(2016年13期)2016-10-20 16:18:54
項目教學法在微電影制作教學中的應用
中國市場(2016年35期)2016-10-19 03:02:20
基于創意的對口單招色彩課程改革突破點研究
成才之路(2016年25期)2016-10-08 09:50:05
校企協同實施高職專業課程改革的實踐研究
科技視界(2016年20期)2016-09-29 12:54:06
“一精三多”教學模式的探索與實踐
主站蜘蛛池模板: 老司机久久99久久精品播放| 国产精品第一区在线观看| 久久综合干| 国产亚洲精| 欧美日本在线一区二区三区| 久久综合一个色综合网| 国产精品区视频中文字幕| 欧美一区二区啪啪| 在线亚洲精品自拍| 国产精品免费p区| 免费女人18毛片a级毛片视频| 日本亚洲国产一区二区三区| 精品人妻AV区| 国产精品永久不卡免费视频| AV在线天堂进入| 欧洲欧美人成免费全部视频 | 18禁高潮出水呻吟娇喘蜜芽| аv天堂最新中文在线| 国产精品一线天| 国产日韩精品欧美一区喷| 欧美另类精品一区二区三区| 国产女人18毛片水真多1| 欧美成人精品在线| 久久久久亚洲精品无码网站| 丁香六月激情综合| 国产精品三区四区| 国产成人精品高清在线| 手机在线免费毛片| 亚洲乱码视频| 日本www在线视频| 十八禁美女裸体网站| 女人18毛片一级毛片在线| 重口调教一区二区视频| 色悠久久久久久久综合网伊人| 午夜老司机永久免费看片| 全午夜免费一级毛片| 亚洲IV视频免费在线光看| 久久成人18免费| 国产精品人莉莉成在线播放| 免费观看男人免费桶女人视频| 国产精品林美惠子在线播放| 在线另类稀缺国产呦| 中文无码毛片又爽又刺激| 成人在线观看不卡| a色毛片免费视频| 久久国产成人精品国产成人亚洲| 国产喷水视频| 永久天堂网Av| 青青青亚洲精品国产| 天天躁日日躁狠狠躁中文字幕| 免费欧美一级| 日韩东京热无码人妻| 亚洲男人天堂2020| 亚洲无码四虎黄色网站| 伊人激情综合| 国产精品欧美亚洲韩国日本不卡| 黄色成年视频| 91午夜福利在线观看精品| 日韩欧美中文| 超清无码一区二区三区| 成年人久久黄色网站| 九九热这里只有国产精品| a级免费视频| 2020精品极品国产色在线观看 | 中文字幕一区二区视频| 久久精品最新免费国产成人| 东京热av无码电影一区二区| 网友自拍视频精品区| 日本五区在线不卡精品| AV天堂资源福利在线观看| 99精品福利视频| 国产又粗又猛又爽| 久久青草热| 国产91视频免费观看| 找国产毛片看| 91po国产在线精品免费观看| 国产美女无遮挡免费视频| 国产女人爽到高潮的免费视频 | 亚洲精品在线影院| 欧美一区日韩一区中文字幕页| 国产浮力第一页永久地址| 成人福利在线免费观看|