劉振昌







[摘? ? ? ? ? ?要]? 隨著國家戰略和市場需求的變化,科技發展必然進入一個新的層級,為更好地適應形勢變化需要,應不斷提升學科水平,以適應時代的發展。現如今人工智能與各種信息化技術、各產業高度融合,從打造智能制造專業群的總體規劃出發,在自動控制原理課程中增加人工智能元素,改進教學內容勢在必行,使職業教育更好地服務于產業升級,培養更多優質專業技能人才。
[關? ? 鍵? ?詞]? 強化學習;自控原理;人工智能;職業教育
[中圖分類號]? G712? ? ? ? ? ? ? ? ? ?[文獻標志碼]? A? ? ? ? ? ? ? ? ? ?[文章編號]? 2096-0603(2022)09-0073-03
一、引言
針對目前專業課程長期固定未變,現有課程體系不足以滿足學生人才培養目標和就業需求的問題,如何培養符合當前社會需求的,具備理論基礎夠用、實踐能力突出、創新能力兼備的應用型人才,已經成為亟待解決的重要問題。
但是在全民追捧人工智能技術的同時,我們更應理性、科學地對待它,AI技術畢竟依托于諸多技術不斷發展強大起來,如計算機技術、網絡技術、電子技術等領域。沒有這些領域的不斷進步,也不會有人工智能技術的今天,所以人工智能技術并不是憑空創造出來的,而是在近些年逐漸應用到我們的實際生活中,讓更多的平常百姓知道了它、了解它。而人工智能技術分類龐雜如圖1所示,我們不能完全搞懂、吃透,所以本文在充分了解人工智能技術發展的趨勢,學習相關知識的同時,選定了機器學習領域中強化學習技術,作為核心突破點,將其與自控原理課程相互結合,達到提升教學效果的目的。
二、自控原理課程分析
眾所周知,高職教育十分突出的特點是強調實際動手能力的培養,但當學生學習如自控原理理論較強的課程時,往往提不起興趣,整體效果不佳。如,目前自控原理課程教學中學生對系統數學模型章節,只能了解基本傳遞函數的概念,并不能很好地對慣性環節、積分環節、時滯環節實際的物理模型有感性的認知,往往這樣不能為后續章節學習打下良好的基礎,導致課程整體教學效果不佳。而電氣自動化專業如果完全摒棄這些理論課程,單純突出實踐教學又是課程體系的缺失,所以類似這種理論課程改革融入新的元素,是十分必要的。
以自動控制原理課程作為研究對象,結合強化學習技術,對該門課程內容重新進行梳理,融入新鮮元素,真正促進教學改革,最終促進專業課程的整體改革與提升。
三、強化學習基本思想
通過研究了解強化學習是機器學習的三個大類之一,如圖2所示。該領域已經取得了長足的進步,在多個方向發展和成熟。強化學習已逐漸成為機器學習、人工智能和神經網絡研究中最活躍的研究領域之一。
強化學習是學習該做什么—如何將環境映射到行動—以便得到最大化獎勵信號。控制器不會采用預定的程序,而是通過不斷試錯獲得最優回報。在復雜和富有挑戰性的情況下,行動不僅會影響即時獎勵,還會影響下一個情境以及所有后續獎勵。不斷試錯與獲得獎勵是強化學習的明顯特征。如果用動態系統理論的思想將強化學習問題形式化,具體地說,作為不完全已知的馬爾可夫決策過程的最優控制。但基本思想是學習代理與環境進行交互以實現控制目標,與控制系統中反饋概念相類似。代理還必須有一個或多個與環境狀態相關的目標。馬爾可夫決策過程旨在以最簡單的形式包含這三個方面——感覺、行動和目標,而不忽略其中任何一個。
強化學習不同于監督學習,監督學習是當前機器學習、統計模式識別和人工神經網絡研究中最主要的學習類型。有監督學習是通過外部知識的提供,進行的一組有標記的學習。每個標記都是對一種情況的描述以及系統應該對該情況采取的正確操作的規范,該規范用于確定某種情況所屬的類別。這種學習的目的是讓系統推斷或概括某種情況的反饋情況,以便它在訓練集中沒有出現的情況下正確地行動。這是一種重要的學習方式,但僅從互動中學習是不夠的。在交互問題中,要想得到既正確又能代表Agent所有情況的預期行為的示例,往往是不能達到的。在未知的情況下,Agent需要從中不斷學習改進。
強化學習也區別于無監督學習,無監督學習往往是挖掘數據間的某種隱形關系。單純從有監督學習和無監督學習這兩個方面對機器學習范式進行分類是不全面的。雖然有人可能會認為強化學習是一種無監督學習,因為它不依賴于系統模型,類似于一種無模型控制,但強化學習是求取代價函數最優值,而不是發現數據中隱形的關系。探索Agent經驗中的結構有助于理解強化學習,但它本身并不能解決求取最優代價函數的強化學習問題。因此,強化學習是第三種機器學習分類,與監督學習和非監督學習并列。
強化學習采取從一個完整、互動、目標尋求的代理開始。它主要包含四個元素:Agent、環境狀態、行動、獎勵,強化學習的目標就是獲得最多的累計獎勵。下圖3是強化學習基本框架。代理(Agent)中有一個函數可接收狀態觀測量(輸入),并將其映射到動作集(輸出)。通過上述分析無監督學習和監督式學習,并不適合與自動控制原理課程中相關知識結合,所以選定強化學習作為融合的新元素具有一定依據。
四、強化學習與傳統控制對比分析
本文將強化學習中Agent、Reward、Action、Enviroment等概念和自動控制原理相關概念統進行比對,如文末圖4所示。便于從傳統的控制角度更加深入理解智能控制的特點與優勢所在,通過分析與對比,才能更加深入地改進相關課程內容,如表1。
通過上述分析與描述,我們可以看出強化學習是一種類似于無模型控制的策略,基于準則函數不斷優化自身控制策略,所以將強化學習的相關知識應用在自控原理的課程中不僅能增強學生的學習興趣,還能對學生未來就業、擇業起到極大的幫助作用。并且在對未來高職層次本科化的教學部署上具有一定的前瞻性作用。
五、總結
雖然進行了強化學習相關知識領域研究與分析,但是和傳統的自動控制原理理論課程內容的結合還需進一步研究,最終形成有機的融通,真正讓學生能夠學習到新的人工智能領域新技術、新科技,并且如何將相關理論研究高效、實用地應用落地,部署于實際工程應用中也是后期研究的重點工作。整體研究成果還需要在實際的教學環節中不斷改進、完善,最終形成可實施、可落地、可應用的專業課程標準,為智能制造領域人才培養貢獻力量。
參考文獻:
[1]高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004(1):86-100.
[2]程麗梅,賈文川.連續型強化學習與PID控制的應用對比分析:以一階倒立擺系統為例[J].工業控制計算機,2021,34(10):20-22.
[3]Wang L,Zhang H,Yi J,et al. Spanning Attack: Reinforce Black-box Attacks with Unlabeled Data[J]. Machine Learning, 2020:1-20.
[4]王揚,陳智斌,吳兆蕊,等.強化學習求解組合最優化問題的研究綜述[J].計算機科學與探索:2021(11):1-22.
[5]Zhou M,Wang R,Xie C,et al. ReinforceNet:A Reinforcement Learning embedded Object Detection Framework with Region Selection Network[J]. Neuro-computing,2021.
[6]薛鵬,程輝,郭會平.自控原理課程的“一例到底”教學設計[J].科技風,2020(20):33,41.
[7]李敏,高飛.基于工程應用案例仿真自控原理教學法研究[J].中國電力教育,2019(11):80-82.
[8]吳海燕.新工科視角下自動控制原理的課程教學實踐[J].教師,2021(20):117-118.
①本文系天津市高等職業技術教育研究會2020年度課題“基于強化學習技術服務電氣類專業——自動控制原理課程標準構建與研究”(課題編號:2020-2-3048);天津電子信息職業技術學院人工智能專項資金項目“基于強化學習的吸收式制冷系統節能控制與研究”(課題編號:dzxxzn2019-15)的研究成果。