日前,清華大學人工智能研究院基礎理論研究中心發布了深度強化學習框架“天授”,代碼已在GitHub開源。這是繼“珠算”可微分概率編程庫之后,該中心推出的又一個面向復雜決策任務的編程庫。
據悉,“天授”一詞來源于《史記》,意為“取天所授而非學自人類”,刻畫了強化學習通過與環境進行交互自主學習,而不需要像監督學習一樣需要大量人類標注數據。研究團隊繼承了首版“天授0.1”在模塊化等方面的優勢后,推出了基于PyTorch框架的“天授0.2”版本。
據介紹,天授系統具有5大技術優勢:代碼簡潔、模塊化、可復現性、接口靈活以及訓練速度快。相較于其他PyTorch強化學習框架,“天授0.2”具有結構簡單、二次開發友好的特點,整個框架代碼1500行左右,支持主流的強化學習算法DQN、A2C等,同時設計了靈活的接口,用戶可以定制自己的訓練方法。針對現有平臺訓練速度慢的缺點,“天授”通過將并行采樣與緩存機制相結合提高了采集數據的速度。此外,整個框架基于模塊化的原則進行設計,在其上實現常見的強化學習算法僅需不到100行的代碼。
目前,“天授0.2”版本已在GitHub上獲得超過900個星標。