基于多智能體建模的在線學習交互形式化

2021-04-20 02:23:38常松麗陳立潮潘理虎

電子技術與軟件工程 2021年2期

關鍵詞：智能環境

常松麗陳立潮潘理虎

（1.山西開放大學山西省太原市 030027 2.太原科技大學計算機科學與技術學院山西省太原市 030024）

1 引言

“互聯網+”環境下，“人人皆學、處處能學、時時可學” 的終身學習理念已得到社會廣泛認同，學習型社會漸漸形成，在線學習成為搭建服務終身學習“立交橋”。把握在線學習特點，實現高水平的在線學習交互，提升教育教學質量，是人們關注的熱點。

實現高水平的在線學習交互，需要對學習交互策略進行精心篩選，設計恰當的學習交互活動，并對活動進行管理和組織，目的是增強學習效果和提高學習質量。采用多智能體建模，以實現更高效的在線學習交互，是研究的方向和目標。

2 在線學習的重要意義及在線學習交互分析

由現代電子技術的巨大變革引起的信息革命，以互聯網全球化普及為重要標志，深刻影響著各行各業的發展。“互聯網+教育”是互聯網科技與教育領域相結合的一種新的教育形式。云計算、大數據等為在線學習提供了技術支撐，信息時代的發展，終身學習理念也為在線學習奠定了思想基礎。因此，在線學習研究具有重要意義。

2.1 在線學習是新的教育模式和學習途徑

2.1.1 在線學習的技術背景

隨著云計算、大數據、人工智能、移動互聯網、物聯網等新一代信息技術的普及應用，免費、開放的慕課學習風靡全球，新技術的發展成為強大助推器，“互聯網+教育”對教育產生了巨大、深刻影響。

2.1.2 在線學習的時代背景

在線學習適應現代人們快節奏、碎片化的學習模式，“停課不停教、停課不停學”指導意見下，在線學習這種學習形式跨越時空，成為人們不可或缺的學習環境。

2.1.3 在線學習的思想基礎

終身學習的理念深刻影響著人們的生活。終身學習是要主動學習，主動進行自我更新，終身學習具有靈活性，表現在任何需要學習的人，可以隨時隨地接受任何形式的教育，在線學習是實現終身學習的途徑之一。

2.2 在線學習的特點

通過網絡傳播實現的在線學習，“人人皆學、處處能學、時時可學”主要優勢體現在：

（1）不受時間空間限制，具有很強的靈活性，包括時間靈活性和空間靈活性，可以實現隨時、隨地進行學習；

（2）在線學習具有重復再現性，即在線學習可以實現多次的“回看”、“重播”功能，學習者可以根據自身學習需要，對于重難點學習內容反復重學，避免線下學習過程出現的“學過就忘”的問題；

（3）在線學習具有豐富的交互性和協作性，在線學習可以非常便捷的實現學習者之間的相互交流和協作，在集思廣益中提供更多、更好的解決思路和方案。

同線下學習相比，在線學習存在不容忽視的弊端。正由于在線學習能夠隨時、隨地且重復學習的特點，使之缺乏線下學習組織過程中呈現出的儀式感，若在線學習者注意力不集中，求知欲不強，學習過程中參與的積極互動性不強，就會導致學習效率降低。因此，在線學習對學習者的自覺性、學習能力要求更高，在線學習交互研究很有必要。

2.3 在線學習交互分析

關于遠程學習交互研究，國內具有代表意義的是陳麗教授提出的遠程教育教學交互層次塔，包括三層：最底層是界面交互，即為操作交互，是學習者與操作媒體界面的交互；中間層是信息交互，涵蓋了學習者與教學組織者的交互，學習者與學習者的交互，學習者與學習內容之間的交互；最高層也是抽象層面的交互，即為概念交互，即學習者自身新舊概念之間的交互。以上三層教學交互是本質的在線學習交互。

通過對參與在線學習的成人、中小學生、低齡幼兒及高校教師等的學習者，以及在線學習服務提供者的訪談、調研，目前各類在線學習系統或在線學習平臺APP，主要包括學習功能模塊和檢驗學習效果功能模塊。表現形式有：學習過程與檢驗學習效果過程相對獨立而存在，還有學習過程與學習效果檢驗過程交替進行。

根據網絡交互工具所呈現的學習者學習過程中交互的時效性，可分為同步學習交互和異步學習交互。同步學習交互的表現形式有直播等方式。與異步學習相比較，同步學習交互更接近線下學習的學習交互模式。在時空分離狀態下的異步學習交互，受教學內容影響較大，同時各種各類異步學習交互工具又具有不同的特點，在線學習者的參與形式和參與程度對學習交互影響重大，如在客觀層面，學習者對計算機的操作熟練程度可對學習交互效果產生直接影響，主觀層面上，學習者的積極主動性也會對學習交互效果產生影響。

（1）根據學習者的年齡結構及對計算機操作熟練程度來分析：有部分學習者因對計算機操作不夠熟練，需要有可以熟練操作的人員來幫忙輔助進行學習。如：年齡較小學習者，對學習平臺操作生疏，對學習內容沒有概念，需要家長陪同來進行學習，比如兒童美術、音樂等操作型在線學習類課程，需要在學習過程中通過“暫停”等操作來輔助此類學習者完成學習任務；還有老年學習者在學習過程中對操作不熟悉需要能熟練操作的人員指導。調研發現，大部分成人特別是青少年學習者，能熟練掌握學習系統或學習平臺的操作流程，在參與在線學習時可以熟練完成學習過程中的操作交互，即使遇到操作問題也能夠通過學習平臺或系統熱線服務、熱線電話等溝通途徑解決。

（2）根據學習者的積極主動性來分析：參與學習的主體可以分為積極學習者、觀望者以及不參加的“逃避者”，對于最后一種交互為零、學習效果極差的學習者，本文不做討論。

對觀望者我們認為在學習動機、興趣等方面和積極學習者相似，對學習內容比較感興趣，都是會緊跟學習節奏認真完成學習任務，但在觀察積極學習者的學習交互行為后，認為與積極學習者交互行為相似，或是太簡單，而不屑于交互，或者因太難，產生畏難情緒，而拒絕參與交互。因此，觀望者是“潛在”的積極學習者，一旦交互環境、交互條件具備，觀望者會轉化為積極學習者，實現更好的學習效果。如圖1所示。

綜上所述，要實現提高學習交互質量的目標，就需要提升操作不熟練學習者的操作技能，需要將更多的將觀望者轉化為積極學習者。

3 多智能體（Mutil-Agent）交互形式化描述

Agent 智能體是在特定環境下的智能系統，通過自身對所處環境的感知學習，同時還要完成與其他Agent 之間的溝通協作，自主實現所處環境下特定的目標。Agent 具有如下特點：

（1）Agent 具有獨立自主性。每一個Agent 能夠獨立思考，可以實現對自身狀態行為的控制。

（2）Agent 具有社會交互性。和人類相似，每一個Agent 能夠與其他的Agent 之間進行信息交互并相互協作，具有通信功能。

（3）Agent 具有感知能動性。每一個Agent 能夠根據對環境的感知做出相應行為動作和相關決策。

多智能體是由多個Agent 組成的松散耦合集合，多個Agent 之間通過相互之間的交互、溝通與協作，共同完成相應的工作任務。

3.1 在線學習交互分析

根據2.2 分析，按照學習者的年齡結構和對計算機操作熟練程度，可將在線學習Agent 智能體設定為能熟練操作經驗豐富的學習者Agent 和無經驗需要提升操作經驗值的學習者Agent；按照學習者的積極主動性，可將在線學習Agent 智能體設定為積極參與學習交互的學習者Agent 和觀望者Agent。

如圖2所示，第四象限是學習交互條件最差的狀態，而第二、第三象限是學習交互條件較差的狀態，第一象限是最好的學習交互條件。提高交互條件要提升在線學習效果的有效方法之一。也就是說，通過對相應學習環境的構建和處理，使更多的無經驗需要提升操作經驗值Agent 轉變為能熟練操作經驗豐富Agent，促成更多的觀望者Agent 轉變為能積極參與學習交互的學習者Agent，以此來增強學習效果。

3.2 多智能體強化學習交互形式化

強化學習（reinforcementlearning），能夠契合人類經驗學習形式和決策思維過程，可解決協同與交互的資源分配、行為協調等問題。即Agent 與環境之間通過交互行為，確定最大化的回報目標，然后對下一步的行動進行選擇，此時單Agent 系統實現多個決策者交互困難，采用多Agent 來進行實現。

3.2.1 Q 學習

采用Q 學習經典強化學習算法,將Agent 在其相應的狀態下所做的操作或動作的Q 值存儲在Q_table 中，經過不斷的更新，接近目標函數Q*，即完成工作任務。Q 學習算法流程，如圖3所示。

其中，Q 值更新描述如下公式（1）：

a’∈A

在公式（1）中，

r 表示狀態s 下選擇操作a 時所得到的結果或效果；

A 表示Agent 的動作集合；

α 表示學習率，用來體現Q 值的更新程度；

γ 表示折扣因子，γ 越小則越注重當前的結果。

然而，Q 學習為單Agent 強化學習方法，為實現多智能體強化學習，我們設計多智能體強化學習模型。

3.2.2 多智能體強化學習交互模型

多智能體強化學習模型包括多個Agent、學習環境、狀態、操作或動作、學習效果即學習完成結果，此外，還需要有激勵策略。激勵函數的功能用來指導觀望者Agent 完成學習任務，或用來提升無經驗或需要提升操作經驗值的學習者Agent 的操作經驗。

多智能體強化學習交互模型如圖4所示，多個Agent 與學習環境進行交互，且每個Agent 之間相互作用，通過獲得的狀態和學習完成結果來優化自己的學習策略。

圖1：觀望者與積極學習者

圖2：在線學習者Agent 四象限圖

圖3：Q 學習流程圖

圖4：多智能體學習交互模型

和單Agent 強化學習一樣，多智能體強化學習過程以馬爾可夫決策過程為基礎，在決策過程中執行策略和動作，同時對策略和動作的價值進行評價。其元組為,n 為多Agent 的數量，Ri是每個Agent 的激勵函數，P 為狀態轉移函數。

由單Agent 擴展為多Agent，Agent 之間可以通過通信交互以此來實現Agent 之間的相互協作，以其他Agent 的信息為輸入，為該Agent 的決策提供參考。

4 結語

在線學習已成為新的教育模式和學習途徑，對在線學習交互的研究具有很強的現實和實踐意義。要實現高水平的在線學習交互，需要對學習交互策略進行精心篩選，需要設計恰當的學習交互活動，并對交互活動進行管理和組織，目的增強學習效果和提高學習質量。本文分析在線學習特點，深入剖析在線學習交互特征，對于需提升操作經驗的學習者和觀望的學習者采用Agent 建模，引入Q 學習，設計多智能體強化學習模型，對在線學習交互進行形式化描述，為下一步建模仿真實驗做基礎。引入多智能體進行在線學習研究，采用基于Agent 建模仿真平臺進行模擬實現，以產生“溢出效應”，提升在線學習效果，助力在線高效學習。