龍翼婷 姜英杰 崔 璨 岳 陽
獎賞預測誤差對項目和聯結記憶影響的分離:元記憶的作用*
龍翼婷1姜英杰1崔 璨2岳 陽1
(1東北師范大學心理學院, 長春 130024) (2江蘇省腦疾病與生物信息重點實驗室, 徐州醫科大學生物化學與分子生物學研究中心, 徐州 221004)
選取獎賞預測誤差(reward prediction error, RPE)效價和凸顯性為自變量, 通過3個實驗考察RPE對項目和聯結記憶影響的差異及其元記憶機制。被試在對圖片的獎賞猜測?獎賞反饋中形成RPE, 且需要同時記憶圖片(項目)以及圖片?獎賞聯結, 最后進行記憶測試。結果表明, (1)聯結記憶成績存在RPE正效價和低凸顯性優勢, 其信心判斷準確性在RPE正效價時更高, 而項目記憶成績存在RPE負效價和高凸顯性優勢; (2)在編碼過程中, RPE正效價和低凸顯性提高了個體的瞳孔變化均值和峰值; RPE低凸顯性增加了分值注視時間, 縮短了圖片注視時間; (3)增加RPE水平后, RPE對項目和聯結記憶成績的分離影響仍穩定存在。這些結果表明, RPE對項目和聯結記憶的影響存在分離: 編碼階段中, 個體以RPE效價和凸顯性為線索, 通過元記憶控制對項目和聯結記憶加工中的認知資源進行差異性分配; 提取階段中, RPE正效價提高了對聯結記憶提取的元記憶監測水平。
獎賞預測誤差, 聯結記憶, 眼動, 情景記憶, 元記憶
情景記憶(episodic memory)是指個體對親身經歷過的發生在特定時間和地點的事件的記憶(Tulving, 2001)。其中的項目記憶(item memory)是對情景中單個項目的記憶, 而聯結記憶(associative memory)需要通過綁定加工(binding)將多個項目或特征進行整合(Murty et al., 2016)。在日常生活中, 認知資源的有限性使個體難以對情景中的全部信息進行加工, 為了使此刻的經驗有助于將來的行動, 個體通常會在編碼中把認知資源分配給更有價值的信息, 因此同時呈現的項目和聯結記憶信息可能會因認知資源競爭被差異性加工。
有研究發現獎賞結果引起了個體對項目和聯結記憶的差異性加工。Murty等(2016)使用獨裁者范式, 學習階段的每個試次中, 獨裁者擁有$10, 可以分配給自己和被試, 告知被試其中某個獨裁者所分配金額將被付現, 且之后還將見到這些獨裁者面孔。為獲得更多收益, 被試在學習階段需利用有限的認知資源, 同時對面孔(項目)及其價值信息(項目?獎賞聯結)進行記憶, 能夠體現獎賞如何影響情景中的不同記憶成分。記憶測試的結果表明, 在獨裁者事件中, 項目記憶受獎賞影響不顯著, 但低獎賞結果促進了個體聯結記憶的提高。
另有研究考察了獎賞預測誤差(reward prediction error, RPE)對項目記憶和聯結記憶的影響(Ergo et al., 2021; Rouhani et al., 2018; Rouhani et al., 2020)。RPE是獎賞結果減去獎賞預期后的差值, 有效價和凸顯性兩個屬性(Mason et al., 2019)。效價(valance)代表獎賞結果高于還是低于獎賞預期, 正效價代表獎賞結果優于獎賞預期, 負效價代表獎賞結果低于獎賞預期(Ergo et al., 2020)。凸顯性(salience)代表獎賞結果和獎賞預期間的偏離程度, 可以用無符號的獎賞預測誤差(unsigned RPE, URPE) 表示, URPE越大代表結果與預期的偏離程度越大, 個體的意外程度越高(Rouhani et al., 2018)。RPE的效價和凸顯性都會對情景記憶產生影響。
Rouhani等(2018)在學習階段讓被試對圖片進行獎賞預期并獲得獎賞反饋結果, 習得圖片的獎賞規律(其中一類圖片出現高獎賞的比率更大), 告知被試在隨后的決策階段中需要在每兩張圖片中進行選擇并獲得其獎賞; 決策階段后對被試進行了記憶測試。以反饋結果與獎賞預期之差作為RPE, 以URPE作為RPE凸顯性, 結果表明, RPE對項目記憶(圖片再認)影響不顯著, 但URPE顯著提高了項目記憶成績, 說明項目記憶只受到了RPE凸顯性的影響。之后Rouhani等(2020)將學習階段換成被動的順序獎賞任務, 屏幕上會連續呈現若干帶有不同分值的圖片, 分值的10%被累計到被試收益中, 由分值分布的變化產生RPE, 仍然發現了項目記憶的RPE高凸顯性優勢。此外, 該研究在實驗4中讓被試對圖片呈現時序進行記憶, 最后的時序聯結記憶成績表現出RPE低凸顯性優勢。表明RPE凸顯性可能引起了對項目和聯結記憶的差異性加工。
但在上述研究中, 只有項目記憶能影響決策收益, 因此在編碼階段, 被試將以RPE凸顯性為線索,對圖片編碼優先投入認知資源, 其次才對圖片時序進行學習, 這意味著聯結記憶成績可能主要取決于項目記憶對認知資源的占用情況, 而非受到RPE的直接影響。不同的是, 一些研究將聯結記憶作為主要任務(外語?母語詞對聯結:Calderon et al., 2021; 人物?物品聯結:Aberg et al., 2017), 結果都發現了聯結記憶中的RPE正效價優勢, 卻并未能驗證RPE凸顯性的影響。Aberg等(2017)雖然發現預期與結果偏差更小(RPE凸顯性更小)的條件下被試的聯結記憶成績更高, 但實驗中該條件下得到正性結果的幾率也更大(RPE效價更正), 因此難以分辨出聯結記憶成績的提高是否能歸因于凸顯性的影響。
綜上, 已有研究發現獎賞預測誤差對項目和聯結記憶的影響存在差異, 項目記憶表現出高凸顯性優勢, 聯結記憶表現出正效價優勢, 但凸顯性是否對聯結記憶存在影響還有待考察。人類情景中通常同時涉及項目和聯結成分, 它們需要競爭有限的認知資源, 獎賞會改變個體對這些成分的認知資源投入, 因而項目和聯結記憶受獎賞的影響表現出差異性(Murty et al., 2016)。但在探究RPE對情景記憶的影響時, 先前研究對項目和聯結記憶分開考察, 實驗往往只包含單一記憶任務, 難以探討RPE對項目和聯結記憶影響的差異, 更無法進一步揭示該差異產生的原因——即RPE對認知資源分配的影響。因此本研究參考Murty等(2016)的研究, 以圖片和圖片?獎賞聯結分別作為項目和聯結記憶指標, 考察個體如何基于RPE同時進行項目記憶和聯結記憶加工。
記憶編碼中個體對認知資源投入的調節, 是元記憶控制過程的體現, 為揭示獎賞對這一過程的影響, 價值導向元記憶(value-directed metamemory)研究中采用眼動技術追蹤被試對特定興趣區中的刺激的注視時間(fixation duration)作為學習時間分配(study-time allocation)的指標, 發現高價值刺激比低價值刺激獲得了更長的學習時間, 表明個體會優先對高價值項目分配認知資源(姜英杰等, 2016)。瞳孔擴張也與認知資源投入有關, 學習者編碼信息的心理努力更大時(此時認知資源投入更多), 瞳孔擴張會增大, 記憶效果提高(Ariel & Castel, 2014)。因此本研究采用眼動追蹤技術, 通過注視時間和瞳孔直徑變化兩個指標, 考察RPE影響項目和聯結記憶編碼的元記憶控制過程, 作為RPE效應產生的認知機制。
因此, 本研究通過3個實驗考察RPE的效價和凸顯性對同時呈現的項目記憶和聯結記憶的影響及其元記憶機制。其中實驗1比較了不同RPE水平下項目和聯結記憶成績的差異, 并通過信心判斷考察了RPE對提取階段元記憶監測的影響, 基于Rouhani等(2020)的結果, 實驗1假設項目和聯結記憶受RPE影響的方向相反, 且RPE能夠促進記憶提取中的信心判斷準確性。在實驗1的基礎上, 實驗2通過眼動技術考察編碼階段中RPE如何影響元記憶控制過程, 我們預期, 項目編碼和聯結編碼存在認知資源競爭, RPE對二者的影響方向與記憶成績的結果相符。在實驗1和2中, 獎賞結果只有1、4和7三個水平, RPE正負效價分別與7和1兩種結果存在較大的重疊, 為減小RPE效價和獎賞結果影響的重疊, 增加結果的可重復性, 補充進行實驗3, 在實驗1的基礎上增加RPE水平, 驗證記憶中的RPE效應, 預期其結果會與前兩個實驗一致。
實驗1的目的是考察RPE效價和凸顯性如何影響項目和獎賞聯結記憶。
2.1.1 被試
招募被試36人, 剔除了其中2名(項目記憶成績低于隨機水平), 保留被試34人(女性24人), 年齡19~25歲(= 22.11歲,= 1.98歲), 視力或矯正視力正常, 無神經系統和心理疾病病史。所有被試均自愿參加實驗, 并簽署被試知情同意書。每名被試獲得真實現金獎勵平均約為21元。
2.1.2 實驗材料
刺激材料為120張室內和戶外場景圖片(H?eltje & Mecklinger, 2020), 整個實驗過程中的刺激均呈現在白色背景上。通過E-prime 3.0進行實驗編程。
考慮到個體對獎賞加工的差異能夠調節RPE效價對記憶的影響(Aberg et al., 2017; Rouhani & Niv, 2019), 在學習和測試的間隔時間內, 讓被試填寫漢化版的獎懲敏感性量表(sensitivity to punishment and sensitivity to reward questionnaire, SPSRQ)。SPSRQ包括懲罰敏感性(SP)和獎勵敏感性(SR)兩個分量表, 要求被試做出“是”或“否”的回答。漢化版SPSRQ由郭永香等(2011)進行修訂, 共31道題目, 其中SP有19個項目, SR有12個項目。漢化版SPSRQ中SP和SR在本研究中的內部一致性信度分別為0.85和0.70。
2.1.3 實驗設計
采用被試內設計, 自變量為RPE效價和凸顯性, 因變量為項目和聯結記憶成績。
實驗1中獎賞結果包含1、4和7三種分值, 它們在高、低價值圖片中的比例分別是2 : 3 : 5和5 : 3 : 2。由獎賞結果和被試的給出的猜測價值之差產生RPE, 共有?6、?3、0、3和6五種分值, 效價為其正負符號, 凸顯性為URPE。
2.1.4 實驗流程
包含價值學習和記憶測試兩個階段, 總體流程如圖1。參考Rouhani等(2018)的實驗范式, 價值學習階段以室內和戶外風景圖片為學習材料, 其中一類圖片出現高分值結果的概率更大。在學習階段, 讓被試對圖片進行獎賞預測并獲得獎賞結果的反饋, 通過這樣的強化學習探索圖片分值規律, 所有分值的30%將累計入總分值中; 告知被試之后有在每兩張圖片中進行決策并獲得其價值的機會, 以此產生獎賞動機對記憶的影響, 但實際的程序并不包括決策階段, 學習階段后直接對被試進行項目和獎賞聯結記憶測試, 并給出對其回憶結果的信心判斷(judgements of confidence, JOCs)。
學習階段。在400~600 ms的注視點后, 屏幕上呈現一張室內或戶外場景圖片3秒, 這3秒之內不需按鍵。圖片消失后, 進入價值猜測, 電腦詢問被試“你猜測這張圖片分值為多少?”并給出可選項為1、4或7分(分別對應左、下、右方向鍵), 要求在3秒內按鍵作答。隨后詢問被試對于猜測的信心判斷值, 并按Z、X、C或V鍵進行反應(分別對應“猜的”、“有點確定”、“相當確定”或“完全確定”), 要求在3秒內按鍵反應。按鍵之后, 屏幕上再次呈現圖片及其價值結果(如“+7”), 呈現3秒。正式實驗包括60個試次, 在此之前, 被試需要完成6個練習試次, 以確保完全理解指導語。
學習階段之后, 要求被試填寫漢化版的SPSRQ, 然后進行連續減3的干擾任務, 以填充學習和測試間的5分鐘間隔。
最后進入未被提前告知的測試階段。首先呈現一個400~600 ms的注視點, 隨后呈現一張場景圖片, 圖片下方出現新舊兩個選項, 被試需要在5秒內按左右方向鍵進行反應, 并在之后的3秒內按Z、X、C或V鍵做出信心判斷(猜的、有點確定、相當確定或完全確定)。然后進入價值回憶, 屏幕上再次呈現該場景圖片, 圖片下方出現1、4和7三個價值選項, 被試需要在5秒內按方向鍵作答, 并在之后的3秒內給出信心值(猜的、有點確定、相當確定或完全確定)。回憶階段的正式實驗包含60張舊圖像和60張新圖像, 在此之前, 被試需要完成12個試次的練習。

圖1 實驗1流程圖
2.1.5 數據整理與分析方法
項目記憶成績為對舊圖片的再認結果(正確計分為1, 錯誤計分為0), 聯結記憶成績為項目再認正確試次中被試對價值反饋的回憶結果(正確計分為1, 錯誤計分為0), JOCs中猜的、有點確定、相當確定、完全確定分別記分為1、2、3、4。對于SPSRQ分數, 首先將SR分數和SP分數轉換為值, 再將二者相減得到獎懲敏感性差值分數。
參考前人的分析方法(Rouhani et al., 2018), 通過R軟件的廣義混合效應線性模型對行為數據進行分析, 始終將被試作為隨機截距項放入所有模型分析。以往多數研究只將RPE作為預測因子, 忽略了獎賞結果本身的影響(Ergo et al., 2020; Jang et al., 2019; Rouhani et al., 2018), 但獎賞結果和RPE兩種獎賞成分都可能影響情景記憶, 且RPE正效價往往對應著高獎賞結果, 兩種效應存在混淆, 因此本研究將同時對這兩種獎賞成分進行分析, 在考察RPE和URPE的影響時, 始終將獎賞結果作為另一預測因子放入模型。若因變量為分類變量(即項目記憶和聯結記憶準確性), 使用廣義混合效應線性模型(lme4包中的glmer函數)進行分析; 若因變量為連續變量(即項目記憶和聯結記憶JOCs), 使用混合效應線性模型(nlme包中的lme函數)進行分析。當對多個因子的影響進行分析時, 報告擬合程度最好(即AIC值最低)的公式中的效應, 如某些情況下, 考慮進因子間顯著的交互作用后, AIC值更低, 則同時報告因子的主效應及其交互作用。在線性模型分析結果中, RPE的主效應顯著則表明存在RPE效價效應, URPE的主效應顯著則表明存在凸顯性效應。對于交互作用, 通過將主效應項值乘積的符號與交互作用項值的符號進行對比, 符號相反時的交互作用被描述為負向交互作用, 此時一個變量的增長會削弱另一個變量的效應量; 符號相同時則被描述為正向交互作用, 此時一個變量的增長會增大另一個變量的效應量。
2.2.1 獎賞預測誤差對情景記憶成績的影響
刪去學習階段中被試未做出價值猜測按鍵的試次后, 不同RPE條件下, 項目和聯結記憶擊中率的均值和標準差如表1所示, RPE和獎賞結果對記憶成績的影響如圖2所示。
對記憶成績進行分析(表2)發現, 獎賞結果(= 0.610)和RPE (= 0.217)對項目記憶的影響不顯著, URPE (= 0.070)的影響也只達到了邊緣顯著水平, 表明項目記憶只有隨凸顯性增大而提高的趨勢。對于聯結記憶, 獎賞結果(= 0.002)和RPE (< 0.001)主效應均顯著, 表明高獎賞結果和RPE正效價都會促進聯結記憶成績的提高, 且兩者存在顯著的負向交互作用(= 0.001), 表明隨著獎賞結果的增大, RPE效價的效應會減弱; URPE的影響也顯著(< 0.001), 聯結記憶成績在低凸顯性時更高。

表1 實驗1項目和聯結記憶擊中率均值和標準差(n = 34)

圖2 實驗1獎賞(a為RPE, b為獎賞結果)對項目和聯結記憶擊中率的影響(誤差線為標準誤)

表2 實驗1項目和聯結記憶擊中率廣義混合線性模型分析結果
對再認正確試次的反應時進行分析(表3), 結果只發現了獎賞結果的增大對聯結記憶提取速度的顯著促進作用(= 0.002)。
將正負RPE效價間的項目記憶和聯結記憶成績分別作差, 再將該差值與獎懲敏感性差值進行相關分析。結果發現, 獎懲敏感性差值與項目記憶成績差值的相關并不顯著(= ?0.25,= 0.147), 但與聯結記憶成績差值的相關顯著(= 0.39,= 0.022), 對獎賞更敏感同時對懲罰更不敏感的被試, 在RPE正效價時的聯結記憶成績會更高于負效價時。
2.2.2 獎賞預測誤差對信心判斷的影響
刪去一名未理解信心判斷指導語的被試(全部選擇了完全確定選項), 并刪去被試在學習階段沒有做出價值預期以及在測試階段未做出信心判斷的試次后, 在不同RPE條件下, 不同記憶結果下中項目記憶和聯結記憶JOCs的均值和標準差如表4所示, 錯誤和正確回憶試次中RPE對JOCs的影響如圖3所示。
對于項目記憶JOCs, 首先, 項目記憶結果的影響顯著(= 0.76,= 17.48,< 0.001, 95% CI = [0.68, 0.85]), 再認正確時的信心值比再認錯誤時更高。值得注意的是, 這種記憶結果的主效應體現的是JOCs的準確性, 若其他變量和記憶結果有顯著的交互作用, 則表明該變量能夠影響JOCs準確性。在將記憶結果作為預測因子的基礎上, 分別對RPE和URPE進行混合線性回歸分析(表5)。結果發現, 三個獎賞成分與記憶結果的交互作用都不顯著(s > 0.100)。
對于聯結記憶JOCs, 聯結記憶結果的影響同樣顯著(= 0.26,= 5.47,< 0.001, 95% CI = [0.16, 0.35]), 當聯結回憶正確時, 被試的信心判斷值更高。在將回憶結果作為預測因子的基礎上, 再分別對RPE和URPE的影響進行混合線性回歸分析(表5)。結果發現, 獎賞結果(= 0.005)和RPE (= 0.029)分別與記憶結果的正向交互作用顯著, 表明獎賞結果和RPE效價對聯結記憶JOCs準確性存在顯著影響, 獎賞結果升高和RPE正效價都促進了聯結JOCs準確性的提高。但URPE與記憶結果交互作用不顯著(= 0.817)。

表3 實驗1項目和聯結記憶反應時廣義混合線性模型分析結果

表4 項目和聯結記憶JOCs均值和標準差(n = 33)

圖3 實驗1 RPE對項目(圖a)和聯結記憶(圖b)JOCs的影響(誤差線為標準誤)

表5 實驗1 JOCs混合線性模型分析結果
實驗1中, 不同獎賞條件下的項目記憶成績相似, 只存在項目記憶隨RPE凸顯性升高而增大的趨勢。這可能是由于預期階段時長為3s, 導致被試在預期階段就已對圖片進行了較深編碼, 而在反饋階段更多地編碼聯結信息, 從而削弱了反饋階段產生的RPE對項目記憶編碼的影響。但前人使用相似程序(Rouhani & Niv, 2021), 卻仍發現了URPE對項目記憶的顯著影響, 究其原因, 前人研究中分值為1至100間的連續整數列, 而本研究只包含1、4和7三個分值選項, 獎賞信息加工對認知資源的占用更小, 有利于個體更充分對圖片進行加工。
不同的是, 考慮了獎賞結果增大對聯結記憶成績的促進效應后, 我們仍發現了聯結記憶中明顯的RPE正效價和低凸顯性優勢。此外, 個體特質可能會通過影響獎賞的動機作用而改變記憶成績(Aberg et al., 2017; Rouhani & Niv, 2019), 獎懲敏感性差值的分析結果表明, 相比于受獎賞動機的激勵更弱的人, 受獎賞動機的激勵更強的個體在面對RPE正效價時, 聯結記憶成績會更高。
反應時反映了記憶提取的流暢性, JOCs反映了記憶提取中的元記憶監測準確性。獎賞對聯結記憶的提取過程有重要影響, 一方面, 獎賞結果的增大提高了聯結記憶提取的流暢性, 另一方面, 聯結記憶提取中的元記憶監測在高獎賞結果和RPE正效價時更準確, 且RPE正效價時準確性也更高。
在實驗1的基礎上, 實驗2采用眼動技術, 考察RPE效價和凸顯性對項目和聯結記憶編碼過程中元記憶控制的影響。實驗1過長的預期階段導致了項目記憶成績的陰性結果, 因此實驗2中將學習階段的預期階段時間由3 s變為2 s, 相應地將反饋階段時間由3 s延長到4 s, 以增強反饋階段的獎賞信息對記憶的影響。
3.1.1 被試
考慮到眼動分析中會剔除部分記錄失誤的試次, 實驗2將學習階段的試次數由60增加到100, 相應減小了被試量。共招募被試23人, 其中女性17人, 年齡為17~23歲(= 19.79歲,= 1.89歲), 視力或矯正視力正常, 無神經系統和心理疾病病史。所有被試均自愿參加實驗, 并簽署被試知情同意書。每名被試獲得真實現金獎勵平均約為28元。
3.1.2 實驗材料與儀器
刺激材料和量表與實驗1中相同。采用Eyelink1000Plus塔式眼動儀, 采樣率為1000 Hz。屏幕刷新率為60 Hz, 分辨率為1920×1080像素, 被試眼睛與屏幕間距離為76 cm, 所有刺激都呈現在深灰色背景上, 圖片大小為600×400像素, 記錄右眼的眼動軌跡。
3.1.3 實驗流程
實驗流程(圖4)和指導語與實驗1相似。不同的是, 調整學習階段各屏的呈現時間, 預期階段圖片僅呈現2秒, 而反饋階段圖片呈現時長改為4秒, 且除了每個試次開始時的注視點外, 每兩屏間都還有一個600~800 ms的注視點空屏, 試次結束后還有一個800~1200 ms的注視點空屏。學習階段包括100試次, 測試階段包括200試次。完成練習試次后, 先進行九點模式校準, 要求平均誤差低于0.5°, 成功校準后, 實驗開始。
在學習階段的價值反饋屏收集眼動數據。一方面, 以圖片和分值區域為興趣區, 分別收集被試的注視時間; 另一方面, 記錄該屏內被試的瞳孔直徑。
3.2.1 獎賞預測誤差對情景記憶成績的影響
刪去學習階段被試沒有做出價值猜測的試次后, 不同RPE條件下, 項目和聯結記憶擊中率的均值和標準差如表6所示, RPE和獎賞結果對記憶擊中率的影響如圖5所示。
對記憶成績進行分析(表7)。對于項目記憶, 首先, 獎賞結果(< 0.001)和RPE (< 0.001)主效應均顯著, 且兩者存在顯著的負向交互作用(= 0.002), 高獎賞結果和RPE負效價都促進了項目記憶的提高, 但效價效應會隨著獎賞結果的增大而被削弱。其次, URPE的影響也顯著(< 0.001), 項目記憶成績隨RPE凸顯性增高而提高。聯結記憶成績的結果與實驗1相同, 獎賞結果(< 0.001)、RPE (= 0.002)和URPE (< 0.001)的影響均顯著, 且RPE與獎賞結果的負向交互作用顯著(< 0.001), 聯結記憶成績受到高獎賞結果的促進, 且存在RPE正效價和低凸顯性優勢, 其中效價效應會受高獎賞結果的削弱。
對再認正確試次的反應時進行分析(表8), 只發現了URPE對聯結記憶反應時的顯著影響(= 0.011), RPE凸顯性的減小促進了聯結記憶提取速度的提高。
獎懲敏感性差值與正負效價間項目記憶成績差值(= ?0.05,= 0.840)和聯結記憶成績差值(= ?0.11,= 0.630) 的相關都不顯著。
3.2.2 獎賞預測誤差對編碼階段眼動的影響
刪去眼動數據收錄過程中校準失敗的3名被試, 對于剩余20名的被試, 刪去眨眼過多或對分值注視時間小于50 ms的試次, 描述統計結果如表9所示。對圖片和分值注視時間以及瞳孔直徑變化的混合線性模型分析結果如下(見表10)。

圖4 實驗2流程圖(在價值反饋屏收集眼動指標, 流程圖中以綠色框標出)

表6 實驗2項目和聯結記憶擊中率均值和標準差(n = 23)

圖5 實驗2 獎賞(a為RPE, b為獎賞結果)對項目和聯結記憶擊中率的影響(誤差線為標準誤)

表7 實驗2項目和聯結記憶擊中率廣義混合線性模型分析結果

表8 實驗2項目和聯結記憶反應時廣義混合線性模型分析結果

表9 實驗2注視時間(ms)和瞳孔變化(μm)的均值和標準差(n = 20)

表10 實驗2眼動結果的混合線性模型分析結果
考察RPE對圖片和分值注視時間的影響。結果發現, URPE對圖片注視時間影響顯著(= 0.016), RPE凸顯性的增大會使圖片注視時間延長。URPE對分值注視時間也有顯著影響(= 0.006), RPE凸顯性更小時, 被試對分值的注視時間越長。獎賞結果和RPE對圖片注視時間的影響都不顯著, 獎賞結果和RPE對分值注視時間的影響也都不顯著(s > 0.100)。
首先進行瞳孔基線校正, 選取價值反饋屏呈現前500 ms的平均瞳孔直徑作為基線, 通過減法換算(瞳孔變化值 = 反饋屏瞳孔大小 ? 基線值), 得到校正后的瞳孔變化平均值和最大值(楊曉夢等, 2020)。考察RPE對瞳孔變化的影響, 結果發現, 對于瞳孔變化平均值, RPE (= 0.002)和URPE (= 0.003)的主效應顯著, 且獎賞結果和RPE有顯著正向交互作用(= 0.023), 獎賞結果和URPE也有顯著正向交互作用(= 0.034), 表明RPE正效價和低凸顯性都促進了瞳孔變化平均值的增加, 同時獎賞結果的增大會增強效價和凸顯性的效應。對于瞳孔變化最大值, 獎賞結果(= 0.037)、RPE (< 0.001)和URPE (= 0.003)的主效應顯著, 且獎賞結果和URPE有顯著正向交互作用(< 0.001), 表明RPE正效價和低凸顯性都促進了瞳孔變化最大值的增加, 同時獎賞結果的增大會增強凸顯性的效應。
在縮短預期階段時長, 并延長反饋階段的呈現時間之后, 實驗2發現, 項目記憶中存在RPE負效價與高凸顯性優勢, 與我們的預期相符。項目記憶對價值反饋階段認知資源的競爭并沒有改變聯結記憶中的RPE效應, 實驗2再次驗證了聯結記憶中的RPE正效價和低凸顯性優勢。
眼動指標反映了元記憶控制過程, 其中注視時間反映了個體對不同刺激的學習時間分配(姜英杰等, 2016), 主要受到了RPE凸顯性的影響。當RPE凸顯性更低時, 被試采取優先編碼聯結信息的策略, 延長了對分值的學習時間, 此時對應的聯結記憶成績也更高。而當RPE凸顯性增大, 獎賞聯結的編碼優先級降低, 被試對圖片的學習時間相應延長。
瞳孔直徑變化體現了被試的心理努力程度(Ariel & Castel, 2014)。校正后的瞳孔變化平均值和最大值結果都表明, RPE正效價和低凸顯性促進了瞳孔變化, 同時獎賞結果更高時, RPE對瞳孔變化的影響會更大。這與RPE對聯結記憶的影響基本相符, 可能表明瞳孔直徑的變化主要反映了個體在獎賞動機作用(參見綜述:楊曉夢等, 2020)下對分值加工的心理努力程度。
實驗1和2發現了RPE效價和凸顯性對項目和聯結記憶的分離影響, 并進一步揭示了該影響發生的認知機制——獎賞信息通過元記憶控制改變了個體對項目和聯結編碼的認知資源投入。但在這兩個實驗中, 獎賞結果只包含3個水平, 導致高低獎賞結果分別與正負效價RPE重疊較大, 雖然統計分析中始終考慮了獎賞結果的影響, 已經較準確地體現了RPE效價本身的效應, 但為增強該結果的信度, 補充進行實驗3, 目的是考察實驗1和2中RPE效價對記憶成績影響的穩定性, 并再次驗證RPE凸顯性的影響。
實驗1和2中, 獎賞結果只有1、4和7三種, 導致高獎賞結果7對應的RPE只有0和負效價, 低獎賞結果1對應的RPE只有0和正效價, 只有中等獎賞結果4同時對應正效價、0和負效價。因此在實驗3中, 將獎賞結果設置為1、3、5和7四種, 以增加RPE水平, 減小RPE效價和高低獎賞結果的重疊, 驗證RPE效價和凸顯性對項目和聯結記憶影響的穩定性。
4.1.1 被試
招募被試29人, 剔除2名項目記憶擊中率低于0.5的被試, 最后保留被試27人。其中女性24人, 年齡19~25歲(= 22.11歲,= 1.98歲), 視力或矯正視力正常, 無神經系統和心理疾病病史。所有被試均自愿參加實驗, 并簽署被試知情同意書。每名被試獲得真實現金獎勵平均約為19元。
4.1.2 實驗材料
刺激材料和量表與前兩個實驗相同。
4.1.3 實驗設計與流程
實驗設計與實驗1相似。但在自變量的操縱上, 獎賞結果序列變為1、3、5和7, 它們出現的比例在高價值圖片中是1 : 2 : 3 : 4, 而在低價值圖片中為4: 3: 2: 1。由獎賞結果和被試的給出的猜測價值之差產生RPE共有?6、?4、?2、0、2、4和6七種。
總體實驗流程和指導語與實驗2相似。不同的是, 首先, 只保留了試次開始時的注視點屏; 其次, 考慮到分值序列增加對記憶難度的改變, 將學習階段價值反饋屏的呈現時間延長到5秒。學習階段包括100試次, 測試階段包括200試次。
刪去學習階段被試沒有做出價值猜測按鍵的試次后, 不同RPE條件下, 項目和聯結記憶擊中率的均值和標準差如表11所示, RPE和獎賞結果對記憶擊中率的影響如圖6所示。
對記憶成績進行分析(表12)。對于項目記憶, 與實驗2相同, 獎賞結果(= 0.001)、RPE (< 0.001)和URPE (< 0.001)的影響均顯著, 且RPE和獎賞結果有顯著的負向交互作用(< 0.001), 獎賞結果的增大促進了項目記憶成績的提高, 項目記憶存在RPE負效價優勢以及高凸顯性優勢, 但獎賞結果的提高會削弱效價效應。聯結記憶的結果與前兩個實驗相似, RPE (< 0.001)和URPE (< 0.001)的影響均顯著, 且存在RPE與獎賞結果顯著的負向交互作用(< 0.001), 但獎賞結果的影響只達到了邊緣顯著水平(= 0.056), 表明聯結記憶成績存在穩定的RPE正效價和低凸顯性優勢, 存在隨獎賞結果增大而提高的趨勢, 且其中的RPE效價效應還會受到高獎賞結果的削弱。

表11 實驗3項目和聯結記憶擊中率均值和標準差(n = 27)

圖6 實驗3獎賞(a為RPE, b為獎賞結果)對項目和聯結記憶擊中率的影響(誤差線為標準誤)

表13 實驗3項目和聯結記憶反應時混合線性模型分析結果
對再認正確試次的反應時進行分析(表13), RPE (= 0.001)和URPE (< 0.001)對聯結記憶反應時的影響均顯著, 且獎賞結果與URPE的交互作用顯著(= 0.049), 表明聯結記憶的提取速度在RPE正效價或凸顯性更低時加快, 且獎賞結果增大后會削弱凸顯性的效應。
獎懲敏感性差值與正負效價間項目記憶成績差值(= 0.02,= 0.940)和聯結記憶成績差值(= 0.18,= 0.370)的相關都不顯著。
將RPE的水平數增加到7后, 正負效價與高低獎賞結果的重疊減小, 但RPE對項目和聯結記憶成績的影響與實驗1和2中相同, 這表明RPE效價和凸顯性對項目和聯結記憶的影響是穩定存在的, RPE效價的影響并非是由獎賞結果差異引起的假陽性結果。
對于聯結記憶提取過程, 實驗1中發現了高獎賞結果對提取流暢性的促進, 而實驗3將RPE效價與獎賞結果高低的影響進一步分離后, 發現RPE正效價時聯結記憶提取速度更快, 同時獎賞結果的影響不再顯著。這表明實驗1中的獎賞結果的影響可能源自于RPE的效價效應。
實驗2和3中均未發現獎懲敏感性與項目和聯結記憶中RPE效價效應的相關, 且實驗1中的相關程度偏低, 這可能是由于受招募而來的被試群體對獎懲的敏感性類似。通過將標準差除以平均數計算離散系數, 發現被試對獎賞和懲罰的敏感性原始分數的離散系數均低于0.5 (實驗1, 獎賞:0.43, 懲罰:0.40; 實驗2, 獎賞:0.46, 懲罰:0.29; 實驗3, 獎賞:0.15, 懲罰:0.17), 離散程度處于較低水平, 驗證了上述推論。
基于價值學習?測試范式, 本研究通過3個實驗探討了RPE效價和凸顯性對同一任務中的項目和聯結記憶的不同影響。實驗1發現, 聯結記憶成績存在RPE正效價和低凸顯性優勢, 其JOCs準確性在RPE正效價時更高。實驗2進一步發現項目記憶成績存在與聯結記憶相反的RPE負效價和高凸顯性優勢, 且通過眼動技術考察記憶編碼中的元認知控制過程發現, RPE正效價和低凸顯性提高了個體的瞳孔變化平均值和峰值, 且RPE低凸顯性增加了分值注視時間, 縮短了圖片注視時間。實驗3增加了RPE水平, 再次驗證了RPE對項目和聯結記憶的相反影響。
RPE效價對項目和聯結記憶存在分離的影響。項目記憶成績中的RPE負效價優勢與Wimmer等(2014)的發現一致。RPE正效價能夠促進聯結記憶成績的提高, 與使用詞對聯結(Ergo et al., 2020)、名字?面孔聯結(Calderon et al., 2021)和面孔?物品圖像聯結(Aberg et al., 2017)的前人實驗結果一致, 體現了聯結記憶中RPE正效價優勢的類別一般性。
RPE凸顯性對項目和聯結記憶也存在分離的影響。RPE高凸顯性對項目記憶的促進作用與前人相同(Rouhani & Niv, 2019, 2021; Rouhani et al., 2018)。RPE高凸顯性對聯結記憶的抑制作用也與Rouhani等(2020)的結果相符。而且與前人研究不同, 本研究中的項目?獎賞聯結記憶涉及實驗的主要任務, 受到獎賞的直接影響, 聯結記憶中的凸顯性效應體現的是RPE凸顯性的直接影響。此外, 在實驗1中, 項目記憶在不同獎賞條件下的成績相似, 占用了相似的認知資源, 而聯結記憶的高凸顯性優勢仍然存在, 再次表明RPE凸顯性是直接作用于聯結記憶, 而非通過影響不同凸顯性時項目記憶對認知資源的占用間接產生。
5.2.1 效價對元記憶控制的影響
情景記憶中的獎賞聯結記憶(Murty et al., 2016)能夠引導適應性決策, 在認知層面, 當面對意味著更高收益的RPE正效價時, 個體的瞳孔變化增大, 這可能體現了個體有了更強的獎賞動機后, 主動通過元記憶控制增強對聯結記憶的認知資源分配的過程。根據注意的雙重競爭模型(Pessoa, 2009), 一方面, 獎賞相關刺激在視覺皮層上的表征得到增強,能夠被優先注意; 另一方面, 個體會通過增強執行功能, 促進獎賞相關加工的效率。此外, 在生理層面, RPE正效價促使腹側被蓋區的多巴胺分泌增加, 而負效價時多巴胺分泌減少(Schultz et al., 1997), 這些多巴胺傳入海馬后能夠使瞬時記憶痕跡獲得更大的時間持久性, 從而在聯結記憶編碼時或編碼前后產生促進作用(Bethus et al., 2010)。
而RPE負效價時, 對聯結記憶的資源投入減少, 導致此時聯結記憶成績降低。但對于項目記憶, 有核磁研究發現, 在編碼階段, RPE負效價雖然對紋狀體的激活更弱, 但負效價的圖片的再認正確率比正效價圖片更高; 且再認成功的圖片在編碼中對應的雙側海馬激活更大(Wimmer et al., 2014)。這表明, RPE負效價雖然誘發了更弱的獎賞動機, 卻會促進項目記憶編碼, 從而提高了項目記憶表現。
5.2.2 凸顯性對元記憶控制的影響
眼動結果表明, 凸顯性對圖片和分值編碼時長的影響是“此消彼長”的, 這一元記憶控制過程體現了項目和獎賞聯結對認知資源的競爭, 也是二者受RPE凸顯性的影響表現出分離形式的主要原因。RPE凸顯性代表結果與預期的偏離程度的大小, 低凸顯性意味著更少的分值信息更新負荷, 降低了聯結編碼難度, 加工流暢性更高。而加工流暢性作為編碼過程元記憶監測的內在線索(Koriat, 1997), 會促使被試采取優先對聯結信息分配更多認知資源的元記憶控制策略。一方面, 延長對分值的學習時間, 以加深獎賞聯結的記憶痕跡, 另一方面, 此時瞳孔變化增強, 表明了被試增加了聯結編碼的心理努力程度。
RPE凸顯性增大后, 聯結記憶加工流暢性降低, 獎賞聯結的優先級降低, 對圖片的認知資源分配相應增加。在生理層面, 此時被試的意外程度更大, 可能會引起藍斑中去甲腎上腺素分泌的增加, 去甲腎上腺素與多巴胺在海馬中共同釋放能夠調節編碼后記憶增強(Takeuchi et al., 2016), 促進了此時的項目記憶編碼。
聯結記憶提取過程的元記憶監測準確性受到了RPE正效價的促進, 流暢性受到RPE正效價和低凸顯性的促進。根據記憶再認的雙加工理論, 聯結記憶提取需要檢索特定項目的情景信息, 只能通過更復雜的回想過程完成, 不能像項目記憶一樣通過熟悉性過程而快速地、自動化地完成再認(Woroch & Gonsalves, 2010)。因此編碼階段中的獎賞在提取階段的效應主要體現在對回想過程的促進。
研究者發現積極情緒刺激在編碼階段會被賦予更多認知資源, 促進對視覺細節的加工, 從而促進情景記憶的回想過程(毛新瑞等, 2015)。而相比于基于熟悉性做出信心判斷, 當個體的信心判斷是基于回想時, 元記憶監測更準確(Souchay et al., 2013)。由于比預期更高的獎賞結果通常會引起積極情緒, 這可能解釋了獎賞對聯結記憶提取中的元記憶監測產生促進作用的機制——RPE正效價通過在編碼階段中促進對細節的加工, 增強了聯結提取中的回想過程, 從而提高了元記憶監測準確性。
越來越多的研究者認為獎賞結果主要是通過RPE產生作用, 因而著重探索RPE對記憶的影響, 同時忽略了獎賞結果的作用(Ergo et al., 2020; Jang et al., 2019; Rouhani et al., 2018)。但本研究結果表明, 獎賞結果在項目和聯結記憶中都發揮著重要作用, 尤其當結果令人足夠滿意時, 結果與預期孰優孰劣將不再作為個體判斷其損益的主要標準。
綜合三個實驗結果, 獎賞結果的增大同時促進了項目記憶和聯結記憶的提高。獎賞結果能夠正向促進情景記憶成績, 這與前人研究的結果符合(Castanheira et al., 2021)。但Murty等(2016)發現面孔?低獎賞聯結的記憶成績更好, 這可能是因為他們使用具有社會性的獨裁者游戲范式, 被試采取“避害”的記憶策略。總的來說, 獎賞結果對記憶的影響具有“趨利避害”的適應性。
本研究考察了RPE效價和凸顯性如何同時作用于項目和聯結記憶, 發現二者在編碼階段中存在認知資源競爭, 被試會以RPE效價和凸顯性為線索對其進行適應性的選擇性加工。在課堂的記憶促進中, 對獎賞的利用通常局限于獎賞結果本身, 但本研究結果表明, 若同時操縱了學習者的獎賞預期, 使其形成不同的RPE, 對記憶效果可能有更多的促進作用。
但值得注意的是, 本研究選取的聯結記憶指標為獎賞聯結, 與前人研究中的人物?物品聯結(Aberget al., 2017)以及外語?母語詞匯聯結(Calderon et al., 2021; Ergo et al., 2021)等存在一個共同點, 即RPE凸顯性大小對應了不同的聯結編碼難度, 這可能是導致RPE低凸顯性時聯結記憶成績升高的重要原因。因此, 當聯結編碼的難度與凸顯性無關時, 凸顯性的影響是否仍存在, 是未來研究需要考慮的問題。
個體本身的特質能夠影響獎賞的動機作用從而作用于項目記憶(Rouhani & Niv, 2019)和聯結記憶(Aberg et al., 2017), 但本研究只在實驗1中發現了獎懲敏感性與聯結記憶中RPE效價效應的低相關, 這可能是由被試獎懲敏感性的低離散程度導致的。之后的研究可以考慮在實驗前選取高低敏感性兩組被試, 探索其情景記憶受獎賞動機影響的差異。
此外, 實驗2通過眼動技術對記憶編碼過程的學習時間分配和瞳孔變化表征的心理努力程度進行了考察, 發現了編碼項目和聯結信息的認知資源分配隨RPE而變化。但因為瞳孔直徑容易受物理環境中的光刺激影響, 而EEG研究能在時間維度更精細地反映記憶編碼過程中的神經激活程度, 未來的研究可以通過分析RPE影響情景記憶的EEG時程變化, 進一步驗證兩者的編碼過程受獎賞信息影響的差異。
RPE對項目和聯結記憶存在分離的影響, 元記憶過程在其中發揮著重要作用。在編碼階段, 個體以RPE為線索進行元記憶控制, RPE高凸顯性增加了對項目編碼的認知資源投入, RPE正效價和低凸顯性增加了對聯結編碼的認知資源投入; 在提取階段, RPE正效價還通過回想過程促進聯結記憶提取的元記憶監測準確性。
Aberg, K. C., Muller, J., & Schwartz, S. (2017). Trial-by-trial modulation of associative memory formation by reward prediction error and reward anticipation as revealed by a biologically plausible computational model.,, 56.
Ariel, R., & Castel, A. D. (2014). Eyes wide open: Enhanced pupil dilation when selectively studying important information.,(1), 337?344.
Bethus, I., Tse, D., & Morris, R. G. M. (2010). Dopamine and memory: Modulation of the persistence of memory for novel hippocampal nmda receptor-dependent paired associates.,(5), 1610?1618.
Calderon, C. B., De Loof, E., Ergo, K., Snoeck, A., Boehler, C. N., & Verguts, T. (2021). Signed reward prediction errors in the ventral striatum drive episodic memory.,(8), 1716?1726.
Da Silva Castanheira, K., Lalla, A., Ocampo, K., Otto, A. R., & Sheldon, S. (2021). Reward at encoding but not retrieval modulates memory for detailed events.,, 104957.
Ergo, K., De Loof, E., Debra, G., Pastotter, B., & Verguts, T. (2020). Failure to modulate reward prediction errors in declarative learning with theta (6 Hz) frequency transcranial alternating current stimulation.,(12), e0237829.
Ergo, K., De Vilder, L., De Loof, E., & Verguts, T. (2021). Reward prediction errors drive declarative learning irrespectiveof agency.,(6), 2045?2056.
Guo, Y., Song, G., Zhao, P., & Ma, Y. (2011). Revision of the sensitivity to punishment and sensitivity to reward questionnaire., (1), 91?94+97.
[郭永香, 宋廣文, 趙平平, 馬玉花. (2011). 大學生懲罰和獎勵敏感性問卷(SPSRQ)的修訂., (1), 91?94+97. ]
H?ltje, G., & Mecklinger, A. (2020). Feedback timing modulates interactions between feedback processing and memory encoding: Evidence from event-related potentials.,(2), 250?264.
Jang, A. I., Nassar, M. R., Dillon, D. G., & Frank, M. J. (2019). Positive reward prediction errors during decision-making strengthen memory encoding.,(7), 719?732.
Jiang, Y., Wang, Z., Zheng, M., & Jin, X. (2016). How value- based agendas affect study time allocation: An eye tracking study.,(10), 1229?1238.
[姜英杰, 王志偉, 鄭明玲, 金雪蓮. (2016). 基于價值的議程對學習時間分配影響的眼動研究.,(10), 1229?1238.]
Koriat, A. (1997). Monitoring one's own knowledge during study:A cue-utilization approach to judgments of learning.,, 349?370.
Mao, X., Xu, H., & Guo, C. (2015). Emotional memory enhancement effect in dual-processing recognition retrieval..(9), 1111?1123.
[毛新瑞, 徐慧芳, 郭春彥. (2015). 雙加工再認提取中的情緒記憶增強效應.,(9), 1111?1123.]
Mason, A., Lorimer, A., & Farrell, S. (2019). Expected value of reward predicts episodic memory for incidentally learnt reward-item associations.,(1), 40.
Murty, V. P., FeldmanHall, O., Hunter, L. E., Phelps, E. A., & Davachi, L. (2016). Episodic memories predict adaptive value-based decision-making.,(5), 548?558.
Pessoa, L. (2009). How do emotion and motivation direct executive control?,(4), 160?166.
Rouhani, N., & Niv, Y. (2019). Depressive symptoms bias the prediction-error enhancement of memory towards negative events in reinforcement learning.,(8), 2425?2435.
Rouhani, N., & Niv, Y. (2021). Signed and unsigned reward prediction errors dynamically enhance learning and memory.,, e61077.
Rouhani, N., Norman, K. A., & Niv, Y. (2018). Dissociable effects of surprising rewards on learning and memory.,(9), 1430?1443.
Rouhani, N., Norman, K. A., Niv, Y., & Bornstein, A. M. (2020). Reward prediction errors create event boundaries in memory.,, 104269.
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward.,(5306), 1593?1599.
Souchay, C., Guillery-Girard, B., Pauly-Takacs, K., Wojcik, D. Z., & Eustache, F. (2013). Subjective experience of episodic memory and metacognition: A neurodevelopmental approach.,, 212.
Takeuchi, T., Duszkiewicz, A. J., Sonneborn, A., Spooner, P. A., Yamasaki, M., Watanabe, M.,…., Morris, R. G. M. (2016). Locus coeruleus and dopaminergic consolidation of everyday memory.,(7620), 357.
Tulving, E. (2001). Episodic memory and common sense: How far apart?,(1413), 1505?1515.
Wimmer, G. E., Braun, E. K., Daw, N. D., & Shohamy, D. (2014). Episodic memory encoding interferes with reward learning and decreases striatal prediction errors.,(45), 14901?14912.
Woroch, B., & Gonsalves, B. D. (2010). Event-related potential correlates of item and source memory strength.,, 180?191.
Yang, X., Wang F., Wang, Y., Zhao, T., Gao, C., & Hu, X. (2020). Are pupils the window of our mind? Pupil-related application in psychology and pupillometry.,(7), 1029?1041.
[楊曉夢, 王福興, 王燕青, 趙婷婷, 高春潁, 胡祥恩. (2020). 瞳孔是心靈的窗口嗎?——瞳孔在心理學研究中的應用及測量.,(7), 1029?1041.]
The distinct effects of reward prediction error on item and associative memory:The influence of metamemory
LONG Yiting1, JIANG Yingjie1, CUI Can2, YUE Yang1
(1School of Psychology, Northeast Normal University, Changchun 130024, China) (2Jiangsu Key Laboratory of Brain Disease and Bioinformation, Research Center for Biochemistry and Molecular Biology, Xuzhou Medical University, Xuzhou 221004, China)
Episodic memory consists of item memory and associative memory. Individual cognitive resources are typically allocated to more valuable information during encoding through metamemory, leading to competitive processing of item and associative information. Reward prediction error (RPE), defined as the difference between reward results and reward expectations, has two properties: valence (positive or negative) and salience (degree of difference). To examine the impact of reward prediction error valence and salience on item and associative memory, and how reward prediction error influences memory based on metamemory, three experiments were conducted.
In the learning stage, participants were presented with indoor and outdoor scene pictures. They were asked to predict the score of each picture and then received feedback on the actual score. Through this reinforcement learning process, participants had to find out which type of pictures is more valuable, and 30% of the scores were accumulated into the total score. To induce the effect of reward motivation on memory, participants were introduced to the opportunity to choose between two pictures and receive the value of the selected picture, although the actual program did not include a decision-making stage. After the learning stage, participants were tested on item and reward associative memory.
The findings of the study showed that: (1) There were advantages in associative memory performance for positive reward prediction error valence and low salience, with higher accuracy of JOCs at positive valence. In contrast, there were advantages in item memory performance for negative valence and high salience. (2) In the eye-tracking results during the encoding process, positive valence and low salience of reward prediction error resulted in increased mean and peak pupil dilation after feedback presentation, as well as longer value fixation duration and shorter picture fixation duration at low salience. (3) When the reward prediction error level was increased to reduce overlap between reward results and reward prediction error effects, the separation effect of reward prediction error on item and associative memory performance remained stable.
The results of the study suggest that the effects of reward prediction error on item and associative memory are distinct. During the encoding stage, individuals use the valence and salience of reward prediction error as cues to allocate cognitive resources differently in item and associative memory encoding through metamemory control. In the retrieval stage, positive valence of reward prediction error enhances the metamemory monitoring level of associative memory retrieval.
reward prediction error, associative memory, eye movements, episodic memory, metamemory
2022-04-14
* 吉林省自然科學基金面上項目(20230101149JC)和國家自然科學基金面上項目(32271095)資助。
姜英杰, E-mail: jiangyj993@nenu.edu.cn
B842