李丹陽 李 鵬 李 紅
?
反饋負波及其近10年理論解釋*
李丹陽 李 鵬 李 紅
(深圳大學心理與社會學院, 深圳 518060)
個體決策后的反饋對隨后的結果監控和行為調整起著至關重要的作用。事件相關腦電位研究發現, 反饋負波(feedback-related negativity, FRN)是與決策后反饋加工過程緊密相關的腦電成分。近10年來關于FRN的理論解釋, 在最初經典的強化學習理論和情緒動機假說的基礎上又提出了反應?結果的預測模型、獎賞正波理論以及積極情緒啟動模型。未來的研究應該立足于大樣本, 采用互補的研究手段和多樣的分析技術來探討FRN的心理意義; 同時考慮將FRN作為獎賞加工的腦電指標, 研究社會互動情境下的人類行為。
反饋負波; 強化學習; 前扣帶回; 獎賞正波; 獎賞預測誤差
決策后的反饋是指個體做出決策行為之后所認識到的事件或行為結果, 它不僅能夠幫助個體對行為結果進行評估和監察, 也能促進個體調整和修正下一步行為(Luft, 2014)。研究者利用事件相關電位技術(event related potentials, ERPs), 記錄決策后呈現反饋結果時大腦皮層的腦電活動, 發現FRN這一腦電成分與反饋刺激的加工過程緊密相關。其中FRN指的是, 在負性反饋刺激呈現后的200~350 ms的時間窗口出現的一個相對負向偏轉的腦電波成分(Miltner, Braun, & Coles, 1997; 李鵬, 李紅, 2008), 它反映的是一種強化學習信號, 這種信號在大腦中的傳遞能夠幫助行動者進行認知上的學習和行為決策上的調整(Sch?nberg, Daw, Joel, & O’Doherty, 2007)。
反饋加工過程是一個復雜的認知過程, 而個體對反饋的學習容易受到多方面因素的影響, 因此需要不斷探索和嘗試新的技術和方法進行研究和解釋。當前研究中關于FRN的分析方式主要有兩種:一種是原始波形的分析, 即計算不同類型的反饋刺激所誘發的腦電波疊加之后的平均波幅(Sambrook & Goslin, 2015); 另一種是差異波的分析, 即計算和分析正性反饋和負性反饋之間的差異波, 得到與獎賞加工相關的特異性FRN成分(Holroyd & Krigolson, 2007; Bress & Hajcak, 2013)。近年來也有一些研究者通過新的方法, 比如在腦電原始波的基礎上利用主成分分析和獨立成分分析法排除其他成分對FRN的干擾, 得到更精確和穩定的FRN成分。Marco-Pallares, Cucurell, Münte, Strien和Rodriguez-Fornells (2011)對于獲得有效的FRN成分所需最少的疊加次數進行了探討, 結果發現在正常人群中, 健康青年被試至少需要20個試次, 而健康老年被試至少需要50個試次; 其次, 穩定和有效的反饋負波獲得主要取決于信號記錄過程中的信噪比以及樣本特征, 例如對于認知受損或者臨床疾病的人群來說, 由于自身認知功能的下降等因素導致實驗的信噪比較低, 可能需要更多的試次數量。
另外, 關于FRN的發生源, 不同的學者采用了不同的技術進行研究。大部分研究通過傳統的偶極子溯源定位技術發現FRN可能產生于前扣帶回皮層區域(anterior cingulate cortex, ACC)。前扣帶回皮層位于前額葉區域, 與行為決策和認知控制有關, 因此這與FRN的理論解釋相符合, 即FRN成分反映了個體對于結果評價的學習和決策過程(Holroyd & Coles, 2002; Nieuwenhuis, Holroyd, Mol, & Coles, 2004; Holroyd & Yeung, 2012)。然而, 也有研究者提出了一些相反證據。例如, Foti, Weinberg, Dien和Hajack (2011) 采用主成分分析法(principle components analysis, PCA), 提出FRN的發生源可能在于紋狀體的殼核部分; 除此之外一些學者利用功能性磁共振成像與ERP技術相結合的方式, 采用獨立成分分析法(independent components analysis, ICA), 證實了FRN還與大腦的多巴胺獎賞回路有關:可能也存在背側和腹側紋狀體的激活(Becker, Nitsch, Miltner, & Straube, 2014)。綜上可見, 受制于ERP技術本身空間定位不精確這一缺陷, FRN的溯源定位僅供參考, 相比而言, FRN前中部的頭皮分布是一個來識別FRN成分的更加穩定的特質。
從Miltner等人(1997)首次報告FRN這一腦電成分以來, 早期關于FRN的理論解釋主要有兩種競爭性理論:強化學習理論和情緒動機假說。前者認為, FRN反映了對于獎賞預期錯誤的認知加工過程; 后者則認為其反映了反饋刺激所帶來的情緒、動機意義的評價過程(李鵬, 李紅, 2008)。在最近10年左右的研究中, 關于FRN的理論解釋又有了新發展和進步。本文將在2008年李鵬和李紅《反饋負波及其理論解釋》這一綜述的基礎上, 簡述強化學習理論和情緒動機假說兩種早期理論的最新發展, 并重點介紹近幾年關于反饋負波的一些最新的理論模型的發展, 并提出一些新的研究方向。
強化學習理論認為, 人們通過不斷的學習來調整行為, 從而選擇最優化的決策。最初Holroyd和Coles (2002)采用概率獎賞學習任務, 即給被試呈現多個選項, 每個選項背后代表的獎賞或者懲罰的概率不同, 被試根據按鍵選擇后呈現的反饋結果學習刺激和反應之間的聯結, 從而調整自己的行為以期獲得更多的獎賞。他們通過分析在概率學習任務中反饋刺激呈現后被試的腦電變化, 發現在長時間的反饋學習過程中, 正性反饋(即金錢獎賞)和負性反饋(即金錢損失)所誘發的腦電波差異主要來自于負性反饋:相較于正性反饋來 說, 負性反饋會誘發一個更加負向偏轉的腦電波(Bellebaum & Daum, 2008)。因此, 首先該理論認為在反饋過程中人們會在行為?結果之間形成一個穩定的預測, 即類似于刺激?反應之間的聯結信號, 也稱作強化學習信號。根據這一信號的傳遞和監控, 行動者不斷調整自身的行為選擇, 從而習得最優化行為(Padrón, Fernández-Rey, Acu?a, & Pardo- Vazquez, 2016)。其次, 該理論提出FRN這一成分是對于獎賞預測誤差的一種表征, 即預期獎賞與實際獎賞的差異(reward prediction error, RPE)的表征。具體來說, 當呈現正性反饋結果即實際獎賞大于預期獎賞時, 會誘發一個正性的獎賞預測誤差(positive reward prediction error, +RPE)信號, 個體根據這一反饋維持或者增加自身的行為表現; 但是當呈現負性結果即實際獎賞小于預期獎賞的情況時, 會誘發一個負性的獎賞預測誤差(negative reward prediction error, ?RPE)信號, 個體根據這一反饋調整或者減少自身的行為表現。有研究表明負性反饋相較于正性反饋會誘發一個更加負性的獎賞預測誤差信號, 個體根據這一信號的傳遞做出目標指向性行為, 從而實現利益最大化。這一神經信號的加工過程主要是?RPE信號會導致中腦多巴胺神經元活動的相位下降, 繼而引發ACC神經元的去抑制活動增強, 從而產生較大波幅的FRN (Holroyd & Coles, 2002; Maia & Frank, 2011)。
雖然該理論在一定程度上能夠很好地解釋早期反饋結果好壞維度上的二元評價(即比預期結果好, 或者比預期壞), 但是在近幾年的研究中該理論也受到了一些挑戰。首先, 該理論通過偶極子溯源定位分析, 認為FRN可能產生于ACC。然而, 有研究采用簡單賭博任務范式, 即通過給被試呈現兩個選項, 例如兩個關著的門, 被試需要選擇打開其中的一扇門, 被試做出決策后程序隨機呈現反饋結果(贏或者輸), 在反饋呈現階段觀察被試的腦電變化以及大腦激活水平的變化, 通過ERP和fMRI技術的結合發現FRN也可能源于背側和腹側紋狀體(Carlson, Foti, Mujica-Parodi, Harmon-Jones, & Hajcak, 2011), 而這兩個區域主要與金錢獎賞加工功能有關。第二, 該理論認為, 錯誤相關負波<①(error related negativity, ERN)和FRN反映的是一種類似的強化學習信號, 但是很多研究都表明這兩個腦電波成分表現出了實驗性分離, 二者反映了不同的認知階段(Schulreich, 2016), 其中Gehring, Goss, Coles, Meyer和Donchin (1993)早期通過簡單的按鍵反應任務(被試進行按鍵時就已經知道反應結果的正確與錯誤), 發現了ERN這一腦電成分。隨后研究者通過建立刺激?反應之間的聯結過程進一步分離個體的按鍵決策反應過程和隨后的反饋結果呈現過程, 結果發現:在負性反饋呈現之后, 個體的腦電波出現了一個負性的偏轉。所以, 大多數研究認為ERN反映了早期的錯誤檢測的認知過程, 而FRN則反映了后期的反饋加工的認知學習過程(Schulreich, 2016)。第三, 該理論認為負性的獎賞預測誤差會誘發較大波幅的FRN, 但是有研究者采用反轉學習任務, 即通過在簡單的賭博任務中不斷改變刺激?結果之間的關系, 讓被試在觀察他人做出決策行為時報告自己的結果預期, 通過預期與反饋結果的對比, 分離預期因素和效價因素, 發現FRN僅對結果效價敏感, 而與預期因素無關(Von Borries, Verkes, Bulten, Cools, & de Brujin, 2013)。
情緒動機假說最早由Gehring和Willoughby (2002)提出。他們的研究操縱了金錢得失和行為正誤兩個變量, 發現FRN只對金錢得失敏感, 同時還發現FRN溯源定位于與情緒加工有關的ACC的前部, 從而認為FRN表征的是反饋刺激帶來的情緒動機意義。該理論假說的提出挑戰了強化學習理論的觀點(Gehring & Willoughby, 2002)。隨后, FRN領域早期的大量研究探討了這兩種理論的爭論(例如:Gehring & Willoughby, 2002; Nieuwenhuis et al., 2004; 李鵬, 李紅, 2008)。近10年來經典強化學習理論有了新的發展, 然而對于情緒動機假說的討論減少, 討論二者合理性的文獻也越來越少。究其原因, 可能是研究者越來越意識到兩者未必相互排斥:情緒動機假說不能脫離認知過程談更高級的情緒(Yeung, 2004), 而強化學習理論只強調獎賞預期錯誤加工的認知過程, 也無法擺脫情緒動機對該認知過程自上而下的影響(Walsh & Anderson, 2012; Bismark, Hajack, Whitworth, & Allen, 2013)。此外, 研究者還發現即使是相同的強化學習過程在特定的社會交互情境中也會誘發不同大小的FRN成分(Li et al., 2010; Chen, Wu, Tong, Guan, & Zhou, 2012; Ma et al., 2011; Hu, Xu, & Mai, 2017), 說明動機因素調節了反饋加工過程。
實際上, 早期強化學習理論的提出者Holroyd近年來更新了自己的理論, 提出了多層次的強化學習模型(Holroyd & Yeung, 2012)。在該理論中, Holroyd等人提出FRN (又被稱為Reward Positivity)反映的不是前扣帶回皮層監控個體執行每一個具體動作的功能, 而是在不同的任務中做選擇并且保持努力直到完成某個任務的功能(Holroyd & Umemoto, 2016)。這個觀點實際上與早期的情緒動機假說部分吻合。
早期經典的強化學習理論認為, 表示行為錯誤或者失去獎賞的負性反饋刺激會誘發一個較大負向偏轉的FRN。然而, Oliveira, McDonald和Goodman (2007)通過在時間估計任務中讓被試在估計一秒鐘的時間后, 接著報告自身的結果預期(預期自己反應正確或者錯誤), 隨后呈現反饋結果來分離預期因素和效價因素的影響, 發現預期之外的反饋相較于預期之中會產生較大波幅的FRN, 這一結果和早期經典的強化學習理論的觀點不符。Alexander和Brown (2011)針對FRN的效價獨立性提出了反應?結果的預測模型。該模型認為FRN對結果反饋預期敏感, 主要編碼突顯的預測誤差, 而不是RPE (Talmi, Atkinson, & El-Deredy, 2013; Kobza, Thoma, Daum, & Bellebaum, 2011)。由于以往的研究中主要關注獎賞條件下的反饋, 因此Talmi等(2013)研究者加入了厭惡刺激設計。他們設置了兩種條件:獎賞條件和厭惡條件, 并通過操作獎賞條件下獲得獎賞的概率(25%, 75%)以及懲罰條件下無電擊的概率(25%, 75%)來定義預期因素(低概率事件發生的結果對被試來說是一個預期之外的反饋:例如25%的獎賞, 25%的無電擊)以及反饋效價因素(獎賞還是電擊), 被試需要根據每個試次的概率線索做出選擇。結果發現預期之外的“無獎賞” (負性結果), 以及預期之外的“無電擊” (正性結果)都會誘發一個較大波幅的FRN。因此, 該模型提出產生于前扣帶回皮層的FRN編碼類似于絕對的獎賞預測誤差信號(absolute reward predicted errors):不管反饋的結果效價如何, 只要反饋結果和被試的預期不符合都會誘發一個較大的FRN波幅(Ferdinand, Mecklinger, Kray, & Gehring, 2012)。該研究也存在一定的不足, 比如說兩種條件下的動機差異:獎賞條件下獲得獎賞的次級強化物和厭惡條件下保護自己的初級強化物。由于動機的不一致, 直接對比兩種條件下的差異可能存在問題。
但是, 該模型也存在一些爭議。Sambrook和Goslin (2015)通過元分析發現, FRN可能受反饋效價以及獎賞數量的影響, 而預期這一因素僅反映在后期的P300成分上。該研究團隊通過主成分分析的方法, 除了提取出編碼+RPE的FRN成分之外, 還提取出了許多編碼突顯信息的成分, 但是沒有提取出編碼?RPE的成分(Sambrook & Goslin, 2016)。此外, 由于P300成分和FRN成分在時間窗口上存在一定的重疊, 導致某些研究在一定程度上混合了兩個成分, 而P300也被認為和預期因素有緊密關系(Nieuwenhuis, Aston-Jones, & Cohen, 2005; Zheng, Li, Wang, Wu, & Liu, 2015; Balconi, Finocchiaro, & Canavesio, 2015), 因此, 該理論的合理性還需要進一步研究。
根據近幾年來對FRN差異波的分析, 研究者發現正性反饋條件下的FRN變化較大, 而負性反饋的差異波變化較小或者基本不變化, 因此FRN可能對于正性結果更加敏感(Walsh & Anderson, 2012)。實際上, Holroyd等人早在2008年就提出了“獎賞正波”這一概念, 這是對經典的強化學習理論的補充和修正。他們認為在時間估計任務和簡單賭博任務中, 正性和負性反饋刺激呈現后的250 ms左右都會誘發一個相對正走向的差異波即RewP, 而且預期之外的正負反饋之間的差異值變化大于預期之內(Holroyd, Pakzad-Vaezi, & Krigolson, 2008)。此外, 該理論認為FRN是反饋效價和反饋預期相互作用的產物, 它代表了一種存在正負之分的獎賞預測誤差(signed reward prediction errors, sRPEs), 這和經典的強化學習理論相一致。后來該團隊針對PRO模型提出的反饋負波編碼突顯的預測誤差信號進行研究。他們采用虛擬的T迷宮實驗(即在迷宮的每一條路的拐角處, 都有相應的兩個選項, 被試需要作出決策, 隨后出現反饋結果), 設置了兩種條件(獎賞以及懲罰), 從而產生了4種反饋結果, 金錢獎賞/無獎賞, 電擊懲罰/無電擊; 其中對于被試來說, 金錢獎賞和無電擊結果是正性反饋, 無獎賞和電擊是負性反饋。研究發現在獎賞條件下反饋刺激誘發了獎賞正波, 而在懲罰條件下誘發了一個延遲的獎賞正波(Heydari & Holroyd, 2016), 并且在懲罰條件下, 無電擊相較于電擊的波幅更正, 因此他們認為RewP反映的不是一種突顯的預測誤差, 而是一種獎賞預測誤差。
一系列的研究表明這一現象的出現可能是由于預期之外的事件誘發了一個對新異刺激敏感的N200成分, 該成分主要和實驗任務特征相關(Angus, Kemkes, Schutter, & Harmon-Jones,2015), 依賴于實驗背景的操作(Baker & Holroyd, 2011; Shahnazian & Holroyd, 2017), 反映了刺激的新穎性。它反映在大腦活動上主要是正性反饋誘發的多巴胺活動的階段性增加抵消了N200的活動從而產生了一個正偏向的RewP, (Hewig et al., 2010); 而負性反饋誘發的多巴胺活動階段性下降則不能抵消N200的波幅, 最終導致負反饋相較正反饋誘發了較大的FRN原始波(Holroyd, Krigolson, & Lee, 2011)。因此, 潛在的RewP成分不能在腦電原始波上直接觀察, 但是通過差異波減去N200成分或者通過PCA②處理后可以觀察并分析這一成分(Foti et al., 2011)。
近幾年的一些研究數據, 除了支持效價獨立性的強化學習模型之外, 也有數據表明在獎賞背景下或者獎賞概率較高的條件下FRN會出現一個相對正走向的偏轉波(San Martín, Manes, Hurtado, Isla, & Iba?ez, 2010)。因此, 有研究者采用概率獎賞任務范式分析先前試次的反饋結果對于當前反饋結果的腦電活動影響時發現:在隨機呈現反饋結果的情況下, 前一次結果是贏相較于前一次是輸的條件, 本試次中正反饋誘發的FRN波幅更正, 而當前試次中負反饋誘發的波幅差異不顯著(Mushtaq, Stoet, Bland, & Schaefer, 2013)。因此, Mushtaq, Wilkie, Mon-Williams和Schaefer (2016)學者提出了積極情緒啟動模型。該模型認為, FRN可能對于積極背景因素敏感。例如前一試次中FRN的獎賞背景可能提前啟動了一個積極情緒從而導致當前試次的FRN波幅呈現一個相對正向的偏轉, 但是負性情緒條件下差異不顯著, 因此這也可能作為未來測量積極情緒狀態的一個客觀的生理指標。
這一反饋加工過程表現在個體的神經活動上主要是, 積極情緒會誘發更多的中腦多巴胺神經元活動, 從而促使大腦在隨后的行為表現中對與獎賞相關的刺激會更加敏感, 導致FRN產生一個更加正向的偏轉波(Mushtaq et al., 2016)。但是該模型由于過分強調短時情緒效應對于反饋加工過程的影響, 而忽視了長時間的強化學習過程; 其次該模型只能解釋反應?結果的聯結不存在或者較弱的條件, 而不能解釋反應?結果之間形成穩定的聯結預測這一學習過程; 最后, 積極情緒啟動模型是一個數據驅動模型, 研究者仍然需要將其與其他心理學理論相結合來解釋復雜的反饋加工過程。
上述關于反饋負波的5種功能性意義的解釋, 分別從不同的方面、不同的技術出發解釋了人們是如何根據從環境中獲得的反饋進行學習, 調整自身的行為, 從而做出最優化的決策。其中情緒動機假說與另外4種理論的不同主要體現在反饋負波所代表的是反饋刺激的認知加工過程還是其背后的情緒動機意義, 這個問題需要更深層次的研究。關于另外的4種理論的區別主要體現在:首先, 經典的強化學習理論和反應?結果的預期模型是理論驅動下的模型, 有自身的理論依據, 而獎賞正波模型和積極情緒驅動模型是數據驅動下的模型(Mushtaq et al., 2016), 理論和數據二者進一步地結合分析才能夠更加完善地解釋FRN這一成分。其次, 前三種理論對于FRN到底是與負性RPE, 正性RPE還是RPE的絕對值變化有關進行了爭論, 而第四種理論與前三種的區別在于FRN反映的到底是長期學習的影響還是短期情緒的影響。具體來說, 經典的強化學習理論模型認為人們對于?RPE敏感, 反饋加工的認知過程反映了錯誤的檢測過程和認知評價過程; 反應?結果的預期模型認為人們對于顯著的意料之外的預測誤差敏感(RPE的絕對值), 反饋加工的認知過程反映了一種沖突監控的認知過程; 而獎賞正波理論的支持者通過正負反饋差異波或PCA等數據處理方式對腦電數據進行分析, 發現反饋負波對于正性的反饋結果更加敏感從而提出了獎賞正波模型。最后, 其他研究者發現在短時期的學習過程中, 積極的背景啟動會使反饋負波對于正性的反饋結果更加敏感, 從而提出了積極情緒啟動模型。
目前關于FRN的理論解釋還不完善, 但是隨著未來研究的深入, 有望形成一個較為統一的FRN理論。當前研究者采用不同的實驗任務, 以及不同類型的反饋刺激形式, 如積極反饋、消極反饋和模糊反饋(Gu et al., 2017; Ernst & Steinhauser, 2015), 并基于這些任務背景或者特定的分析方法得出了不同的結論(Zheng et al., 2015, 2017; Umemoto, Hajihosseini, Yates, & Holroyd, 2017; Schaefer, Buratto, Goto, & Brotherhood, 2016), 支持了不同的理論假設。而由于腦電波很容易受到其他因素的干擾, 從而導致研究者在提取和分析FRN成分上存在問題, 這對于FRN理論的整合也存在一定的影響。未來關于FRN的理論探索可以從以下幾個方面進行深入:
第一, 進一步改進FRN的獲得方式和分析方法。由于決策后的反饋學習過程是一個復雜的心理過程, 不僅包含反饋加工過程, 還包含獎賞預期, 結果評價等過程, 現有的研究范式和數據分析方法不能有效地剔除和分離其他腦電成分對于FRN的影響。因此, 將來的研究一方面可以從數據處理著手, 考慮采用主成分分析法(PCA)、獨立成分分析法(ICA)與時頻分析方法相結合的方法(Bernat, Nelson, & Baskin-Sommers, 2015; Cohen, Wilmes, & van de Vijver, 2011), 從而較為有效地分離FRN、P300以及其他無關的腦電成分(Sambrook & Goslin, 2015)。另外, 也可以嘗試從樣本量入手, 提高統計檢驗力和實驗效度, 采用大數據、大樣本的思路, 縮小實驗誤差, 從而得到可靠和有效的FRN, 為相關的理論完善提供堅實的數據支持(Sambrook & Goslin, 2016)。除此之外, 還應充分發揮不同技術的優勢, 取長補短, 更加深入地研究FRN。例如, 有高空間分辨率的fMRI和有高時間分辨率的ERP的結合能夠提供更加精確的空間定位和時間進程的變化, 進一步加深對強化學習進程的認識(Becker et al., 2014)。另外, 也可以將無損傷的腦刺激技術和ERP技術相結合, 通過微弱電流/磁場來刺激反饋加工的相關腦區, 從而分析FRN相關腦區的作用。
第二, 關于FRN在大腦中的起源地, 學者們存在不同的認識, 主要存在兩種觀點:FRN可能源于具有認知控制功能的前扣帶回皮層, 也可能源于負責獎賞加工的紋狀體區域。未來的研究可以從被試的選取角度來探討FRN發生地。例如以往的研究主要選取健康的成年被試, 未來的研究可以選取前扣帶回皮層受損或者紋狀體受損的被試進行研究, 通過分析這兩類被試的行為表現, 對比特殊被試與正常被試的反饋加工的行為學習過程和腦電差異, 來驗證或者探索FRN的發生源。
第三, 關于FRN的理論解釋, 應該從具體的情境出發, 具體分析個體在不同的環境中對于不同刺激物的學習和加工過程。目前FRN的研究大多局限于實驗室環境, 未來的研究可以借助新興的儀器或者技術來研究真實社會情境下的FRN的變化以及所反映的心理過程。比如說, 利用近紅外設備和ERP技術的結合, 研究真實情境中雙人或者多人的合作或競爭等, 觀察個體在合作或競爭條件下學習過程中的腦電變化, 探索在社會認知領域中一般人群的強化學習過程, 將FRN與社會認知過程相聯系, 從而提供更為完善的心理解釋機制。國內研究者Leng和Zhou (2010)主要關注結果評價過程中個體社會認知活動中的腦電變化, 他們發現結果評價的早期過程中FRN可能在行為正誤以及自我利益的激活上扮演著重要作用。近幾年來越來越多的學者將FRN研究應用于高級社會認知加工過程當中, 例如責任感(Li et al., 2010; Beyer, Sidarus, Bonicalzi, & Haggard, 2017), 社會合作(Kimura & Katayama, 2016), 自我歸因(Li, Han, Lei, Holroyd, & Li, 2011), 社會從眾(Chen et al., 2012; Shestakova et al., 2013), 移情機制(Ma et al., 2011; Thoma, Norra, Juckel, Suchan, & Bellebaum, 2015), 社會比較效應(Wu, Zhang, Elieson, & Zhou, 2012)等。未來的研究也可以進一步探討特殊人群的強化學習過程, 例如, 焦慮障礙, 強迫癥, 阿茲海默癥等(Gu, Huang, & Luo, 2010; Gu, Ge, Jiang, & Luo, 2010; Takács et al., 2015; Do?amayor, Dinani, R?misch, Ye, & Münte, 2014; Mensen et al., 2015), 在臨床上提供客觀的生理指標。但是, 在實驗中社會情境本身的生態效度以及腦電實驗特有的多試次重復等都是未來研究中需要慎重考慮的問題。
李鵬, 李紅. (2008). 反饋負波及其理論解釋.(5), 705?711.
Alexander, W. H., & Brown, J. W. (2011). Medial prefrontal cortex as an action-outcome predictor.(10), 1338?1344.
Angus, D. J., Kemkes, K., Schutter, D. J. L. G., & Harmon- Jones, E. (2015). Anger is associated with reward-related electrocortical activity: Evidence from the reward positivity.52(10), 1271–1280.
Baker, T. E., & Holroyd, C. B. (2011). Dissociated roles of the anterior cingulate cortex in reward and conflict processing as revealed by the feedback error-related negativity and N200.(1), 25?34.
Balconi, M., Finocchiaro, R., & Canavesio, Y. (2015). Reward sensitivity (behavioral activation system), cognitive, and metacognitive control in gambling behavior: Evidences from behavioral, feedback-related negativity, and p300 effect.(3), 219?227.
Becker, M. P. I., Nitsch, A. M., Miltner, W. H., & Straube, T. (2014). A single-trial estimation of the feedback-related negativity and its relation to bold responses in a time- estimation task.(8), 3005? 3012.
Bellebaum, C., & Daum, I. (2008). Learning-related changes in reward expectancy are reflected in the feedback-related negativity.(7), 1823?1835.
Bernat, E. M., Nelson, L. D., & Baskin-Sommers, A. R. (2015). Time-frequency theta and delta measures index separable components of feedback processing in a gambling task.(5), 626–637.
Beyer, F., Sidarus, N., Bonicalzi, S., & Haggard, P. (2017). Beyond self-serving bias: Diffusion of responsibility reduces sense of agency and outcome monitoring.(1), 138?145.
Bismark, A. W., Hajcak, G., Whitworth, N. M., & Allen, J. J. B. (2013). The role of outcome expectations in the generation of the feedback-related negativity.(2), 125–133.
Bress, J. N., & Hajcak, G. (2013). Self-report and behavioral measures of reward sensitivity predict the feedback negativity.(7), 610–616.
Carlson, J. M., Foti, D., Mujica-Parodi, L. R., Harmon-Jones, E., & Hajcak, G. (2011). Ventral striatal and medial prefrontal BOLD activation is correlated with reward- related electrocortical activity: A combined ERP and FMRI study.(4), 1608?1616.
Chen, J., Wu, Y., Tong, G. Y., Guan, X. M., & Zhou, X. L. (2012). ERP correlates of social conformity in a line judgment task.(1), 43.
Cohen, M. X., Wilmes, K. A., & van de Vijver, I. (2011). Cortical electrophysiological network dynamics of feedback learning.(12), 558?566.
Do?amayor, N., Dinani, J., R?misch, M., Ye, Z., & Münte, T. F. (2014). Performance monitoring during associative learning and its relation to obsessive-compulsive characteristics., 73?87.
Ernst, B., & Steinhauser, M. (2015). Effects of invalid feedback on learning and feedback-related brain activity in decision-making., 78?86.
Ferdinand, N. K., Mecklinger, A., Kray, J., & Gehring, W. J. (2012). The processing of unexpected positive response outcomes in the mediofrontal cortex.(35), 12087?12092.
Foti, D., Weinberg, A., Dien, J., & Hajcak, G. (2011). Event-related potential activity in the basal ganglia differentiates rewards from nonrewards: Temporospatial principal components analysis and source localization of the feedback negativity.(12), 2207–2216.
Gehring, W. J., Goss, B., Coles, M. G. H., Meyer, D. E., & Donchin, E. (1993). A neural system for error detection and compensation.(6), 385–390.
Gehring, W. J., & Willoughby, A. R. (2002). The medial frontal cortex and the rapid processing of monetary gains and losses.(5563), 2279?2282.
Gu, R. L., Feng, X., Broster, L. S., Yuan, L., Xu, P. F., & Luo, Y. J. (2017). Valence and magnitude ambiguity in feedback processing.(5), e00672.
Gu, R. L., Huang, Y. X., & Luo, Y. J. (2010). Anxiety and feedback negativity.(5), 961?967.
Gu, R. L., Ge, Y., Jiang, Y., & Luo, Y. J. (2010). Anxiety and outcome evaluation: The good, the bad and the ambiguous.(2), 200?206.
Hewig, J., Kretschmer, N., Trippe, R. H., Hecht, H., Coles, M. G. H., Holroyd, C. B., & Miltner, W. H. R. (2010). Hypersensitivity to reward in problem gamblers.(8), 781?783.
Heydari, S., & Holroyd, C. B. (2016). Reward positivity: Reward prediction error or salience prediction error?.(8), 1185?1192.
Holroyd, C. B., & Coles, M. G. (2002). The neural basis of human error processing: Reinforcement learning, dopamine, and the error-related negativity.(4), 679?709.
Holroyd, C. B., & Krigolson, O. E. (2007). Reward prediction error signals associated with a modified time estimation task.(6), 913?917.
Holroyd, C. B., Krigolson, O. E., & Lee, S. (2011). Reward positivity elicited by predictive cues.(5), 249?252.
Holroyd, C. B., Pakzad-Vaezi, K. L., & Krigolson, O. E. (2008). The feedback correct-related positivity: Sensitivity of the event-related brain potential to unexpected positive feedback.(5), 688–697.
Holroyd, C. B., & Umemoto, A. (2016). The research domain criteria framework: The case for anterior cingulate cortex., 418?443.
Holroyd, C. B., & Yeung, A. N. (2012). Motivation of extended behaviors by anterior cingulate cortex.(2), 122?128.
Hu, X. M., Xu, Z. H., & Mai, X. Q. (2017). Social value orientation modulates the processing of outcome evaluationinvolving others.(11), 1730?1739.
Kimura, K., & Katayama, J. (2016). Cooperative context is a determinant of the social influence on outcome evaluation: An electrophysiological study., 28?35.
Kobza, S., Thoma, P., Daum, I., & Bellebaum, C. (2011). The feedback-related negativity is modulated by feedback probability in observational learning.(2), 396?404.
Leng, Y., & Zhou, X. L. (2010). Modulation of the brain activity in outcome evaluation by interpersonal relationship: An ERP study.(2), 448?455.
Li, P., Han, C. H., Lei, Y., Holroyd, C. B., & Li, H. (2011). Responsibility modulates neural mechanisms of outcome processing: An ERP study.48(8), 1129?1133.
Li, P., Jia, S. W., Feng, T. Y., Liu, Q., Suo, T., & Li, H. (2010). The influence of the diffusion of responsibility effect on outcome evaluations: Electrophysiological evidence from an ERP study.(4), 1727? 1733.
Luft, C. D. B. (2014). Learning from feedback: The neural mechanisms of feedback processing facilitating better performance.(6), 356? 368.
Ma, Q. G., Shen, Q., Xu, Q., Li, D. D., Shu, L. C., & Weber, B. (2011). Empathic responses to others' gains and losses: An electrophysiological investigation.(3), 2472?2480.
Maia, T. V., & Frank, M. J. (2011). From reinforcement learning models to psychiatric and neurological disorders.(2), 154?162.
Marco-Pallares, J., Cucurell, D., Münte, T. F., Strien, N., & Rodriguez-Fornells, A. (2011). On the number of trials needed for a stable feedback-related negativity.(6), 852–860.
Mensen, A., Poryazova, R., Huegli, G., Baumann, C. R., Schwartz, S., & Khatami, R. (2015). The roles of dopamine and hypocretin in reward: A electroencephalographic study.(11), e0142432.
Miltner, W. H. R., Braun, C. H., & Coles, M. G. H. (1997). Event-related brain potentials following incorrect feedback in a time-estimation task: Evidence for a "generic" neural system for error detection.(6), 788?798.
Mushtaq, F., Stoet, G., Bland, A. R., & Schaefer, A. (2013). Relative changes from prior reward contingencies can constrain brain correlates of outcome monitoring.(6), e66350.
Mushtaq, F., Wilkie, R. M., Mon-Williams, M. A., & Schaefer, A. (2016). Randomised prior feedback modulates neural signals of outcome monitoring., 868?879.
Nieuwenhuis, S., Aston-Jones, G., & Cohen, J. D. (2005). Decision making, the P3, and the locus coeruleus- norepinephrine system., 510? 532.
Nieuwenhuis, S., Holroyd, C. B., Mol, N., & Coles, M. G. H. (2004). Reinforcement-related brain potentials from medial frontal cortex: Origins and functional significance.(4), 441?448.
Oliveira, F. T. P., McDonald, J. J., & Goodman, D. (2007). Performance monitoring in the anterior cingulate is not all error related: Expectancy deviation and the representation of action-outcome associations.(12), 1994?2004.
Padrón, I., Fernández-Rey, J., Acu?a, C., & Pardo-Vazquez, J. L. (2016). Representing the consequences of our actions trial by trial: Complex and flexible encoding of feedback valence and magnitude., 264?276.
Sambrook, T. D., & Goslin, J. (2015). A neural reward prediction error revealed by a meta-analysis of ERPs using great grand averages.(1), 213?235.
Sambrook, T. D., & Goslin, J. (2016). Principal components analysis of reward prediction errors in a reinforcement learning task., 276?286.
San Martín, R., Manes, F., Hurtado, E., Isla, P., & Iba?ez, A. (2010). Size and probability of rewards modulate the feedback error-related negativity associated with wins but not losses in a monetarily rewarded gambling task.(3), 1194?1204.
Schaefer, A., Buratto, L. G., Goto, N., & Brotherhood, E. V. (2016). The feedback-related negativity and the p300 brain potential are sensitive to price expectation violations in a virtual shopping task.(9), e0163150.
Sch?nberg, T., Daw, N. D., Joel, D., & O'Doherty, J. P. (2007). Reinforcement learning signals in the human striatum distinguish learners from nonlearners during reward-based decision making.(47), 12860?12867.
Schulreich, S. (2016). Altered performance monitoring in psychopathy: A review of studies on action selection, error, and feedback processing.(1), 19?27.
Shahnazian, D., & Holroyd, C. B. (2017). Distributed representations of action sequences in anterior cingulate cortex: A recurrent neural network approach., doi: 10.3758/s13423-017-1280-1
Shestakova, A., Rieskamp, J., Tugin, S., Ossadtchi, A., Krutitskaya, J., & Klucharev, V. (2013). Electrophysiological precursors of social conformity.(7), 756?763.
Takács, á., Kóbor, A., Janacsek, K., Honbolygó, F., Csépe, V., & Németh, D. (2015). High trait anxiety is associated with attenuated feedback-related negativity in risky decision making.600, 188?192.
Talmi, D., Atkinson, R., & El-Deredy, W. (2013). The feedback-related negativity signals salience prediction errors, not reward prediction errors.(19), 8264?8269.
Thoma, P., Norra, C., Juckel, G., Suchan, B., & Bellebaum, C. (2015). Performance monitoring and empathy during active and observational learning in patients with major depression., 222?231.
Umemoto, A., Hajihosseini, A., Yates, M. E., & Holroyd, C. B. (2017). Reward-based contextual learning supported by anterior cingulate cortex.(3), 642?651.
Von Borries, A. K. L., Verkes, R. J., Bulten, B. H., Cools, R., & de Bruijn, E. R. A. (2013). Feedback-related negativity codes outcome valence, but not outcome expectancy, during reversal learning.(4), 737?746.
Walsh, M. M., & Anderson, J. R. (2012). Learning from experience: Event-related potential correlates of reward processing, neural adaptation, and behavioral choice.(8), 1870? 1884.
Wu, Y., Zhang, D. X., Elieson, B., & Zhou, X. L. (2012). Brain potentials in outcome evaluation: When social comparison takes effect.(2), 145?152.
Yeung, N. (2004). Relating cognitive and affective theories of the error-related negativity. In(pp. 63?70).Leipzig.
Zheng, Y., Li, Q., Wang, K., Wu, H. Y., & Liu, X. (2015). Contextual valence modulates the neural dynamics of risk processing.(7), 895–904.
Zheng, Y., Li, Q., Zhang, Y. Y., Li, Q., Shen, H. J., Gao, Q. H., & Zhou, S. Y. (2017). Reward processing in gain versus loss context: An ERP study.(7), 1040?1053.
①ERN主要出現在錯誤反應呈現后的80 ms, 是一種刺激鎖定的ERP成分, 是一個對于早期的反應錯誤的自動化覺察過程。
② PCA是一種數據驅動下的分析技術, 主要用于提取事件的主要成分, 剔除事件中的其它重疊成分, 是一種降維的方法。
The updated theories of feedback-related negativity in the last decade
LI Danyang; LI Peng; LI Hong
(College of psychology and sociology, Shenzhen University, Shenzhen 518060, China)
External feedback plays a vital role in ongoing outcome monitoring and future behavioral adjustments. Previous event-related potentials (ERPs) studies have consistently associated the feedback- related negativity (FRN) component with feedback processing after decision making. Until now, several theoretical interpretations of FRN were proposed and continuously updated in the last decade, including the classical reinforcement learning theory, affective-motivational hypothesis, reward positivity (RewP) theory, Predicted response-outcome model (PRO model) and Positive affective model. Whereas different models emphasized on different aspects, no unified theory has yet been proposed to integrate all of the existing experimental evidences. Based on these literature reviews, we argued that big-sample data, multiple and complementary technologies are highly necessary in future FRN studies. Moreover, we proposed that FRN should be considered as an electrophysiological index of reward system to investigate human behaviors in complex social interaction contexts.
feedback-related negativity; reinforcement learning; anterior cingulate cortex; reward positivity; reward prediction error
B845
2017-07-21
* 國家自然科學基金項目(31671158和31671150)、廣東省普通高校創新團隊建設項目(2015KCXTD009和2015WTSCX094)、深圳市基礎學科布局項目(JCYJ20150729104249783)、深圳大學青年教師科研啟動項目(2017074), 深圳大學人文社科青年扶持項目(16QNFC51)。
李鵬, E-mail: peng@szu.edu.cn
10.3724/SP.J.1042.2018.01642