胡馨允 沈 悅 戴俊毅
系列決策任務中的策略轉換:來自愛荷華賭博任務的證據*
胡馨允 沈 悅 戴俊毅
(浙江大學心理與行為科學系, 杭州 310058)
已有大量研究使用系列決策任務探討了各類決策的決策策略。通過假定個體采用單一策略完成所有任務試次, 并比較對應的計算認知模型擬合實證數據的能力, 這些研究發現各種決策任務都涉及多種可能的決策策略。但是, 此類研究的一個共同缺陷在于忽視了個體在任務過程中轉換決策策略的可能性。通過開發允許在強化學習策略和啟發式策略間轉換的針對愛荷華賭博任務的計算認知模型, 并將此類模型同單一策略模型進行對比, 研究1提供了個體在該系列決策任務中會改變決策策略的明確證據。研究2則發現, 隨著試次數的增加, 發生策略轉換的可能性也會上升。這些結果表明, 為了正確認識各種決策任務的決策策略, 需要充分考慮在系列決策任務過程中發生策略轉換的可能性, 尤其是試次較多的系列任務。未來研究可以探討策略轉換的多種可能形式, 以及導致策略轉換的任務和個體因素, 以便進一步深化對于系列決策任務的心理機制的認識。
系列決策任務, 愛荷華賭博任務, 策略轉換, 計算認知建模, 強化學習和啟發式策略
古人云“明者因時而變, 知者隨事而制”, 當重復面對任務結構相同的決策(即完成系列決策任務)時, 人們所使用的決策策略不是一成不變的。1本文探討的系列決策任務有別于序列決策任務, 后者一般是指后續決策的方案集合取決于之前的決策及其結果, 即時間上相鄰的決策存在明顯的動態依存性的決策任務。大量研究表明, 各種決策任務都存在多種不同的決策策略。例如, 針對多屬性決策任務, 存在一系列不同的補償式(選項在不同屬性上的優勢和劣勢可以相互抵消)和非補償式策略(選項在不同屬性上的優勢和劣勢不可相互抵消, 例如, Payne et al., 1988; Rieskamp & Otto, 2006; Walsh & Gluck, 2016), 而面對風險決策任務時, 個體則可能采取基于期望效用或類似評估的策略(例如, Kahneman & Tversky, 1979; Von Neumann & Morgenstern, 1944)或者更為簡單的啟發式策略(例如, Brandst?tter et al., 2006)。此外, 研究者還對信息環境、任務要求以及個體差異等因素如何影響個體的策略選擇進行了探索(例如, Bergert & Nosofsky, 2007; Pachur & Galesic, 2013), 并且發現, 任務環境或者要求的變化可能會帶來相應的決策策略的轉換(例如, Br?der & Schiffer, 2006; Lee et al., 2014)。
除了由任務環境和要求的變化所導致的策略轉換以外, 人們是否還可能在相對穩定的任務環境和要求下, 由于自我調整、適應或者內在的探索動機而發生策略轉換?在絕大多數有關決策策略的實證研究中, 被試都需要在相同的任務結構下完成一系列決策試次, 以便研究者能夠依托足夠多的信息, 來推斷被試的決策策略。雖然過往研究已經探討了面對特定決策任務時個體所使用的策略的多樣性, 以及影響策略選擇的可能因素, 卻鮮有研究考察, 在面對一個相對穩定的系列決策任務時, 個體的決策策略發生轉換的可能性。如果這種可能性的確存在, 那么以往有關決策策略的研究, 就會因為忽視這一可能性而導致錯誤的結論。為了更好地探明個體在面對各種決策任務時的決策策略, 首先需要回答的問題是, 在任務環境和要求相對穩定的系列決策中, 是否的確會發生策略轉換。本文將以愛荷華賭博任務這一典型的系列決策任務為例, 探討這一重要的理論和實踐問題。
愛荷華賭博任務(Iowa Gambling Task, IGT)是一項基于經驗的模擬決策任務, 它最初是為了考察腹內側前額葉損傷患者在應對不確定的現實情境時的決策缺陷而提出的(Bechara et al., 1994)。該任務包含4個牌堆(分別標記為A, B, C, D), 被試需要多次在這些牌堆間做出選擇。每次選擇某一牌堆之后, 都會抽取并翻轉其最上方的一張牌, 并根據牌面信息給予被試一定的獎勵。但是, 有時選擇某一牌堆也會同時給被試帶來損失。在任務開始之前, 被試并不知道每個牌堆的盈虧規律以及總試次數, 而他們的目標則是通過他們的選擇獲得盡可能高的總回報。因此, 被試需要通過不斷選擇各個牌堆來學習每個牌堆的盈虧規律, 并采取特定策略來完成這一任務。目前IGT已被廣泛用于識別各種臨床人群的決策缺陷, 包括腦損傷人群(Hochman et al., 2010)、藥物濫用人群(Ahn et al., 2014; Bechara & Damasio, 2002; Bechara et al., 2001)、神經疾病人群(Stout et al., 2001)以及精神障礙人群(李蕾等, 2019; 徐四華, 2012)等。
除了被用于考察臨床人群的決策缺陷, IGT還被用來探究正常和臨床人群在面對不確定情境時的決策策略。為此, 研究者們提出了對應不同策略的一系列計算認知模型, 這些模型大致可分為強化學習模型和啟發式模型兩類。強化學習模型假設IGT包含三個過程:涉及動機的對每次選擇結果的評估過程, 涉及認知的對牌堆期望效價的更新過程, 以及涉及反應的概率化選擇過程。Busemeyer和Stout (2002)提出了第一個針對IGT的強化學習模型——期望效價學習(Expectancy-Valence Learning, EVL)模型。該模型假定個體使用期望效用(Expectancy Utility, EU)函數來評估每次選擇結果的效用(Ahn et al., 2008), 使用差異學習(Delta-Learning, DEL)規則來更新每個牌堆的期望效價(Rescorla & Wagner, 1972), 并使用依賴于試次的選擇(Trial-Dependent Choice, TDC)規則來指導下一試次的選擇(Luce, 1959)。在EVL模型的基礎上, Ahn等人(2008)進一步探索了強化學習模型涉及的三個過程中每個過程的不同數學形式, 并提出了預期效價學習(Prospect- Valence Learning, PVL)模型。該模型假定個體會使用預期效用(Prospect Utility, PU)函數(Kahneman & Tversky, 1979)對選擇的凈收益(即獎勵以及可能同時出現的損失之和)進行評估, 使用Erev和Roth (1998)提出的衰減強化學習(Decay-Reinforcement Learning, DRL)規則更新預期效價, 并且使用不隨試次變化的選擇(Trial-Independent Choice, TIC)規則(Yechiam & Ert, 2007)做出反應。更為近期的采用系統化模型比較方法的研究表明(Dai et al., 2015), 個體在對結果進行評估時, 更有可能會對同時出現的獎勵和損失首先分別按照預期效用函數進行評估, 然后再將評估結果加以整合。對應的模型被稱為第2類預期效價學習(Prospect-Valence Learning 2, PVL2)模型。
在有關IGT的啟發式模型中, 最有代表性且擬合實證數據表現最好的是贏留輸走(Win-Stay-Lose- Shift, WSLS)模型(Worthy et al., 2012)。該模型假設, 人們的每次選擇僅取決于上一次選擇的牌堆以及所得的結果, 而與更早之前的選擇及其結果無關。因此, 相比于考慮之前所有試次的選擇及對應結果的強化學習模型, WSLS模型假設的心理機制更為簡單。具體而言, 該模型假定個體繼續選擇相同牌堆的概率, 受當前選擇該牌堆的結果而定。如果當前選擇的凈收益非負(即贏), 則有較大可能繼續選擇相同牌堆, 反之(即輸), 則有較大可能下一試次轉而選擇不同的牌堆。
盡管關于IGT的決策策略已經有了豐富的研究成果, 但很少有研究考慮個體在完成IGT過程中發生策略轉換這一可能。Busemeyer和Stout (2002)曾提出過一個策略轉換啟發式選擇(Strategy-Switching Heuristic Choice)模型。但是, 該模型所謂的“策略轉換”, 并非是指決策策略的本質變化, 而是指隨著個體由于選擇不利牌堆(即A或B牌堆)遭受越來越多的損失, 其選擇概率在不利牌堆和有利牌堆(即C或D牌堆)之間重新分配的過程。此外, 也有研究者提出了將強化學習和啟發式策略結合在一起的計算認知模型。例如, Worthy等人(2013)提出了效價附加堅持(Valence-Plus-Perseverance, VPP)模型。該模型認為, 在IGT的每一個試次中, 人們都會綜合考慮各個牌堆的期望效價以及前一試次的選擇及其結果, 再決定當前試次的選擇。雖然該模型同時包含強化學習和啟發式策略成分, 且相比于EVL、PVL以及WSLS模型, 該模型在擬合實證數據時有較好的表現, 但它仍然假定個體會使用單一的, 雖然更為復雜的混合策略來完成IGT中每個試次的選擇。
綜上所述, 有關IGT的決策策略研究, 尚未考察在任務過程中發生策略轉換這一可能。如果個體的確會在任務過程中因為各種原因轉變決策策略, 那么以往僅僅比較單一策略模型的研究, 就可能得出關于個體策略選擇的錯誤認識。此外, 那些根據單一策略模型的參數估計, 來推斷不同人群決策差異背后的心理機制的研究(例如, Ahn et al., 2014; Yechiam et al., 2005), 也可能會產生有偏的估計, 進而導致對人群差異的錯誤解讀。本研究將通過開發允許策略轉換的模型并將其與傳統的單一策略模型進行比較, 來回答在IGT中是否存在策略轉換這一問題, 以期為得出有關IGT中的決策策略以及不同人群差異的更為可信的結論提供依據, 也為在更大范圍內探討決策策略轉換這一重要的理論和實踐問題提供借鑒。
2.1.1 IGT簡介
如上所述, IGT包含4個牌堆(分別標記為A、B、C、D), 在每個試次中被試需要選擇一個牌堆, 并根據其最上方的牌呈現的信息獲得一定的獎勵, 并有可能同時遭受一些損失。被試的目標是在總試次數未知的情況下, 使總回報最大化。例如, 在Bechara等人(1994)最早的IGT研究中包含了(被試未知的)100個試次, 并且采用了如表1所示的支付方案。具體而言, 被試每次選擇A或B牌堆, 都會獲得100美元的收益。但是, 每選擇10次A牌堆, 被試都會遭受5次損失, 金額從小到大分別為150美元、200美元、250美元、300美元和350美元, 且這5次損失在每10次選擇中出現的具體位置都會有所變化。類似的, 被試每選擇10次B牌堆, 都會遭受1次金額為1250美元的損失, 且每10次選擇中出現損失的位置也各不相同。對于C或者D牌堆, 每次選擇都會帶來50美元的收益。然而, 每選擇10次C牌堆, 都會遭受5次總額為250美元的損失, 每選擇10次D牌堆, 則會遭受1次250美元的損失, 且每10次選擇C或D牌堆遭受損失試次的位置也會有所不同。后續研究使用了相同或者類似的任務設置, 主要的調整發生在試次數, 以及是否使用真實回報兩方面。當使用真實回報(即按照被試最后的總回報支付酬金)時, 出于控制實驗經費的目的, 一般會將Bechara等人最初的支付方案中的各種結果金額都縮減100倍(例如, Dai et al., 2015)。無論采取何種支付方案, 所有類型的IGT研究都滿足以下三點:1) A和B牌堆每次選擇都有較高的收益, 但總損失也較大, 因此長期而言是不利的, 即總回報為負; 2) C和D牌堆每次選擇的收益較低, 但總損失較小, 因此長期而言是有利的, 即總回報為正; 3) A和C牌堆相比于B和D牌堆會出現更多次的損失。

表1 Bechara等人(1994)使用的IGT支付方案
2.1.2 單一策略模型
為了給探究IGT中的策略轉換提供合適的對照模型, 本研究考慮了已有文獻中的三大類單一策略模型, 即強化學習模型, 啟發式模型以及混合模型, 并以PVL2模型, WSLS模型和VPP模型作為各類模型的代表。這些模型在以往的研究中都有較好的表現, 因此如果新的允許策略轉換的模型能夠比它們有更好的表現, 則能為IGT中存在策略轉換提供支持。以下將介紹這三個計算認知模型的具體數學形式。
針對IGT的強化學習模型假定人們通過結果評估、期望(或預期)效價更新和概率化選擇三個過程來完成該任務。根據PVL2模型(Dai et al., 2015), 人們在選擇某一牌堆之后, 會針對當前選擇獲得的收益和可能的損失, 使用預期理論的價值函數分別進行評估, 然后再做匯總。其對應的效用函數被稱為第2類預期效用(Prospect Utility 2, PU2)函數, 效用評估的具體形式如下:

其中,()和()分別代表在試次獲得的收益及可能同時出現的損失金額,()代表試次的匯總效用評估。α是形狀參數, 用于衡量被試感受到的效用對于客觀價值的敏感性, 取值范圍在0到1之間, γ則代表預期理論中的損失厭惡參數, 取值范圍在0到5之間。
在完成了結果評估之后, 根據PVL2模型, 個體會使用衰減強化學習規則對各牌堆的預期效價進行更新, 具體形式如下:

最后, PVL2模型假定, 個體會依據各牌堆的預期效價, 使用以下函數確定下一次選擇各牌堆的概率并相應地做出隨機選擇(Sutton & Barto, 1998):



作為啟發式模型的代表, WSLS模型假定的決策策略比PVL2模型假定的策略明顯更為簡單。根據該模型, 個體只會根據上一次選擇的牌堆及其凈收益(即收益和損失的總和), 來概率性地決定下一次的選擇。該模型有兩個參數, 第一個參數代表上一次選擇的牌堆得到的凈收益大于等于0時, 個體繼續選擇該牌堆的概率, 即



除了強化學習模型和啟發式模型, Worthy等人(2013)提出的混合策略VPP模型也有很好的表現。Worthy等人認為, 使用衰減強化規則的強化學習模型混淆了堅持選擇同一牌堆的傾向和選擇預期效價最高的牌堆的傾向。因此, 他們分離了這兩種傾向, 并提出了VPP模型。根據該模型, 個體一方面會使用PU函數來對某次選擇結果進行效用評估, 并使用差異學習規則更新牌堆的預期效價, 其具體形式如下:


其中,()表示當前試次選擇結果的凈收益, 其他符號的含義同上文。
另一方面, 個體還會根據之前試次是否選擇了牌堆以及選擇牌堆所得凈收益是否非負來確定當前試次堅持選擇牌堆的傾向, 具體形式如下:


最后, 和PVL2模型類似, VPP模型假設被試會根據牌堆的價值確定下一次選擇各牌堆的概率并相應地做出隨機選擇, 具體規則如下:


2.1.3 策略轉換模型
由于IGT一般包含多達100個甚至更多的試次, 在整個任務過程中, 個體可能由于各種原因發生策略轉換。在本研究中, 我們假定可能存在兩種轉換, 一種是在任務開始階段由于缺乏信息而使用對信息依賴度較低的啟發式策略, 并在對各牌堆有了更多了解之后, 轉而使用更為復雜更為精細的強化學習策略。另一種則是在初始階段就使用強化學習策略, 并隨著任務的進行, 因為疲勞、倦怠或者降低認知負荷的需求, 轉而采用啟發式策略。從建模角度, 鑒于PVL2模型在強化學習模型, 以及WSLS模型在啟發式模型中的優勢地位, 本研究將分別以這兩個模型來表達可能的強化學習策略和啟發式策略, 并由此探討個體在IGT中發生策略轉換的可能性。
具體而言, 我們開發了一個允許發生一次策略轉換(Switching-Strategy-Once, SSO)的模型。該模型假設個體在完成IGT的過程中, 會在啟發式策略和強化學習策略之間進行一次轉換, 且個體在使用啟發式或者強化學習策略完成IGT時所使用的具體計算認知機制, 和對應的WSLS或者PVL2模型所假定的機制相同。除了WSLS模型和PVL2模型涉及的參數以外, 該模型還包含兩個新的參數, 分別代表發生策略轉換的節點試次, 記作(即Switching Point), 以及策略轉換的類型, 記作(即Switching Type)。= 1代表個體在完成IGT的過程中先使用了強化學習策略, 之后轉而使用啟發式策略, 而= 2則代表相反的策略轉換過程。因此, 該模型共有8個參數, 即涉及強化學習策略的α, γ,和, 涉及啟發式策略的Pr(|)和Pr(|), 轉換節點參數, 以及轉換類型參數。由于當策略轉換節點位于整個任務的開始或結尾階段時, 相應的策略轉換模型和對應的單一策略模型可能過于類似, 難以分辨。因此, 在本研究中, 我們將的范圍限定在第21個試次到倒數第21個試次之間。
2.1.4 數據
為了系統比較策略轉換模型和單一策略模型擬合實證數據的能力, 我們選取了以往采用IGT的研究中具有代表性的一系列數據集作為模型擬合對象(Steingroever et al., 2015)。具體而言, 這些數據出自10項研究, 涵蓋了不同年齡范圍的共617名健康被試, 且IGT的試次數包含95, 100和150三種情況。所有研究中的IGT都在計算機上完成, 且支付方案與表1所示的Bechara等人(1994)所用的方案相同或類似。所涉及的各項研究的基本信息參見Steingroever等人的表1。
2.1.5 模型擬合和比較方法
本研究所考察的每個計算認知模型(即WSLS, PVL2, VPP和SSO), 都可以根據被試之前的選擇以及所得結果, 預測下一試次每個牌堆被選擇的概率(即一步向前預測, Ahn et al., 2008)。因此, 我們首先使用極大似然估計法(Maximum-Likelihood Estimation, MLE), 用每個模型去擬合個體被試的選擇數據, 即找到每個模型下, 可以使得實際選擇數據出現可能性最大化的參數取值組合, 并以相應的觀測數據的預測出現概率, 作為模型擬合表現的初步指標。具體而言, 在特定模型參數取值下的似然值被定義為該取值下, 模型預測的個體被試的選擇序列的發生概率, 而對數似然值(Log-Likelihood, LL)則被定義為


一般而言, 更為復雜的模型會有更好的擬合表現。由于上述模型的參數個數不盡相同, 它們的復雜程度也不盡相同。因此, 我們使用包含二階偏差修正的赤池信息準則(Akaike Information Criterion with second-order bias correction, AICC; Akaike, 1974; Sugiura, 1978)和貝葉斯信息準則(Bayesian Information Criterion, BIC; Schwarz, 1978)這兩種常用的適用于極大似然估計的指標, 來綜合考量模型的擬合情況和復雜程度, 并以相應的準則分數來評價每個模型的表現并進行模型選擇, 具體計算方式如下:


其中,代表模型的自由參數個數,為需要擬合的數據點個數(即總試次數? 1), 而LL則是指模型的極大對數似然值。AICC(或BIC)的值越小, 表示模型表現越好(Broomell et al., 2011)。2當樣本量與模型參數個數的比值較小(即樣本量/參數個數< 40)時, 使用包含二階偏差修正的赤池信息準則(AICC)能夠彌補使用AIC可能導致的過擬合缺陷(Burnham & Anderson, 2004)。因此, 在本文中我們使用AICC而非AIC作為模型評估的一個指標。
2.1.6 模型復原測試

在本研究中, 我們對數據集中的617名被試的觀測數據進行了模型擬合, 從而得到了每個被試在每個模型下的最優擬合參數取值。然后, 對于每個模型, 我們用對應于每名被試的最優擬合參數取值產生3組模擬數據, 共產生1821 (= 617 × 3)組模擬的被試數據。之后, 我們分別使用WSLS模型、PVL2模型、VPP模型和SSO模型, 用擬合觀測數據一樣的方法擬合這些模擬數據。最后, 通過分析使用不同指標(即AICC和BIC)時模型的區分度, 我們可以選取出更為合理的針對觀測數據的模型選擇指標。
2.2.1 模型擬合和比較
表2展示了各個模型擬合全部617名被試的觀測數據的結果。當以AICC為模型選擇指標時, 無論是就群體均值還是個體結果而言, SSO模型都表現最佳, 而VPP、PVL2和WSLS模型的表現則依次變差。當以BIC為模型選擇指標時, 就群體均值而言, PVL2模型的表現最佳, SSO模型次之。從個體結果上看, WSLS模型和PVL2模型表現較好, 分別在30.79%和33.87%的被試數據上有最好的表現, 而VPP和SSO模型的表現則基本相當。無論采用AICC還是BIC作為指標, SSO模型都在一部分被試的數據(AICC:43.27%, BIC:18.96%)上有最好的表現。
2.2.2 模型復原測試
由于AICC和BIC對于模型復雜度的懲罰程度存在差異, 相比于BIC, AICC傾向于選擇參數更多的模型。因此, 出現使用AICC指標時, 較為復雜的VPP和SSO模型有更好的表現并不奇怪。為了選擇更合適的模型選擇指標, 我們進行了模型復原測試。表3和表4展示了模型復原測試的結果。當以AICC為模型選擇指標時, 各模型有較好的區分度。對于每個模型產生的模擬被試數據, 該模型本身都能在最大比例的個體模擬數據上有最好的表現。而當以BIC為模型選擇指標時, 對于每個模型產生的模擬數據, 最為簡單的WSLS模型都能在最大比例的個體模擬數據上有最好的表現, 即BIC不能很好地對WSLS和其他模型進行區分。因此, 在本研究中, 相比于BIC, 將AICC作為模型選擇指標更為合適。
注:表中的每一行代表不同模型在某個模型產生的模擬被試數據上的表現情況。例如, 第一行代表各個模型擬合WSLS模型產生的模擬被試數據時的表現。在由WSLS模型產生的模擬被試數據中, WSLS模型在88.60%的個體數據上表現最佳, 而PVL2模型、VPP模型和SSO模型則分別在3.67%、0.92%和6.81%的個體數據上表現最佳。

表4 研究1基于BIC的模型復原測試結果
注:表中內容的含義同表3。
本研究提出了有關IGT的一次策略轉換模型, 并針對以往617名健康被試的數據, 比較了此模型和假定單一策略的具有代表性的PVL2模型(強化學習策略), WSLS模型(啟發式策略)以及VPP模型(混合策略)的數據擬合表現。當分別以AICC和BIC作為模型選擇指標時, 模型表現的相對優劣有所差異, 但策略轉換模型都能在一定比例的個體數據上有最好的表現。模型復原測試的結果表明, AICC比BIC更適合在當前研究中被用于進行模型選擇, 因為相比于使用BIC, 在使用AICC時更可能還原出正確的數據產生模型。當以AICC作為模型選擇指標時, SSO模型無論從群體還是個體水平都要優于另外三個模型, 而且策略轉換模型在近一半(43.27%)的被試觀測數據上表現最佳。這些結果表明, 個體在完成IGT的過程中, 的確有較大可能會發生決策策略的轉換。
如前所述, 經驗累積或者疲倦等因素可能是造成在像IGT這樣的系列決策任務中發生策略轉換的原因。當任務的試次數變得越來越多時, 我們可以合理地認為, 經驗累積或者疲倦這樣的因素更有可能發生作用, 因而個體也就更有可能在任務過程中, 變換決策策略。因此, 作為本研究主體部分的補充, 我們還比較了包含不同試次數的IGT研究中的模型表現, 以便進一步考察策略轉換的可能性。在本研究考察的617名被試中, 有15人完成的是95試次的IGT, 504人完成的是100試次的IGT, 還有98人完成的是150試次的IGT。表5展示了包含不同試次數的IGT數據以AICC為模型選擇指標的相應結果。可以看出, 隨著試次數的上升, 無論是從AICC均值, 還是從模型表現最好的被試比例來看, 策略轉換模型相比于其他模型的優勢都在增強, 這一點在模型表現最好的個體被試比例上表現得尤為明顯, 即從13.33%上升到了53.06%。


表5 研究1中根據試次數分組的模型擬合和比較結果
需要指出的是, 雖然上述分析支持IGT中可能存在策略轉換, 但這些分析所考察的數據出自不同的研究, 在任務設置的細節上不盡相同, 而且試次數的范圍和間距不盡合理, 完成不同試次數IGT的人數也很不均衡。因此, 以上分析結果只能被認為是為支持IGT中的策略轉換提供了有限的證據。在以下報告的研究2中, 我們在對試次數進行更為合理的操縱的前提下, 采用相同的任務設置在每種試次數下收集了人數幾乎相同的被試數據, 以便更好地檢驗試次數增加會提升策略轉換的可能性這一關鍵假設。
3.1.1 被試
本研究采用實驗范式操縱IGT的試次數, 并設置了100試次和200試次兩個實驗條件。共招募321名成年大學生被試(男性134人, 女性187人), 平均年齡20.54歲(= 2.41)。其中160人完成了100試次的IGT, 另161人則完成了200試次的IGT。招募被試時要求非心理學專業且未參加過IGT研究。所有被試均在實驗前填寫知情同意書, 并自愿參與實驗。實驗結束后, 被試會得到基礎報酬和額外獎勵, 額外獎勵的數量和IGT的績效有關, 績效越高, 額外獎勵越多。
3.1.2 實驗設計與流程
本實驗采用單因素被試間設計, 考察并比較不同試次數下個體在IGT中發生策略轉換的可能性。本實驗共設置100試次和200試次兩種實驗條件, 前者是大多數IGT研究的標準設置, 而后者則可以在控制實驗總時長的前提下, 有效地拉開與前者的距離, 以實現一定程度的效應量。
任務開始前, 被試會閱讀有關IGT的標準化介紹, 并被告知擁有2000元研究貨幣(即初始總財富)。任務開始后, 被試會看到分別位于屏幕上、下、左、右側的4個牌堆, 并可以通過鍵盤的“上”、“下”、“左”、“右”鍵, 選擇對應的牌堆。被試在完成任務之前, 并不知曉所需完成的試次數。每次選擇完成后, 屏幕中央將呈現當前試次的獎勵和損失, 以及更新之后的總財富額(如圖1)。設置以上下左右方式呈現牌堆, 是為了減少傳統的從左到右的排布方式對牌堆選擇產生的非隨機的影響, 例如在開始階段依次選擇A、B、C、D四個牌堆, 以及在后續試次中, 相繼選擇空間上明顯相鄰的牌堆。此外, 本研究采用和表1所示相同的支付方案, 且每10次選擇某一牌堆時損失出現的試次位置也是隨機的。實驗程序使用Python3及PsychoPy軟件編寫, 被試需要在電腦的PsychoPy軟件上完成實驗。

圖1 研究2實驗界面截圖
3.1.3 數據分析
本研究采用和研究1相同的模型擬合和比較技術, 分析和比較了3個單一策略模型和一次策略轉換模型在擬合個體IGT數據時的表現, 并且進行了模型復原測試。此外, 使用獨立樣本比例差異檢驗, 分析試次數對于IGT中發生策略轉換的可能性的影響。

表6 研究2模型比較結果

表7 研究2基于AICC的模型復原測試結果
注:每個單元格中的前一個數值代表100試次組的結果, 后一個數值代表200試次組的結果。
3.2.1 模型擬合和比較
因模型復原測試表明, 在本研究中使用AICC仍然比使用BIC更有可能做出正確的模型選擇(見下文), 此處僅報告基于AICC的結果。表6呈現了以AICC為標準, 100和200試次組各自的模型比較結果。無論是從群體均值, 還是從個體結果來看, SSO模型在兩種試次數條件下都表現最佳。而且, 無論是針對100試次IGT還是200試次IGT, SSO模型都在至少一半被試的個體數據上有最好的表現。此外, 和研究1一樣, VPP、PVL2和WSLS模型的表現依次變差。獨立樣本比例差異Z檢驗的結果表明, 200試次下發生策略轉換的可能性(即SSO模型在擬合個體觀測數據時表現最佳的比例, 65.22%), 高于100試次下發生策略轉換的可能性(50.00%,= 2.76, 單側= 0.003, 比例差異的95% CI = [0.045, 0.259], Cohen’s= 0.31, 對應較小的效應量)。
和在研究1中一樣, 我們還分析了兩種試次數條件下, SSO模型擬合最優的那些被試的參數的估計結果。當IGT包含100試次時,估計值的均值為47.03, 標準差為20.39; 當IGT包含200試次時,估計值的均值為95.38, 標準差為54.21。4在本研究以及研究1中, SSO模型擬合最優的被試的sp平均估計值都接近于允許范圍的中間值。造成這一結果的可能原因是, 發生策略轉換的個體的策略轉換節點位于模型允許范圍內的各個位置的可能性大致相當, 且整體分布呈單峰形態。單側Mann-Whitney檢驗結果表明, 無論在哪種轉換類型下, 200試次下的平均轉換節點均顯著晚于100試次下的平均轉換節點(值均小于0.001)。
3.2.2 模型復原測試
本研究使用每個模型模擬了3×321 = 963組個體被試數據, 并使用4個模型對每組模擬數據進行了擬合。表7展示了100試次組和200試次組基于AICC的模型復原測試結果。不論是在100試次還是200試次下, 所考察的每個模型都能在最大比例的各自模型產生的模擬數據上有最好的表現。總體而言, 試次數為200時數據生成模型被正確復原的比例(71.74%), 要高于試次數為100時的比例(64.69%,= 4.70, 單側< 0.001, 比例差異的95% CI = [0.041, 0.100], Cohen’s= 0.15, 對應小的效應量)。
表8展示了基于BIC的模型復原測試結果。可以看出, 和研究1一樣, 當使用BIC進行模型選擇時, 幾乎在所有情況下, 無論針對哪個模型產生的個體模擬數據, WSLS模型都能有最好的表現, 即BIC不能很好地對WSLS和其他模型進行區分。只有當試次數為200時, PVL2模型和SSO模型才能在各自產生的模擬數據上有最好的表現??傮w而言, 試次數為200時數據生成模型被正確復原的比例(59.06%), 要高于試次數為100時的比例(49.17%,= 6.16, 單側< 0.001, 比例差異的95% CI = [0.068, 0.130], Cohen’s= 0.20, 對應小的效應量)。
本研究的目的在于考察試次數的增加是否會導致被試在IGT中更有可能發生策略轉換。結果表明, 無論IGT包含標準的100個試次還是更多的200個試次, 和研究1類似, 策略轉換模型都在至少一半被試的個體數據上有最好的表現。更為重要的是, 同包含100個試次的IGT相比, 當IGT包含200個試次時, 策略轉換模型在更高比例的個體數據上表現最佳。這意味著, 當試次數為200時, 人們更有可能在IGT中發生策略轉換。這一結果排除了策略轉換模型能夠在部分被試的數據上有最好的表現, 僅僅是由模型比較結果的隨機性所致這一解釋, 從而為個體在像IGT這樣的系列決策任務中可能發生策略轉換提供了進一步的支持。此外, 模型復原測試的結果表明, 與BIC相比, AICC仍然是更有可能做出正確的模型選擇的指標。因此, 本研究繼續使用AICC作為模型選擇和策略推斷的依據。最后, 無論是采用AICC還是BIC作為模型選擇指標, 200試次下的模型復原表現, 都要優于100試次下的表現。這與更大的數據量將有助于更好地區分不同模型的傳統看法是一致的。

表8 研究2基于BIC的模型復原測試結果
注:表中內容的含義同表7。
系列決策任務既廣泛存在于我們的日常生活中, 也大量出現在有關決策策略和影響因素的實證研究之中。例如, 為了招聘各種崗位的職員, 人力資源部門的員工需要頻繁地在求職者間做出選擇, 而像IGT這樣的需要被試在相同的任務結構下重復完成多次決策的實驗室任務也比比皆是。以往有關系列決策任務下的決策策略的研究, 一般假設個體在所有試次中都使用相同的策略。之所以要求進行多次重復決策, 僅僅是為了給推斷決策策略提供更多的信息。但是, 在這樣的決策任務中, 人們不僅會了解和學習任務刺激的具體特征, 而且可能在更高的水平上, 學習和相應地調整他們的決策策略。對于后一種學習的充分了解, 將有助于我們得出有關策略選擇的更為準確的推斷, 并且考察影響策略選擇及其轉換的因素, 從而更好地為改善決策服務。
本研究以IGT為對象, 較為系統地探討了人們在系列決策任務中發生策略轉換的可能性。結果表明, 人們不僅會在IGT中發生策略轉換, 而且這一轉換的可能性, 還會隨著任務試次數的上升而有所提升。這表明, 在通過各種系列決策任務探討個體的決策策略時, 需要充分考慮策略轉換的可能性, 尤其是在任務試次數較多的情況下。具體而言, 可以參照本文所報告的方式, 開發允許策略轉換的計算認知模型, 并將它們和假定單一策略的模型進行比較, 從而推斷個體是否發生了策略轉換, 以及在何時發生了策略轉換。由此, 研究者有望對個體在任務不同階段的策略使用情況有更加準確的認識, 后續基于不同階段的模型參數估計的分析, 也更有可能產生相對準確的推斷。

在確認了系列決策任務存在策略轉換的可能性后, 一個需要進一步探討的關鍵問題是, 產生策略轉換的條件是什么, 或者說怎樣的任務因素、個體因素或者兩者的交互可能引發策略轉換。例如, 當任務難度或者自身的抱負水平較高時, 個體可能因為現有策略無法實現目標, 而選擇嘗試不同的策略。由此可以推斷, 通過增大任務難度(比如要求在IGT中必須使得財富水平有所增長)或者提升個體的抱負水平的方式, 也許能夠引發更多的策略轉換。此外, 是否存在優勢策略也是影響策略轉換的一個可能因素。當個體在嘗試了不同策略并且發現了優勢策略之后, 其策略轉換的傾向可能會有所減弱。反之, 如果多種策略下的任務表現大致相當, 那么發生策略轉換的可能性則將取決于個體希望盡可能有更好的表現的意愿, 以及探索不同策略的動機程度。對于策略轉換誘發因素的考察, 將進一步提升我們對于決策策略及其轉換的認識。
Ahn, W. Y., Busemeyer, J. R., Wagenmakers, E. J., & Stout, J. C. (2008). Comparison of decision learning models using the generalization criterion method.(8), 1376?1402. https://doi.org/10.1080/03640210802352992
Ahn, W. Y., Vasilev, G., Lee, S. H., Busemeyer, J. R., Kruschke, J. K., Bechara, A., & Vassileva, J. (2014). Decision-making in stimulant and opiate addicts in protracted abstinence: Evidence from computational modeling with pure users.849. https://doi.org/10.3389/ fpsyg.2014.00849
Akaike, H. (1974). A new look at the statistical model identification.(6), 716?723.
Bechara, A., Damasio, A. R., Damasio, H., & Anderson, S. W. (1994). Insensitivity to future consequences following damage to human prefrontal cortex.(1?3), 7?15. https://doi.org/10.1016/0010-0277(94)90018-3
Bechara, A., & Damasio, H. (2002). Decision-making and addiction (part I): Impaired activation of somatic states in substance dependent individuals when pondering decisions with negative future consequences.(10),1675?1689. https://doi.org/10.1016/s0028-3932(02)00015-5
Bechara, A., Dolan, S., Denburg, N., Hindes, A., Anderson, S. W., & Nathan, P. E. (2001). Decision-making deficits, linked to a dysfunctional ventromedial prefrontal cortex, revealed in alcohol and stimulant abusers.(4), 376?389. https://doi.org/10.1016/s0028-3932(00)00136-6
Bergert, F. B., & Nosofsky, R. M. (2007). A response-time approach to comparing generalized rational and take-the- best models of decision making.107?129.
Brandst?tter, E., Gigerenzer, G., & Hertwig, R. (2006). The priority heuristic: Making choices without trade-offs.409?432.
Br?der, A., & Schiffer, S. (2006). Adaptive flexibility and maladaptive routines in selecting fast and frugal decision strategies.904?918. https://doi.org/10.1037/ 0278-7393.32.4.904
Broomell, S. B., Budescu, D. V., & Por, H. H. (2011). Pair-wise comparisons of multiple models.(8), 821?831.
Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection.(2), 261?304. https://doi.org/10.1177/0049124104268644
Busemeyer, J. R., & Stout, J. C. (2002). A contribution of cognitive decision models to clinical assessment: Decomposing performance on the Bechara gambling task.(3), 253. https://doi.org/10.1037/1040-3590. 14.3.253
Clerc, M. (2010).(Vol. 93). John Wiley & Sons.
Dai, J., Kerestes, R., Upton, D. J., Busemeyer, J. R., & Stout, J. C. (2015). An improved cognitive model of the Iowa and Soochow Gambling Tasks with regard to model fitting performance and tests of parameter consistency.299. https://doi.org/10.3389/fpsyg.2015.00229
Erev, I., & Roth, A. E. (1998). Predicting how people play games: Reinforcement learning in experimental games with unique, mixed strategy equilibria.(4), 848?881. https://jstor.org/stable/117009
Fang, J., Schooler, L., & Shenghua, L. (2023). Machine learning strategy identification: A paradigm to uncover decision strategies with high fidelity.(1), 263?284.
Hochman, G., Yechiam, E., & Bechara, A. (2010). Recency gets larger as lesions move from anterior to posterior locations within the ventromedial prefrontal cortex.(1), 27?34. https:// doi.org/10.1016/j.bbr.2010.04.023
Kahneman, D., & Tversky, A. (1979). Prospect theory: An analysis of decision under risk.(2), 263?292. https://jstor.org/stable/1914185
Lee, M. D., & Gluck, K. A. (2021). Modeling strategy switches in multi-attribute decision making.148?163. https://doi.org/10.1007/ s42113-020-00092-w
Lee, M. D., Gluck, K. A., & Walsh, M. M. (2019). Understanding the complexity of simple decisions: Modeling multiple behaviors and switching strategies.(4), 335?368. https://doi.org/10.1037/dec0000105
Lee, M. D., Newell, B. R., & Vandekerckhove, J. (2014). Modeling the adaptation of search termination in human decision making.(4), 223?251. https://doi.org/ 10.1037/dec0000019
Li, L., Zhang, J. Q., Hou, J. W., Li, Y. L., Lu, Y. J., & Guo, Z. J. (2019). Decision-making characteristics assessed by the IOWA Gambling Task in schizophrenia: A meta-analysis.(6),688?691, 695.
[李蕾, 張俊青, 侯繼文, 李亞鈴, 魯玉潔, 郭宗君. (2019). 愛荷華賭博任務評估精神分裂癥決策特點Meta分析.(6), 688?691, 695.]
Luce, R. D. (1959).New York: Wiley.
Pachur, T., & Galesic, M. (2013). Strategy selection in risky choice: The impact of numeracy, affect, and cross-cultural differences.260?271.
Payne, J. W., Bettman, J. R., & Johnson. E. J. (1988). Adaptive strategy selection in decision making.534?552.
Rescorla, R. A., & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In A. H. Black, & W. F. Prokasy (Eds.),(pp. 64?99). Appleton-Century-Crofts.
Rieskamp, J., & Otto, P. E. (2006). SSL: A theory of how people learn to select strategies.(2), 207?236. https://doi.org/ 10.1037/0096-3445.135.2.207
Schwarz, G. (1978). Estimating the dimension of a model.,(2), 461?464.
Steingroever, H., Fridberg, D. J., Horstmann, A., Kjome, K. L., Kumari, V., Lane, S. D., … Wagenmakers, E. J. (2015). Data from 617 healthy participants performing the Iowa Gambling Task: A “Many Labs” Collaboration.(1), e5. http://doi.org/10.5334/ jopd.ak
Stout, J. C., Rodawalt, W. C., & Siemers, E. R. (2001). Risky decision making in Huntington's disease.(1), 92?101. https://doi.org/10.1017/s1355617701711095
Sugiura, N. (1978). Further analysis of the data by Akaike’s information criterion and the finite corrections.13?26. http://doi.org/10.1080/03610927808827599
Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction.(5), 1054?1054. https://doi.org/10.1109/tnn.1998.712192
Von Neumann, J., & Morgenstern, O. (1944).Princeton University Press.
Wagenmakers, E. J., Ratcliff, R., Gomez, P., & Iverson, G. J. (2004). Assessing model mimicry using the parametric bootstrap.28?50. https://doi.org/10.1016/j.jmp.2003.11.004
Walsh, M. M., & Gluck, K. A. (2016). Verbalization of decision strategies in multiple-cue probabilistic inference.(1), 78?91. https://doi.org/10.1002/bdm.1878
Worthy, D. A., Hawthorne, M. J., & Otto, A. R. (2012). Heterogeneity of strategy use in the Iowa gambling task: A comparison of win-stay/lose-shift and reinforcement learning models.(2), 364?371. https://doi.org/10.3758/s13423-012-0324-9
Worthy, D. A., Pang, B., & Byrne, K. A. (2013). Decomposing the roles of perseveration and expected value representation in models of the Iowa gambling task.640. https://doi.org/10.3389/fpsyg.2013.00640
Xu, S. H. (2012). Internet addicts’ behavior impulsivity: Evidence from the Iowa Gambling Task.(11), 1523?1534.
[徐四華. (2012). 網絡成癮者的行為沖動性——來自愛荷華賭博任務的證據.(11), 1523?1534.]
Yechiam, E., Busemeyer, J. R., Stout, J. C., & Bechara, A. (2005). Using cognitive models to map relations between neuropsychological disorders and human decision-making deficits.973?978.
Yechiam, E., & Ert, E. (2007). Evaluating the reliance on past choices in adaptive learning models.(2), 75?84. https://doi.org/10.1016/j.jmp. 2006.11.002
Strategy switching in a sequence of decisions: Evidence from the Iowa Gambling Task
HU Xinyun, SHEN Yue, DAI Junyi
(Department of Psychology and Behavioral Sciences, Zhejiang University, Hangzhou 310058, China)
Much research has been devoted to studying decision strategies in various tasks. Such research usually involved a sequence of decision trials under the same task structure to provide sufficient information for inferring the underlying decision strategies. By assuming each individual adopted a single decision strategy across all decision trials and comparing corresponding computational cognitive models in terms of their performances in fitting empirical data, such studies have revealed multiple possible decision strategies for many major decision tasks. One common drawback of such research, however, was overlooking the possibility that individuals switched their strategies along the sequence of decisions. This might lead to inappropriate conclusions regarding the decision strategies underlying specific decision tasks or misleading inferences of potential cognitive and affective differences between normal and different clinical populations based on parameter estimates from models assuming single strategies.
To address this critical issue, two studies were conducted to examine the possibility of strategy switching in the Iowa Gambling Task (IGT), an experience-based decision task with a sequence of trials aimed at mimicking real-world decisions under uncertainty. By developing a computational cognitive model that allowed for switches between reinforcement learning strategies and heuristic strategies and comparing its performance with those of single-strategy models, Study 1 showed that data from about half of the 617 healthy participants in 10 previous studies were better fitted by the strategy-switching model than three single-strategy models that performed well in previous research, that is, the WSLS, PVL2, and VPP models as exemplar models assuming heuristic, reinforcement learning, and mixed strategies, respectively. This result provided clear support for the possibility of strategy switching in the IGT.
Since strategy switching might occur with accumulating experience or fatigue and an increasing number of trials is likely to facilitate such changes, 321 participants were recruited in Study 2 to further examine whether a larger number of trials would contribute to more strategy switching in the IGT. Specifically, 160 participants performed a 100-trial IGT, whereas the other 161 participants performed a 200-trial IGT under otherwise the same task structure. It was found that data from a larger proportion of individual participants were best fitted by the strategy-switching model when the IGT involved 200 trials rather than standard 100 trials. This result provided further evidence for strategy switching in the task.
Overall, the current results suggest that strategy switching is likely to occur in a sequence of decisions under the same task structure. Consequently, in order to obtain proper understanding of the decision strategies for various decision tasks, it is necessary to consider seriously the possibility of strategy switching, especially for a long sequence of decisions. For a more refined understanding of psychological mechanisms underlying sequences of decisions, future research might further investigate various forms of strategy switching such as gradual instead of abrupt switches and task and individual factors that trigger such switches.
decision task with a sequence of trials, The Iowa Gambling Task, strategy switching, computational cognitive modeling, reinforcement learning and heuristic strategies
2023-02-02
* 中央高校基本科研業務費專項資金(2018QNA3014)資助。
戴俊毅, E-mail: junyidai@zju.edu.cn
B842.1