田欣然 侯文霞 歐玉曉 易 冰 陳文鋒 尚俊辰
(1 中國人民大學心理學系,北京 100872) (2 東南大學人文學院醫學人文學系,南京 211189)
我們的視覺系統每時每刻接收到海量信息,這些信息很多是高度結構化的。這些結構化的信息彼此相似,以集合的形式存在。人們可以對這些集合進行知覺平均(perceptual averaging),相當精確地抽取集合內所有成員的平均表征(average representation,Alvarez,2011;Haberman &Whitney,2012;Whitney &Leib,2018),涉及大小、方向、明度、位置等低水平特征(Alvarez &Oliva,2008;Ariely,2001;Bauer,2009;Parkes et al.,2001),也包括面孔身份、性別和表情等高級社會性信息(Haberman &Whitney,2007;Haberman et al.,2015;Li et al.,2016)。很多研究關注大腦中平均表征是如何產生的:是通過整合集合成員來形成一個平均刺激的表征還是通過個體成員特征的平均值(mean value)計算來完成平均任務(Maule &Franklin,2015;Whitney &Leib,2018)。以往研究中,平均表征通常是用集合成員的平均值來作為測量指標,隱含了平均表征等同于集合成員平均值的假設。然而,由于集合平均刺激的特征值和成員特征值的平均往往十分相似而難以區分,這種假設并不能作為證據來區分平均表征的產生是由于大腦中形成平均刺激的表征還是由于集合成員的平均值計算。因此,平均表征的形成機制仍然是一個有待解決的問題。解決這個問題的一個思路就是分離集合平均刺激的特征值和集合各成員特征值的平均,而平均面孔由于其吸引力通常都比合成平均面孔的成員吸引力平均值更高(Carragher et al.,2018;Komori et al.,2009),很適合作為這個問題解決的切入點。為了有效區分平均刺激的表征和平均值計算的混淆問題,本研究通過利用集合面孔吸引力的平均表征和集合中所有面孔的吸引力平均值的差異性來考察知覺平均過程中是否形成了平均刺激的表征。
已往研究對平均表征的形成方式提出了兩種主要解釋,即基于分布式注意的整體編碼和基于聚焦注意的個體編碼。整體編碼觀點認為,視覺系統對集合刺激進行平行加工,因而被試能夠準確表征集合平均值,卻不能夠對集合內的個體進行準確表征(Ariely,2001)。個體編碼觀點則認為,視覺系統將有限的注意資源集中在從集合中抽取的少數樣本上,并對其進行精細加工,然后通過樣本信息的平均值計算來推斷集合的平均表征(de Fockert &Marchant,2008;Myczek &Simons,2008)。
從一般視覺加工的角度看,視覺信息的加工是分層級的。關于整體編碼和個體編碼的爭論某種程度上可以歸結為在平均表征形成過程中整體和個體的視覺加工層級優先性。最近,視覺加工的逆層級理論(reverse hierarchy theory,Hochstein &Ahissar,2002;Hochstein et al.,2015)認為整體加工和個體加工存在著逆層級性,即統計表征作為一種由自下而上的快速過程構建的高水平表征優先于個體表征的覺察。逆層級理論認為,整體表征(如場景主旨gist)的意識知覺從高級皮層開始,是一種基于低級皮層輸入的知覺過程;在視覺加工開始階段,我們僅能有意識覺察到視覺場景的整體表征(如gist),不能覺察到高水平整體表征的前因細節(antecedents,即構成整體表征的個體細節);在這個優先的層級加工后,視覺系統才將注意導向到特定的低級皮層處理單元,提取局部細節信息,即在高級皮層的整體表征以自上而下的方式返回到局部加工(逆層級返回,reverse hierarchy return)以證實(或矯正)初步的整體表征估計值(Hochstein et al.,2015)。因此,根據逆層級理論可以推論,平均表征最先是大腦整合粗略的個體信息形成的,并非基于精確個體表征的平均計算;但在加工后期會受到個體表征的矯正。然而,這僅僅是個推論,有待更直接的證據證實。
和表情、身份等其他面孔特征類似,學者也曾經推測面孔集合平均吸引力應等于每張面孔吸引力的平均值(Abbas &Duchaine,2008;Brady &Alvarez,2015;Haberman &Whitney,2012)。早期研究發現,由3 個不同吸引力水平的年輕男性面孔組成的集合的吸引力剛好等于3 個男性的平均吸引力(Anderson,1965;Anderson et al.,1973)。
然而,研究者也發現了不同的結果。van Osch等人(2015)系統地操縱了集合的容量大小,發現當集合中的面孔數量超過6 張,集合的吸引力評分要顯著高于集合成員的評分的平均值。這被稱為集合吸引力高評現象(group attractiveness effect)。小容量面孔集合在特定條件下也存在集合吸引力高評現象:例如Willis (1960)發現在集合只有2 張或3張面孔時,集合吸引力的評分要比成員的平均值更極端,高吸引力集合的評分會比成員平均評分更高。
van Osch 等人(2015)認為集合吸引力高評現象可能的機制是面孔集合的知覺加工形成了平均面孔的表征,即面孔集合的平均吸引力表征并不是成員吸引力數值的平均,而是被試將集合中的所有面孔加以變形(morph)加工并融合成新的平均面孔(average-face),從而影響集合面孔吸引力的評價。面孔吸引力與面孔平均性具有強相關(O’Toole et al.,1999;Rhodes et al.,2001),即平均面孔的吸引力會由于平均表征自身攜帶的平均屬性而得到提升,進而高于組成它的所有面孔的吸引力平均值(Carragher et al.,2018)。
van Osch 等人(2015)關于平均面孔的解釋符合刺激集合形成平均刺激的表征的觀點,但并沒有解釋集合吸引力平均值(Anderson et al.,1973;Luo &Zhou,2018)和集合吸引力高評不一致的矛盾。我們認為這并不矛盾,Anderson 等(1973)的研究都采取了較小的面孔集合(N
=3 或4),而高評結果出現于較大的集合(N
≥ 8) (van Osch et al.,2015)。正是這種集合大小的差異可能引起不一致的結果:即相對于大集合面孔,集合較小時加工資源足以對個體成員精確加工,個體成員表征更突顯,更容易干擾平均面孔表征。Li 等人(2016)的發現為這個觀點提供了支持證據:在有限的加工資源下,平均表征相對于個體的表征具有優勢性,個體表征的精確度較低;但如果加工資源比較充足,個體表征精確度上升,而平均表征的精確度則降低。根據逆層級理論,平均表征的形成不需要精確的個體表征,而數值的計算需要建立在較高的個體表征精確度之上。此外,平均面孔的吸引力也受集合面孔數量的影響,即小容量集合面孔合成的平均面孔吸引力也低于大集合合成的平均面孔(Langlois &Roggman,1990)。事實上,van Osch 等(2015)也發現,當集合容量減少,高評現象出現的概率大幅下降。這可能是由于小容量集合形成的平均面孔吸引力相對不高或者平均面孔受到干擾,也可能是沒有形成平均面孔而依賴于平均值計算。因此,小容量集合面孔吸引力的高評現象會減少,但其機制有待厘清。目前集合平均表征的形成機制仍然停留在理論層面,尚未有直接的證據。合成平均刺激作為一種可能的機制,能夠較好地解釋集合表征加工相關的理論問題和實驗現象。首先,為平均表征的整體編碼和個體編碼之爭提供解決思路;其次,為視覺加工的逆層級理論提供實證支持;最后,為集合面孔吸引力的高評現象提供實證解釋。本研究使用平均辨別任務(實驗1 和2,mean discrimination paradigm,Haberman &Whitney,2009)和吸引力評價任務(實驗3 和4),通過比較集合吸引力和平均面孔的吸引力探討集合吸引力高評現象的機制,以進一步厘清知覺平均過程中是否形成了平均刺激的表征。平均辨別任務要求被試對單個刺激與集合平均表征進行知覺比較,用知覺比較后對集合平均表征的反應作為因變量來推斷平均表征是否存在。吸引力評價任務要求被試對集合整體和平均刺激進行評價,直接反映平均表征的知覺過程。我們設置了集合中包含平均面孔的條件,如果集合加工中形成了平均面孔,那么集合原本有無平均面孔對結果將沒有影響;如果沒有形成平均面孔,那么集合包含平均面孔將促進平均辨別過程或是提升集合吸引力。實驗1 和3 通過比較在大容量集合中包含或不包含平均面孔刺激這兩種條件下按鍵的比例來為集合平均面孔的形成提供更直接的證據,實驗2 和4 通過比較不同集合容量中集合平均面孔與集合吸引力的關系是否發生變化來為平均表征的形成和平均值計算的爭議提供實驗數據支持。此外,通過擴散模型分析結果探究集合加工過程,為實驗1 和2 提供信息加工過程方面的證據。根據平均表征形成機制的不同觀點,可以對實驗的結果有如下預測:
(1)如果平均表征是通過集合成員的吸引力平均值計算,那么由于平均面孔的高吸引力,包含平均面孔刺激的集合會比不包含平均面孔刺激的集合吸引力更高,更接近平均面孔吸引力,從而當集合包含平均面孔,集合吸引力會提高(實驗3 和4),在平均辨別任務中判斷集合吸引力更高的傾向增加,判斷探測刺激平均面孔吸引力更高的比例降低,并且不受集合大小的影響(實驗1 和2)。
(2)如果平均表征是通過形成平均刺激的表征來產生,那么集合中是否包含平均面孔刺激對平均辨別任務和評分任務沒有影響(實驗1 和3),并且在平均面孔受干擾的小集合中,包含平均面孔刺激的集合吸引力更接近平均面孔吸引力(實驗4),從而判斷探測刺激平均面孔吸引力更高的比例降低(實驗2)。
(3)在假設2 的基礎上,如果小集合平均面孔受干擾是高評現象減少的原因,那么在個體表征較為突出的情況下,集合吸引力和平均面孔吸引力的差異在不包含平均面孔刺激的集合條件下更大(實驗4),進而,小集合判斷探測刺激平均面孔吸引力更高的比例在不包含平均面孔刺激的集合條件下更高(實驗2)。
(4)如果小集合平均面孔吸引力相對大集合而言較低是高評現象減少的原因,那么小集合中平均面孔吸引力下降導致集合吸引力和平均面孔的差異更小(實驗3 和實驗4 對比),進而,小集合判斷探測刺激平均面孔吸引力更高的比例更低(實驗1 和實驗2 對比)。
實驗1 通過平均辨別任務,要求被試選擇集合吸引力和平均面孔吸引力之間較高的一個,操縱集合中是否出現平均面孔,進而判斷平均面孔是否形成。
2.1.1 被試
采用GPower 以統計功效power=0.8,中等效應量f
=0.25 和重復測量2 (自變量集合類型:2 個水平)為參數估計的最小樣本量為N
=34。實際招募中國人民大學在校生34 名(其中18 名女性),平均年齡20.75 歲,標準差2.02 歲,右利手,視力或矯正視力正常。本研究中所有被試均簽署知情同意書,實驗得到了中國人民大學心理學系倫理委員會的批準。2.1.2 實驗材料
為了產生足夠的組間差異,選取了互聯網材料作為吸引力極高和極低的面孔圖片,去除頭發、脖子和耳朵,將面部輪廓剪成橢圓形,并轉換成灰度圖像來進行標準化。部分面孔材料選自中國化面孔情緒圖片系統(王妍,羅躍嘉,2005)中的女性–中性情緒庫。中國化面孔情緒圖片系統中選取的圖片與互聯網材料共同組成原始材料。所有材料都經過20名中國大學生在吸引力水平和情緒效價(均為101點量表評分)上的評分(10 名女性,平均年齡為20.54 歲,標準差2.17 歲),其中被評價為非中性(與評分50 有顯著差異)的材料被剔除。選定的材料效價評分(M
=49.94,SD
=0.77)與中性(評分50)沒有顯著差異,t
(19)=0.35,p
=0.732。評定后選擇的原始面孔30 張,其中包含6 張互聯網材料(其中4 張屬于高吸引力組,2 張低吸引力組),其余24 張圖片從中國化面孔情緒圖片庫中選取。
隨后,用面孔合成軟件 Abrosoft FantaMorph (www.fantamorph.com)將不同面孔集合的平均面孔制作出來,共有365 張。該軟件可以將兩張面孔按照一定的比例融合,將面部各特征以眾多關鍵點來標注,如嘴角的位置,大小,弧度,隨后取關鍵點的平均值來合成圖像。例如,當我們希望制作4 張原始面孔的平均面孔,就將原始面孔兩兩一組,再按照50:50 的比例進行合成取中,將合成的兩張圖片再次按照50:50 比例合成,就相當于每張原始面孔在合成面孔的貢獻比例為25%,得到了4 張原始平均面孔的平均面孔。如果要制作3 張原始面孔的平均面孔,則控制每張面孔的貢獻比例為33.3%即可。
所有的面孔圖片再次經過20 名中國人民大學在校生的吸引力評定(10 名女性,平均年齡為20.35歲,標準差2.03 歲),作為事先評定的得分。
所有實驗材料使用24 英寸的Dell 顯示屏呈現,分辨率為1920×1080,灰色背景,被試直坐時雙眼距離顯示屏距離約為70 cm。
2.1.3 實驗設計
采用單因素被試內設計,自變量為集合類型(無平均面孔的集合G1 vs.有平均面孔的集合G2),因變量為判斷平均面孔吸引力更高的比例和擴散模型分析得到的反應決策指標(信息累積速率v、閾限差值a 和非決策加工時長t0,詳見結果部分)。
2.1.4 實驗程序
實驗采用平均辨別任務,先呈現集合刺激,再呈現探測刺激。探測刺激為集合平均面孔、集合成員面孔、非成員非平均面孔。由于和平均面孔以及集合平均值的大小關系不確定,難以對結果進行推斷,后兩種刺激類型在本研究中只作為反應填充刺激(控制條件)。
在集合刺激類型上,使用12 張原始面孔組成集合,即是“不包含平均面孔的集合G1”水平,如果使用11 張原始面孔組成集合,并將集合成員的平均面孔作為新成員進入集合中,即是“包含平均面孔的集合G2”水平。包含平均面孔的集合中,平均面孔的位置隨機呈現。在探測刺激類型上,呈現集合成員的平均面孔即是“集合平均面孔”水平,當集合刺激包含平均面孔時,相當于平均面孔出現兩次;“呈現集合成員之一”的水平中,呈現集合中除了平均面孔以外的其他成員面孔之一;呈現集合刺激中沒有出現過的面孔即是“新面孔”水平。
在每個試次中,被試首先注視中心點1000 ms,隨后,他們看到呈現在屏幕上的集合刺激2000 ms,之后呈現空屏500 ms,隨后呈現一張探測面孔,呈現到出現反應為止。要求被試按F 或J 鍵判斷集合刺激的整體吸引力和探測刺激的個體吸引力哪個更高,共180 個試次,各個條件混合隨機呈現,每60 個試次休息一次。在探測面孔為新面孔和集合成員之一兩種條件下,一半探測刺激在預評中的吸引力高于集合刺激成員吸引力平均值,一半低于平均值(如圖1)。

圖1 實驗1、2 流程圖
集合刺激以4×3矩陣呈現,單張面孔圖片的視角為5.69°×6.53°。探測刺激材料是一張單獨的面孔,呈現在屏幕中央,圖片尺寸與集合成員刺激尺寸一致。
2.1.5 擴散模型
根據逆層級理論,平均面孔的形成盡管快速,但仍然需要信息累積,因而有可能在包含和不包含平均面孔的集合之間產生決策反應差異。為了考察這種可能的差異,我們分析了反應決策信息,采用擴散模型(the diffusion model;Ratcliff,1978;Ratcliff &McKoon,2008) 將不同的認知過程進行分解,綜合利用反應時分布與反應準確性結果,進一步分析包含和不包含平均面孔對集合面孔吸引力的知覺
機制。該模型可以將分解的認知過程對應到不同的模型參數中(Voss et al.,2013)。
擴散模型的基本假設是:在快速的二選一任務中,信息從起始點不斷累積直到達到某反應的閾限標準后激活反應。基本擴散模型(Ratcliff,1978)有4個參數(如圖2),分別為:

圖2 擴散模型(翻譯自Ratcliff &McKoon,2008,Figure 2)。圖中展示了擴散模型的3 條路徑樣例。信息從起始點(z)以平均速率(v)開始逐漸累積,直到達到反應A 的閾限(a)或反應B 的閾限(0)。由于隨機噪音,這些路徑在每個試次之間都有所變異。
1)漂移率(drift rate),記為v,表明信息累積的速率;
2)閾限差值(threshold separation),記為a,表明做決策所需要的信息量;
3)起始點(starting point),記為z,表明決策前的預先偏向;
4)非決策加工時長(duration of nondecisional processes),記為t0,包含編碼、反應執行等非決策的時間。
2.2.1 按鍵反應結果
我們根據預評吸引力分數計算了在探測刺激類型為控制條件刺激的反應正確率,以此確定被試進行了充分理解和正確反應,同時驗證事先評定的吸引力評分是否適用于本實驗的被試。根據預評分數計算集合成員的吸引力平均值,再和預評的探測面孔吸引力比較來確定正確反應,結果表明探測刺激類型為新面孔和集合成員之一兩種條件下的總正確率達到84.72%,遠高于隨機反應,t
(33)=28.21,p
< 0.001,95% CI=[0.32,0.37],Cohen’sd
=9.82。說明被試的吸引力判斷和事先評定基本一致。根據事先評定的得分,我們分別統計了實驗1 中不含平均面孔的集合中探測刺激為平均面孔的條件下所有集合成員吸引力的平均值M
1=49.19,同時假設該集合合成了平均面孔并計算包含了該平均面孔的集合成員吸引力平均值,也就是假設生成了平均面孔并將其吸引力計算進集合的成員平均值M
2=50.49。M
1 和M
2 的差異表明,合成平均面孔提高了集合吸引力平均值,t
(19)=22.82,p
< 0.001,95% CI=[1.14,1.37],Cohen’sd
=10.47。我們統計了實際反應中判斷探測刺激平均面孔吸引力更高的比例。無論集合中包含和不包含平均面孔,被試判斷平均面孔吸引力更高的比例(不包含平均面孔G1:84.03%,包含平均面孔G2:83.55%)都顯著高于隨機概率(50%),t
(33)=8.16,p
< 0.001,95% CI=[0.25,0.42],Cohen’sd
=2.84;t
(33)=10.31,p
< 0.001,95% CI=[0.27,0.40],Cohen’sd
=3.59。當探測刺激為平均面孔,判斷平均面孔吸引力更高的比例在包含平均面孔、不包含平均面孔的集合類型之間沒有顯著差異(如圖3),t
(33)=0.11,p=
0.912,95% CI=[–0.10,0.11],表明有無平均面孔對集合吸引力的知覺辨別沒有顯著影響。
圖3 不同條件下被試判斷平均面孔吸引力更高的比例
2.2.2 擴散模型分析
前述比例分析雖然表明有無平均面孔對集合吸引力的知覺辨別沒有顯著影響,但并不清楚對辨別決策過程(如辨別時間、決策標準等)有無影響。這里我們采用層級擴散模型方法(the hierarchical diffusion model,HDM;Vandekerckhove et al.,2011)進行數據的模型擬合。HDM 分析的優勢在于在模型參數計算時考慮被試之間的個體差異。此外模型上下限分別設定為正確反應和錯誤反應,在探測刺激為平均面孔條件時,將判斷探測刺激吸引力更高設定為正確反應。由于對于正確和錯誤反應不存在預先的反應偏向,因此模型將起始點(z)設置為a/2。模型的其他參數設定為隨研究變量(集合類型,探測刺激類型)變化。通過層級擴散模型擬合,最終得到每個被試在每個條件下的漂移率v,閾限差值a和非決策加工時長t0,并進行統計檢驗分析(如圖4)。

圖4 實驗1、實驗2 獲得的層級擴散模型擬合結果
擴散模型是對每個被試進行單獨擬合,一般認為,如果模型擬合優度參數Rhat 小于1.05 (Vehtari et al.,2021),則擬合度較優,我們對實驗1 的擬合結果進行單樣本t
檢驗發現,各擬合參數(M
=1.00)均顯著小于1.05,表明模型擬合良好。以模型參數為因變量的t
檢驗表明,在信息累積漂移率v 和閾限差值a 上,集合是否包含平均面孔沒有顯著差異,t
(33)=0.48,p=
0.632;t
(33)=1.72,p=
0.096。這表明其不影響對集合吸引力和平均面孔的辨別;但非決策加工時長t0 受到了集合是否包含平均面孔條件的影響,集合包含平均面孔條件所需的t0 更短,t
(33)=2.57,p=
0.015,95% CI=[0.01,0.06],Cohen’sd
=0.90。實驗1 的結果表明,容量為12 的集合面孔吸引力確實存在高評現象。這種高評現象來自合成平均面孔的更高吸引力,并影響了被試對集合吸引力和探測刺激平均面孔的比較,使得與實際包含平均面孔的集合條件結果沒有差異。實驗結果模式符合假設2 的合成平均刺激,不支持假設1 的平均值計算。因此,平均辨別并不是簡單地通過計算集合原有成員的平均值,而是形成了集合平均面孔。由于平均面孔的高吸引力,有平均面孔集合所有成員的平均值高于無平均面孔的集合的成員平均值,更接近探測刺激平均面孔,從而探測刺激和集合吸引力更不易區分。因而,如果是根據平均值計算來完成平均辨別任務(即成員平均值是比較標準),故而有平均面孔條件下判斷平均面孔吸引力更高的比例將低于無平均面孔條件。但是,結果與此預測相反,判斷平均面孔吸引力更高的比例在包含平均面孔、不包含平均面孔的集合類型之間沒有顯著差異。因此,更可能的是,人們在知覺集合刺激時將成員合成為一張新面孔(即具有高吸引力的平均面孔),從而對不包含平均面孔的集合吸引力造成顯著的提高;而在包含平均面孔的條件中,整個集合形成的平均面孔應該等同于其中的11 張原始面孔形成的平均面孔,也就是集合中已經出現的這張平均面孔。那么平均面孔出現在集合中就不應當對集合吸引力造成顯著的提高;故包含/不包含平均面孔的條件中選擇集合整體吸引力更高的比例不存在差異。
情景2:中美間貿易摩擦進一步升級的情形。即美國從2018年四季度起對合計2500億美元中國輸美商品加征25%關稅、2019年起對全部中國輸美商品一律加征25%關稅;對此,中國相應地從2018年四季度起對合計1100億美元自美進口商品加征25%關稅,并于2019年起對全部自美進口商品一律加征25%關稅。
擴散模型分析結果表明,在沒有實際平均面孔的輸入時,編碼加工等非決策時間更長,這說明平均辨別任務過程中形成平均面孔需要加工時間和資源的投入。這個過程是很快的(約400 ms),因而對決策影響不大,從而決策信息累積速度與有實際平均面孔輸入時沒有顯著差異。
總結而言,實驗1 的結果表明集合吸引力的判斷過程形成了平均面孔,從而導致集合吸引力高評。那么,有什么因素會影響平均面孔的形成呢?近期研究發現,高級特征如面孔表情的平均表征是個容量有限的過程(Ji et al.,2018),受到加工資源的制約(Li et al.,2016)。那么,面孔吸引力的平均表征是否也受到容量的影響?從以往的結果看,答案似乎是肯定的。例如,van Osch (2015)發現,在集合容量為4~6 的集合中,集合吸引力高評現象出現的可能性很低。以往發現面孔集合吸引力相當于成員平均值的研究也都采用的是較小的集合(Anderson,1965;Anderson et al.,1973)。這是否說明小容量集合中沒有平均面孔形成,小集合面孔吸引力判斷存在與大容量集合不同的機制?但還存在另外一種可能,即平均面孔確實形成了但受到干擾。為了分離這兩種可能,實驗2 考察了小容量集合吸引力與平均面孔的關系。
實驗2 采用4 張面孔組成的集合,采用與實驗1 相同的實驗設計和程序,考察了容量對集合吸引力與平均面孔的關系的影響。
3.1.1 被試
采用GPower 以統計功效power=0.8,中等效應量f
=0.25 和重復測量2(自變量集合類型:無平均面孔的集合G1 vs.有平均面孔的集合G2)為參數估計的最小樣本量為N
=34。實際招募中國人民大學在校生35 名大學生,排除一名記錯按鍵方向的被試,有效被試34 名(17 名女性),平均年齡20.68歲,標準差2.27 歲,右利手,視力或矯正視力正常。3.1.2 實驗材料
與實驗1 相同,但集合刺激只包含4 張圖片。在集合刺激類型上,使用4 張原始面孔組成集合,即是“不包含平均面孔的集合G1”水平,如果使用3張原始面孔組成集合,并將集合成員的平均面孔作為新成員進入集合中,即是“包含平均面孔的集合G2”水平。探測刺激類型包括集合平均面孔、集合成員面孔、非成員非平均面孔,探測刺激的后兩種刺激類型是控制條件刺激。
集合刺激以 2×2 矩陣呈現,圖片的尺寸為8.19° × 9.43°。探測刺激材料是一張單獨的面孔,呈現在屏幕中央,圖片尺寸與集合刺激尺寸一致。
和實驗1 相同。每個被試在主任務完成后還對每張圖片進行了吸引力評分。
3.1.4 實驗程序
與實驗1 相同。
3.2.1 按鍵反應結果
根據事先評定的得分,在探測刺激類型為新面孔和集合成員兩種條件下的反應正確率為84.17%,顯著高于隨機水平,t
(33)=16.84,p
< 0.001,95% CI=[0.31,0.39],Cohen’sd
=5.83,以此確定被試確實充分理解和正確反應。與實驗1 相似,分別統計了探測刺激為平均面孔的條件下不含平均面孔的集合中所有成員吸引力的平均值M
1=47.82,同時也假設該集合生成了平均面孔并計算包含了該平均面孔的成員均值M
2=49.73。M
1 和M
2 的差異表明,平均面孔也同樣提高了小容量集合吸引力平均值,t
(29)=6.68,p
< 0.001,95% CI=[1.44,2.47],Cohen’sd
=2.48。根據被試主任務后的評定,發現平均面孔的吸引力(M
=55.18,SD
=11.02)高于集合成員面孔吸引力的平均值(M
=51.71,SD
=11.76),t
(33)=2.35,p
=0.020,95% CI=[0.51,7.05],Cohen’sd
=0.820。對實驗2 和實驗1 中平均面孔為探測刺激條件下的平均面孔吸引力進行比較,結果表明小集合面孔形成的平均面孔吸引力更低,57.20 vs.65.61,校正t
(41.7)=100.61,p
<0.001,95% CI=[8.26,8.60],Cohen’s
d
=24.53。對實驗2 和實驗1 中平均面孔(探測刺激)和集合平均值的差值(9.51 vs.16.43)進行跨實驗比較,發現實驗2 小集合平均面孔和集合平均值的差異更小,校正t
(53.8)=112.13,p <
0.001,95% CI=[6.70,6.94],Cohen’sd
=27.53。因而,小集合中判斷探測刺激平均面孔吸引力更高的比例將下降。結果確實如此,實驗2 中判斷平均面孔吸引力更高的比例顯著低于實驗1 (66.57% vs.83.79%),校正t
(63)=3.37,p
=0.
001,95% CI=[0.07,0.27],Cohen’sd
=0.85。統計檢驗結果表明,被試傾向于認為平均面孔的吸引力要高于集合的吸引力。判斷探測刺激平均面孔吸引力更高的比例顯著高于隨機概率,t
(33)=4.60,p
< 0.001,95% CI=[0.09,0.24],Cohen’sd
=1.60。而且對于判斷平均面孔吸引力更高的比例,集合中不包含平均面孔的條件顯著高于包含平均面孔的條件,t
(33)=3.77,p
=0.001,95% CI=[0.03,0.12],Cohen’sd
=1.31 (如圖3)。由此可見,小集合的加工結果確實與大集合不同,為了探究這種差異的存在是由于加工機制不同還是平均面孔受到干擾,我們對不含平均面孔的集合中是否形成了平均面孔進行了檢驗。我們通過匹配選擇出與平均面孔吸引力接近的新面孔探測刺激,兩類面孔的吸引力均值分別為54.80 vs 54.11,t
(46)=0.18,p
=0.859,但探測刺激為平均面孔時探測刺激吸引力被判斷為更高的比例(69.12%)仍然高于新面孔條件(52.01%),t
(33)=4.84,p
< 0.001,95% CI=[10.21%,24.88%],Cohen’sd
=1.69。即使進一步匹配選擇出比平均面孔吸引力更高的新面孔刺激(72.33 vs.60.86,t
(42)=3.85,p
< 0.001,95% CI=[5.54%,17.49%],Cohen’sd
=1.19),探測刺激為平均面孔時探測刺激吸引力被判斷為更高的比例(71.01%)仍然高于新面孔條件(61.31%),t
(33)=2.62,p
=0.013,95% CI=[2.24%,17.13%],Cohen’sd
=0.91。這說明在辨別過程中平均面孔并不是作為新面孔出現的,而更可能是集合呈現時形成了平均面孔。
3.2.2 擴散模型分析
實驗2 同樣通過層級擴散模型擬合,最終得到每個被試在每個條件下的漂移率v,閾限差值a 和非決策加工時長t0,并進行統計檢驗分析。各擬合參數(M
=1.00)均顯著小于1.05,表明模型擬合良好。以模型參數為因變量的t
檢驗表明,在閾限差值a 和非決策加工時長t0 上,集合是否包含平均面孔對集合吸引力和平均面孔的辨別沒有影響,t
(32)=–0.63,p
=0.533,t
(32)=0.72,p=
0.095;但信息累積漂移率v 受到了集合是否包含平均面孔條件的影響,集合不包含平均面孔條件的信息累積更慢,t
(33)=–4.775,p
< 0.001,95% CI=[–0.63,–0.25],Cohen’sd
=1.66 (如圖4)。
實驗2 發現,在不包含平均面孔的條件中,判斷平均面孔吸引力更高的比例顯著高于包含平均面孔的條件,說明平均面孔出現在集合中,顯著地增加了集合的整體吸引力。由此可見,當集合容量為4,被試主觀形成的平均面孔表征被抑制或者沒有形成。如果是平均面孔表征沒有形成,則平均面孔作為探測刺激應該和新面孔類似,但分析表明平均面孔和新面孔的探測結果完全不同。因而,小集合面孔也形成了平均面孔。這些結果模式符合合成平均刺激的假設2,不支持平均值計算的假設1。
盡管小集合面孔形成了平均面孔,但平均辨別的反應模式和實驗1 大集合并不相同。這可能是因為小集合中形成的平均面孔更容易受干擾,因而包含平均面孔刺激的集合吸引力更接近平均面孔,從而判斷平均面孔吸引力更高的比例降低。這也反映在被試的反應決策參數上,決策所需的信息累積速度相對實驗1 更慢,所需的加工時間更長。擴散模型的結果表明,在有實際平均面孔的輸入時,辨別決策將更容易,表現為決策信息累積更快。這些結果說明平均辨別任務過程中形成了平均面孔,只是受到了干擾。這種干擾還體現在小集合判斷平均面孔吸引力更高的比例比實驗1 更低。實驗結果表明,這可能來自兩個原因:一是小集合平均面孔受干擾(假設3),那么集合吸引力和平均面孔的差異在不包含平均面孔刺激的集合條件下更大,從而小集合判斷平均面孔吸引力更高的比例在不包含平均面孔刺激的集合條件下更高;二是小集合平均面孔吸引力更低,集合和平均面孔的差異更小(假設4)。
實驗1 和實驗2 的結果來自于相對間接的平均辨別任務。為了提供更直接的證據,實驗3 和實驗4 采用評分任務對實驗1 和實驗2 的結果進行進一步驗證。
實驗3 采用大容量面孔集合進行評分任務。為不同容量下集合吸引力和平均吸引力的關系提供更直觀的證據。
4.1.1 被試
采用GPower 以統計功效power=0.8,中等效應量f
=0.25 和單因素5 水平(評分類型:不包含平均面孔的集合的成員均值M
1、不包含物理平均面孔集合但將平均面孔計算在內的成員均值M
2、不包含平均面孔的集合G1、包含平均面孔的集合G2、平均面孔Avg)為參數估計的最小樣本量為N
=21。實際招募中國人民大學在校生29 名大學生,有效被試29 名(15 名女性),平均年齡22.14 歲,標準差3.17 歲,右利手,視力或矯正視力正常。4.1.2 實驗材料
實驗刺激與實驗1 相同。
集合刺激包含12 張面孔,集合刺激以4×3 矩陣呈現,單張面孔圖片的視角為5.69° × 6.53°。
在評分類型上,使用12 張原始面孔組成集合,即是“不包含平均面孔集合”水平;如果使用11 張原始面孔組成集合,并將集合成員的平均面孔作為新成員進入集合中,即是“包含平均面孔集合”水平,將集合成員面孔和平均面孔再次進行單獨評定,即為“單獨評定”水平。
4.1.3 實驗設計
采用單因素5 水平(評分類型:不包含平均面孔的集合的成員均值M
1、不包含物理平均面孔集合但將平均面孔計算在內的成員均值M
2、不包含平均面孔的集合G1、包含平均面孔的集合G2、平均面孔Avg)的被試內設計。因變量為被試對目標集合或目標面孔的吸引力評分。4.1.4 實驗程序
實驗流程如圖5 所示。首先呈現500 ms 注視點,而后在屏幕上呈現一組面孔或是一張單獨面孔,被試要對目標的吸引力進行0~100 的評分,0 代表吸引力最低,100 代表吸引力最高。

圖5 實驗3、4 流程圖
M
1=47.31;再假設該集合生成了平均面孔從而計算包含了平均面孔的成員均值,得到M
2=48.78。將M
1、M
2、不包含平均面孔條件的集合吸引力G1、包含平均面孔條件的集合吸引力G2 和平均面孔吸引力Avg 作為評分類型5 個水平進行方差分析。結果表明,評分類型主效應顯著,F
(4,112)=27.60,p
< 0.001,?=0.50。多重比較結果如下(如圖6):
圖6 實驗3、4 吸引力評分結果
首先,M
2 顯著大于M
1,p
< 0.001,95% CI=[1.22,1.71],再次確認了合成平均面孔對集合吸引力平均值的提升作用。其次,不包含平均面孔的集合吸引力評分G1 與包含平均的集合G2 差異不顯著,p
=0.532;與M
2 差異不顯著,p
=0.053;但大于M
1,p
=0.011,95% CI=[1.26,8.80]。第三,平均面孔吸引力顯著高于整個集合的吸引力G1、G2 和成員平均值M
1、M
2,p
s<=0.001。趨勢分析表明,從集合成員平均值、集合吸引力到平均面孔,存在著逐漸增加的趨勢,
F
(1,28)=62.82,p
< 0.001,?=0.69。除此以外,我們也嘗試了分析平均面孔和集合吸引力的差值,發現在包含或不包含平均面孔的集合間差值沒有顯著差異,t
(28)=0.19,p
=0.852,再次驗證了實驗1 中被試選擇探測刺激平均面孔吸引力更高的比例在集合包含和不包含平均面孔條件下沒有顯著差異。M
2。最后,趨勢分析和多重比較結果表明,不包含平均刺激的集合評分更接近于包含平均面孔條件的結果。這些結果說明大容量集合確實生成了平均面孔。實驗4 采用小容量面孔集合進行評分任務,為不同容量下集合吸引力和平均吸引力的關系提供更直觀的證據。
5.1.1 被試
采用GPower 以統計功效power=0.8,中等效應量f
=0.25 和單因素5 水平(評分類型:不包含平均面孔的集合的成員均值M
1、不包含物理平均面孔集合但將平均面孔計算在內的成員均值M
2、不包含平均面孔的集合G1、包含平均面孔的集合G2、平均面孔Avg)為參數估計的最小樣本量為N
=21。實際招募中國人民大學在校生31 名大學生,剔除一名評分全距小于10 的被試,有效被試30 名(15名女性),平均年齡21.39 歲,標準差2.46 歲,右利手,視力或矯正視力正常。5.1.2 實驗材料
實驗刺激與實驗1 實驗2 相同。
集合刺激包含4 張圖片,集合刺激以2×2 矩陣呈現。當評價類型為集合平均面孔,刺激呈現在屏幕中央,單張面孔圖片的視角為5.69° × 6.53°。
在評分類型上,使用4 張原始面孔組成集合,即是“不包含平均面孔集合”水平;如果使用3 張原始面孔組成集合,并將集合成員的平均面孔作為新成員進入集合中,即是“包含平均面孔集合”水平,將集合成員面孔和平均面孔再次進行單獨評定,即為“單獨評定”水平。
5.1.3 實驗設計與程序
與實驗3 相同。
M
1=47.87;再假設該集合生成了平均面孔從而計算包含了平均面孔的成員均值,得到M
2=50.32。將M
1、M
2、不包含平均面孔條件的集合吸引力G1、包含平均面孔條件的集合吸引力G2 和平均面孔吸引力Avg 作為評分類型5 個水平進行方差分析。結果表明(如圖6),評分類型主效應顯著,F
(4,116)=6.27,p
< 0.001,?=0.18。多重比較結果如下:首先,M
2 顯著大于M
1,p
< 0.001,95% CI=[1.82,3.08],再次確認了合成平均面孔對集合吸引力平均值的提升作用。其次,不包含平均面孔的集合吸引力評分G1 與包含平均的集合G2 差異不顯著,p
=0.110;與M
2 差異不顯著,p
=0.977,與M
1的差異也不顯著,p
=0.504。第三,平均面孔吸引力顯著高于整個集合的吸引力G1、G2 和成員平均值M
1、M
2,p
s≤ 0.007。此外,趨勢分析表明,從集合成員平均值、集合吸引力到平均面孔,存在著逐漸增加的趨勢,
F
(1,29)=21.05,p
< 0.001,?=0.42。除此以外,集合平均面孔和集合整體吸引力的差值,不包含平均面孔集合條件大于包含平均面孔集合的條件(9.90 vs.3.64),t
(29)=6.40,p
< 0.001,95% CI=[4.26,8.26],Cohen’sd
=2.38,可以更直觀地印證實驗2 的包含平均面孔條件下中“被試判斷探測刺激吸引力更高的比例降低了”這一結果。對實驗4 和實驗3 中的平均面孔吸引力進行比較,結果表明小集合面孔形成的平均面孔吸引力更低,60.11 vs.65.24,p
=0.004,95% CI=[2.76,13.85],Cohen'sd
=0.94。對實驗4 和實驗3 中平均面孔和集合平均值的差值(6.76 vs.12.55)進行跨實驗比較,發現存在一種可能的趨勢,即實驗4 的小集合中平均面孔和集合成員平均值的差異更小,校正t
(35.649)=1.72,p
=0.094,95% CI=[–1.06,12.81],Cohen'sd
=0.07。M
1,M
2 都沒有顯著差異,結合實驗3 結果,驗證了前人結論:集合吸引力高評現象在大容量集合強,在小容量集合弱。這符合平均面孔在小集合中更易受干擾的假設。此外,小容量集合的平均面孔吸引力確實下降,和集合平均值的差異更小,因而小集合平均面孔吸引力相對大集合而言較低也是高評現象減少的一個可能原因。其次,實驗4 中,類似于實驗3 的結果,集合是否包含平均面孔對于集合評分沒有顯著影響(支持假設2,不支持假設1);并且不包含平均刺激的集合評分G1 也和平均面孔計算在內的集合成員平均值M
2 沒有差異。趨勢分析和多重比較結果表明,不包含平均刺激的集合評分更接近于包含平均面孔條件的結果。這些結果說明小容量集合也可能受到了生成的平均面孔的影響。此外,集合吸引力和平均面孔吸引力的差異在不包含平均面孔刺激的集合條件下更大(假設3),這反映了包含平均面孔刺激的集合吸引力更接近平均面孔吸引力,更直觀地說明了在較小容量的集合中,被試主觀形成的平均面孔表征被抑制(結合實驗2 結果),也說明了為何在實驗2 的包含平均面孔條件下中,被試判斷探測刺激吸引力更高的比例降低了。實驗1、2 的按鍵反應和擴散模型擬合結果和實驗3、4 的評分結果共同說明,當集合容量為12張,高吸引力的平均面孔是否出現不影響集合吸引力評分和平均辨別任務,說明表征集合時形成了集合平均面孔;當集合容量為4 張,平均面孔效應減弱了,可能是由于集合平均面孔的吸引力較低以及平均面孔被個體表征干擾了。
在van Osch 等人(2015)的研究中,通過采用給若干名女性拍攝的自然材料(如聚會照片)評分來探究集合吸引力,則發現了在較大的集合(人數較多的照片)中存在集合吸引力高于集合成員吸引力平均值的情況。
實驗1 的平均辨別任務發現,當集合不包含平均面孔時,判斷探測刺激吸引力更高的比例與包含平均面孔時相似,說明兩種條件的平均吸引力相近,不包含平均面孔的集合吸引力高于成員面孔的平均值,從另一個角度反映了集合吸引力高評現象。實驗3 則直接再次驗證了大容量集合的集合吸引力高評現象。
實驗4 的評分結果說明集合吸引力高評現象較弱。而實驗2 正確率分析表明,實驗2 也出現了集合吸引力高評現象,只是實驗1 更明顯。類似地,在van Osch 等人(2015)的研究中,較小的集合也很少觀察到集合吸引力高于成員吸引力平均值。在本研究中,既有直接通過評分獲得集合面孔吸引力高評現象的直接證據,也有借助平均面孔在集合中的作用大小來推測的部分。van Osch 等人(2015)研究中使用的是生態效度較高的自然材料,存在成員吸引力分布集中,缺少具有代表性的高低吸引力面孔的問題。本研究則改用了沒有背景,由單獨評分的面孔素材組成的集合,并平衡不同吸引力水平的面孔數量,依舊得到了類似的結論,說明在大容量集合中集合吸引力高評現象是比較穩定的,且現象的產生與集合平均面孔的形成有關。
通過將平均辨別的實際反應與不同理論假設的反應分布進行比較和擬合,我們發現集合吸引力包含平均面孔貢獻的假設擬合更好,支持了平均表征過程中形成了平均刺激(如平均面孔)。在實驗1中,集合包含平均面孔時,判斷平均面孔吸引力更高的比例并未降低,說明包含或不包含平均面孔刺激的集合吸引力同等接近平均面孔,因此平均表征并不是通過集合成員的平均值計算得到的。類似的,無論還是實驗3 還是實驗4,都發現平均表征的吸引力要遠高于集合成員的平均值。在實驗2 的小集合中,發現新面孔作為探測刺激與平均面孔作為探測刺激的結果不同,則說明平均面孔作為探測刺激出現之前已經得到了加工。這個結論和近期Ying等人(2020)的結論一致,他們通過吸引力適應后效范式發現,由一組面孔引發的適應后效等于這一組的平均面孔引發的適應后效,同樣支持了集合表征中存在平均刺激的形成。
值得注意的是,平均刺激的形成也需要資源投入,體現在實驗1 沒有平均面孔輸入時需要更長的編碼加工時間。Huang (2015)發現對于對象特征和統計表征,啟動的效果是相等的,說明統計表征的形成至少需要和單個個體加工同等的注意資源。因此,平均表征和個體表征在早期可能是因此相互競爭的關系(Li et al,2016)。由于早期沒有足夠的認知資源加工所有個體,因此優先形成了平均表征。Bauer (2017)以不同長短的線條作為集合刺激,在平均辨別任務前加入數字記憶任務的研究發現,相比低記憶負荷條件(1 個0),高記憶負荷條件下(4~7個隨機數字)更有利于形成平均表征。實驗1 和實驗2 的跨實驗比較也發現,在小集合中整體信息積累速度也比大集合更慢。
與此同時,小集合同樣形成了平均表征且需要資源的投入,表現在實驗2 沒有平均面孔輸入時信息積累較慢。也就是說無論大小集合,都有平均刺激的形成。而大小集合之間的反應差異,是由于其他原因造成的,而不是出于不同的加工機制。
盡管集合吸引力表征中包含了平均面孔的貢獻,但集合吸引力并不完全等同于平均面孔的吸引力。無論實驗1 還是實驗2,均發現被試傾向于評價平均面孔比集合吸引力更高的結果。并且實驗3、4 平均面孔的評分也要高于集合的評分,說明集合吸引力是基于平均面孔的形成,將平均刺激納入進來成為集合的成員,再對于集合進行整體評價。因此,集合吸引力高評現象并不完全如van Osch 等人(2015)所推斷的僅依賴于平均面孔,而是與表情集合加工類似,讀取平均面孔的表征(Haberman &Whitney,2009)。
類似的現象是,被試經常在再認任務中把平均表征誤以為是集合中的成員,或者認為平均面孔與其中一個成員具有相同的身份(Neumann et al.,2013)。判斷過程中被試可能使用了一種策略:在加工整個集合吸引力的時候,將平均面孔知覺成集合中某一成員,由于觀察到集合中的其他面孔的吸引力多數低于平均面孔,進而傾向于認為單獨出現的平均面孔的吸引力較高。
研究者曾發現,當存在多張面孔,單張面孔的吸引力會被判斷得比孤立出現時更高(Walker &Vul,2014),并同樣解釋為平均的作用。背景面孔導致會將人臉的感知偏向群體的平均水平。因此,伴隨同一目標面孔出現的背景面孔吸引力越高,目標面孔就會被評價得越高(Perrett et al.,1994;Walker &Vul,2014)。因此,平均面孔產生可能會對集合中的其他成員產生影響,由于平均面孔的吸引力高,導致集合其他成員的吸引力也得到了抬升。這是平均面孔對其他面孔產生的影響,也可能是集合吸引力高評現象產生的路徑之一。
小容量集合中面孔吸引力一般會被評價與集合成員平均值相同(Anderson,1965;Anderson et al.,1973),且集合吸引力高評現象在小容量集合消失(van Osch et al.,2015),說明小容量的平均表征存在一些特異性。
一方面,小容量集合產生的平均面孔刺激的吸引力相對較低,可能因此導致對于集合吸引力的增加效果較小,因此集合吸引力高評現象減少。另一方面,可能是平均表征受到了干擾。逆層級理論提出(Hochstein et al.,2015),高級皮層的整體表征以自上而下的方式返回到局部加工,以局部細節信息證實(或矯正)初步的整體表征估計值,也就是說平均表征在加工后期會受到個體表征的矯正。Li 等人(2016)也發現,當呈現時間延長,認知資源增加,會導致個體表征的精度增強。
這兩種理論均得到了本研究結果的支持,在實驗2 中判斷平均面孔吸引力更高的比例更低,以及實驗4 中的平均面孔和集合吸引力差值比較結果表明小集合包含平均面孔的集合吸引力和平均面孔的差異更小,都說明小集合平均面孔吸引力較低在其中存在影響。與此同時,實驗2 在包含平均面孔刺激時平均面孔吸引力更高的比例更低,說明相對于被試自己生成平均面孔刺激,直接輸入平均面孔減少了集合吸引力和平均面孔之間的差異,支持小集合的平均面孔受到了干擾。在小集合中無論集合是否包含平均面孔,信息積累速度都比大集合更慢,也支持逆層級理論所說的局部細節信息對于整體表征的矯正和干擾。
(1)面孔集合吸引力高評現象是基于平均面孔刺激的形成。
(2)平均表征的產生是基于平均刺激的產生。
(3)無論在大小集合中都形成了平均刺激。小集合中集合吸引力不出現高評現象是由于平均刺激受到了干擾,并且平均刺激本身吸引力較低。
(4)平均表征的加工也需要一定認知資源。