999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

貝葉斯因子及其在JASP中的實現

2018-06-04 02:40:24胡傳鵬孔祥禎EricJanWagenmakersAlexanderLy彭凱平
心理科學進展 2018年6期

胡傳鵬 孔祥禎 Eric-Jan Wagenmakers Alexander Ly,5 彭凱平

(1清華大學心理學系, 北京 100084)(2 Neuroimaging Center, Johannes Gutenberg University Medical Center,55131 Mainz, Germany)(3 Language and Genetics Department, Max Planck Institute for Psycholinguistics, 6500 AH Nijmegen, The Netherlands)(4 Department of Psychological Methods, University of Amsterdam, 1018 VZ Amsterdam, The Netherlands)(5 Centrum Wiskunde & Informatica, 1090 GB Amsterdam, The Netherlands)

自20世紀以來, 統計推斷在科學研究中起到越來越重要的作用(Salsburg, 2001), 科學研究結論的正確性也越來越依賴于統計推斷的正確應用。目前, 使用最為廣泛的統計推斷方法是零假設檢驗(Null hypothesis significance testing, NHST)(Wasserstein & Lazar, 2016)。然而, 與NHST在各個領域中廣泛使用相伴的是研究者對 NHST及p值的誤解和盲目使用(Gigerenzer, 2004; Greenland et al., 2016; Ziliak & McCloskey, 2008; 胡傳鵬等,2016; 駱大森, 2017), 因此帶來一些消極的后果。例如,p值被用來支持不合理且無法重復的研究結果(如, Bem, 2011), 引起了關于NHST是否適合于科學研究的爭論(Miller, 2011)。在這個背景之下, 有研究者推薦使用貝葉斯因子替代 NHST (Wagenmakers,Wetzels, Borsboom, & van der Maas, 2011; 鐘建軍,Dienes, 陳中永, 2017)。

貝葉斯因子(Bayes factor)是貝葉斯統計(Bayesian statistics)中用來進行模型比較和假設檢驗的方法。在假設檢驗中, 其代表的是當前數據對零假設與備擇假設支持的強度之間的比率。正如下一節將要詳述的, 貝葉斯因子能夠量化地反映當前數據對各個假設支持的程度, 因此可能更加適用于科研中的假設檢驗。但由于貝葉斯因子的統計原理及實現相對復雜, 其在各個學科的研究中并未獲得廣泛應用。

近年來, 隨著計算機運算能力的大大提升,貝葉斯統計在計算機等領域獲得了巨大的成功(如Zhu, Chen, Hu, & Zhang, 2017)。貝葉斯統計的工具迅速發展, 如WinBUGs (Lunn, Spiegelhalter,Thomas, & Best, 2009)、JAGS (Plummer, 2003)、Stan (Carpenter et al., 2017)和Python語言的工具包PyMC3 (Salvatier, Wiecki, & Fonnesbeck, 2016)等。這些軟件和工具包的出現, 促進貝葉斯方法在各個研究領域中的使用(Depaoli & van de Schoot,2017; van de Schoot, Winter, Ryan, Zondervan-Zwijnenburg, & Depaoli, 2017)。在這些工具中, 也出現了用于計算貝葉斯因子的工具, 如 R語言中的BayesFactor (http://bayesfactorpcl.r-forge.r-project.org/)。在心理學及相關領域, 最近有不少研究者試圖引入貝葉斯統計的方法(Dienes, 2008, 2011,2014; Hoijtink, 2011; Klugkist, Laudy, & Hoijtink,2005; Kruschke, 2014; Masson, 2011; Morey &Rouder, 2011; Mulder et al., 2009; Rouder, Morey,Speckman, & Province, 2012; Rouder, Speckman,Sun, Morey, & Iverson, 2009; Vanpaemel, 2010;Wagenmakers, Lodewyckx, Kuriyal, & Grasman,2010)。在心理學(Open Science Collaboration, 2015;胡傳鵬等, 2016)、神經成像研究(Chen, Lu, & Yan,2018; Zuo & Xing, 2014)等領域出現“重復危機”的背景之下, 使用合理的統計方法顯得更加迫切。但對于不少心理學及相關領域的研究者來說,使用R語言或其他計算機語言進行貝葉斯因子計算仍然較為困難。為解決這一障礙, 研究者們開發了與商業統計軟件 SPSS具有相似圖形界面的統計工具JASP (https://jasp-stats.org/, JASP team 2017) (JASP Team, 2017; Marsman & Wagenmakers,2017a; Wagenmakers, Love, et al., 2017; Wagenmakers,Marsman, et al., 2017), 簡化了貝葉斯因子的計算。

本文旨在為向心理學及相關學科的研究者介紹貝葉斯因子及其使用。首先本文將介紹貝葉斯因子的原理, 及其相對于傳統假設檢驗中p值的優勢; 再以獨立樣本t檢驗為例, 介紹了如何使用

JASP計算貝葉斯因子, 以及如何解讀和報告其結果。在此基礎上, 討論了貝葉斯因子的應用價值及其不足。

1 貝葉斯因子的原理

貝葉斯因子是貝葉斯統計在假設檢驗上的應用, 因此要理解貝葉斯因子, 首先需要理解貝葉斯統計的原理。

1.1 貝葉斯統計簡介

正由于頻率學派將概率看作長期行為表現的結果, 要理解頻率學派的概率, 通常需要假想尚未發生的事件。例如, 在NHST框架之下,p值的意義是假定H0為真的情況下, 出現當前結果及比當前結果更加極端結果的概率。換句話說,p值表達的意思是:假如H0為真, 如果采用完全相同的條件, 無數次地重復當前實驗, 這些實驗中將有多大比例會出現當前結果模式或者比當前結果模式更極端的模式。因此,p值的意義暗含一個重要的假設:我們能夠無數次地重復試驗。但研究者卻經常忽略這種無數次重復相同試驗的假定, 誤認為p值是單次檢驗中拒絕零假設時犯錯誤的概率(Greenland et al., 2016)。這種對NHST的誤解,恰好是帶有貝葉斯統計色彩, 即根據當前的數據計算某個模型正確或者錯誤的概率。

與頻率學派統計不同, 貝葉斯統計最大的特點之一在于:它考慮了不同可能性對于個體來說的可信度(credibility) (Kruschke, 2014)。而通過不斷獲得的數據, 人們可以改變對不同可能性的相應程度。這種思維方式與人們在日常生活中的經驗非常相似:當我們不斷地獲得支持某個觀點的證據時, 我們會更加相信該觀點。

雖然貝葉斯統計對概率的理解與頻率學派不同, 但是其對概率的計算卻嚴格依照概率的基本原則:加法原則與乘法原則。貝葉斯統計中最核心的貝葉斯法則(Bayes rule), 也是根據簡單的加法原則與乘法原則推導而來。依據概率的乘法原則, 隨機事件A與隨機事件B同時發生的概率為:

貝葉斯學派(Bayesian statistics)與頻率學派(Frequentist statistics)是統計學中主要的兩個學派,其核心的差異在于他們對于概率(probability)所代表的意義有著不一樣的解讀。對于頻率學派而言,概率是通過無數次重復抽樣中頻率(frequency)的預期值。與之相反, 貝葉斯學派則認為, 概率是對一件事情的相信程度, 從 0到 1表示人們基于所獲得的信息, 在多大程度上相信某件事情是真的。由于不同人對同一事件的相信程度可能不同,因此, 貝葉斯學派的概率是具有主觀性。但貝葉斯學派的概率卻不是任意的:人們通過合理的方式, 不斷獲取并更新已知信息, 可以最終消除主觀性, 從而達成一致。

式(1)即為聯合概率的公式, 即A與B同時發生的概率。其意義為:A與B的聯合概率(p(A∩B))為, 在B發生的條件下A發生的概率(p(A|B))與B發生的的概率(p(B))的乘積, 也等于在A發生的條件下B發生的概率(p(B|A))與A發生的概率(p(A))的乘積。其中,p(A|B)和p(B|A)均為條件概率(conditional probability), 二者意義不同。

對式(1)進行變換, 即可以得到如下公式:

式(2)即為貝葉斯定理公式。其代表的意義是,如果我們要計算 B發生的條件下 A發生的概率(p(A|B)), 可以通過使用 A與 B同時發生的概率(p(A∩B))除以 B發生的概率(p(B)), 也就等于在A發生的條件下B發生的概率, 與A發生概率的乘積, 再除以B發生的概率。式(2)將兩個條件概率聯系起來, 從而使得計算不同的條件概率成為可能。

在貝葉斯統計的框架之下, 式(2)可以看作是一次信息的更新。假定我們需要根據一次實驗收集到的數據(data)來檢驗某個理論模型為真的可能性。以心理學研究中常用的零假設H0為例, 則可以將式(2)改寫如下:

p(H0|data)表示數據更新之后理論模型H0正確的概率, 即后驗概率(posterior);p(H0)表示更新數據之前認為理論模型H0正確的概率, 即先驗概率(prior); 而p(data|H0)則是在模型H0之下, 出現當前數據的概率, 即邊緣似然性(marginal likelihood)。由此可以看出, 在貝葉斯統計之中, 一次數據收集(實驗)的主要功能在于幫助我們更新理論模型的可信度。

根據式(3), 我們可以使用數據對任意的模型為真的概率進行更新。在假設檢驗中, 我們可以根據觀測數據同時對零假設(理論模型H0)和備擇假設(理論模型H1)的可信度進行更新(分別見式(3)和式(4)), 得到它們更新的后驗概率。

得到H0和H1的后驗概率后, 可能對兩者進行比較, 即式(5):

其中, 貝葉斯因子為:

在式(6)中, BF10下標的1代表的是H1, 0代表的是H0, 因此, BF10即代表的是H1與H0對比的貝葉斯因子, 而 BF01則代表的是H0與H1對比的貝葉斯因子。例如, BF10= 19表示的是, 在備擇假設H1為真條件下出現當前數據的可能性是虛無假設H0條件下出現當前數據的可能性的19倍。從這個定義公式中可以看出, 貝葉斯因子是體現了當前數據將先驗概率更新為后驗概率過程中的變化。

正是如此, 貝葉斯因子與 NHST回答了不同的問題。NHST試圖回答“假定我們已知兩個變量的關系(如, 兩種條件沒有差異), 出現當前觀測數據的模式或者更加極端模式的概率(p(more extreme > observed data|H0))有多大”的問題; 而貝葉斯因子試圖回答的是:“在當前數據更可能在哪個理論模型下出現”的問題。在假設檢驗中, 貝葉斯因子具有一些 NHST不具備的優勢(見表 1),下一小節將對這些優勢進行詳細說明。

在 Jeffreys (1961)的基礎上, Wagenmakers,Love等人(2017)對貝葉斯因子的大小所代表的意義進行原則上的劃分(見表2)。但是這個劃分僅是大致參考, 不能嚴格對應, 研究者需要根據具體的研究來判斷貝葉斯因子的意義。

表1 假設檢驗中貝葉斯推斷與傳統NHST推斷的比較

1.2 備擇假設的默認先驗

由于貝葉斯因子中先驗概率具有至關重要的作用, 如何選擇備擇假設的先驗分布變得尤其重要。其中一個較為合理的做法是, 根據某問題的先前研究結果(如元分析得到的效應量)來設定備擇假設的先驗分布。但這種做法在很多情況下并不現實:首先根據范式的不同, 效應量的可能分布不同; 更重要地, 由于許多研究本身具有一定的探索性, 并沒有先前研究結果作為指導。因此, 更加常用的做法是使用一個綜合的、標準化的先驗。

例如, 在貝葉斯t檢驗中, 使用柯西分布(Cauchy distribution)作為備擇假設的先驗可能是比較合理的選擇(Jeffreys, 1961; Ly, Verhagen, &Wagenmakers, 2016a, 2016b; Rouder et al., 2009)。與標準正態分布相比, 柯西分布在 0附近概率密度相對更小一些, 因此其比標準的正態允許更多較大的效應(見圖 1); 而與均勻分布(即效應量在所有值上的分布完全相同)相比, 柯西分布更偏好零假設一些(Jeffreys, 1961; Rouder et al., 2009)。因此, 對于備擇假設的先驗分布, 可以如下表示:

表2 貝葉斯因子決策標準

其中x0為柯西分布的位置(position)參數, γ為尺度參數(Cauchy scale, 也有文獻中使用 r來表示)。Jeffreys (1961)最早提出在貝葉斯因子中使用柯西分布作為先驗來比較兩樣本的問題。最近研究者的進一步驗證表明, 柯西分布可以作為先驗用于計算心理學研究中常用的貝葉斯因子分析,如t檢驗(Rouder et al., 2009)、ANOVA (Rouder et al., 2012)和相關分析(Ly, Marsman, & Wagenmakers,2018; Ly et al., 2016b)等。這些驗證性的工作, 為貝葉斯因子在心理學及相關學科研究中的應用打下了基礎。

圖1 柯西分布與正態分布的對比

2 貝葉斯因子的優勢

如前所述, 在假設檢驗中, 貝葉斯因子除了更加符合人們的直覺之外, 還具有一些 NHST所不具備的優勢。這些優勢可以總結為五個方面(見表1)。以下將從這五個方面展開。

2.1 同時考慮H0和H1

貝葉斯因子的計算同時考慮H0和H1, 并根據全部現有數據對H0和H1為真的先驗概率進行更新, 在此基礎之上, 比較在當前數據下哪個理論模型(H0和H1)更合理。這種思路與NHST不同:在NHST框架之下, 計算p值僅需要假定H0為真,而對H1不做任何假設, 因此p值與H1無關。NHST的邏輯是, 如果H0為真的條件下, 觀察到當前數據出現的概率非常小, 則拒絕H0, 接受H1。這種情況下, NHST忽略了一種可能性:當前數據下,H1為真的概率與H0為真的概率相當或者更小(Wagenmakers, Verhagen, et al., 2017)。例如, 在Bem (2011) 中,H0是被試的反應不受到未來出現刺激的影響,H1是未來出現的刺激會影響到被試當前反應, 即被試能夠“預知”尚未出現的刺激。雖然采用NHST的邏輯Bem (2011)得到了p< 0.05的結果, 即H0為真時, 得到當前數據的概率(p(data|H0))很低, 因此作者選擇拒絕H0而接受H1,認為被試能夠預知未來出現的刺激。然而, 研究者更關心的是, 根據當前數據, 我們能夠得到某個模型/假設(如H1)為真的概率(p(H1|data)), 而非零假設H0為真時得到當前數據的概率(p(data|H0))。在Bem (2011)這個研究中, 先驗知識告訴我們H1本身為真的概率可能非常低, 在當前數據模式下,H1為真的可能性p(H1|data)極可能比H0為真的可能性p(H0|data)更低(Rouder & Morey,2011; Wagenmakers et al., 2011), 但NHST卻完全忽視了這一點。

2.2 可以用來支持H0

同樣, 由于貝葉斯因子同時量化當前數據對H0和H1各自的支持強度, 其可以用來支持H0(Dienes, 2014)。但是, 在傳統的NHST框架之下,假設檢驗僅在H0為真的假設下進行, 僅憑借小于顯著性水平(比如 0.05或 0.005)無法為H0是否為真提供證據。比如, 僅依據假設檢驗的結果p=0.2并不能推斷有證據表明沒有效應(evidence of absence) (除非結合樣本量、效應量和統計效力Power做出綜合判斷)。

實際的研究中, 能夠對H0提供量化的證據具有非常重要的意義(Gallistel, 2009; Rouder et al.,2009), 它可以直觀地讓研究者區分出有證據表明沒有效應(evidence of absence)和沒有證據表明有效應(absence of evidence)這兩種情況(Dienes,2014)。具體來說, 貝葉斯因子的結果有三種狀態:(1)提供了支持 H1的證據(即有證據表明有效應);(2)支持H0的證據(即有證據表明沒有效應); 或(3)證據對兩者都不支持(沒有足夠的證據表明有效應還是無效應)。例如, 貝葉斯因子 BF01= 15表明觀察到的數據出現在 H0為真情況下的可能性是在 H1為真情況下的可能性的 15倍, 表明當前數據更加支持沒有效應的假設H0。但是, 假如BF01= 1.5, 則說明觀察到的數據出現在H0為真情況下的可能性是在H1為真情況下的可能性的1.5倍, 則說明當前數據對于兩個假設的支持程度相當, 沒有足夠的證據支持H0或者H1(見表2關于貝葉斯因子大小意義的建議)。

值得注意的是, 不管是支持H1, 還是支持H0,貝葉斯因子提供的證據是相對的, 即相對于某個假設更支持另一個假設, 因此可能存在第三個模型H2比H1和H0均更接近真實情況, 具有更高的后驗概率。值得指出的是, 最近有研究者在NHST框架之下發展出可以接受零假設的方法:等同性檢驗(Equivalence Test)。這種方法通過設定多個H0來檢驗效應量是否與 0沒有差異, 從而檢驗是否能接受H0(Lakens, 2017)。但等同性檢驗仍然使用了p值, 無法提供對證據的直接測量(Schervish,1996)。

2.3 不“嚴重”地傾向于反對H0

貝葉斯因子同時分別量化了當前數據對H0和H1支持的強度, 其與傳統NHST相比, 其對H0和H1的支持更加均衡, 從而其拒絕H0的傾向也相對沒有那么強烈。

在傳統 NHST假設之下, 只要研究者能夠收集足夠多的數據, 總能夠得到p< 0.05從而拒絕H0, 與之相反的是, 貝葉斯因子會隨著數據的增加而逐漸趨于穩定(見后文3.2小節關于貝葉斯因子收斂的討論)。對于同樣的數據,p值也似乎比貝葉斯因子對H0的反對程度更強。例如, 有研究者分析了美國總統選舉中候選人的身高與當選之間的關系, 對相關系數進行顯著性檢驗之后發現r=0.39,p= 0.007 (Stulp, Buunk, Verhulst, & Pollet,2013)。如果使用貝葉斯因子分析, 則會得到BF10=6.33 (Wagenmakers, Marsman, et al., 2017)。雖然兩種方法大致上支持了同樣的結論(即拒絕H0與中等程度的證據支持H1), 但是從p值上看, 似乎表明拒絕H0的證據很強, 而貝葉斯因子得到的支持則是有保留的。Wetzels等人(2011)比較了855個t檢驗的結果, 發現雖然大部分的情況下p值與貝葉斯因子在結論上的方向一致, 但是貝葉斯因子相對來說更加謹慎:p值在0.01與0.05之間的統計顯著結果, 其對應的貝葉斯因子只表明有非常弱的證據。對傳統p值的貝葉斯解讀, 詳見(Johnson,2013; Marsman & Wagenmakers, 2017b)。

2.4 可以監控證據的強度變化

計算貝葉斯因子時, 可以根據數據來更新對H0和H1支持的程度, 因此, 隨著新數據的出現,可以不斷對不同假設的支持程度進行更新。在貝葉斯框架之下, 貝葉斯因子的計算與解讀均不需要假定存在無數的重復實驗, 而是按照似然性法則對貝葉斯因子進行更新, 此外數據的出現順序不會影響貝葉斯因子的解讀(Rouder, 2014)。

貝葉斯統計的框架之下, 不需要假定無數次重復試驗, 對貝葉斯因子的解讀不會受到何時停止收集數據的影響(Rouder, 2014)。實際上, 如果研究者們能夠采用序列貝葉斯因子設計, 在實驗開始前提前設置貝葉斯因子的合理閾值(通常是10, 即較強的證據), 則能夠在實驗中根據數據增加對后驗概率進行更新, 可以在適當的時候停止收集數據(Schlaifer & Raiffa, 1961; Sch?nbrodt,Wagenmakers, Zehetleitner, & Perugini, 2017)。這種不受到停止規則影響的原則, 對實際研究具有重要的意義, 使得研究者能合理有效地收集數據。

2.5 不受抽樣計劃的影響

抽樣計劃指研究者根據數據分析的假設, 在研究開始之前對樣本選擇以及數據收集過程進行計劃以保證數據符合統計假設。例如, 心理學實驗中通常采用的隨機抽樣以及隨機分配的做法。由于 NHST的使用包含了一些潛在的假設, 抽樣計劃(尤其是功效分析, power analysis)對于解讀p值具有重要意義(Halsey, Curran-Everett, Vowler,& Drummond, 2015)。

但對于貝葉斯因子的解讀, 則不受到抽樣計劃的影響, 原因在于貝葉斯因子的計算使用似然性原則(Berger & Wolpert, 1988), 其對數據的分析沒有預先的假設。換句話說, 即使研究者對數據收集的過程不清楚, 仍能夠計算和解讀貝葉斯因子。這個特點對于分析自然情境中獲得的數據非常實用。

仍然以上述的美國總統選舉中候選人的身高與當選之間關系的研究為例, 研究者發現r= 0.39,p= 0.007 (Stulp et al., 2013)。在NHST框架之下,要對p值進行合理的解讀, 我們必須假定實驗者在總統選舉之前已經計劃好進行46次選舉, 并且在第46次選舉后停止收集數據, 并在此基礎之上計算相關系數。如果不滿足這些假設條件,p=0.007代表的意義很難解讀。但很明顯的是, 這些假設是不成立的。

同樣, 這個例子還包含與停止規則(stopping rule, 即什么條件下停止收集數據)相關的問題:在真實的生活中, 美國的總統選舉還會繼續, 數據會繼續增加。如何分析未來的這些數據呢?如果每新增加一個數據均進行一次 NHST分析, 則會引起多重比較的問題, 使得假陽性增加1對于頻率主義的分析來說, 多重比較是非獨立的, 校正的方法減少但不能消除一類錯誤。。

與 NHST不同, 貝葉斯因子能夠隨著新數據不斷地出現而不斷地更新, 從而能夠分析實驗室之外的真實數據, 也能夠對數據進行有意義的解讀。從這個角度來講, 貝葉斯因子實時監控證據的優勢與不受抽樣計劃影響的優勢是相互關聯的:這兩個優勢均是因為貝葉斯因子不依賴于研究者收集數據的意圖。但是, 正如我們在后面要提到的, 雖然隨著數據更新而更新貝葉斯因子不會影響到對其解讀, 但這種忽略假陽性的做法并不能避免假陽性的升高, 研究者仍需要通過提前設置合理的閾值和(或)選擇合適的先驗來控制假陽性。

總之, 貝葉斯因子以觀察到的數據為條件,定量地分析當前數據對H0和H1提供的支持程度。通過實時地監控證據強度的變化, 貝葉斯因子讓研究者可以在收集數據的同時監控證據強度的變化。如果預先確定貝葉斯因子的停止閾值(比如BF10大于10或者BF10小于1/10時停止收集數據),研究者能夠在證據足夠充足停止收集數據。此外,即使缺乏數據收集計劃信息的情況下, 貝葉斯因子仍然能夠從觀測數據中得到證據來更加支持哪個假設。

3 使用JASP計算貝葉斯因子

由于貝葉斯因子的獨特優勢, 因此很早就有研究者試圖將其引入心理學的研究之中(Edwards et al., 1963)。但貝葉斯因子的計算在實際情況中隨著數據類型和分析類型不同而變得更加復雜(相關公式可以參考, Morey & Rouder, 2011; Rouder et al., 2012; Rouder, Morey, Verhagen, Swagman, &Wagenmakers, 2017; Rouder et al., 2009)。正是由于這個原因, 貝葉斯因子在心理學的研究中一直受到很大的限制。最近, 研究者利用R語言豐富的軟件包, 開發了可視化的統計工具 JASP(https://jasp-stats.org/), 該軟件采用與 SPSS類似的圖形界面, 讓貝葉斯因子的計算變得更加容易實現, 本小節將介紹JASP軟件及其使用2本小節內容部分來自于Wagenmakers, E.-J., Love, J., Marsman,M., Jamil, T., Ly, A., Verhagen, J., et al. (2017). Bayesian Inference for Psychology. Part II: Example Applications with JASP. Psychonomic Bulletin & Review.。

3.1 JASP軟件簡介

JASP是一個免費、開源的統計軟件, 其使用R語言的工具包進行數據處理, 但其使用不需要安裝R。JASP的長期目標是讓所有人能夠通過免費的統計軟件進行最先進統計技術, 尤其是貝葉斯因子。

JASP是在心理學研究面臨可重復危機的背景下開發的, 其開發理念如下:第一, 開源與免費,因為開源應該是科學研究的本質元素; 第二, 包容性, 既包括貝葉斯分析, 也包括 NHST分析方法, 而且 NHST分析方法中, 增加了對效應量及其置信區間的輸出(Cumming, 2014); 第三, 簡潔性, 即 JASP的基本軟件中僅包括最常用的分析,而更高級的統計方法又可以通過插件模塊進行補充; 第四, 友好的圖形界面, 例如, 輸出部分隨著用戶選擇變量輸入而實時更新, 表格使用 APA格式。同時, JASP的使用遞進式輸出, 即默認的結果輸出是最簡潔的, 更多的結果輸出可以由研究者自己進行定義。此外, 為方便公開和分享分析過程,JASP將輸入的數據與輸出結果保存于同一個后綴為.jasp的文件之中, 每個分析的結果均與相應的分析和變量數據相關聯。這種結果與數據整合的文件可以與開放科學平臺Open science framework (OSF,https://osf.io/)兼容, 從而做到數據與結果公開。

3.2 貝葉斯因子分析在JASP的實現及其結果解讀

目前, JASP中可以實現多種實驗設計的貝葉斯因子分析, 包括單樣本t檢驗、獨立樣本t檢驗、配對樣本t檢驗、方差分析、重復測量的方差分析、ANCOVA和相關分析。對于每一種分析, 均提供了頻率學派的方法和貝葉斯的方法。JASP的貝葉斯因子分析中采用默認先驗分布, 但也可以修改。接下來本文將Wagenmakers等人(2015, https://osf.io/uszvx/)對 Topolinski和 Sparenberg (2012)的重復實驗數據為例進行分析, 說明如何使用JASP進行獨立樣本t檢驗。其他常用貝葉斯因子分析,可以進一步參考Wagenmakers, Love等人(2017)。

在Topolinski和Sparenberg (2012)的第二個實驗中, 一組被試以順時針方向拔動一個廚房用的鐘, 而另一組則以逆時針方向撥動。隨后, 被試填寫一個評估經驗開放性的問卷。他們的數據表明,被試順時針轉時比逆時針轉的被試報告更高的對經驗的開放性(Topolinski & Sparenberg, 2012) (但是見 Francis, 2013)。Wagenmakers等人(2015)采用提前注冊(preregistration)的方式對該研究進行重復, 在實驗開始前確定停止收集數據的標準:當支持某一個假設的貝葉斯因子達到 10時即停止收集數據, 或者每條件下達到50個樣本后停止收集數據。此外, 預注冊時采用單側t檢驗的默認先驗, 即γ = 1的柯西分布。而單側的t檢驗的先驗是只有正效應的柯西分布, 即備擇假設為H+:Cauchy (0, 1)。

有研究者認為, 默認先驗分布 Cauchy (0, 1)是不現實的, 因為在這個分布中, 大的效應量占的比例太大(大于1的效應量在分布中占了50%以上); 相反, 另一些人覺得這個分布不現實是因為這個分布中, 靠近 0的效應量的比重太大, 即效應量為0是最可能的值。一個避免這些問題的做法是減小柯西分布的尺度參數γ。在BayesFactor工具包中, 默認采用的

JASP中對于單側的t檢驗同樣采用這個先驗。γ減小意味著H1和H0相似, 他們對觀測數據的預測相似, 更難得到支持H0的強證據。

使用 JASP可以對這批數據進行貝葉斯的獨立樣本t檢驗。首先用 JASP打開數據(File →Examples → “Kitchen Rolls”, 或者從 https://osf.io/9r423/下載后, 點擊File → Open), 然后在T-tests的面板中選擇“Bayesian Independent Samples T-test”。將顯示如圖1中間圖所示的對話框。我們已經將“mean NEO”作為因變量(dependent variable),“Rotation”作為分組變量(grouping variable)。如圖2中間所示, 將Cauchy先驗設置為JASP的默認值γ = 0.707, 同時勾選了“Prior and posterior”及其子選項的“Additional info”這兩個選項, 則得到如圖 2右側所示的結果:與順時針相比, 逆時針對經驗的開放性稍微高一些, 這個結果的方向與Topolinski和 Sparenberg (2012)所假設的正好相反。圖2右圖下半部分中, 實線為后驗分布, 虛線為先驗分布。可以看到, 大部分的后驗概率是負值, 其的中值是?0.13, 95%的可信區間從?0.5到0.23。BF01= 3.71, 表明觀察到的數據在H0假設之下的可能性是在H1假設之下可能性的 3.71倍(我們選擇了BF01, 因為BF01=3.71相對于等價的BF10=0.27來說更好解釋)。

通過這個初步的展示, 我們可以了解到如何進行貝葉斯獨立樣本t檢驗的操作。接下來展示如何按照提前注冊過的方法, 對這批數據進行貝葉斯單側獨立樣本t檢驗。由于描述性統計輸出表明順時針是組 1而逆時針是組 2, 我們將在”Hypothesis”的面板處勾選“group 1 > group 2”, 正如圖3中間所示。

單側檢驗的結果如圖3右邊部分所示。與預期的一致, 如果觀察到的效應是與假設相反, 則這種使用單側檢驗將先驗知識整合到分析之中的做法, 增加支持H0的相對證據(也見Matzke等人(2015)), 即貝葉斯因子BF01從3.71增加到了7.74,意味著觀察到的數據在H0下的可能是在H+可能性的7.74倍。

圖2 使用JASP進行貝葉斯獨立樣本t檢驗時的操作截屏。軟件左側是數據; 中間為數據分析選項; 右側為結果輸出。

值得注意的是, 在H+下的后驗分布是集中在0但不是沒有負值(見圖3右側), 與H+中的順序限制是一致的。這一點與傳統頻率主義的單側置信區間不同, 傳統方法的單尾置信區間為[?0.23 +∞)3可以使用R語言中的t.test函數來得到p值的區間[–.23 +∞)。。雖然傳統頻率主義的區間在數學上是良好定義的(即, 它包括了全部的不會被單尾的a= 0.05顯著性檢驗拒絕的值), 但是大部分研究者會發現這個區間即不好理解也沒有信息量(Morey, Hoekstra,Rouder, Lee, & Wagenmakers, 2016)。

除了計算貝葉斯因子外, JASP還可以進行穩健性分析(Bayesian robustness check), 從而量化柯西先驗分布尺度參數γ對貝葉斯因子的影響。如圖4所示, 選中“Bayes factor robustness check”的選項, 這將得到圖 4右側上面的圖。從該圖可以看到, 當Cauchy先驗的γ為0時,H0與H+相同(BF0+= 1), BF0+隨著γ的增加而增加。在JASP的默認值γ = 0.707, 貝葉斯因子BF0+= 7.73; 而對于Jeffrey默認的γ = 1, 貝葉斯因子BF0+= 10.75。因此, 在一系列 γ的先驗值中, 當前數據顯示了對H0的中等到強的證據支持。

此外, 還可以勾選圖4中間的部分的“Sequential analysis”及其子選項“Robustness check”, 進行序列分析。其結果見圖4右側下半部分的圖。序列分析顯示的是貝葉斯因子隨著著抽樣而變化的結果,也就是說, 研究都可以在新數據收集到時對證據的積累進行監控和可視化。從圖中可以看到, 實際上Wagenmakers等人(2015)并未按預注冊時的γ= 1 先驗來計算 BF0+并在 BF0+> 10 或者 BF+0> 10時立刻停止收集數據: 在55個被試之后, 虛線超過了BF0+> 10, 但是數據仍然繼續收集。在實踐中, 每隔幾天檢驗一次貝葉斯因子, 有助于了解貝葉斯因子是否在某個時間點上超過預先決定的標準, 并據此決定是否停止數據。

序列分析的一個優點是它可視化了貝葉斯因子在不同先驗條件下的收斂過程, 即貝葉斯因子在 log尺度上差異開始穩定不變(如, Bahadur &Bickel, 2009; Gronau & Wagenmakers, 2017)。在當前的例子中, 當被試數量達到35時, 不同先驗下的貝葉斯因子開始出現收斂。要理解為什么在貝葉斯因子的 log值的差異會在一些初步的觀測數據之后不再變化, 我們可以假定數據 y包括兩個部分y1和y2, 根據條件概率公式, BF0+(y) = BF0+(y1) × BF0+(y2|y1)。這個公式表明, 貝葉斯因子并非是對不同數據進行盲目地相乘, 實際上公式中的第二個因子——BF0+(y2|y1)——反映的是:當先驗分布已經根據數據 y1進行更新后, 數據 y2對貝葉斯因子再次更新(Jeffreys, 1961, p. 333)。對這個公式進行 log轉換后, 得到 log (BF0+(y)) =log (BF0+(y1)) + log (BF0+(y2|y1))。假定數據y1包括了足夠的信息, 不管γ如何變化, 通過y1更新后均得到大致相同的結果分布(在大部分情況下, 這種情況很快就會出現)。而通過y1得到的這個后驗分布, 又變成了數據y2的先驗分布, 即成為 log (BF0+(y2|y1))的先驗。在這種情況下, log(BF0+(y2|y1))的值大致相似(相似的先驗分布, 相同的數據)。因此, 不一樣的γ值會讓數據y1產生不同的后驗分布, 但當數據y1是足夠的大后, 使得y1的后驗分布大致相似, 此時y2再次對模型進行更新的大小也是相似, 這就使得log (BF0+(y2|y1))在不同的γ下相似, 產生收斂的現象。

圖4 使用JASP進行貝葉斯因子的穩健性分析

3.3 如何報告貝葉斯因子結果

貝葉斯統計在目前的心理學研究中并不常見。雖然大部分雜志的編輯和審稿人會欣賞采用更加合理的統計手段, 但是出于對貝葉斯方法的陌生, 研究者使用貝葉斯因子時, 需要提供相關的背景信息讓編輯和審稿人了解這種背景。因此,除了報告貝葉斯因子的結果之外, 還需要首先報告如下幾點(Kruschke, 2014)。第一, 選用貝葉斯因子的動機與原因, 即為什么在某個報告中使用貝葉斯因子而不是NHST。如前所述, 可以說明貝葉斯因子提供了更加豐富的信息, 或者數據特點不滿足NHST的前提假設(如在自然情境下收集的數據, 無法判斷數據收集的動機和實驗假設)。第二, 描述貝葉斯因子在模型比較中的基本邏輯。即, 假定讀者并不非常了解貝葉斯因子, 簡單地解釋貝葉斯因子中模型比較的思想。第三, 描述貝葉斯因子分析中的先驗分布以及采用該先驗的原因, 先驗分布應該或多或少對數據分析提供一些信息。第四, 解釋貝葉斯因子, 將貝葉斯因子與研究中的理論或假設結合起來。

貝葉斯因子不使用統計顯著, 而是描述數據對假設的支持程度。例如, 在 Wagenmakers等(2015)中, 對Jeffreys默認先驗下的貝葉斯因子結果進行如下描述:

“貝葉斯因子為BF01= 10.76, 說明在(假定沒有效應的)零假設下出現當前數據的可能性是在(假定存在效應的)備擇假設下可能性的10.76倍。根據Jeffreys (1961)提出的分類標準, 這是較強的證據支持了零假設, 即在順時針和立逆時針轉鐘表指針的人在經驗開放性(NEO)得分上沒有差異。”

此外, 使用貝葉斯因子進行分析時, 還可以報告探索性的結果, 如穩健分析和序列分析的結果, 這將進一步豐富結果, 給其他研究者提供更加全面的信息。

4 總結與展望

近年來, 科學研究的可重復問題備受關注(Baker, 2016; Begley & Ellis, 2012; Munafò et al.,2017), 在心理學(Ebersole et al., 2016; Klein et al.,2014; Open Science Collaboration, 2015)、神影像學(Poldrack et al., 2017; Zuo & Xing, 2014)尤其如此。而對NHST的過度依賴正是原因之一(Lindsay,2015; 胡傳鵬等, 2016)。因此, 研究者們希望貝葉斯因子作為一種假設檢驗方法, 能改變當前心理學研究過度依賴 NHST的現狀。當然, 也有研究者提出了其他的方案, 例如, 將顯著性的閾限下降到0.005 (Benjamin et al., 2018)或是采用模型比較的似然性比(likelihood ratio) (Etz, in press)的方法。但是值得注意的是, 心理學研究重復失敗的原因多種多樣, 僅改變統計方法不能讓心理學的研究變得可重復。數據不開放以及研究過程不透明(Chambers, Feredoes, Muthukumaraswamy, & Etchells,2014; Lindsay, 2015; Nosek et al., 2015)、對探索性分析與驗證性分析不加區分(Kerr, 1998;Wagenmakers, Wetzels, Borsboom, van der Maas, &Kievit, 2012)、以發表論文為核心的獎勵體系(Nosek, Spies, & Motyl, 2012)等都可能是造成當前研究可重復率低的原因。因此從某種程度上來講,對數據分析過程與數據結果保持開放與透明是關鍵的解決方案(如, Poldrack & Gorgolewski, 2017; Zuo et al., 2014)。

即便如此, 作為一種不同于傳統 NHST的方法, 貝葉斯因子有助于研究者使用多種的方法對同一研究進行分析, 從而得到準確的統計推斷,得到更加接近真實的結論。需要指出的是, 采用多種方法進行分析時, 需要報告全部的分析過程和結果, 而非選擇最有利于自己結論的分析結果進行報告。

4.1 貝葉斯因子的不足

貝葉斯因子是貝葉斯統計在假設檢驗方面的應用, 而貝葉斯學派與頻率學派統計的爭議一直存在(Miller, 2011)。實際上, 研究者指出貝葉斯因子也可能存在許多問題, 充分了解這些反對的觀點, 將更加有利于我們在研究中合理地使用貝葉斯因子。

對貝葉斯因子最強烈的質疑來自于對其先驗概率的設定, 可能會認為先驗概率過于主觀、過于保守從而不容易出現較強的證據等(Wagenmakers,Marsman, et al., 2017)。也有研究者認為, 默認的先驗對小的效應不利。例如, Bem, Utts和Johnson(2011) 認為, Wagenmakers等人(2011)對 Bem(2011)的數據進行重新分析時, 采用了不合適的先驗概率是他們未能得到與Bem (2011)一致結論的原因。這種批評實質上是對貝葉斯因子的誤用,即未將先驗知識轉化成為合適的先驗概率(Hoijtink,van Kooten, & Hulsker, 2016)。有趣的是, 只要研究者將自己使用的先驗概率保持透明與公開, 其他研究者可以采用交叉驗證, 從而起到充分探索的作用。

其次, 也有研究者認為, 貝葉斯因子沒有考慮假陽性的問題。在 NHST框架之下, 研究者非常強調控制一類錯誤與二類錯誤的問題。例如心理學研究中一般將一類錯誤控制在 5%以內, 因此顯著性水平設置為 0.05。也正是需要控制一類錯誤, NHST框架之下有許多方法用來調整閾值使其一類錯誤率不至于太高, 例如多重比較校正的方法。而貝葉斯統計主要是為了不斷地對證據的強度進行測量, 其不考慮控制假陽性(即一類錯誤)的問題。因此, 當研究者基于貝葉斯因子進行決策(效應是否存在)時, 就可能犯下一類錯誤(Kruschke & Liddell, 2017a)。在實際的貝葉斯因子分析中, 可以通過先驗來解決多重比較的問題(Jeffreys, 1938; Scott & Berger, 2006, 2010)。例如,直接說明研究者預期假陽性率有多大(Stephens &Balding, 2009)。

還有研究者指出, 基于估計的統計總是要比假設檢驗更優, 因為估計本身將不確定性考慮進來。例如, Cumming (2014)建議使用效應量及其置信區間以替代p值。但是考慮到參數估計與假設檢驗在科研中均有其相應最適用的問題, 因此貝葉斯因子無法直接與基于估計的頻率主義學派統計進行比較。但是, 貝葉斯統計中, 也有基于估計的方法(Kruschke & Liddell, 2017b)。

最后, 貝葉斯因子進行假設檢驗, 本質上是證據的不斷累積, 而非得到二分的結論。因此, 一次實驗的結果可以被看作是試探性的, 研究者可以繼續收集數據或者進行重復實驗(Ly, Etz, Marsman,& Wagenmakers, 2017)。

4.2 貝葉斯因子的應用前景

貝葉斯因子作為基于貝葉斯統計的假設檢驗方法, 與 NHST相比具有一些優勢, 其使得研究者可以直接檢驗數據是否支持零假設, 不再受抽樣意圖和停止收集數據標準的影響, 從而更加靈活地進行數據分析。這些優勢可能幫助心理學家更好地在研究過程中進行決策, 同時, 貝葉斯因子的采用也可以促進研究者去更加深入地理解貝葉斯方向法的適用范圍以及前提條件等(Depaoli& van de Schoot, 2017)。

JASP的開發, 使用貝葉斯因子的計算和解讀變得更加簡便, 研究者即便沒有很強的編程基礎,也能夠使用 JASP地進行貝葉斯因子分析。這可能有助于推動研究者更加廣泛地使用貝葉斯因子。此外, JASP本身正在快速發展, 其功能的深度和廣度正在不斷地擴大, 新的方法和標準將不斷地整合到軟件之中, 可能幫助研究者更科學地進行研究。

致謝:感謝清華大學心理學系張咪同學在本文撰寫之初提供的幫助, 感謝兩位匿名審稿人對本文提供的寶貴意見。

胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016).心理學研究中的可重復性問題: 從危機到契機.心理科學進展, 24(9), 1504–1518.

駱大森. (2017). 心理學可重復性危機兩種根源的評估.心理與行為研究, 15(5), 577–586.

鐘建軍, Dienes, Z., 陳中永. (2017). 心理研究中引入貝葉斯統計推斷的必要性、應用思路與領域.心理科學,40(6), 1477–1482.

Bahadur, R. R., & Bickel, P. J. (2009). An optimality property of Bayes' test statistics.Lecture Notes-Monograph Series, 57,18–30.

Baker, M. (2016). 1,500 scientists lift the lid on reproducibility.Nature, 533, 452–454.

Begley, C. G., & Ellis, L. M. (2012). Drug development:Raise standards for preclinical cancer research.Nature,483(7391), 531–533.

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect.Journal of Personality and Social Psychology,100(3), 407–425.

Bem, D. J., Utts, J., & Johnson, W. O. (2011). Must psychologists change the way they analyze their data?Journal of Personality and Social Psychology, 101(4),716–719.

Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B.A., Wagenmakers, E.-J., Berk, R., … Johnson, V. E.(2018). Redefine statistical significance.Nature Human Behaviour, 2(1), 6–10.

Berger, J. O., & Berry, D. A. (1988). Statistical analysis and the illusion of objectivity.American Scientist, 76(2),159–165.

Berger, J. O., & Delampady, M. (1987). Testing precise hypotheses.Statistical Science, 2(3), 317–335.

Berger, J. O., & Wolpert, R. L. (1988).The likelihood principle(2nd ed.). Hayward (CA): Institute of Mathematical Statistics.

Carpenter, B., Gelman, A., Hoffman, M. D., Lee, D.,Goodrich, B., Betancourt, M., … Riddell, A. (2017). Stan:A probabilistic programming language.Journal of Statistical Software, 76(1), 1–32.

Chambers, C. D., Feredoes, E., Muthukumaraswamy, S. D.,& Etchells, P. J. (2014). Instead of “playing the game” it is time to change the rules: Registered Reports atAIMS Neuroscienceand beyond.AIMS Neuroscience, 1(1), 4–17.Chen, X., Lu, B., & Yan, C.-G. (2018). Reproducibility of R-fMRI metrics on the impact of different strategies for multiple comparison correction and sample sizes.Human Brain Mapping, 39(1), 300–318.

Cumming, G. (2014). The new statistics: Why and how.Psychological Science, 25(1), 7–29.

Depaoli, S., & van de Schoot, R. (2017). Improving transparency and replication in Bayesian statistics: The WAMBS-Checklist.Psychological Methods, 22(2), 240–261.

Dienes, Z. (2008).Understanding psychology as a science:An introduction to scientific and statistical inference.London, UK: Palgrave Macmillan.

Dienes, Z. (2011). Bayesian versus orthodox statistics:Which side are you on?Perspectives on Psychological Science, 6(3), 274–290.

Dienes, Z. (2014). Using Bayes to get the most out of non-significant results.Frontiers in Psychology, 5, 781.

Ebersole, C. R., Atherton, O. E., Belanger, A. L., Skulborstad, H.M., Allen, J. M., Banks, J. B., ... Nosek, B. A. (2016).Many Labs 3: Evaluating participant pool quality across the academic semester via replication.Journal of Experimental Social Psychology, 67, 68–82.

Edwards, W. (1965). Tactical note on the relation between scientific and statistical hypotheses.Psychological Bulletin,63(6), 400–402.

Edwards, W., Lindman, H., & Savage, L. J. (1963). Bayesian statistical inference for psychological research.Psychological Review, 70(3), 193–242.

Etz, A. (in press). Introduction to the concept of likelihood and its applications.Advances in Methods and Practices in Psychological Science.

Francis, G. (2013). Replication, statistical consistency, and publication bias.Journal of Mathematical Psychology,57(5), 153–169.

Gallistel, C. R. (2009). The importance of proving the null.Psychological Review, 116(2), 439–453.

Gigerenzer, G. (2004). Mindless statistics.The Journal of Socio-Economics, 33(5), 587–606.

Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B.,Poole, C., Goodman, S. N., … Altman, D. G. (2016).Statistical tests,Pvalues, confidence intervals, and power:A guide to misinterpretations.European Journal of Epidemiology, 31(4), 337–350.

Gronau, Q. F., & Wagenmakers, E.-J. (2017). Bayesian evidence accumulation in experimental mathematics: A case study of four irrational numbers.Experimental Mathematics,1–10.

Halsey, L. G., Curran-Everett, D., Vowler, S. L., &Drummond, G. B. (2015). The fickle P value generates irreproducible results.Nature Methods, 12(3), 179–185.

Hoijtink, H. (2011).Informative hypotheses: Theory and practice for behavioral and social scientists. Boca Raton,FL: Chapman & Hall/CRC.

Hoijtink, H., van Kooten, P., & Hulsker, K. (2016). Why Bayesian psychologists should change the way they use the Bayes factor.Multivariate Behavioral Research, 51(1),2–10.

JASP Team. (2017). JASP (Version 0.8.2) [Computer software].Jeffreys, H. (1935). Some tests of significance, treated by the theory of probability.Mathematical Proceedings of the Cambridge Philosophical Society, 31(2), 203–222.

Jeffreys, H. (1938). Significance tests when several degrees of freedom arise simultaneously.Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences,165(921), 161–198.

Jeffreys, H. (1961).Theory of probability(3rd ed.). Oxford,UK: Oxford University Press.

Johnson, V. E. (2013). Revised standards for statistical evidence.Proceedings of the National Academy of Sciences of the United States of America, 110(48), 19313–19317.

Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known.Personality and Social Psychology Review, 2(3), 196–217.

Klein, R. A., Ratliff, K. A., Vianello, M., Adams, R. B., Jr.,Bahník, ?., Bernstein, M. J., … Nosek, B. A. (2014).Investigating variation in replicability: A “many labs”replication project.Social Psychology, 45(3), 142–152.

Klugkist, I., Laudy, O., & Hoijtink, H. (2005). Inequality constrained analysis of variance: A Bayesian approach.Psychological Methods, 10(4), 477–493.

Kruschke, J. K. (2014).Doing Bayesian data analysis: A tutorial with R, JAGS, and stan(2nd ed.). San Diego, CA:Academic Press/Elsevier.

Kruschke, J. K., & Liddell, T. M. (2017a). Bayesian data analysis for newcomers.Psychonomic Bulletin & Review,1–23.

Kruschke, J. K., & Liddell, T. M. (2017b). The Bayesian New Statistics: Hypothesis testing, estimation, meta-analysis,and power analysis from a Bayesian perspective.Psychonomic Bulletin & Review, 1–29.

Lakens, D. (2017). Equivalence tests: A practical primer for t-Tests, correlations, and meta-analyses.Social Psychological and Personality Science, 8(4), 355–362.

Lindley, D. V. (1993). The analysis of experimental data:The appreciation of tea and wine.Teaching Statistics,15(1), 22–25.

Lindsay, D. S. (2015). Replication in psychological science.Psychological Science, 26(12), 1827–1832.

Lunn, D., Spiegelhalter, D., Thomas, A., & Best, N. (2009).The BUGS project: Evolution, critique and future directions.Statistics in Medicine, 28(25), 3049–3067.

Ly, A., Etz, A., Marsman, M., & Wagenmakers, E.-J. (2017).Replication Bayes factors from evidence updating.PsyArXiv. Retrieved from https://osf.io/preprints/psyarxiv/u8m2s/

Ly, A., Marsman, M., & Wagenmakers, E.-J. (2018).Analytic posteriors for Pearson’s correlation coefficient.Statistica Neerlandica, 72, 4–13.

Ly, A., Verhagen, J., & Wagenmakers, E.-J. (2016a). An evaluation of alternative methods for testing hypotheses,from the perspective of Harold Jeffreys.Journal of Mathematical Psychology, 72, 43–55.

Ly, A., Verhagen, J., & Wagenmakers, E.-J. (2016b). Harold Jeffreys’s default Bayes factor hypothesis tests: Explanation,extension, and application in psychology.Journal of Mathematical Psychology, 72, 19–32.

Marsman, M., & Wagenmakers, E.-J. (2017a). Bayesian benefits with JASP.European Journal of Developmental Psychology, 14(5), 545–555.

Marsman, M., & Wagenmakers, E.-J. (2017b). Three insights from a bayesian interpretation of the one-sidedPvalue.Educational and Psychological Measurement, 77(3), 529–539.

Masson, M. E. J. (2011). A tutorial on a practical Bayesian alternative to null-hypothesis significance testing.Behavior Research Methods, 43(3), 679–690.

Matzke, D., Nieuwenhuis, S., van Rijn, H., Slagter, H. A.,van der Molen, M. W., & Wagenmakers, E.-J. (2015). The effect of horizontal eye movements on free recall: A preregistered adversarial collaboration.Journal of Experimental Psychology: General, 144(1), e1–e15.

Miller, G. (2011). ESP paper rekindles discussion about statistics.Science, 331(6015), 272–273.

Morey, R. D., Hoekstra, R., Rouder, J. N., Lee, M. D., &Wagenmakers, E.-J. (2016). The fallacy of placing confidence in confidence intervals.Psychonomic Bulletin& Review, 23(1), 103–123.

Morey, R. D., & Rouder, J. N. (2011). Bayes factor approaches for testing interval null hypotheses.Psychological Methods, 16(4), 406–419.

Mulder, J., Klugkist, I., van de Schoot, R., Meeus, W. H. J.,Selfhout, M., & Hoijtink, H. (2009). Bayesian model selection of informative hypotheses for repeated measurements.Journal of Mathematical Psychology, 53(6), 530–546.

Munafò, M. R., Nosek, B. A., Bishop, D. V. M., Button, K.S., Chambers, C. D., Percie du Sert, N., … Ioannidis, J. P.A. (2017). A manifesto for reproducible science.Nature Human Behaviour, 1(1), 0021.

Nosek, B. A., Alter, G., Banks, G. C., Borsboom, D.,Bowman, S. D., Breckler, S. J., … Yarkoni, T. (2015).Promoting an open research culture.Science, 348(6242),1422–1425.

Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific Utopia: II. Restructuring incentives and practices to promote truth over publishability.Perspectives on Psychological Science, 7(6), 615–631.

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science.Science, 349(6251),aac4716.

Plummer, M. (2003).JAGS: A program for analysis of Bayesian graphical models using Gibbs sampling. Paper presented at the Proceedings of the 3rd International Workshop on Distributed Statistical Computing (DSC 2003).

Poldrack, R. A., Baker, C. I., Durnez, J., Gorgolewski, K. J.,Matthews, P. M., Munafò, M. R., … Yarkoni, T. (2017).Scanning the horizon: Towards transparent and reproducible neuroimaging research.Nature Reviews Neuroscience,18(2), 115–126.

Poldrack, R. A., & Gorgolewski, K. J. (2017). OpenfMRI:Open sharing of task fMRI data.NeuroImage, 144, 259–261.

Rouder, J. N. (2014). Optional stopping: No problem for Bayesians.Psychonomic Bulletin & Review, 21(2), 301–308.

Rouder, J. N., & Morey, R. D. (2011). A Bayes factor meta-analysis of Bem’s ESP claim.Psychonomic Bulletin& Review, 18(4), 682–689.

Rouder, J. N., Morey, R. D., Speckman, P. L., & Province, J.M. (2012). Default Bayes factors for ANOVA designs.Journal of Mathematical Psychology, 56(5), 356–374.

Rouder, J. N., Morey, R. D., Verhagen, J., Swagman, A. R.,& Wagenmakers, E.-J. (2017). Bayesian analysis of factorial designs.Psychological Methods, 22(2), 304–321.

Rouder, J. N., Speckman, P. L., Sun, D. C., Morey, R. D., &Iverson, G. (2009). Bayesianttests for accepting and rejecting the null hypothesis.Psychonomic Bulletin &Review, 16(2), 225–237.

Salsburg, D. (2001).The lady tasting tea: How statistics revolutionized science in the twentieth century. New York,NY: W. H. Freeman and Company.

Salvatier, J., Wiecki, T. V., & Fonnesbeck, C. (2016).Probabilistic programming in Python using PyMC3.Peer J Computer Science, 2, e55.

Schervish, M. J. (1996). P values: What they are and what they are not.The American Statistician, 50(3), 203–206.

Schlaifer, R., & Raiffa, H. (1961). Applied statistical decision theory. Boston: Harvard University.

Sch?nbrodt, F. D., Wagenmakers, E.-J., Zehetleitner, M., &Perugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences.Psychological Methods, 22(2), 322–339.

Scott, J. G., & Berger, J. O. (2006). An exploration of aspects of Bayesian multiple testing.Journal of Statistical Planning and Inference, 136(7), 2144–2162.

Scott, J. G., & Berger, J. O. (2010). Bayes and empirical-Bayes multiplicity adjustment in the variable-selection problem.The Annals of Statististics, 38(5), 2587–2619.

Sellke, T., Bayarri, M. J., & Berger, J. O. (2001). Calibration ofρvalues for testing precise null hypotheses.The American Statistician, 55(1), 62–71.

Stephens, M., & Balding, D. J. (2009). Bayesian statistical methods for genetic association studies.Nature Reviews Genetics, 10(10), 681–690.

Stulp, G., Buunk, A. P., Verhulst, S., & Pollet, T. V. (2013).Tall claims? Sense and nonsense about the importance of height of US presidents.The Leadership Quarterly, 24(1),159–171.

Topolinski, S., & Sparenberg, P. (2012). Turning the hands of time.Social Psychological and Personality Science, 3(3),308–314.

van de Schoot, R., Winter, S., Ryan, O., Zondervan-Zwijnenburg, M., & Depaoli, S. (2017). A systematic review of Bayesian papers in psychology: The last 25 years.Psychological Methods, 22(2), 217–239.

Vanpaemel, W. (2010). Prior sensitivity in theory testing: An apologia for the Bayes factor.Journal of Mathematical Psychology, 54(6), 491–498.

Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems ofpvalues.Psychonomic Bulletin &Review, 14(5), 779–804.

Wagenmakers, E.-J., Beek, T. F., Rotteveel, M., Gierholz, A.,Matzke, D., Steingroever, H., … Pinto, Y. (2015). Turning the hands of time again: A purely confirmatory replication study and a Bayesian analysis.Frontiers in Psychology, 6, 494.

Wagenmakers, E.-J., Lodewyckx, T., Kuriyal, H., & Grasman,R. (2010). Bayesian hypothesis testing for psychologists:A tutorial on the Savage–Dickey method.Cognitive Psychology, 60(3), 158–189.

Wagenmakers, E.-J., Love, J., Marsman, M., Jamil, T., Ly, A.,Verhagen, J., … van Doorn, J. (2017). Bayesian inference for psychology. Part II: Example applications with JASP.Psychonomic Bulletin & Review, 1–19.

Wagenmakers, E.-J., Marsman, M., Jamil, T., Ly, A.,Verhagen, J., Love, J., … Morey, R. D. (2017). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications.Psychonomic Bulletin &Review, 1–23.

Wagenmakers, E.-J., Verhagen, J., Ly, A., Matzke, D.,Steingroever, H., Rouder, J. N., & Morey, R. D. (2017).The need for Bayesian hypothesis testing in psychological science. In S. O. Lilienfeld & I. D. Waldman (Eds.),Psychological science under scrutiny(pp. 123–138). Chichester:John Wiley & Sons, Inc.

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011).Journal of Personality and Social Psychology,100(3), 426–432.

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., van der Maas, H. L. J., & Kievit, R. A. (2012). An agenda for purely confirmatory research.Perspectives on Psychological Science, 7(6), 632–638.

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA's statement onp-values: Context, process, and purpose.The American Statistician, 70(2), 129–133.

Wetzels, R., Matzke, D., Lee, M. D., Rouder, J. N., Iverson,G. J., & Wagenmakers, E.-J. (2011). Statistical evidence in experimental psychology: An empirical comparison ssing 855 t tests.Perspectives on Psychological Science, 6(3),291–298.

Zhu, J., Chen, J. F., Hu, W. B., & Zhang, B. (2017). Big Learning with Bayesian methods.National Science Review,4(4), 627–651.

Ziliak, S. T., & McCloskey, D. N. (2008).The cult of statistical significance. Ann Arbor: University of Michigan Press.

Zuo, X.-N., Anderson, J. S., Bellec, P., Birn, R. M., Biswal,B. B., Blautzik, J., … Milham, M. P. (2014). An open science resource for establishing reliability and reproducibility in functional connectomics.Nature Scientific Data, 1,140049.

Zuo, X.-N., & Xing, X.-X. (2014). Test-retest reliabilities of resting-state FMRI measurements in human brain functional connectomics: A systems neuroscience perspective.Neuroscience & Biobehavioral Reviews, 45, 100–118.

主站蜘蛛池模板: 亚洲三级a| 成人a免费α片在线视频网站| 国产精品女同一区三区五区| 欧美日韩在线第一页| 欧美乱妇高清无乱码免费| 久久久久人妻一区精品| 丰满少妇αⅴ无码区| 久久综合AV免费观看| 亚洲午夜福利在线| 自拍偷拍一区| A级毛片无码久久精品免费| 国产亚洲现在一区二区中文| 亚洲一区二区日韩欧美gif| 久久精品视频亚洲| 国产另类乱子伦精品免费女| 91外围女在线观看| 国产欧美日本在线观看| 久久国产精品电影| 午夜毛片福利| 自偷自拍三级全三级视频| 美女毛片在线| 日本高清在线看免费观看| 久热re国产手机在线观看| 亚洲综合久久一本伊一区| 激情国产精品一区| 无码内射在线| 国产一区二区三区视频| 精品国产美女福到在线直播| 亚洲欧美色中文字幕| 99精品高清在线播放| 欧美另类图片视频无弹跳第一页| 尤物精品视频一区二区三区| 亚洲精品男人天堂| 欧美日本中文| 91精品免费高清在线| 欧美一级色视频| 国产精品成人不卡在线观看| 欧美精品二区| 亚洲va欧美va国产综合下载| 自慰网址在线观看| 亚洲制服中文字幕一区二区 | 99偷拍视频精品一区二区| 97在线免费| 亚洲最新在线| 国产真实乱子伦精品视手机观看 | 99久久国产自偷自偷免费一区| 国产精品视频公开费视频| 国产精品美女免费视频大全| 久久综合伊人 六十路| 午夜视频在线观看免费网站| 欧美一区二区精品久久久| 香港一级毛片免费看| 亚洲综合色婷婷| 久久黄色一级视频| 久久性妇女精品免费| 91久久国产热精品免费| 色婷婷国产精品视频| 久草网视频在线| 日韩国产无码一区| 欧美黄网站免费观看| 欧美精品aⅴ在线视频| 久久久久免费看成人影片| 国产欧美日韩18| 五月婷婷伊人网| 欧美亚洲网| 欧美激情福利| 91丨九色丨首页在线播放| 亚洲视频二| h视频在线观看网站| 91在线精品麻豆欧美在线| 孕妇高潮太爽了在线观看免费| 成人福利在线观看| 一级毛片免费高清视频| 一级香蕉人体视频| 亚洲国产第一区二区香蕉| 国产成人AV综合久久| 国产成人综合欧美精品久久| 欧美成人精品一区二区| 亚洲精品第一在线观看视频| 日本精品视频一区二区| 精品一区国产精品| 国产专区综合另类日韩一区 |