【摘要】 本文對貝葉斯推理問題進行了認知分析,并對他們的算法進行分類,首次提出有學生使用[H],[I],[J],[K], [M],[N],[O],[P](見表3)這8種非貝葉斯算法,來解決貝葉斯問題.
【關鍵詞】 貝葉斯推理;實證研究
【基金項目】 本文是廣州市教育科學“十一五”規劃的重點課題《青少年解決數學應用問題認知水平與教學應對研究》(2011-2013,編號:10A017)的成果之一.
一、前 言
七至九年級學生完全不了解貝葉斯推理,本研究以實證的方法,考察他們對這類問題進行直覺推理時的情形是怎樣的,以便對實際教學提出建議.
二、研究方法
1. 被 試
本研究以廣州市番禺區市橋橋城中學八年級118名、九年級112名,合計共230名學生為被試對象. 為了使所選班級具有代表性,筆者隨機選取了八、九年級每個年級各兩個平行班,并把八、九年級學生上學期期末考試成績輸入SPSS 16.0統計軟件,進行t檢驗. 檢驗結果顯示:每個年級所選兩個班的成績之間沒有顯著性差異,符合統計學上的同質性要求.
2. 問卷設計
本問卷分為A,B卷,各2道題目.
表1 測試問卷對應題目之間的關系
三、結果與分析討論
1. 初中生解決貝葉斯推理問題的數據分析
本實驗采用2(被試年級:八年級、九年級) × 2(概率表征:標準概率、自然頻率) × 2(題目背景:出租車、乳癌)三因素混合設計. 因變量為后驗概率估計準確性,以“后驗概率估計值”與“使用貝葉斯定理計算出的標準值” 兩者之差的絕對值(即后驗概率估計值與標準值之間的距離)作為判斷被試估計準確性的指標,距離越小,表明被試估計準確性越高;距離越大,表明被試估計準確性越低. 將被試答卷的后驗概率估計值a代入式子b=|a-標準值|,將所得數據b輸入計算機,運用SPSS 16.0統計軟件進行分析. 由于需要根據在多個因素(被試年級、概率表征、題目背景)影響下觀測到的數據去推斷多個總體平均數之間的差異,筆者采用Univariate對上述輸入數據進行了方差分析.
從輸出數據發現,九年級被試在各背景、表征下,算術平均數均小于八年級被試,表明九年級的估計值更為準確,尤其在“乳腺癌自然頻率”任務中最為突出. 從整體表現上,“出租車問題”八年級被試提供數據較為平穩,“乳腺癌問題”則相反. 關于被試后驗概率和標準值之差的絕對值的方差分析見表2,3.
表2
Levene’s Test of Equality of Error Variancesa
Dependent Variable:數據
經Levence檢驗表明,F = 27.816,P = 0.000 < 0.05,方差不齊性. 背景因素、年級因素:P = 0.000 < 0.05, 在0.05的顯著性水平上,認為背景、年級分別對學生正確估計有非常顯著的影響.
2. 初中生解決貝葉斯推理問題的認知分析
研究表明,完全不懂貝葉斯原理的初中學生對這類問題進行直覺推理時,有14%~54%的八年級學生,12%~40%的九年級學生選擇放棄,在選擇放棄的這部分學生中,男生比例明顯高于女生,這與傳統上認為男生更勇于挑戰難題的觀念有所偏差. 但整體上,男女生性別差異并不顯著,這與美國的Fennema觀點一致.
A卷第1題(自然頻率形式表征的乳癌問題),此題共有12人答對,占調查總人數的5.2%.
B卷第2題(標準概率形式表征的乳癌問題),此題共有1人答對,占調查總人數的0.44%.
A卷第2題(標準概率形式表征的出租車問題),此題共有2人答對,占調查總人數的0.87%.
B卷第1題(自然頻率形式表征的出租車問題), 此題共有1人答對,占調查總人數的0.44%.
這部分調查的結果讓人出乎意料,在給出正確解答的這部分被試學生中,有43%的學生數學成績僅處于班級的中游水平.
從本實證調查中發現,問題呈現的具體內容、背景材料是一個不容忽視的問題. 如本實驗材料中,“出租車問題”有3人正確解答,占1.3%. 其中,題目用標準概率表征的正確解答人數為2人,題目用自然頻率表征的正確解答人數為1人,兩者沒有顯著差異. 這與Gigerenzer和Hoffrage(1995)的結論不一致. “乳腺癌問題”有13人正確解答,占5.7%. 其中,題目用標準概率表征的正確解答人數為1人,題目用自然頻率表征的正確解答人數為12人,顯示兩者有著顯著差異,使用頻率表征時的正確估計要遠高于概率表征,這與Gigerenzer和Hoffrage(1995)、Cosmides和Tooby(1996)的觀點是一致的. 據此,本研究發現,嚴肅地、被認為不可掉以輕心的背景材料會引起被試更多的關注,其正確估計的比例會有所提高.
3. 初中生解決貝葉斯推理問題時采用的非貝葉斯算法分析
被試在解決貝葉斯推理問題時,會使用其他的非貝葉斯算法來作出估計. 在本實驗中,被試使用較多的非貝葉斯算法是[A],[B],[E],[G]這4種. 其中,算法[A],[B],[E]和[F]是前人的研究中報告過的(吉戈倫爾和霍夫雷戈(1995)、梅勒斯和麥格若(1999));[C],[D]在徐媛的論文中有所提及,但本研究中沒有學生使用這兩種算法; [G],[L] 在朱莉琪與Gerd Gigerenzer(2006)論文中報告過;算法[H],[I],[J],[K], [M],[N],[O],[P](算法類型見下表)則是本研究中首次提出來的.
Gavanski等認為判斷一個事件出現的概率時,人們從什么范圍抽取一個樣本有一種自然的抽樣傾向,他們稱之為“自然抽樣空間”. 如果直接從自然的抽樣空間中抽取的樣本對判斷事件的概率是無偏差的,則被試較容易作出正確的判斷,但若要求被試從非自然抽樣空間中抽樣才能正確判定事件的概率,則被試容易作出錯誤的判斷.
在“出租車問題”中,被試從所有藍色出租車中抽樣來判斷證人正確辨認的概率較為自然,因為受到“80%”數據的影響,被試更容易認為藍色出租車中證人大多數能正確辨認. 但實際任務是要求被試從證人認為是藍色的出租車中抽樣來判斷真實是藍色的概率,這與被試自然抽樣的方向相反,導致被試對問題進行了錯誤的表征,而對照貝葉斯公式,被試是錯誤地把P表征為P,剛好與問題的要求相反,從而作出了錯誤的判斷. 被試在“出租車問題”中忽視基礎概率-“15%”,這與Kahneman、Tversky和Eddy的結論相同. 算法[G]P(H1)P + P(H2)P集中出現在由自然頻率形式表征的“出租車問題”中.
在“乳腺癌問題” 的典型非貝葉斯算法中,[E]P(H1)算法的人數明顯增多, 即被試注意到基礎概率的人數明顯增加,究其原因,分析如下:首先,在正常的“恐癌心理”下,學生感覺不容怠慢,他們并不想癌癥發生,因此格外重視順從這一心理暗示的信息. 其次,“1%” 這個概率值明顯感覺比“99%”要小很多,正是這一數值差距也促使他們覺得患癌癥的機會不大. 由此可見,題目的背景材料以及數據大小的差距會對被試是否重視基礎概率產生影響;也正因為被試考慮到了基礎概率,所以“乳腺癌問題”中單純地被擊中率誤導的人數大大減少.
總體說來,初中學生的直覺推理大多不遵循貝葉斯定理,這主要因為貝葉斯推理問題與自然抽樣方向相反,人類的思維方式、認知規律不符合貝葉斯推理規則.
四、結論與建議
1. 結 論
(1)初中學生在條件概率問題中忽視基礎概率是一種普遍現象,但這會隨呈現問題的背景材料、數據差距等因素有所改變. 特別是在嚴肅的或與學生自身有關的問題中,被試學生對基礎概率給予了更多的關注.
(2)男女學生在解決貝葉斯推理問題中的性別差異并不明顯.
(3)在“乳腺癌問題”中,學生在自然頻率形式表征下的解題正確率明顯高于標準概率形式表征時的正確率. 而在“出租車問題”中,兩者的差異并不明顯.
(4)問題的背景材料、數據差距等因素會對被試的策略選擇、正確估計產生影響.
(5)部分成績中等或偏下的初中學生也可以解決貝葉斯推理問題.
(6)在0.05的顯著性水平上,認為背景和年級的交互作用對學生正確估計有著顯著的差異;而在“背景 × 表征”、 “表征 × 年級”、 “背景 × 表征 × 年級”這幾項任務中,交互作用則不顯著.
2. 建 議
筆者認為,條件概率一直沒能引入中學課堂,一方面是因為概率作為一個嶄新內容進入中學課堂不過是幾年時間,所占內容較少;另一方面,為避免增加學生負擔,使概率問題相應簡單化. 通過對學生認知水平的探討,及對教材的分析,本研究認為有必要將條件概率引進初中課堂,作為閱讀材料或課題學習將條件概率問題結合具體情景、具體例題介紹給學生,這將有助于澄清學生在學習過程中的模糊認識及錯誤觀念.
【參考文獻】
[1]傅小蘭,趙曉東.信息表征形式對解決貝葉斯推理問題的影響[J].心理與行為研究,2005(3).
[2]史滋福,邱江,張慶林.明確嵌套集合關系對貝葉斯推理推理的促進效應[J].心理學報,2006.
[3]胡竹菁.推理心理研究中的邏輯加工與非邏輯加工評析[J].心理科學,2002.