SAS、PASS、Stata三種常用軟件樣本量計算方法及結果差異的比較

2015-08-06 07:54:02林潔孫志明

中國醫藥導報 2015年18期

林潔孫志明

[摘要] 目的分析和探討運用SAS、PASS、Stata 3種軟件在兩均數（率）比較中進行樣本量估計的結果差異，推薦合適的樣本量估計軟件。方法通過設定不同的參數情況，分別運用3種軟件計算各自樣本量，并且與公式計算結果進行比較。結果在兩均數比較時，Stata和PASS的樣本量估計結果最準確，不同的參數會影響SAS的結果；在兩個率比較時，SAS最準確，PASS的準確性與樣本量大小有關系，Stata結果偏大且受不同參數的影響。結論不同軟件計算結果并不一致，綜合考慮推薦用SAS軟件進行兩樣本均數（率）比較的樣本量估計。

[關鍵詞] 樣本量估計；SAS；PASS；Stata

[中圖分類號] R181 [文獻標識碼] A [文章編號] 1673-7210（2015）06（c）-0133-05

樣本量（sample size）是指承受研究實施的樣本所包含之觀察單位數，或樣本例數。除個別設計方法外，在研究設計中必須確定需要多少實驗對象或觀察對象。樣本量對研究效果有重要影響，在小樣本研究中尤其如此[1]。一系列規范的的醫學研究報告，如加強觀察性流行病學研究報告質量的聲明和臨床試驗報告統一標準等均要求在研究報告中描述“如何計算樣本含量”[2-6]。開展一項研究，往往因為各種因素（人力、物力、經費等）限制，只能對總體中的一部分進行研究，即研究樣本，然后由樣本統計量推斷總體參數。樣本過小，結果不穩定，不能真實地反映總體規律；而樣本量過大，會增大研究的難度，并造成人力、物力的浪費[7]。所以合理的樣本量，一方面，可以在既定的經費下保證精確度和可靠性；另一方面，可以在既定的精確度和可靠性合理利用資源，保證抽樣推斷的最大效果。

目前可以用于估計樣本含量的軟件很多，其中較常用的有SAS、Stata、PASS等。SAS是由美國北卡羅來納州立大學1966年開發的統計分析軟件，在國際上被譽為統計分析的標準軟件，在各個領域得到了廣泛應用[8]；Stata是Statacorp于1985年開發的統計程序，在全球范圍內被廣泛應用于經濟學、社會學及流行病學等領域；PASS是由Hintze等人研發，專門用于計算樣本量的統計軟件，操作簡便快捷。然而各軟件計算結果是否一致，研究者該選擇何種類型的樣本量計算軟件是研究中亟待解決的實際問題。本次研究的主要目的是以計算兩均數（率）之差的樣本量為例來比較SAS、Stata、PASS 3種軟件的結果差異，探討各軟件計算樣本量的優缺點。

1 資料與方法

1.1 兩均數比較

1.1.1樣本量計算公式

兩均數比較時，樣本量取決于以下4個條件：①假設檢驗的第Ⅰ類錯誤α；②假設檢驗的第Ⅱ類錯誤β，或檢驗效能1-β；③兩總體均數之差δ；④σ總體標準差[9-11]。假設兩組樣本量相等，所需樣本量可由下式估計：

1.1.2 參數設置

根據公式（1）假設第Ⅰ類錯誤α=0.10，0.05，0.01；檢驗效能1-β=0.80，0.90，0.95；組1總體均數μ1=1，兩總體均數之差δ=0.10，0.20，0.30…，2.0；總體標準差σ=1；雙側檢驗。

1.1.2.1 SAS 9.3程序：

procpower；

twosamplemeans

meandiff=0.1 0.20.3 0.4 0.8 1.2 1.6 2

stddev=1

groupweights=（11）

power=0.8 0.9 0.95

alpha=0.01 0.05 0.1

ntotal=.；

run；

1.1.2.2 Stata10 命令：

sampsi 1.1 1，a（0.1） power（0.8） sd1（1）

不同參數下，Stata命令語句類似，只需替換sampsi命令后面的兩組均數值，以及第Ⅰ類錯誤α、檢驗效能power和組1標準差sd1括號里的值。

1.1.2.3 PASS 11主菜單選擇 PASS 11關于兩均數比較樣本量估計的參數設置主菜單選擇見圖1。

1.2 兩個率比較

比較兩樣本率的目的是推斷它們各自所代表的總體率是否相等。

1.2.1 樣本量計算公式兩個率比較

樣本量取決于以下3個條件：①假設檢驗的第Ⅰ類錯誤α；②假設檢驗的第Ⅱ類錯誤β，或檢驗效能1-β；③兩總體率p1，p2[9-11]。假設兩組樣本量相等，所需樣本量可由下式估計：

1.2.2 參數設置

根據公式（2）假設第Ⅰ類錯誤α=0.10，0.05，0.01；檢驗效能 1-β=0.80，0.90，0.95；兩總體率p2=0.10，Δp=0.025，0.05，0.10，…，0.80；雙側檢驗。

1.2.2.1 SAS 9.3程序[12]：

procpower；

twosamplefreq

groupweights=（11）

pdiff=0.025 0.05 0.10.20.30.40.50.60.70.8

refproportion=0.1

power=0.80.90.95

alpha=0.100.050.01

ntotal=.；

run；

1.2.2.2 Stata 10 命令：

sampsi0.1250.1，a（0.1）power（0.8）

不同參數下，Stata命令語句類似，只需替換sampsi命令后面的兩個率的值，以及第Ⅰ類錯誤α、檢驗效能power括號里的值。

1.2.2.3 PASS 11主菜單選擇 PASS 11關于兩個率比較樣本量估計的參數設置見圖2。

2 結果

2.1 兩均數比較的樣本量估計結果

通過給參數α、β和δ/σ賦予不同的取值，分別運用3種軟件和公式計算得出的兩均數比較樣本量估計結果，見表1。

從表1中可以看出，無論第Ⅰ類錯誤（α）、檢驗效能（1-β）以及總體均數之差與總體標準差的比值（δ/σ）如何變化，Stata估計的樣本量與公式計算結果完全一致。PASS的結果與公式計算也基本結果一致，但發現α=0.05或0.1，1-β=0.80，δ/σ=4.0時，公式計算的樣本量為1，而PASS為2，可能是因為通過PASS軟件估計的樣本量最小值為2，為了驗證這一假設，于是增大δ/σ至1000，發現PASS的結果仍為2，于是可得結論PASS估計的樣本量下限為2。SAS的結果略大于其他3種方法，發現當α和1-β一定時，隨著δ/σ的增大，樣本量增加的幅度有增大趨勢；當α和δ/σ一定時，隨著1-β的增大，樣本量增加的幅度有減小趨勢；當1-β和δ/σ一定時，增幅隨α變化的趨勢不明顯。通過模擬發現，SAS僅比公式多出1、2例，所以可以忽略。

2.2 兩個率比較的樣本量估計結果

通過給參數α、β和Δp賦予不同的取值，分別運用3種軟件和公式計算得出的兩個率比較的樣本量估計結果，見表2。

從表2中可以看出，無論第Ⅰ類錯誤（α）、檢驗效能（1-β）以及率差（Δp）如何變化，SAS估計的樣本量與公式計算結果完全一致。當所得樣本量≥117時，發現PASS與公式計算結果一致；當樣本量≤101時，PASS結果比公式略小。而Stata計算出的樣本量則較大，發現當α和1-β一定時，隨著Δp的增大，樣本量增加的幅度有增大趨勢；當α和Δp一定時，隨著1-β的增大，樣本量增加的幅度有減小趨勢；當1-β和Δp一定時，隨著α的增大，樣本量增加的幅度有增大的趨勢。

綜上所述，在兩均數比較時，Stata和PASS樣本量估計結果最準確，不同的參數設置會影響SAS的計算結果；在兩個率比較時，SAS最準確，PASS的準確性與樣本量大小有關系，Stata結果偏大且受不同參數的影響。

3 討論

本文對兩種常見研究類型的樣本量估計進行了比較，發現3種軟件計算結果并不完全一致。SAS在兩個率比較時得出的樣本量準確性最高，而在兩均數比較時得出的樣本量略大，但經模擬實驗發現，無論將參數進行何種組合設置，結果發現每組結果僅比公式多出1、2例，這對實際的樣本收集影響不大；PASS和Stata在估計兩均數比較樣本量時準確性最高，但PASS在估計兩個率比較的樣本量時，當樣本量低于100左右時，會低估樣本量，無形的降低了檢驗效能；相反Stata則高估樣本量，可能會增加實際樣本收集的難度，同樣也會增加研究成本，尤其是當每例樣本的成本較大時更為明顯。因此，在實際運用中，推薦運用SAS進行這兩種類型的樣本量估計，而對于其他研究類型，將在后續研究中進行探討。

以上樣本含量的研究是基于理論之上，而實際研究中，樣本量的估計還要考慮研究中面臨的一些實際問題，如研究對象的選擇、完成研究所需的經費等成本問題。除此之外，還需要考慮研究對象的依從性和失訪等因素，通常會將樣本量增大20%左右。倫理也是在確定樣本量時必須考慮的因素，如果確定了較大的樣本量，但實際效果不明顯，或為達到所需的研究結果，在較長期限內讓研究對象承受生理上的不適。這些都是需要研究者權衡的因素[13-15]。

[參考文獻]

[1] 陸守曾，陳峰.醫學統計學[M].北京：中國統計出版社，2009：166-170.

[2] Begg C，Cho M，Eastwood S，et al. Improving the quality of reporting of randomized controlled trials. The CONSORT statement [J]. JAMA，1996，276：637-639.

[3] 王波，詹思延.觀察性流行病學研究報告規范——STROBE介紹[J].中華流行病學雜志，2006，27（6）：547-549.

[4] 陳茹，段芳芳，詹思延.如何撰寫高質量的流行病學研究論文第二講分子流行病學研究報告規范—STROBE—ME介紹[J].中華流行病學雜志，2013，34（7）：740-744.

[5] 林小燕，蘇文亮，方曉義.CONSORT標準評價心理學隨機對照研究報告的質量——以國內網絡成癮干預研究為例[J].中國心里衛生雜志，2013，27（12）：883-889.

[6] 盛曉陽.參照CONSORT2010聲明撰寫平行對照隨機臨床研究論文[J].臨床兒科雜志，2013，31（2）：198-200.

[7] 董芬，李超，彭曉霞，等.臨床研究中樣本含量計算的意義、計算方法及注意事項[J].中國卒中雜志，2009，4（10）：854-859.

[8] 朱世武.SAS編程技術教程[M].北京：清華大學出版社，2007：1.

[9] 金丕煥，鄧偉.優效性、等效性和非劣效性試驗的統計檢驗和樣本大小的估計[M].上海：復旦大學出版社，2004：86-92.

[10] 吳興，李嬋娟，丁伯福，等.兩均數比較的有效性臨床試驗樣本量估計[J].數理醫學雜志，2013，26（5）：517-519.

[11] 李嬋娟，蔣志偉，王銳，等.隨機對照藥物臨床試驗樣本量估計[J].中國臨床藥理學與治療學，2011，16（10）：1132-1136.

[12] 朱玲湘，唐欣然，段重陽.樣本量估計及其在nQuery和SAS軟件上的實現——率的比較（五）[J].中國衛生統計，2013，（1）：146-149.

[13] Sakpal T. Sample size estimation in clinical trail [J]. PerspectClin Res，2010，1（2）：67-69.

[14] 李雪迎.臨床研究樣本量的統計學估算[J].中國介入心臟病學雜志，2014，（7）：430-430.

[15] Billoir E，Navratil V，Blaise BJ. Sample size calculation in metabolic phenotyping studies [J]. Bridf Bioinform，2015，19：1-8.

（收稿日期：2015-03-15 本文編輯：程銘）

中國醫藥導報2015年18期

中國醫藥導報的其它文章: 慢性應激狀態對老年性骨質疏松癥影響的實驗研究; 液基薄層制片技術制作外周血淋巴細胞涂片方法學的建立及免疫組化染色應用; 連續性血液濾過對重癥胰腺炎患者的影響; 黃芪皂苷對小鼠化療貧血模型白介素—2、白介素—4和白介素—6的影響; 布地奈德吸入劑及其聯合口服緩釋茶堿治療支氣管哮喘的效果; 膽囊炎合劑主要藥效學研究