吳宇桐 蔡霞 陳亞慧



摘要:顯著效應(yīng)識(shí)別是部分因析設(shè)計(jì)中一個(gè)非常重要的研究?jī)?nèi)容, 但按照傳統(tǒng)方法識(shí)別出的交互作用項(xiàng)往往很難解釋。在傳統(tǒng)分析方法的基礎(chǔ)上, 結(jié)合LASSO方法, 本文提出一種在三水平部分因析設(shè)計(jì)中條件主效應(yīng)的變量選擇方法, 并將其與傳統(tǒng)方法做了分析比較。結(jié)果表明, 基于LASSO回歸的條件主效應(yīng)分析方法得到的模型項(xiàng)數(shù)更少, p值更小, 擬合程度更高, 選取的條件主效應(yīng)項(xiàng)更容易解釋。
關(guān)鍵詞:試驗(yàn)設(shè)計(jì);條件主效應(yīng);LASSO回歸;變量選擇;部分因析設(shè)計(jì)
中圖分類號(hào):O212.6文獻(xiàn)標(biāo)志碼:A文章編號(hào): 1001-2443(2023)06-0511-05
部分因析設(shè)計(jì)是工業(yè)、農(nóng)業(yè)、生物等領(lǐng)域中最常用的工具之一,近年來,得到了許多學(xué)者和專家的廣泛關(guān)注[1-6]。基于二水平部分因析設(shè)計(jì),Wu首次提出將條件主效應(yīng)(Conditional Main Effect, 簡(jiǎn)記為CME)替代交互作用作為變量選擇的基礎(chǔ)函數(shù)[7]。CME的提出不僅解決了二水平部分因析設(shè)計(jì)中的別名問題, 還在實(shí)際應(yīng)用中有很好的工程解釋[8]。Su和Wu根據(jù)CME的定義和性質(zhì),給出二水平部分因析設(shè)計(jì)中重要因子識(shí)別的分析策略[9]。Mak和Wu基于CME coupling和CME reduction兩個(gè)原則提出二水平部分因析設(shè)計(jì)中CME變量選擇的新方法:cmenet。與傳統(tǒng)的交互作用分析方法相比,cmenet變量選擇法可以得到更簡(jiǎn)潔的模型和更高的預(yù)測(cè)精度[10]。但是,到目前為止,有關(guān)三水平部分因析設(shè)計(jì)中CME變量選擇的方法在國(guó)內(nèi)外很少有人研究。
在三水平部分因析設(shè)計(jì)中,Picinbono和Devaut引入了線性-二次系統(tǒng)的概念,證明了線性-二次系統(tǒng)的最優(yōu)檢測(cè)和最優(yōu)估計(jì)之間存在著很強(qiáng)的關(guān)系[11]。Sabbaghi等人指出,可以利用線性-二次系統(tǒng)來構(gòu)建指標(biāo)函數(shù),應(yīng)用于研究三水平部分因析設(shè)計(jì)的別名問題,引入了一個(gè)代數(shù)運(yùn)算來計(jì)算指標(biāo)函數(shù)的系數(shù),有助于為交互作用的可估性建立簡(jiǎn)單條件[12]。在國(guó)內(nèi),劉長(zhǎng)玉利用了線性-二次系統(tǒng)將CME分析推廣到三水平定量因子上,并根據(jù)效應(yīng)之間的關(guān)系給出了CME分析策略[13]。
本文把三水平部分因析設(shè)計(jì)中CME分析看作變量選擇問題,利用LASSO回歸篩選出顯著效應(yīng)。LASSO不僅有稀疏矩陣的有利特性,還可以實(shí)現(xiàn)龐大變量數(shù)目下的變量選擇,廣泛地應(yīng)用在各種統(tǒng)計(jì)模型中[14-18]。LASSO回歸可以處理變量數(shù)目遠(yuǎn)遠(yuǎn)超過運(yùn)行數(shù)的試驗(yàn)設(shè)計(jì),相比于壓縮變量的嶺回歸,其表現(xiàn)更為出色[19]。三水平部分因析設(shè)計(jì)中CME變量選擇在實(shí)際問題中有很大的研究意義。本文在三水平部分因析設(shè)計(jì)中基于條件主效應(yīng)去構(gòu)造新的效應(yīng)組,利用LASSO回歸對(duì)新的效應(yīng)組進(jìn)行變量選擇,進(jìn)而給出一個(gè)新的CME變量選擇方法。
本文的組織結(jié)構(gòu)如下:第一節(jié)給出三水平部分因析設(shè)計(jì)中CME的定義,第二節(jié)基于LASSO回歸提出新的CME變量選擇方法,第三節(jié)給出兩個(gè)三水平部分因析設(shè)計(jì)的實(shí)例來具體闡述所提出的變量選擇方法,并與現(xiàn)有的CME變量選擇方法進(jìn)行比較進(jìn)而說明基于LASSO回歸的CME變量選擇方法的有效性,第四節(jié)總結(jié)全文,并提出未來的研究方向。
2 基于LASSO回歸的CME分析方法
第一節(jié)給出了三水平部分因析設(shè)計(jì)中CME的定義,本節(jié)首先選擇主效應(yīng)和條件主效應(yīng)來建立模型矩陣,再利用LASSO回歸進(jìn)行變量選擇,進(jìn)而構(gòu)建一個(gè)新的模型。首先介紹LASSO 回歸的選擇準(zhǔn)則。
3.2 瞬時(shí)制動(dòng)試驗(yàn)
考慮一個(gè)含有四個(gè)因子的[34-1]設(shè)計(jì),定義關(guān)系為[I=ABCD2]。四個(gè)因子均為三水平因子,取值分別為: 卷曲機(jī)的水壓(A)為1100,1400 和1700磅,模板的位置(B)為10.0,10.2和10.4毫米,卷曲的長(zhǎng)度(C)為18,23和27毫米,制動(dòng)位置(D)為P74,P75和P76。試驗(yàn)的目的是找到瞬時(shí)制動(dòng)的最小值,設(shè)計(jì)矩陣和瞬時(shí)制動(dòng)數(shù)據(jù)見文獻(xiàn)[1]。
試驗(yàn)中,因子A,B和C是定量因子,因子D是定性因子。根據(jù)第二節(jié)基于LASSO 回歸的CME變量選擇策略,用對(duì)照[Al]和[Aq],[Bl]和[Bq],[Cl]和[Cq]分別作為定量因子A,B和C的主效應(yīng),用[D01],[D02] 和[D12]作為定性因子D的主效應(yīng)。由表3 可知,一共有81個(gè)條件主效應(yīng),將所有主效應(yīng)和條件主效應(yīng)的對(duì)照作為候選變量建立初始模型,根據(jù)交叉驗(yàn)證得到[λ=0.111],識(shí)別出以下模型:
[y=13.666+0.749Al-0.252Cl+0.384Al|C0+0.273Bl|A1-0.581Cl|A2-0.171Cl|B2-0.306Cl|D2+0.209Cq|B1 。]
LASSO回歸的詳細(xì)分析結(jié)果見表5,此時(shí)模型的[R2]值為0.967,p值為3.62e-13,此時(shí)模型的擬合優(yōu)度很好,選擇出來的變量也很顯著。并且識(shí)別后的模型只有8項(xiàng),與含有81項(xiàng)的原始模型相比,此時(shí)的模型更簡(jiǎn)潔。
4 結(jié)論
本文基于LASSO回歸的思想提出一種三水平部分因析設(shè)計(jì)的CME 變量選擇方法,首先寫出全部效應(yīng)項(xiàng)的對(duì)照向量,用定量因子和定性因子的所有主效應(yīng)和條件主效應(yīng)建立初始模型,再基于LASSO 回歸識(shí)別出重要的效應(yīng)項(xiàng)。實(shí)例研究表明,本文提出的CME變量選擇策略得到的最終模型的擬合度高,相比于現(xiàn)有的CME 分析策略無論是擬合度還是顯著性均有了很大的提高。除此之外,條件主效應(yīng)比交互作用有更好的工程解釋。
然而,到目前為止,有關(guān)高水平部分因析設(shè)計(jì)的條件主效應(yīng)分析的研究還較少,可以將當(dāng)前的設(shè)計(jì)推廣到混合水平的部分因析設(shè)計(jì)。還可以考慮將提出的方法適用于壽命試驗(yàn)中,這是我們將來的研究方向。
參考文獻(xiàn):
[1]WU C F J, HAMADA M S. Experiments: Planning, Analysis, and Optimization[M]. New York: Wiley, 2021: 267-317.
[2]CHENG C S. Theory of Factorial Design[M]. Leiden: Chapman and Hall/CRC, 2016: 15-79.
[3]GUNST R F, MASON R L. Fractional factorial design[J]. Wiley interdisciplinary reviews: computational statistics, 2009, 1(2): 234-244.
[4]VAN GERREWEY T, AMELOOT N, NAVARRETE O, et al. Microbial activity in peat-reduced plant growing media: Identifying influential growing medium constituents and physicochemical properties using fractional factorial design of experiments[J]. Journal of Cleaner Production, 2020, 256: 120323.
[5]WAKJIRA T G, NEHDI M L, EBEAD U. Fractional factorial design model for seismic performance of RC bridge piers retrofitted with steel-reinforced polymer composites[J]. Engineering Structures, 2020, 221: 111100.
[6]ELAZAZY M S, ISSA A A, AL-MASHREKY M, et al. Application of fractional factorial design for green synthesis of cyano-modified silica nanoparticles: Chemometrics and multifarious response optimization[J]. Advanced Powder Technology, 2018, 29(5): 1204-1215.
[7]WU C F J. Post-Fisherian experimentation: from physical to virtual[J]. Journal of the American Statistical Association, 2015, 110(510): 612-620.
[8]MONTGOMERY D C. Design and analysis of experiments[M]. New York: John Wiley and Sons, 2017: 33-60.
[9]SU H, WU C F J. CME analysis: a new method for unraveling aliased effects in two-level fractional factorial experiments[J]. Journal of Quality Technology, 2017, 49(1): 1-10.
[10]MAK S, WU C F J. Cmenet: a new method for bi-level variable selection of conditional main effects[J]. Journal of the American Statistical Association, 2019, 114(526): 844-856.
[11]PICINBONO B, DEVAUT P. Optimal linear-quadratic systems for detection and estimation[J]. IEEE Transactions on Information Theory, 1988, 34(2): 304- 311.
[12]SABBAGHI A, DASGUPTA T, WU C F J. Indicator functions and the algebra of the linear-quadratic parametrization[J]. Biometrika, 2014, 101(2): 351-363.
[13]劉長(zhǎng)玉. 高水平因子的條件主效應(yīng)分析[D]. 曲阜:曲阜師范大學(xué),2019.
[14]TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1996, 58(1): 267-288.
[15]TIBSHIRANI R. The lasso method for variable selection in the Cox model[J]. Statistics in Medicine, 1997, 16(4): 385-395.
[16]HANS C. Bayesian lasso regression[J]. Biometrika, 2009, 96(4): 835-845.
[17]ALHAMZAWI R, ALI H T M. The bayesian adaptive lasso regression[J]. Mathematical Biosciences, 2018, 303: 75-82.
[18]WU L, ZHOU B, LIU D, et al. Lasso regression-based diagnosis of acute st-segment elevation myocardial infarction (stemi) on electrocardiogram (ecg)[J]. Journal of Clinical Medicine, 2022, 11(18): 5408.
[19]WU T T, LANGE K. Coordinate descent algorithms for lasso penalized regression[J]. The Annals of Applied Statistics, 2008, 2(1): 224-244.
[20]FRIEDMAN J, HASTIE T, TIBSHIRANI R. Regularization paths for generalized linear models via coordinate descent[J]. Journal of Statistical Software, 2010, 33(1): 1-22.
Variable Selection of Conditional Main Effect in the three-Level Fractional Factorial Designs
WU Yu-tong,CAI Xia,CHEN Ya-hui
(School of Science, Hebei University of Science and Technology, Shijiazhuang? 050018, China)
Abstract:Significant factor identification is a very important study in fractional factorial designs, but the interaction terms identified according to the traditional method are often difficult to interpret. Combined with the LASSO method, this paper proposes a variable selection method for conditional main effect in a three-level fractional factorial design. The results show that the conditional main effect analysis method based on LASSO regression yields fewer model terms, smaller p-values, better fit, and the selected conditional main effect terms are easier to explain.
Key words:experimental design; conditional main effect; LASSO regression; variable selection; fractional factorial design
(責(zé)任編輯:馬乃玉)
收稿日期: 2022-11-09
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(12001155);河北省自然科學(xué)基金項(xiàng)目(A2022208001).
作者簡(jiǎn)介:吳宇桐(1995—),女,河北承德市人,滿族,碩士研究生,研究方向?yàn)樵囼?yàn)設(shè)計(jì);通訊作者:蔡霞(1982—),女,河北石家莊市人,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)閿?shù)理統(tǒng)計(jì)、試驗(yàn)設(shè)計(jì),E-mail:caixiasjz@163.com.
引用格式:吳宇桐,蔡霞,陳亞慧.三水平部分因析設(shè)計(jì)中條件主效應(yīng)的變量選擇[J].安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,46(6):511-515.