肖麗麗 谷繼品 翟曉 張健鑫 郭曉嫻



摘? ?要:在實際工程應用中,通過對設備的定期檢查維修,經常會收集到包含區間刪失的失效時間數據。本文在總體分布為指數分布、等長區間刪失的情況下,對比分析了三種確定失效時間的方法。利用極大似然估計,通過MATLAB編程實現算法,得到關于總體的分布參數的點估計值和區間估計值,在文中定義的衡量準則下,給出了實際應用中選取適合方法的依據。
關鍵詞:區間刪失? 指數分布? 參數估計? 區間估計
中圖分類號:TB114.3? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)06(b)-0016-03
Abstract: In practical engineering application, through the regular inspection and maintenance of the equipment, the failure time data including interval deletion is often collected. In this paper, three methods to determine the failure time are compared and analyzed in the case of exponential distribution and equal length interval deletion. Using the maximum likelihood estimation and MATLAB programming to realize the algorithm, the point estimation and interval estimation of the overall distribution parameters are obtained. Under the measurement criteria defined in this paper, the basis for selecting the appropriate method in practical application is given.
Key Words: Interval-censored; Exponential distribution; Parameter estimation; Interval estimation
隨著科學技術的發展,產品可靠性得到越來越多的重視。人們對產品的可靠性要求也越來越高。對于高可靠性、長壽命的產品進行可靠性試驗時,由于時間和經費的限制,未必總能實時觀測到失效或有自動記錄失效的裝置,無法得到完全數據,這樣到的數據稱為刪失數據。
如果用定時測試的方法來記錄失效個數,只能知道產品在某一個區間內是否失效,而無法得到具體的失效時間,即區間刪失數據;在實際的工程應用中,通過定期檢查維修比較容易收集區間刪失數據。
目前有大量關于區間刪失數據統計研究方面的文獻或綜述[1-3],在不同模型或不同假設下都有一些有意義的結果。
本文針對總體為指數分布的特殊情況,在等長間隔測試時出現區間刪失數據的情況下,分析比較了三種常用的確定失效時間的方法,通過Monte Carlo 模擬,利用極大似然估計(MLE)計算,給出在實際中應用中適宜選取哪種方法的結論。
1? 模型假設
假設總體分布為指數分布,即分布函數為:
隨機抽取n個樣品進行試驗,測試時間為,在第i個時間間隔中失效的個數為ri,,失效總數為。
2? 分析方法
目前常用的處理區間刪失數據的方法有秩回歸和MLE。作為一個經驗法則,小樣本并且多數都是完全數據的情況下,可用秩回歸,而MLE更適用于比較大比例的刪失、區間數據或者很多失效數據。
使用MLE時,一個關鍵問題是如何確定失效時間,常用的方法有三種,分別介紹如下:
方法1:保守估計,記在中失效產品的失效時間為 ,這樣區間刪失數據轉化為無替換定時截尾數據,總試驗時間為,利用文獻中關于無替換定時截尾數據參數估計的相應結論[4],通過極大似然估計得到的估計值為
在置信水平1-α下,失效率的單側置信上限為:
在置信水平1-α下,失效率的雙側置信限為:
方法2:采用GB 2689.1-81[5]中規定的失效時間確定方法:在第i個時間間隔中第j個產品失效時間確定為:,同樣,將區間刪失數據轉化為無替換定時截尾數據,則總試驗時間為,用T2替代方法1中的T1,則得到的點估計值;在置信水平1-α下,失效率的單側置信上限;在置信水平1-α下,失效率的雙側置信限、。
方法3:采用文獻[4]中給出的定時間隔測試試驗的參數估計方法,不指定各個失效產品的具體失效時間,直接寫出極大似然函數:
在等間隔測試的特殊情況下,即,,將上面似然函數取對數后求導,令其導數為0,可求得的估計值為:
在置信水平1-α下,失效率的單側置信上限為:
在置信水平1-α下,失效率的雙側置信限為:
其中,。
3? 對比分析
為了比較三種方法,首先需要定義衡量準則。由于點估計是用一個統計量的樣本值去估計參數值,不同的樣本給出的點估計值是不同的,定義估計值與真實值之間的相對比值:,相對比值越小,估計值越接近真實值。
關于區間估計,在給定的置信水平α下區間長度越短說明對參數的估計越準確。單側置信區間估計只需要比較置信上限值的大小;雙側置信區間則比較區間長度:。
采用Monte Carlo 模擬方法,隨機生成50個服從參數為的指數分布的數據,記為,將生成的完全數據處理成區間刪失數據,在保證最后一個測試區間還有未失效產品的前提下(若從之前某個區間開始所有產品都已失效,則不需要繼續做試驗),區間長度及區間個數可任意指定。本文采用的總測試區間為,區間個數為10。針對置信水平進行1000次計算,每次都計算相應的點估計值、單側置信上限、雙側置信限,再對1000次計算值取均值,然后求點估計的相對比值及雙側置信區間長度,通過MATLAB編程實現上面算法,計算結果如表1~3所示。
從上面3個表格可以看出:方法3的點估計值計算結果與真實值更接近;對于區間估計,無論是單側置信上限,還是雙側置信區間長度,方法2都是最優的;針對同一組數據,方法2計算的點估計值都比方法3計算值偏小。
4? 結論
實際應用中,如果關注的是未知參數的點估計值,推薦使用方法3,即不指定各個失效產品的具體失效時間,直接用MLE計算;如果關注的是區間估計值,則更推薦使用方法2,認為產品的失效時間在測試間隔中平均分布。
參考文獻
[1] Debanjan Mitra,Ujjwal Das,Kalyan Das. Analysis of interval-censored competing risks data under missing causes[J]. Journal of Applied Statistics,2020,47(3):439-459.
[2] Jason Abrevaya,Chris Muris. Interval? censored regression with fixed effects[J]. Journal of Applied Econometrics, 2020, 35(2):198-216.
[3] Gao Fei,Chan Kwun Chuen Gary. Semiparametric regression analysis of length-biased interval-censored data[J]. Biometrics,2019,75(1):121-132.
[4] 趙宇. 可靠性數據分析 [M]. 北京:國防工業出版社,2011.
[5] GB 2689.1-81 恒定應力壽命試驗和加速壽命試驗方法總則[S]. 北京:國家標準總局, 1981.
作者簡介:肖麗麗(1984—),女,漢族,黑龍江黑河人,博士,副研究員,研究方向:可靠性設計與分析。