程 雷 ,肖光梁,程 攀,姚 文,單振宇
(1.丹東市氣象局,遼寧 丹東 118000;2.遼寧省氣象災(zāi)害監(jiān)測(cè)預(yù)警中心,遼寧 沈陽(yáng) 110116;3.營(yíng)口市氣象局,遼寧 營(yíng)口 115001)
由于電子產(chǎn)品、探測(cè)設(shè)備、監(jiān)控系統(tǒng)等逐漸向信息化、現(xiàn)代化、集成化方向發(fā)展,計(jì)算機(jī)數(shù)據(jù)處理技術(shù)的飛速提升,使得這些先進(jìn)技術(shù)在多普勒天氣雷達(dá)系統(tǒng)中的應(yīng)用取得了極為顯著的效果[1]。多普勒天氣雷達(dá)的安全穩(wěn)定運(yùn)行和維修保障體系就是這些先進(jìn)技術(shù)成果運(yùn)用的重要體現(xiàn)[2-3]。一般情況下,多普勒天氣雷達(dá)依靠技術(shù)人員對(duì)軟硬件知識(shí)和維修保障能力解決基本故障,以保障設(shè)備的持續(xù)、平穩(wěn)運(yùn)行;但由于多普勒天氣雷達(dá)對(duì)工作環(huán)境有較高的要求,很容易受到溫度、濕度和同頻干擾等因素影響,導(dǎo)致發(fā)射機(jī)、接收機(jī)及天線等故障且以致圖像異常,而一旦多普勒天氣雷達(dá)發(fā)生故障沒(méi)有及時(shí)診斷和修復(fù),就會(huì)影響多普勒天氣雷達(dá)系統(tǒng)的安全運(yùn)行[4];特別是在多普勒天氣雷達(dá)出現(xiàn)較為嚴(yán)重的故障時(shí),還需要查找故障碼,配合廠家專(zhuān)業(yè)技術(shù)人員進(jìn)行故障診斷和定位,確保及時(shí)修復(fù),以保障多普勒天氣雷達(dá)數(shù)據(jù)的利用率。
因此,研究開(kāi)發(fā)一種有效的算法用于快速、準(zhǔn)確挖掘出多普勒天氣雷達(dá)系統(tǒng)故障,及時(shí)對(duì)故障進(jìn)行修復(fù),確保多普勒天氣雷達(dá)系統(tǒng)的可使用性以及可靠性。目前,用于多普勒天氣雷達(dá)故障挖掘的算法還存在一些不足,主要表現(xiàn)在以下幾個(gè)方面:故障挖掘率較低;故障挖掘準(zhǔn)確性不高;故障誤挖率和漏挖率較高[5]。
本文利用關(guān)聯(lián)規(guī)則挖掘技術(shù)支持間接數(shù)據(jù)挖掘的優(yōu)點(diǎn),對(duì)丹東多普勒天氣雷達(dá)等臺(tái)站保障系統(tǒng)中的故障數(shù)據(jù)進(jìn)行處理和分析,構(gòu)建了多普勒天氣雷達(dá)故障挖掘模型,以實(shí)現(xiàn)多普勒天氣雷達(dá)各種類(lèi)型故障的準(zhǔn)確挖掘。
關(guān)聯(lián)規(guī)則挖掘主要包括以下2個(gè)步驟:將事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集一一找到,預(yù)先設(shè)定的關(guān)聯(lián)規(guī)則算法的最小支持度(Supportmin)小于等于事務(wù)數(shù)據(jù)庫(kù)中的這些項(xiàng)集出現(xiàn)的頻繁性;由事務(wù)數(shù)據(jù)庫(kù)頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,即這些強(qiáng)關(guān)聯(lián)規(guī)則必須滿足預(yù)先設(shè)定的最小支持度Supportmin和最小置信度Confidencemin。
在多普勒天氣雷達(dá)故障挖掘過(guò)程中,將會(huì)用到關(guān)聯(lián)規(guī)則的一些相關(guān)定義和定理[6-7]。
定義1:假設(shè)多普勒天氣雷達(dá)故障事務(wù)數(shù)據(jù)集D中包括頻繁項(xiàng)集X的事務(wù)數(shù)被稱(chēng)作X的支持?jǐn)?shù),可以用|X|表示,則可得X的支持率計(jì)算公式為
(1)
|D|表示多普勒天氣雷達(dá)故障事務(wù)數(shù)據(jù)集D中包含的事務(wù)數(shù)。如果Support(X)大于等于最小支持度Supportmin,則說(shuō)明X為多普勒天氣雷達(dá)故障事務(wù)數(shù)據(jù)庫(kù)的頻繁項(xiàng)集。


(2)
定義3:根據(jù)上述計(jì)算可得多普勒天氣雷達(dá)故障關(guān)聯(lián)規(guī)則的置信度為
(3)


(4)

(5)
定理1:如果X和Y均表示多普勒天氣雷達(dá)故障事務(wù)數(shù)據(jù)庫(kù)項(xiàng)集,且滿足X?Y,則有
Support(X)≥Support(Y)
(6)
根據(jù)上述計(jì)算可知,如果X是多普勒天氣雷達(dá)故障事務(wù)數(shù)據(jù)庫(kù)非頻繁項(xiàng)集,則Y也是;如果X是多普勒天氣雷達(dá)故障事務(wù)數(shù)據(jù)庫(kù)頻繁項(xiàng)集,則Y也是。
關(guān)聯(lián)規(guī)則支持率與置信度決定了多普勒天氣雷達(dá)故障挖掘的有效性,以及最終檢測(cè)判斷結(jié)果的可信度,二者的閾值選取通常根據(jù)相關(guān)領(lǐng)域?qū)<乙约肮收贤诰蛘弑旧淼慕?jīng)驗(yàn)作為依據(jù)。
在實(shí)際收集得到的多普勒天氣雷達(dá)故障數(shù)據(jù)數(shù)量是非常龐大的,這些數(shù)據(jù)中通常存在著冗余和錯(cuò)誤、缺失等情況,為了盡可能降低故障挖掘時(shí)間消耗,提高挖掘精準(zhǔn)度,可以將收集到的多普勒天氣雷達(dá)故障數(shù)據(jù)集劃分成不同區(qū)域[8],具體劃分過(guò)程描述如下:
a.將多普勒天氣雷達(dá)故障數(shù)據(jù)集劃分成若干個(gè)單獨(dú)數(shù)據(jù)集,根據(jù)多普勒天氣雷達(dá)保障系統(tǒng)的維修時(shí)間,將多普勒天氣雷達(dá)保障系統(tǒng)故障數(shù)據(jù)庫(kù)全年數(shù)據(jù)按季度劃分,在各個(gè)季度多普勒天氣雷達(dá)故障數(shù)據(jù)庫(kù)中采集頻繁項(xiàng)集,并且只進(jìn)行1次檢索。
b.對(duì)各個(gè)季度多普勒天氣雷達(dá)故障數(shù)據(jù)頻繁項(xiàng)集進(jìn)行聚類(lèi)融合,獲得整個(gè)多普勒天氣雷達(dá)故障數(shù)據(jù)頻繁項(xiàng)集預(yù)備數(shù)據(jù)集。再進(jìn)行一次搜索,檢查預(yù)備數(shù)據(jù)集中是否還有有效的故障頻繁項(xiàng)集。
根據(jù)以上2個(gè)步驟可知,對(duì)多普勒天氣雷達(dá)故障數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘只需要對(duì)故障數(shù)據(jù)集進(jìn)行2次檢索,這樣不僅能夠降低故障挖掘時(shí)間消耗,而且能夠提高多普勒天氣雷達(dá)故障數(shù)據(jù)預(yù)處理效率。利用上述介紹的關(guān)聯(lián)規(guī)則基本原理、相關(guān)定義定理對(duì)多普勒天氣雷達(dá)故障數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,即可建立具體的挖掘流程。
多普勒天氣雷達(dá)保障系統(tǒng)的運(yùn)行狀態(tài)可以用于描述對(duì)應(yīng)的故障信息。對(duì)多普勒天氣雷達(dá)保障系統(tǒng)故障的判斷取決于故障出現(xiàn)的區(qū)域范圍。通常情況下,多普勒天氣雷達(dá)保障系統(tǒng)的故障發(fā)生時(shí)可以將上述處理好的故障數(shù)據(jù)劃分相應(yīng)的故障區(qū)域范圍。多普勒天氣雷達(dá)故障判斷過(guò)程需要構(gòu)建原始判斷表,利用構(gòu)建的原始判斷表中的各個(gè)項(xiàng)目描述相應(yīng)的多普勒天氣雷達(dá)故障特征[9]。假設(shè)多普勒天氣雷達(dá)系統(tǒng)故障事件有7個(gè),構(gòu)建故障事件初始判斷表為
Φ={H1,H2,H3,H4,H5,H6,H7}
(7)
H1、H2、H3、H4、H5、H6、H7分別代表多普勒天氣雷達(dá)站的發(fā)射機(jī)故障、接收機(jī)故障、天線系統(tǒng)故障、伺服系統(tǒng)故障、信號(hào)處理系統(tǒng)故障、監(jiān)控主機(jī)故障和多普勒天氣雷達(dá)站無(wú)故障。根據(jù)上述分析可知,如果預(yù)先設(shè)置的多普勒天氣雷達(dá)故障數(shù)據(jù)的關(guān)聯(lián)規(guī)則置信度閾值較小,則會(huì)產(chǎn)生效用較低的關(guān)聯(lián)規(guī)則,此時(shí)會(huì)增加多普勒天氣雷達(dá)故障挖掘時(shí)間消耗,大大降低故障信息檢索效率。只有形成高效率的故障數(shù)據(jù)關(guān)聯(lián)規(guī)則才能將數(shù)據(jù)庫(kù)中沒(méi)有價(jià)值的關(guān)聯(lián)規(guī)則濾除。為了盡可能避免這些情況的發(fā)生,在利用關(guān)聯(lián)規(guī)則進(jìn)行多普勒天氣雷達(dá)故障挖掘過(guò)程中,應(yīng)預(yù)先設(shè)置較小的關(guān)聯(lián)規(guī)則置信度閾值,同時(shí)利用相應(yīng)的排序算法對(duì)多普勒天氣雷達(dá)故障數(shù)據(jù)進(jìn)行預(yù)處理,以多普勒天氣雷達(dá)故障事件初始判斷表中的某一事件為例,其故障數(shù)據(jù)處理計(jì)算公式為:

(8)

(9)

(10)
zmin=15.3%;bmin=66%;μmin=1。其中,b、z、Q、W分別代表多普勒天氣雷達(dá)故障數(shù)據(jù)庫(kù)中需要進(jìn)行關(guān)聯(lián)項(xiàng)集的子集、發(fā)生故障數(shù)據(jù)關(guān)聯(lián)范圍、故障數(shù)據(jù)集的子集和發(fā)生故障數(shù)據(jù)關(guān)聯(lián)范圍的子集;zmin、bmin和μmin分別表示多普勒天氣雷達(dá)故障數(shù)據(jù)關(guān)聯(lián)范圍、關(guān)聯(lián)范圍子集的最小決策度和二者之間的相關(guān)系數(shù)。
根據(jù)上述計(jì)算即可實(shí)現(xiàn)多普勒天氣雷達(dá)故障信息的預(yù)處理。為了保證故障數(shù)據(jù)處理的有效性,可以設(shè)置多普勒天氣雷達(dá)故障存在誤差的故障特征信息,判斷關(guān)聯(lián)規(guī)則算法對(duì)故障數(shù)據(jù)處理的容錯(cuò)能力,便于及時(shí)作出調(diào)整。
在上述利用關(guān)聯(lián)規(guī)則算法對(duì)多普勒天氣雷達(dá)故障數(shù)據(jù)進(jìn)行預(yù)處理基礎(chǔ)上,構(gòu)建多普勒天氣雷達(dá)故障挖掘模型,模型主要包括2個(gè)部分:一部分用于挖掘已知多普勒天氣雷達(dá)故障類(lèi)型和導(dǎo)致故障的原因,利用關(guān)聯(lián)規(guī)則算法挖掘故障數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,最終獲得多普勒天氣雷達(dá)故障關(guān)聯(lián)規(guī)則庫(kù),根據(jù)規(guī)則庫(kù)中的關(guān)聯(lián)規(guī)則,對(duì)新收集的故障數(shù)據(jù)進(jìn)行檢測(cè)和故障類(lèi)型判斷,進(jìn)而找到導(dǎo)致故障的原因并及時(shí)排除;另一個(gè)部分用于挖掘未知的多普勒天氣雷達(dá)故障類(lèi)型和故障原因,通過(guò)挖掘一個(gè)時(shí)間窗口內(nèi)多普勒天氣雷達(dá)故障數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則生成故障數(shù)據(jù)關(guān)聯(lián)規(guī)則庫(kù),根據(jù)庫(kù)中已有的關(guān)聯(lián)規(guī)則對(duì)新采集獲得的故障數(shù)據(jù)進(jìn)行檢測(cè),能夠有效推理出后續(xù)可能會(huì)出現(xiàn)的新多普勒天氣雷達(dá)故障,通過(guò)預(yù)先采取措施能夠?qū)崿F(xiàn)多普勒天氣雷達(dá)故障的預(yù)測(cè)和預(yù)防。由此可知,多普勒天氣雷達(dá)故障挖掘模型主要由多普勒天氣雷達(dá)故障數(shù)據(jù)采集裝置、關(guān)聯(lián)規(guī)則挖掘裝置、故障數(shù)據(jù)關(guān)聯(lián)規(guī)則庫(kù)、多普勒天氣雷達(dá)故障檢測(cè)裝置和故障處理裝置5個(gè)部分組成。
利用上述構(gòu)建的挖掘模型進(jìn)行多普勒天氣雷達(dá)故障挖掘,具有以下優(yōu)點(diǎn):
a.利用關(guān)聯(lián)規(guī)則挖掘算法能夠準(zhǔn)確、及時(shí)地發(fā)現(xiàn)多普勒天氣雷達(dá)故障數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,對(duì)引起故障的故障源進(jìn)行高精度定位。
b.由于多普勒天氣雷達(dá)站中的故障數(shù)據(jù)存在著并存關(guān)系、因果關(guān)系等,一旦在系統(tǒng)正常運(yùn)行過(guò)程中發(fā)生故障,通過(guò)采用關(guān)聯(lián)規(guī)則算法就可以對(duì)多普勒天氣雷達(dá)故障進(jìn)行識(shí)別和預(yù)警,防止故障的進(jìn)一步惡化。
在MATLAB軟件環(huán)境下,采用Tennessee Eastman(TE)檢測(cè)數(shù)據(jù)集作為多普勒天氣雷達(dá)故障挖掘數(shù)據(jù)集進(jìn)行所提算法的性能測(cè)試。
多普勒天氣雷達(dá)系統(tǒng)沒(méi)有發(fā)生故障時(shí)的正常采樣數(shù)據(jù)幅值如圖1所示。

圖1 多普勒天氣雷達(dá)系統(tǒng)正常采樣數(shù)據(jù)幅值
在多普勒天氣雷達(dá)系統(tǒng)運(yùn)行了7 min、17 min、27 min和41 min時(shí),人工注入了多普勒天氣雷達(dá)故障數(shù)據(jù)。采用本文提出的關(guān)聯(lián)規(guī)則挖掘算法和目前研究比較成熟的神經(jīng)網(wǎng)絡(luò)挖掘算法,以及貝葉斯挖掘算法,對(duì)圖1中人工注入的多普勒天氣雷達(dá)故障數(shù)據(jù)進(jìn)行挖掘。各個(gè)算法的故障挖掘結(jié)果分別如圖2、圖3和圖4所示。

圖2 關(guān)聯(lián)規(guī)則挖掘算法的故障挖掘結(jié)果

圖3 神經(jīng)網(wǎng)絡(luò)挖掘算法的故障挖掘結(jié)果
根據(jù)圖2~圖4的對(duì)比結(jié)果可以發(fā)現(xiàn),采用神經(jīng)網(wǎng)絡(luò)算法并不能將多普勒天氣雷達(dá)系統(tǒng)運(yùn)行過(guò)程中人工注入的所有故障數(shù)據(jù)全部挖掘出來(lái);采用貝葉斯算法則只能將連續(xù)注入的部分即7 min、17 min、27 min和41 min時(shí)人工注入的多普勒天氣雷達(dá)故障數(shù)據(jù)挖掘出來(lái),置信度內(nèi)數(shù)據(jù)幅值明顯度較差,且誤會(huì)挖率和漏挖率較高,挖掘效果并不理想;而采用本文提出的關(guān)聯(lián)規(guī)則挖掘算法能夠?qū)⒍嗥绽仗鞖饫走_(dá)系統(tǒng)運(yùn)行過(guò)程中人工注入的所有故障數(shù)據(jù)全部挖掘出來(lái)。至此,并不能充分證明關(guān)聯(lián)規(guī)則挖掘算法的性能優(yōu)勢(shì),還需要在挖掘效率和故障類(lèi)型判斷等方面做進(jìn)一步檢驗(yàn)。

圖4 貝葉斯挖掘算法的故障挖掘結(jié)果
對(duì)不同類(lèi)型的多普勒天氣雷達(dá)故障進(jìn)行挖掘,對(duì)比3種不同算法的挖掘性能,選取挖掘效率、誤挖率和漏挖率作為評(píng)判指標(biāo),具體檢驗(yàn)結(jié)果如圖5所示。
圖5中,A、B、C、D、E、F、G分別對(duì)應(yīng)式(7)中構(gòu)建的多普勒天氣雷達(dá)故障事件初始判斷表中的7個(gè)不同故障事件類(lèi)型。從圖5中3種不同挖掘算法的性能測(cè)試對(duì)比結(jié)果中可以清楚看出,采用貝葉斯算法得到的不同類(lèi)型的多普勒天氣雷達(dá)故障平均挖掘率是3種算法中最低的,其次是神經(jīng)網(wǎng)絡(luò)算法,最高的是關(guān)聯(lián)規(guī)則挖掘算法。這是由于關(guān)聯(lián)規(guī)劃挖掘算法具有2大優(yōu)勢(shì):能夠準(zhǔn)確、及時(shí)地發(fā)現(xiàn)多普勒天氣雷達(dá)故障數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,對(duì)引起故障的故障源進(jìn)行高精度定位;通過(guò)已有的關(guān)聯(lián)規(guī)則庫(kù)能夠有效推理出后續(xù)可能會(huì)出現(xiàn)的多普勒天氣雷達(dá)故障,通過(guò)預(yù)先采取措施能夠?qū)崿F(xiàn)多普勒天氣雷達(dá)故障的預(yù)測(cè)和預(yù)防。從圖5中還能夠清楚地看出,對(duì)于正常運(yùn)行的多普勒天氣雷達(dá)系統(tǒng)中人工注入的7種故障,采用關(guān)聯(lián)規(guī)則挖掘算法不僅具有較高的平均故障挖掘率,而且平均誤挖率和平均漏挖率也始終保持在較低水平,這是由于所提算法在進(jìn)行故障數(shù)據(jù)挖掘之前,對(duì)采集的海量多普勒天氣雷達(dá)故障數(shù)據(jù)作了一系列預(yù)處理,突出了強(qiáng)關(guān)聯(lián)故障數(shù)據(jù),排除了弱關(guān)聯(lián)故障數(shù)據(jù),相比于神經(jīng)網(wǎng)絡(luò)算法和貝葉斯算法具有明顯優(yōu)勢(shì)。

圖5 3種不同挖掘算法的性能測(cè)試
通過(guò)采用本文提出的基于關(guān)聯(lián)規(guī)則的多普勒天氣雷達(dá)故障挖掘算法,在丹東多普勒天氣雷達(dá)等臺(tái)站中可以消除采集獲得的海量多普勒天氣雷達(dá)數(shù)據(jù)中的冗余、錯(cuò)誤和缺失數(shù)據(jù),將具有強(qiáng)關(guān)聯(lián)的故障數(shù)據(jù)保留;而后建立了多普勒天氣雷達(dá)故障挖掘模型,通過(guò)挖掘一個(gè)時(shí)間窗口內(nèi)多普勒天氣雷達(dá)故障數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,生成故障數(shù)據(jù)關(guān)聯(lián)規(guī)則庫(kù),根據(jù)庫(kù)中已有的關(guān)聯(lián)規(guī)則對(duì)新采集獲得的故障數(shù)據(jù)進(jìn)行檢測(cè),能夠有效推理出后續(xù)可能會(huì)出現(xiàn)的新多普勒天氣雷達(dá)故障。實(shí)驗(yàn)結(jié)果顯示,采用所提算法可以取得較為理想的結(jié)果,能夠滿足丹東等臺(tái)站間多普勒天氣雷達(dá)系統(tǒng)故障數(shù)據(jù)挖掘要求。