程津 周鯤 徐志強(qiáng) 伍家耀



摘 要:為了解決現(xiàn)有電力造價(jià)異常數(shù)據(jù)檢測(cè)算法無(wú)法識(shí)別清單詳情及清單與施工細(xì)節(jié)不符的問(wèn)題,提出了一種基于規(guī)則匹配的電力造價(jià)異常數(shù)據(jù)辨識(shí)算法.利用Kmeans聚類(lèi)算法實(shí)現(xiàn)了清單的初步分類(lèi)和特征清單的提取,將特征清單的特征詞作為清單類(lèi)別特征.采用規(guī)則庫(kù)對(duì)清單詳情進(jìn)行分詞,并提取清單特征詞,采用多項(xiàng)式貝葉斯算法計(jì)算出清單位于當(dāng)前類(lèi)別的概率.實(shí)驗(yàn)結(jié)果表明,所提出算法較傳統(tǒng)異常數(shù)據(jù)檢測(cè)算法的準(zhǔn)確率提高了約10%.
關(guān) 鍵 詞:電力造價(jià);規(guī)則匹配;規(guī)則庫(kù);異常數(shù)據(jù);異常檢測(cè);清單詳情;特征詞;多項(xiàng)式貝葉斯
中圖分類(lèi)號(hào):TM769 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1000-1646(2023)04-0387-05
電力工程通常投資金額與工程量都較大,且與其他制造業(yè)聯(lián)系密切[1].電力工程造價(jià)的管理與監(jiān)督一直是電力工程建設(shè)中的一個(gè)重要環(huán)節(jié),其可以輔助施工方合理制定工程預(yù)算,同時(shí)利于實(shí)行有效的監(jiān)管,是貫穿于工程建設(shè)的主要工作,對(duì)于維持行業(yè)秩序意義重大[2-3].由于電力造價(jià)文件錄入過(guò)程中的人為疏忽或造假等原因,電力造價(jià)數(shù)據(jù)庫(kù)存在大量的異常數(shù)據(jù),主要可以分為兩個(gè)大類(lèi):第一類(lèi)是同類(lèi)清單單價(jià)差異過(guò)大的異常;第二類(lèi)是清單詳情與施工細(xì)節(jié)不符的異常.目前的電力造價(jià)異常檢測(cè)方法可以基于統(tǒng)計(jì)學(xué)原理,對(duì)第一類(lèi)異常情況進(jìn)行有效的辨識(shí),但對(duì)第二類(lèi)異常情況的辨識(shí)效果欠佳[4-6].為了能夠有效辨識(shí)與施工細(xì)節(jié)不符的異常清單,確保電力造價(jià)歷史數(shù)據(jù)的真實(shí)性,本文提出了一種對(duì)清單詳情進(jìn)行綜合單價(jià)異常檢測(cè)的電力造價(jià)異常數(shù)據(jù)辨識(shí)算法.該算法根據(jù)清單分類(lèi)結(jié)果確定最具有代表性的特征清單,提取特征清單詳情中的特征詞作為異常辨識(shí)依據(jù),并利用多項(xiàng)式貝葉斯方法計(jì)算某一清單屬于某一類(lèi)別的概率,實(shí)現(xiàn)清單異常的辨識(shí).該方法能夠有效克服依靠人工主觀制定類(lèi)別特征的弊端,顯著提升清單異常辨識(shí)的準(zhǔn)確性和辨識(shí)效率.