國網江蘇省電力有限公司物資分公司 溫富國 許 斌 李金霞
隨著我國經濟的高速發(fā)展,對電力的需求也不斷增加[1]。為了滿足國民經濟全面、協(xié)調、可持續(xù)發(fā)展對電力的需求,提高電力供應能力,提高電力系統(tǒng)供電水平勢在必行。而加快電網建設,提高電力系統(tǒng)供電水平都離不開電力系統(tǒng)中輸變電物資的采購供應。但是當前物資采購供應環(huán)節(jié)存在諸多不平衡現象,一方面普遍存在供大于求的現象,庫存積壓相當嚴重;另一方面少數物料又存在供應不足現象。例如某配變類工程,大部分物料儲備都很充足,但是缺少某一型號的變壓器,導致項目延期,無法順利完成,嚴重影響電力建設。
從技術上說,各物料之間存在相互配合、相互備用等現象,需求數量有“同增同減”或“此消彼長”的特點,如水泥桿跟架空絕緣導線理論上就存在一定的相關關系。所以對物料使用數量相關性的研究被認為是解決物料采購不平衡問題的一個方向。但由于物料種類較多,采用傳統(tǒng)的相關性系數法,容易掉入偽回歸[2]陷阱。
所以本文從大數據挖掘的角度,分析2016年江蘇省配農網項目的物資使用規(guī)律,然后采用關聯(lián)規(guī)則,研究分析各物資之間的相關性,得到物料頻繁項集,從而得到物資的相關關系,最后從時間序列[3]角度用相關性系數法對所得結果進行了驗證。結果表明,關聯(lián)規(guī)則挖掘出來的頻繁項集內的各個物料具有較強的相關性。物料相關性的研究成果可以用于指導物資采購和庫存設置,對于提升協(xié)議庫存物資精細化管理具有重大意義,將很大程度地改善當前物資采購不平衡的現象,從而全面提高采購管理效益水平[4]。
關聯(lián)規(guī)則[5-7]挖掘是由Agrawal等人于1993年提出,最早是為了解決購物籃分析問題,可以用來挖掘商品間在零售業(yè)商品交易事務數據庫中的聯(lián)系規(guī)則以及顧客習慣的購買模式。近年來,關聯(lián)規(guī)則挖掘被認為是數據挖掘領域的熱點。
設數據集D為事務數據的集合,數據集D中包含了n條記錄,m個項等參數屬性,即是數據庫中所有項的集合。D中每條記錄即每個事務T都是非空集合,T是項的集合,每條記錄的標識符號為TID。Tk中的元素組成的集合即稱為項集,包含k個項的集合稱為k-項集。
頻繁模式是在數據集中頻繁出現的模式,頻繁模式挖掘是在給定數據集中搜索頻繁出現的關聯(lián)形式。可以用關聯(lián)規(guī)則的形式表示系統(tǒng)內部參數屬性間的頻繁關聯(lián),關聯(lián)規(guī)則為形如形式的關系式,式中。規(guī)則的支持度與置信度是用來描述規(guī)則興趣度的兩種度量,如式(1)與式(2)所示,它們分別表示所挖掘規(guī)則的有用性和確定性。規(guī)則在數據集D中成立,具有的支持度s指的是數據集D中包含的百分比,即概率,置信度C是D中包含A的記錄同時又包含B的記錄的百分比,即條件概率。

例如,[support=30%,confidence=80%],即規(guī)則的支持度為30%,置信度為80%,表示在整個數據集中,有30%的記錄是屬性A與屬性B同時出現的,且在屬性A出現的記錄中有80%的記錄屬性B也出現了,即表示在屬性A出現的情況下有80%的可能屬性B也會出現。獲得的關聯(lián)規(guī)則是指滿足最小支持度閾值與最小置信度閾值的規(guī)則,關聯(lián)規(guī)則的挖掘過程即為先獲取所有頻繁項集,再由頻繁項集生成關聯(lián)規(guī)則。
Apriori算法[8]是一種用來獲取頻繁項集的布爾型關聯(lián)規(guī)則算法,該算法使用迭代法進行逐層計算,并基于候選集來獲得頻繁項集,即使用(k-1)-項集Lk-1產生k-項集Lk。圖1及圖2分別為頻繁1-項集及k-項集的計算流程圖。通過掃描數據源,累計每個項的計數,得到滿足最小支持度的項,從而找出頻繁1-項集的集合,記為L1,之后再通過頻繁1-項集的集合L1尋找頻繁2-項集的集合L2,以此類推,直到無法獲取滿足條件的項集,這樣得到的項集稱為最大頻繁項集。

圖1 獲得頻繁1-項集的過程

圖2 獲得頻繁k-項集的過程
從Lk-1項集獲取Lk項集時主要需要執(zhí)行連接步與剪枝歩兩個過程的操作。連接步:將Lk-1與自身連接產生候選k-項集的集合,記為Ck。假設l1,l2為Lk-1中的項,將其按照記錄中的字典順序排列,如果它們的前(k-2)項相同,則表示Lk-1中的元素是可連接的。剪枝歩:候選項集的集合Ck是Lk-1的超集,使用先驗知識:任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集。因此,如果候選k-項集的任意一個(k-1)項子集不存在于Lk-1中,則可以刪除該候選項集,最終可以得到頻繁k-項集的集合Lk。
首先從江蘇公司ERP系統(tǒng)中導出2014-2016年的歷史出入庫數據,共1042.4萬條出庫記錄,每條出入庫記錄包含物料名稱、實發(fā)數量、過賬日期、領用單位等信息。再按三級分類篩選出配農網項目,共計63218個項目。然后采用統(tǒng)計手段,按工程項目統(tǒng)計出每個項目所需物料的種類和數量,2016年全年共使用2232種物料。
這63218個工程項目對應關聯(lián)規(guī)則n條記錄,2232種物料對應關聯(lián)規(guī)則中的m個項,從而構成數據集。每一條記錄包含個項,即某個工程項目使用到了p種物料。然后設定support=0.1,confidence = 0.6,采用Apriority關聯(lián)分析算法先是得到L1項集,然后進行連接歩、剪枝歩操作得到頻繁項集。
表1列出了10種支持度較高的物料,如線路柱式瓷絕緣子共在38494個項目中使用過,其支持度高達60%,是使用頻率最高的物料。L1項集支持度的大小表征了物料在工程項目中常用程度,這些物料一般都屬于通用物資范疇,在采購過程中尤其要注意這些物資的采購,各地市項目單位在設置庫存時也應備足余量。

表1 L1項集-常用物料

表2 最大頻繁項集
通過Apriori算法的不斷迭代,分別可以得到項集,最終得到的滿足最小支持度的最大k為6,即L6項集,各項集的物料都具有很強的相關性。如表2為L6項集的一組物料。這6種物料在7380個項目中一起出現過,組合出現頻率較高,我們稱之為頻繁項集。一組頻繁項集實際上表征了一種類型的工程項目的物資使用特性。所以,從項目設計與使用的角度來看,我們可以認為這些物料具有較強的相關性。
上述方法得到了電網物資的頻繁項集,頻繁項集中的各個物料經常在實際工程項目中配套使用,被認為具有較強的相關性。為了驗證挖掘結果的準確性,我們采用相關性系數法對頻繁項集中的物料相關性進行了驗證。
首先基于歷史數據,按時間統(tǒng)計出每個月各個物料的使用量。利用簡單相關性系數法求得各個物料之間的相關性系數。驗證方法采用的是簡單相關性系數法[9],公式(3)給出了其定義式:

其中為X與Y的協(xié)方差,Var[X]為X的方差,Var[Y]為Y的方差。一般來說,取絕對值后,0-0.1為沒有相關,0.1-0.3是弱相關,0.3-0.5為中等相關關系,0.5-1.0表示具有較強的相關性。
以表2中的頻繁項集為例,先統(tǒng)計得到每種物料2014-2016年每個月的使用量,再用相關性系數法求得它們兩兩之間的相關性系數。其結果如表3所示(Xi為表2中的第i種物料),表格第i行第j列表示第i個物料與第j個物料之間的相關性系數。可以看出這些物料之間的相關性系數都很高。

表3 物料之間的相關性系數
圖3給出了“錐形水泥桿,非預應力,整根桿,15m,190mm,M”和“架空絕緣導線,AC10kV,JKLYJ,50”兩種物料2014-2016年各月的出庫量,這兩種物料為頻繁項集,且相關性系數為0.99,從圖中也可以看出這兩種物料每年出庫總量具有一致的趨勢性,相關性較強。兩種物料在數量上基本呈正比同步變化關系,可以用來指導采購和庫存設置。

圖3 兩種物料逐月使用量對比
從以上分析可得,為頻繁項集的物料其相關性系數都較高,而且在時序圖上具有較強的一致性。
本文通過關聯(lián)規(guī)則算法得到常用物料和物料頻繁項集,然后計算頻繁項集各個物料使用數量的相關性系數,證明了關聯(lián)規(guī)則挖掘出來的物料頻繁項集確實具有很高的相關性。該方法得到的物資相關性可靠性強,更符合于項目工程實際。該研究結論可以很好地指導電網物資的采購與庫存設置,從而提升協(xié)議庫存物資管理水平。
[1]沈高鋒.電力消費與中國經濟增長的關系分析[J].消費導刊,2017(26).
[2]姜高霞,王文劍.時序數據曲線排齊的相關性分析方法[J].軟件學報,2014(9):2002-2017.
[3]趙一鵬,丁云峰,姚愷豐.BP神經網絡誤差修正的電力物資時間序列預測[J].計算機系統(tǒng)應用,2017,26(10).
[4]沈男.基于改進BP神經網絡的電網物資需求預測研究[D].華北電力大學(北京)華北電力大學,2014.
[5]郭秀娟.基于關聯(lián)規(guī)則數據挖掘算法的研究[D].吉林大學,2004.
[6]胡濤.基于關聯(lián)規(guī)則的數據挖掘算法[J].電子技術與軟件工程,2018(2).
[7]李艷.關于數據挖掘中關聯(lián)規(guī)則算法的相關問題研究[J].科技創(chuàng)新與應用,2017(33):161.
[8]郭濤,張代遠.基于關聯(lián)規(guī)則數據挖掘Apriori算法的研究與應用[J].計算機技術與發(fā)展,2011,21(6):101-103.
[9]謝明文.關于協(xié)方差、相關系數與相關性的關系[J].數理統(tǒng)計與管理,2004,23(3):33-36.