謝志煒 馮鴻懷 許銳埼 李慧夫








摘? 要:隨著國家電力基礎設施規劃發展要求不斷提升,國家相關單位對電網基建項目的投資規模與數量愈來愈大。為了確保項目能夠按照計劃開展與完成,對施工力量的預測顯得尤為重要,進而提前為所需配備足夠的施工力量提供參考。同時,施工人次是對一段時間內施工力量投入的描述量。但由于現場對于施工人次的統計通常存在一定的異常值,會對預測結果造成直接影響。因此,針對這些問題,本文提出了一種基于線性回歸的基建項目施工人次預測方法,首先利用殘差分析法對現場數據進行預處理,隨后通過建立線性回歸的預測模型進行預測,并和BP神經網絡算法進行比較,以證明本文的可行性與精確性。
關鍵詞:基建項目;線性回歸;殘差分析法;施工人次預測
中圖分類號:TP183? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)19-0113-05
Abstract:With the continuous improvement of the national power infrastructure planning and development requirements,the scale and quantity of investment by the national power apartment for power grid infrastructure projects is increasing. In order to ensure that the project can be carried out and completed according to a plan,the prediction of the construction force is particularly significant,and then provide reference for the necessary construction strength in advance. At the same time,the number of attendance of constructors is the description of the labor resource input for a period of time. However,as there are usually a certain number of statistics outliers for the constructors from the site,which will have a direct impact on the result of prediction. Therefore,in response to these problems,the paper proposes a method to forecast the attendance of the constructors for infrastructure projects based on linear regression. With the data pre-treated on residual analysis at first,then using the linear regression method to make the prediction by the forecast model which at the same time compare with BP neural network algorithm to prove the feasibility and accuracy of this paper.
Keywords:infrastructure project;linear regression;residual analysis method;attendance of constructors prediction
0? 引? 言
隨著國家持續加大對電力基礎設施的投資強度,該類項目的規模與數量與日俱增。相關數據顯示,某供電局2017年年初計劃投資的項目共有5408項,計劃投資金額為30.5億元。2018年年初計劃投資的項目增加至7215項,投資金額達到43億元,投資的金額比2017年增加了約41%。在這種電網基建項目投資不斷擴大的環境下,為每個項目提前配備足夠施工力量以便確保基建項目順利的開展與完成就顯得尤為重要。同時,作為衡量施工能力的重要指標之一,參與施工的人數規模相對而言是對項目工程能力最為直接的描述。而作為施工人數規模的研究對象,施工人次能夠較為完整地體現該施工人數規模的特征。又由于實際中對施工人次的統計通常會出現異常值,故而需要對數據進行預處理以便減少異常值對于預測結果的影響。
近段時間以來,線性回歸預測領域已涌現出較多成果,并已被應用于電力物資采購數量[1]、在校大學生人數[2]、農產品物流需求[3]以及交通管制[4]等多方面的預測與分析。文獻[5]提出了使用線性回歸的分析方法對企業所需工人數量進行估算,并指出了以工時為該分析方法的切入要素對實際估算所具有的可行性,但卻沒有提及異常數據的處理問題;文獻[6]提出了一種基于多元線性回歸的模型,通過預測人員配置情況從而達到輔助相關部門構建的效果,但該方法較為局限于企業歷史人數的數據,且對數據質量要求過高,因此在實際工程中的適應性有限;文獻[7]提出了一種基于加權線性回歸的模型用以預測事故死亡人數,雖然該方法更具有顯著性,擬合度也更高,但該模型在具有一定周期性的數據下才能表現出良好的適應性,因而并不符合基建項目施工人次預測的工程實際。同時,近年來學術界對異常數據處理的研究也有了一定的成就。其中,有基于距離[8]、密度[9]以及模型[10,11]的異常數據值核查方法等。也有相關文獻提出利用殘差分析法對回歸曲線進行分析進而得到所需研究結果的觀點[12];文獻[13]提出以最小二乘法與殘差分析法分離出多項式進而對隨機誤差進行處理的方法,雖然此法在應用方面體現出了可行性,但其所面對的研究對象為外測型數據,與此文背景下的統計型數據存在一定的差別。
基于以上背景,為解決基建項目施工人員配備以及現場數據異常的問題,本論文提出了一種首先利用殘差分析法對數據進行預處理,保存每個項目類別中具有代表性的數據樣本,隨后采用線性回歸的施工人次預測模型與方法,通過對電網基建項目施工力量的預測實現對其的決策與配備,進而為該項目的順利開展與完成提供重要保障。最后與BP神經網絡算法對比,通過結果驗明本文的有效性與精確性。
1? 基礎理論
1.1? 殘差分析法
殘差分析法(Residual Analysis)是一種通過實際觀測值與擬合值的差的方式去對兩組變量之間的線性擬合關系,輔助判斷所建立的線性模型是否能夠滿足某種關系,進而分析出觀察數據的某些特征與規律,以驗證其數據的周期性、偏差性及可靠性。其內容通常包含以下幾個方面,分別是相關性檢驗、方差齊性檢驗、誤差的正態性檢驗,以及相伴隨的方差穩定化變換和本文所涉及的異常值檢測等。
在本文背景下,殘差為施工人次與其所擬合的線性回歸模型估計值之間的差值。每一組觀測數據均對應一組殘差值,同時這種差值附帶了該模型的重要假設信息,故在該信息的基礎上可對所有觀察數據進行合理性的考核,最終達到異常值檢測的效果。假定本文殘差以δ表示,則殘差δ服從正態分布。以δ*表示標準化殘差,則δ*遵從標準正態分布N(0,1)。因此可知,如果有觀測點的δ*在(-2,2)區間以外,便可認為在95%的把握下將其確定為錯誤實驗點,即不可計入回歸的擬合直線。現以某項目為例,圖1所示是該項目每個觀測點的殘差情況,圖2是其標準化殘差的分布情況,不難看出,(-2,2)區間外的異常點個數為4個。
1.2? 線性回歸
線性回歸(Linear Regression)是用線性回歸方程對一組變量之間關系進行建模的一種分析。由于線性對于一組不明確關系變量之間的擬合比非線性下顯得更為簡易,線性回歸是回歸分析中較為經典且在實際應用中得到廣泛使用的類型,更為重要的是,其產生的擬合統計特性相對而言也更為容易確定。
在一元線性回歸中分析一組變量的相互關系,通常使用散點圖來觀察,如圖3所示。如果兩者存在某種相關關系(線性相關),如隨著x增大(變小),y會增大(變小)的趨勢,則兩者可能存在某種共線關系。用數學上的方法,可以通過建立方程擬合出一條直線,讓直線盡可能地穿過這些數據點。這條擬合的直線模型,即是該組變量擬合的回歸模型。
從理論上說,所擬合的直線應該盡可能多地穿過這些數據點,但實際問題中這些點一般不是直接落在這些直線上的,擬合線有可能只穿過部分的散點。如圖4所示,通過不同的方法找到的穿過這些點的擬合線就會有很多條。
線性回歸中通常使用最小二乘法去不斷地逼近所擬合的直線方程。最小二乘法的主要思想是:找到每個實際點和擬合值之間的殘差值(如圖5所示),對所有的點求殘差平方和,找出殘差平方和最小的那條線,便是最能代表這部分樣本的擬合線,如圖6所示便是這部分樣本的最小二乘法最佳擬合線。本文中的建模方法便是基于最小二乘法的線性回歸。
2? 數據預處理與預測流程
論文將從工程項目類型、投資金額和現場工人簽到狀況三個方面進行數據統計與處理,具體步驟如下:
(1)由項目類型對原始數據進行分類。不同類別項目之間的項目特征有明顯的不同。
(2)以類型為單位,計算單個項目的投資金額與施工人次比值,該值為該項目每人次的效率值[14],單位為元/人次。效率值反映的是一個項目工程的完成投資金額狀況與施工人次之間的關系。效率值過低和過高的數據都被認定為不能代表該類型施工力量樣本的數據,將會在后續的數據預處理環節被識別為異常數據進行剔除。
(3)使用殘差分析法對效率值進行預處理,剔除所有的過低或過高的數據。
(4)使用處理過后的數據集進行回歸分析。
(5)計算精確度并與BP神經網絡算法進行對比。
3? 實例與結果分析
3.1? 實驗數據構成
由某供電局所提供的數據,列入2018年年初投資計劃的項目增加為7215項,投資金額達到43億元。其中可將項目類型主要分成9類,其中投資金額主要集中在解決中低壓線路設備重過載問題、新建變電站或線路滿足負荷增長、業擴投資界面延伸和一戶一表這4個類型上,分別約占總投資的30%、22%、13%和14%。如圖7所示,其中,項目類型A、B、C、D、E、F、G、H、I、J、K和L分別對應解決安全隱患、配電自動化、低電壓治理、殘舊線路設備改造、解決中低壓線路設備重過載問題、新建變電站或線路滿足負荷增長、業擴投資界面延伸、一戶一表、其他(充電樁)、其他(配電網通信)、其他(完善網架)以及其他(預留金)共12個類型。同時,圖中項目類型括號中的數字代表著該類型項目的數量情況。
3.2? 數據預處理
仍以殘舊線路改造類型項目為例,如圖8所示,黑色擬合線是未經過殘差分析排除離群點的擬合線,灰色擬合線是經過殘差分析排除離群點的擬合線,是更符合大部分樣本的一條擬合線。分別使用兩條擬合線預測2018年該類型施工人次,未去除異常實驗點時,預測值為18987人次,去除異常實驗點后,預測值為16133人次,4個殘差較大的離群點讓預測結果提高了近2500施工人次。可見異常點對預測結果有一定的影響,因此排除這類離群的異常點可以留下可靠性更高的樣本。
3.3? 預測結果對比與分析
在以上經過數據預處理之后的基礎上,可通過建立一個以完成投資金額為輸入量,施工人次作為輸出量的預測模型。利用學習樣本對模型進行訓練后,以2018年計劃投資的金額作為模型的輸入,便可預測2018年所需要的施工人次數量。在確定了輸入量與輸出量后,以線性回歸與BP神經網絡分別作為線性同非線性的預測方法代表對模型進行測試,如圖9所示,以業擴配套類型項目為例,做出對比實驗。
由此不難看出,當利用BP神經網絡算法開展預測時,容易出現以下問題:
(1)在數據樣本點較少的區間(如完成投資在600萬元以上的區間),曲線高度擬合了樣本,出現了過擬合現象,這條擬合線雖然在訓練數據中表達能力非常強,但實際上在擬合的過程中,曲線的描述能力并非越強越好,這是由于過強的描述能力容易導致過擬合現象的發生。
(2)受到強影響點的影響,在某些區間出現金額增加而施工人次下降的預測情況。
為了對比線性回歸和BP神經網絡在各類型中的精度情況,隨機選取每類所有數據樣本中的80%樣本進行訓練,20%的樣本作為測試。圖中精度為每種類型各進行50次實驗后,取得的平均精度。具體如圖10所示。
顯而易見,兩種預測方法在樣本較充足的幾個類型中的精度都非常出色,可以達到80%以上。不過當樣本類型的樣本比較少時,兩者的精度都有所下降,但線性回歸在樣本較少時精度仍然略高于BP神經網絡,并且穩定性更好。故選取線性回歸分析法作為此背景下的預測方法更為合適。
4? 結? 論
為了確保電網基建項目的順利開展與完成,對其項目施工力量的決策與配備便顯得尤為重要。同時,由于所預測施工人次的準確性會對該項目的決策與管理造成直接影響,且現場統計的數據通常有一定的異常值,故有必要對現場數據進行檢測以便獲得更為精確的預測模型,從而得到更為精準的結果,進而從理論上更為可靠、有效地支持相關部門的管理與決策。由此本文提出了一種首先利用殘差分析法對數據進行預處理,隨后采用線性回歸的施工人次預測模型與方法,仿真實驗證明該方法具有一定的可行性,雖然該方法在樣本容量較少時具有一定的局限性,但在樣本容量較多時與BP神經網絡算法進行對比,表現出了更為優異的準確性與更為廣泛的適用性。一定程度上體現了輔助工程管理與決策的科學性,為將來深度開展相關領域的后續研究提供了借鑒的價值。
參考文獻:
[1] 胡亞楠,王鐵錚,蔣訢曄,等.基于線性回歸的電力物資配套采購數量的預測分析 [J].農村經濟與科技,2019,30(2):138-139.
[2] 鐘麗燕.基于多元線性回歸分析的在校大學生人數預測 [J].經貿實踐,2018(23):293-294.
[3] 梁艷,楊慧慧,蘇輝輝.基于多元線性回歸的天津市農產品冷鏈物流需求預測分析 [J].南方農機,2018,49(18):230-231.
[4] 陳斌,朱國蕾,靳慧斌.基于多元線性回歸分析的空中交通管制疲勞預測模型 [J].科學技術與工程,2018,18(25):300-304.
[5] 張少堅.一元線性回歸分析方法與工人需求量的預測[J].管理觀察,2017(7):60-63.
[6] 程曉榮,吳紫薇.基于多元線性回歸分析的人力資源需求預測研究 [J].電腦迷,2016(6):81-82.
[7] 彭東,羅周全,秦亞光,等.基于加權線性回歸模型組的湖北省工礦事故死亡人數分析預測 [J].中國安全生產科學技術,2015,11(11):167-173.
[8] Knorr E M,Ng R T.Algorithms for Mining Distance-Based Outliers in Large Datasets [C]// Proceedings of the 24rd International Conference on Very Large Data Bases.Morgan Kaufmann Publishers Inc. San Francisco,CA,USA,1998:392-403.
[9] J?rg Sander. LOF:Identifying Density-Based Local Outliers [J]. Acm Sigmod Record,2000,29(2):93-104.
[10] HE Z Y,XU X F,DENG S C. Discovering cluster-based local outliers [J]. Pattern Recognition Letters,2003,24(9-10):1641-1650.
[11] ROUSSEEUW P J,VAN D K. Fast algorithm for the minimum covariance determinant estimator [J]. Technometrics,1999,41(3):212-223.
[12] 伍藏原.殘差分析法在利用MDT判斷注氣重力超覆中的應用與實踐 [C]//2018油氣田勘探與開發國際會議(IFEDC 2018)論文集:西安石油大學、陜西省石油學會:西安華線網絡信息服務有限公司,2018:10.
[13] 徐希寶,鄧育民,段方振.測量數據的殘差分析法 [J].科技與創新,2015(19):80.
[14] 謝志煒,溫銳剛,孟安波,等.基于箱形圖和隔離森林的施工人次數據處理與預測研究 [J].工程管理學報,2018,32(5):92-96.
作者簡介:謝志煒(1984-),男,漢族,廣東廣州人,工程師,碩士,主要研究方向:配電網工程管理、配電網工程造價管理、配電網規劃;馮鴻懷(1981-),男,漢族,廣東恩平人,信息系統項目管理師,主要研究方向:電力行業信息化、大數據分析;許銳埼(1995-),男,漢族,廣東潮陽人,碩士研究生,主要研究方向:電力數據挖掘分析;通訊作者:李慧夫(1994-),男,漢族,湖北咸寧人,碩士研究生,主要研究方向:電力數據挖掘分析。