

摘 ?要: 天然氣管道會出現損壞現象導致天然氣泄露,因此,快速準確地判斷天然氣的泄露具有重要意義。針對天然氣泄露的檢測問題,本文提出一種基于改進K均值聚類的檢測方法。該方法在提取聲發射信號特征的基礎上,提出了基于數據點的鄰點數目來選取初始聚類中心,并采用信息熵方法來確定聚類類別數目。實驗結果表明,本文提出的方法較好了解決了原始K均值方法的問題,從而能準確地給出泄露檢測結果。
關鍵詞: K均值;鄰點;信息熵;泄露檢測
中圖分類號: TH865 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.05.016
本文著錄格式:李詠豪. 基于改進K均值聚類算法的燃氣泄露檢測研究[J]. 軟件,2019,40(5):8689
【Abstract】: The damage of natural gas pipeline will lead to natural gas leakage. Therefore, it is of great significance to quickly and accurately judge the leakage of natural gas. For the detection of natural gas leakage, a detection method based on the improved K-means clustering algorithm is proposed. We select the initial cluster centers based on the number of neighbors of the data point after the extraction features of acoustic emission signal. Forthermore, we determine the number of clusters with the method of information entropy. The experimental results show that the proposed method avoids the problem brought by original K-means and achieve the better leak detection result.
【Key words】: K-means; Neighbor point; Information entropy; Leak detection
0 ?引言
管道運輸是天然氣的主要運輸渠道,天然氣管道現在遍布全國。由于種種原因,天然氣管道會出現損壞現象導致天然氣泄露[1]。因此,快速準確地判斷天然氣的泄露具有重要意義。當燃氣發生泄露時,天然氣管道的內部會將管道中的部分能量以彈性波進行釋放,即所謂的聲發射現象[2]。這種彈性波是一種廣義的聲發射信號,可以用來進行泄露判斷。針對復雜的聲發射信號,本文引入聚類分析方法進行燃氣泄露的判斷。K均值聚類方法是一種經典的無監督聚類方法[3],該方法簡單方便,但也存在以下缺點,包括聚類數目K以及初始聚類中心需要預先定義,一旦定義錯誤就會給聚類結果帶來不穩定性。本文在提取聲發射信號特征的基礎上,提出了改進K均值聚類方法來檢測燃氣信號泄露與否,并提出利用數據點的鄰點數目選取初始聚類中心,以及信息熵來給出聚類數目。實驗結果表明本文提出方法的具有一定的優越性。
1 ?改進的聚類中心選取方法
在K均值方法中,首先,用戶預先輸入聚類的數目K,并在數據集中隨機選取K個點作為初始聚類中心,接著,計算各數據點到初始聚類中心的歐幾里德距離[4],并將該數據點分配到離其距離最近的簇中,當所有數據點都分配完之后,再以各簇的均值作為新的聚類中心,重復上述過程,直到滿足目標函數為止[5]。
有學者提出基于密度的初始聚類中心選取方法[6],通過計算數據點周圍的數據量來選擇初始的聚類中心,從而降低了K均值聚類算法隨機選取初始聚類中心帶來的聚類誤差,提高了聚類的準確率,減少了運算次數和運算時間,但該方法只提高了初始聚類中心的準確性,仍然沒有解決孤立點對后續迭代過程中聚類中心選取的影響[7],針對該問題,本文在該方法的基礎上作了改進,在保證初始聚類中心選取準確的前提下消除了孤立點對聚類中心選取的影響。具體做法如下:第一步:計算每一個數據點周圍的鄰點數目,計算完畢后將得到的數值按從大到小排列,將數值最小的幾個數據點直接刪除掉,這樣就可以把孤立的數據點從數據集合中刪除,消除了孤立點的影響。另外,將數值最大的點作為第一個類別的聚類中心,選取距離該點最遠的數據點作為第二個類別的聚類中心,以此類推,逐漸得到第三個、第四個及以后的類別聚類中心。
2 ?改進的聚類個數確定方法
信息熵可以量化表示一個數據集合的離散程度[8],在聚類的過程中,當數據的類別數和數據點所歸屬的類別發生變化時,整個數據集的信息熵之和也會發生變化。我們可以把信息熵值的變化當作是一個判定聚類類別數的判斷量。由此,我們可以把相鄰兩個類別之間信息熵的差值變化最小看作是數據集合最穩定之時,從而可以得到數據集合最佳的聚類類別數。有學者將信息熵的概念引入到模糊聚類中,通過計算隸屬度得到數據集合的信息熵[9],本文將信息熵概念引入到普通的K均值聚類算法中,利用數據點與聚類中心的距離來得到信息熵。利用前面得到的聚類中心,定義數據點到聚類中心的偏離度,根據偏離度計算聚類后的信息熵,以此來決定聚類的個數。算法的具體思想如下:
其中,Pij表示第(i)個數據點到第(j)個類中的偏離度;S表示類的信息熵;類的總體信息熵即為上式,將每一個類的信息熵求和即可得到所有類的總體信息熵。
隨著聚類過程的變化,會有不同的數據點被聚類到不同的類別內,每個類別的聚類中心也在隨之算法的進行不斷更新,這樣一來每個數據點屬于各個類的偏移度會隨之發生變化,從而導致了類內的信息熵變化以及整個數據集整體的信息熵變化。因此,我們做如下定義:
數據集合K均值聚類分為j個類時的狀態稱為數據集的第j個狀態,同理,數據集第j個狀態的的信息熵值為Sj。
定義數據集的信息熵跳變值如下:數據集從第j-1個狀態跳躍到第j個狀態的信息熵值的變化即 。
定義數據集的信息熵躍遷值[9]:數據集從第j-1個狀態跳躍到第j個狀態的信息熵值的變化與數據集從第j個狀態跳躍到第j+1個狀態的信息熵值的變化的差值:
3 ?實驗數據采集與分析
3.1 ?實驗數據采集
本文搭建了包括直管和支管的泄露檢測平臺,如圖1所示。該泄露檢測平臺中,AB段和CD段分別為直管和支管,并且AB與CD構成一條回路,實驗管徑為DN20,利用空氣壓縮機來模擬燃氣泄露,球閥V1用來控制管道的開與斷,減壓閥U1的作用是將高壓氣流變換成低壓且穩定氣流,壓力計P1與P2用來顯示氣流在該位置的壓力值。實驗中,通過聲發射傳感器實時獲取所有的數據。
3.2 ?特征提取
當管道中存在燃氣泄露之后,其中傳輸的信號會發生一定的變化[10]。本文提取使用的特征量[10]主要有上升數目SJ,頻域峰值PF,峰態k3,振鈴數目ZJ,偏斜度k4,方差V。泄露信號特征與非泄露信號特征對比如圖2所示,其中,柱條1和2分別表示非泄露信號和泄露信號提取的特征向量。
3.3 ?實驗數據分析
將處理后得到的聲發射信號特征量利用本文改進的方法進行聚類分析,在使用信息熵的判別準則進行確定聚類的類別數,此時運算得到的類的總體信息熵躍遷值如圖3所示。從圖中我們可以發現,在躍遷狀態從一個類到兩個類與從兩個類到三個類,這兩者之間的差值是最小的,且為零,表明將信號特征分為兩個類是最合適的,亦即沒有必要從兩個類別增加到三個類別或者更多的類別。
接著,我們將使用本文改進方法得到的聚類結果與使用原始K均值聚類方法聚類結果作對比,如圖4和圖5所示。從圖4可見,利用K均值方法將樣本數據基本分為兩類,但由于存在較多離群點,因此,K均值方法將孤立點作為一類,另外兩種特征集合歸為另一類,這使得聚類結果產生錯誤,無法正確判斷燃氣泄露與否。從圖5可見,利用基于數據點鄰點數目的方法來選取聚類中心,可以刪除孤立點,這使得聚類性能進一步提升。再利用前面介紹的信息熵來判斷聚類數目,得到對于所提取的燃氣信號特征可以將其分為兩類。在圖5中,數據點在左下角和右上角都較為集中,左下角的數據說明,無泄露時信號各種特征都比較平穩,變化幅度不大;對于右上角的數據點,反映這些數據點的特征值的波動幅度較大。因此,根據提取到的信號的特征,我們可以判斷是否存在燃氣泄露。
4 ?結論
根據數據點的鄰點數目來選取初始聚類中心,可以使聚類中心位于數據較集中的位置,并使其不受孤立點影響,另外,利用信息熵確定聚類數目,較好地解決了原始K均值聚類方法的缺點,實驗結果驗證了利用上述方法,可以準確判別燃氣泄漏與否。
參考文獻
[1] 孫立瑛, 李一博, 靳世久等. 基于小波包和HHT變換的聲發射信號分析方法[J]. 儀器儀表學報, 2008, 29(8): 1577-1581.
[2] XU QingQing, ZHANG LaiBin, LIANG Wei. Acoustic detection technology for gas pipeline leaKage[J]. Process Safety and Environmental Protection, 2013, 91(4): 253-261.
[3] 孫吉貴, 劉杰, 趙連宇. 聚類算法研究[J], 軟件學報, 2008, 19(1), 48-61.
[4] 胡偉, 改進的層次K均值聚類算法[J]. 計算機工程與應用, 2013, 49(22): 157-159.
[5] Bouras, C., Tsogkas, V. , Clustering User Preferences Using Kmeans[C]. 2011 Seventh International Conference on Signal-Image Technology and Internet-Based Systems (SITIS), 2011: 75-82.
[6] 李宇泊. K均值算法初始聚類中心選取相關問題研究[D]. 甘肅: 蘭州交通大學, 2012.
[7] Qi chen Ma, Xiangfeng Luo, Yong Luo. Information Entropy Based the Stability Measure of User Behaviour Network in Microblog[C]. ?10th International Conference on Semantics, Knowledge and Grids (SKG), 2014: 67-74.
[8] Jinhua Xu, Hong Liu, Web user clustering analysis based on KMeans algorithm[C]. 2010 International Conference on Information NetworKing and Automation (ICINA), 2010: 6-9.
[9] 吳春旭, 一種基于信息熵與K均值迭代模型的模糊聚類算法[C]. 中國管理科學學術年會, 2008: 152-156.
[10] L. Y. Meng, Y. X. Li, W. C. Wang et al. Experimental study on leaK detection and location for gas pipeline based on acoustic method[J]. Journal of Loss Prevention in the Process Industries, 2012, 25(1): 90-102.