王春平
[摘? ? 要]許多企業的汽輪機組運行性能提升是一項重要工作,其主要是通過采集以往機組運行的相關數據來進行優化,從而完善汽輪機組的不足,這需要運用到大數據挖掘技術。本文通過分析大數據挖掘技術的特點,進一步分析了該技術在汽輪機組運行性能優化過程中的運用。
[關鍵詞]汽輪機組;大數據挖掘技術;性能優化
[中圖分類號]TM621;TP311.13 [文獻標志碼]A [文章編號]2095–6487(2021)10–00–02
Research on the Application of Big Data Mining Technology to the
Optimization of Steam Turbine Unit Operation Performance
Wang Chun-ping
[Abstract]It is an important task to improve the operating performance of steam turbine units in many enterprises. It is mainly optimized by collecting relevant data of previous unit operation to improve the shortcomings of steam turbine units. This requires the application of big data mining technology. By analyzing the characteristics of big data mining technology, this paper further analyzes the application of this technology in the process of optimization of the operation performance of steam turbine units.
[Keywords]steam turbine; big data mining technology; performance optimization
大數據挖掘技術就是從大量的、模糊的、不完全的,以及隨意性的數據當中進行挖掘提取,獲得隱含性、潛在性的有用信息與知識的技術。在當前許多企業自動化生產水平不斷提升的情況下,該項技術的應用變得更為廣泛。
1 大數據挖掘技術的特點
(1)適用于大量數據的挖掘工作。這也不是說不適用于小數據量的挖掘工作,一般的數據庫挖掘都可運用數據挖掘技術,但小數量的挖掘工作由于數據量較少;因此可人工完成,再加上小數據量往往反映的特性不夠全面和可靠,因而大數據量的挖掘將成為未來發展的必然趨勢。因此,大數據挖掘技術也是必不可少的。
(2)有隱含性。主要指的是其能夠挖掘數據當中隱含的核心知識,不是表面就可發現的數據知識,這種知識具有著較高的運用價值。
(3)新奇性。主要指的是挖掘出的知識往往是前所未有的未知知識,即全新知識。但其是通過相關專業經驗獲得,同時也驗證了經驗的可靠性,只有這樣的知識能夠提升企業的洞察力。
(4)價值性。大數據挖掘技術作用下挖掘的知識往往會直接或間接地給企業帶來效益,具有較高價值[1]。
2 關聯規則和Apriori算法
2.1 關聯規則
關聯規則其實是指在一個給定的數據集合當中,對數據項之間關系進行描述且頻繁出現的規則知識,這種被發掘的知識就是關聯規則。其具體的呈現形式為:A→B,(s,c),在該形式當中,A表示一個數據集合的子集,B表示同個數據集合的子集,但A與B是不相交的狀態,而s表示該關聯規則當中的支持度,c則表示該關聯規則當中的置信度,且置信度和支持度能夠表示關聯規則的確定性及有用性。例如:若A集和B集成并集關系的條件當中,就有s比例的數據項符合該項條件,而若是在包含A就包含B條件當中,就有c比例的數據項符合該項條件,也就是說s與c都為概率。當給定最小置信度及最小支持度時,假若A集和B集成并集關系的支持度不小于給定的最小支持度,則其為頻繁項集,若是該關聯規則的支持度不小于最小支持度,同時其置信度不小于最小置信度,則表示A→B的關聯規則為強關聯規則,這也是數據挖掘分析過程中研究關聯規則的關鍵。
2.2 Apriori算法
Apriori算法是最為典型的關聯規則算法,其具體在進行數據挖掘過程中主要是包括了兩項程序:①將各項集的支持度與給定的最小支持度進行對比分析,最終獲得所有的頻繁項集;②將各頻繁項集的置信度與給定的最小置信度進行對比分析,最終獲得了強關聯規則。實際運用Apriori算法時,對頻繁項集的數據挖掘主要是依據迭代法進行逐層搜索,一般可以利用前一個已知的頻繁項集來生成后一個頻繁項集。
隨著當前信息技術水平的不斷提升,數據庫的數據量變得越來越大,而Apriori算法在運用的過程中也體現出一些不足之處,需要改進:①Apriori算法本身的運用程序影響,其在運用時需要反復搜索數據庫,且會生產候選集,在數據量不斷擴大的形勢下,候選集變得越來越多,其挖掘后的關聯規則會獲得很多的屬性項,但許多屬性項并沒有參與到數據挖掘的核心工作當中,因此產生許多無效候選集,若是對這些候選集不斷檢索,則會造成資源浪費的情況;②Apriori算法一般是在單節點上運行,其在應當數據量較大情況時經常會出現內存不足的情況,這也會影響到實際的數據挖掘工作,如挖掘速度較慢或難以順利完成,當前的許多生產數據呈爆炸性增長,因而這項缺陷也導致不能夠滿足實際需求,對以上兩項不足實施改進措施。針對第一點不足可以引進約簡理念,即在實際運用該算法之前,對數據庫當中的數據進行屬性約簡,將一些與無關于關聯規則的屬性項及時剔除,減輕后續檢索工作量;而針對第二點不足的改進則可結合運用Hadoop平臺,Hadoop平臺具有高效性、擴展性、可靠性等優勢,其能夠進行并行運算,結合其對Apriori算法進行優化,讓該算法能夠進行并行化的計算操作,同時,并行運算還需要依靠于MapReduce框架,提升計算的效率,以便于處理大量數據,通過這些改進措施可以獲得具有高效性特點的關聯規則新算法[2]。
3 基于大數據挖掘技術的新算法在汽輪機組優化中的應用
3.1 關聯規則算法的優點
優化汽輪機組運行性能主要是研究其目標值的優化,從含義上來看,目標值是決定著汽輪機組的相關性能指標和運行參數,因而優化運行性能也就是以目標值為基礎進行優化,以便于進一步指導汽輪機組的運行。當前,在優化汽輪機組目標值的過程中,通常是包括確定設計值、試驗最優運行操作、進行變工況狀態下的熱力計算、確定其最優值方法等方式。在汽輪機組的運行初期使用試驗最優運行操作和確定設計值是效果較好的,但隨著運行的時間不短延長,其目標值也會發生改變,整個機組狀態發生變化,與實際狀態之間存在著差異,而變工況的熱力計算獲得的計算結果是理想狀態的值,其與實際也存在偏差,因此也不適用,確定最優值方法的應用是比較多的,但其是計算熱電機組運行時的相關參數數據,一般是取性能指標的最佳值,因而運用是比較片面的,因為性能指標的最佳值也可能由于計算有誤而產生偏差,以上幾種的缺點導致其實際運用于優化汽輪機組時也存在問題,因而產生了關聯規則算法這一方式,其主要是基于實際生產運行的數據,在計算的過程中具有著較高的邏輯性,且經過了嚴格的驗證,最終獲得了可靠的關聯規則,其關聯的數據項頗為精準,尤其是在海量數據當中,這種數據挖掘算法十分有效,在本次應用研究當中,算法所應用的對象都是汽輪機組實際工作運行狀態中的數據,其支持度和置信度較高,有利于指導優化汽輪機組的性能[3]。
3.2 數據挖掘對象與挖掘目標
本次研究的過程中,選擇某電廠規格為1 000 MW的汽輪機組分散控制系統作為數據挖掘的對象,從該系統中取1月9號24:00到3月21號24:00運行的參數數據,共計250個參數,實際采樣的周期為30 s,將極少存在的一些缺失值去除,其數據總量為204 459條。大量的數據信息中包含著機組性能指標、運行參數以及負荷之間極為復雜的關系,這些關系也是優化機組時研究的關鍵,在關聯規則算法作用下,將關系挖掘出來做定量化處理,即能夠反映該機組的關聯規則。選擇汽輪機組研究的性能指標時,可選擇熱耗率作為指標,熱耗率能夠充分反映出汽輪機組的熱經濟性,而計算熱耗率還能夠獲得煤耗率與機組實際循環效率。將關聯規則算法應用于汽輪機組目標值的優化過程中,挖掘出一項強關聯規則,即運行參數和最優性能指標之間的規則,進一步指導優化機組運行,在選擇實際運行參數的過程中,還需要充分遵循兩項內容:①確保參數與熱耗率之間具有著緊密關系;②能夠對實際運行進行指導,且在運行時可進行調節,因此,最終確定的運行參數有主蒸汽流量、冷段再熱蒸汽壓力和溫度、熱段再熱蒸汽壓力和溫度、汽輪機組的功率、主蒸汽壓力和溫度、凝汽器真空、給水溫度以及給水泵出水壓力。
3.3 預處理數據
在預處理數據的環節,主要操作包括數據采集、清洗、集成以及轉換。將從系統中提取到的數據篩選,依據上述選擇性能指標和運行參數的要求來篩選處理,將一些明顯存在壞點或死點的數據及時剔除,然后獲取一個參數由多個測點所測得的一組數據,對其進行求和再求平均值,最終只獲得一個可靠、準確,且能夠反映實際機組運行狀態的數據,這些操作完成后也就基本對數據進行了清洗與集成,但這些處理后的數據還需要轉換為離散數據,因此還應當進行離散化處理,一般是依據相關知識將連續值域內的數據劃分為幾個不同的區間,保證分組的過程中不能夠出現區間重疊,具體分組時采取兩種常用方法:分位數分組法和組距分組法。由于組距分組法可能會因為組距不合適而導致出現樣本量差異性大的情況,從而間接導致后續算法運用與建立模型都會受到影響,因而一般采用分位數分組法,這種方法不會出現樣本量差異性大的問題,其組數是固定的,且實際分組時依據的原則為各組變量值的總和相近,因而樣本量之間也是相似的[4]。
3.4 Hadoop平臺配置
在UBUNTU上進行JDK的安裝和配置,然后下載一個Hadoop-1.2.1的開源框架并將其安裝好,再將SHH配置,同時要確保在平臺上各節點進行共享訪問的過程中能夠安全,最后再將Hadoop平臺的環境配置完成,所有的配置基礎文件完成以后就可布置HDFS和MapReduce。將上述操作全部處理好后格式化處理HDFS,然后將Hadoop平臺啟動運行。
3.5 關聯規則算法的應用結果
經過數據挖掘與數據的預處理后,將其數據庫整理為決策集模式,其中決策屬性為熱耗率,而條件屬性則為11個選擇的運行參數,再進行過屬性約簡處理,最后得出結論.在應用的過程中,發覺冷段再熱蒸汽壓力和溫度的屬性沒有意義,因此可將其剔除,即可獲得9個運行參數,對該屬性參數集進行約簡處理,縮小了數據規模。將Hadoop平臺中的最小置信度設置為80%,而最小支持度設置為0.15 %,對約簡處理后的數據采用該算法流程進行挖掘,計算獲得最優熱耗率的強關聯規則,在獲得的規則當中區間內,其運行參數的目標值就可清晰得知,最后取區間內的中心值并將其作為優化的目標值即,優化后的汽輪機組運行具有節能減排的效果。
4 結術語
在大數據挖掘技術的作用下,汽輪機組的運行性能優化機制更加有效,大量數據通過分析獲得隱含知識,再將其運用于優化汽輪機組的目標值,從而提升其性能水平。由文章分析可知,其具體的優化處理過程包括:確定數據挖掘對象與挖掘目標、預處理數據、Hadoop平臺配置,以及分析關聯規則算法的應用結果。
參考文獻
[1] 趙鵬程,袁國生,馬素霞.基于數據挖掘的汽輪機組冷端優化[J].中國電機工程學報,2021,41(2):423-432.
[2] 賀之豪.數據驅動的汽輪機組性能診斷研究[D].北京:華北電力大學(北京),2019.
[3] 張博倫.基于大數據的汽輪機組狀態監測[D].大連:大連理工大學,2018.
[4] 胡念蘇,韓鵬飛,張海石.大數據挖掘技術應用于汽輪機組運行性能優化的研究[J].中國電機工程學報,2016,36(2):459-467.