陳 飛 任光華 戴 勇
(新疆維吾爾自治區特種設備檢驗研究院,烏魯木齊 830011)
生物氧化提金是一種針對難處理金礦石的預處理技術,可以解決其他常規選冶技術因回收率過低而無法實現工業利用的低品位金礦選冶難題。生物氧化提金技術屬新興技術,提金率受工藝參數設定的影響波動較大。現有的對生物氧化提金工藝的研究主要集中在菌種的選育和培養[1~3]與單一工藝參數的恒值控制,鮮有對工藝參數的優化研究。
傳統的工藝參數優化需要建立精確的數學模型,但由于生物氧化預處理過程具有強耦合性、強非線性和過程參數動態性能無法精確了解的特征,導致系統模型很難精確建立。而且在龐大的工藝歷史數據庫中隱含了大量可對提金工藝參數進行優化的知識數據,巨大的數據量也為人工分析帶來了很大難度[4]。因此,傳統的工藝參數優化方法在應用上受到很大約束。
數據挖掘技術作為一門新興學科,能夠在人工干預較少的情況下處理復雜的數據信息,并提取相關知識規則。筆者依據數據挖掘技術和關聯規則理論,建立生物氧化預處理過程工藝參數優化的新方法,以適用于生物氧化預處理等流程工業工藝參數的優化。
筆者以某金礦生物氧化提金工藝為背景來研究工藝參數間的關聯知識。工藝描述如下:先將礦石磨碎與水混合成濃度為18.5%的混合液,流入調漿池進行加藥;之后進入氧化槽開始氧化分解,氧化槽共有6級,每一級氧化環境均不同,當細菌將硫及砷等元素完全“吞噬”后,隱含在礦石內的金就會暴露出來,為后面的氰化提金做準備。在生物氧化預處理過程中細菌的活性決定了氧化的效率,為了提高和保持細菌的活性,需要為細菌提供適宜的生存環境。通常的工藝條件為:pH值2.0~2.4,進風量1 550~1 600m3/h,溫度40~43℃,生物氧化還原電位570~610mV。生物氧化還原電位可以衡量氧化效率,是參數優化的目標值。在進風量為1 550~1 600m3/h的情況下,影響細菌氧化速率的因素有礦漿濃度、磨礦細度、Fe3+濃度、培養基、水系、pH值、溫度及進風量等,其中可控因素為溫度、進風量和pH值,具體描述如下:
a. 溫度是氧化預處理過程中比較重要的參數,合適的溫度能夠提高細菌的活性,但過高的溫度卻會殺死細菌,致使氧化預處理過程無法繼續進行[5]。
b. 進風量影響氧化槽內好氧菌的活性,進風量太大不經濟,而且會造成氧化槽內液面波動劇烈致使礦液溢出污染環境;進風量太小又保證不了細菌的需求,導致細菌活性降低。
c. 工藝參數pH值主要為細菌提供一個適宜的生存環境,合適的pH值能夠大幅度地提高細菌的活性。
數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中發現有用知識的過程。伴隨著計算機技術在工業領域的大量應用,越來越多的現場數據被記錄并保存下來;但是由于缺乏強有力的工具,對這些龐大數據的理解與分析已經超出了人的能力,因此這些數據庫逐漸變成了“數據墳墓”[6]。數據挖掘技術的出現為解決這一問題指明了方向,其已逐漸成為決策者們從海量數據中提取有價值知識的強力工具。
數據挖掘的一般步驟如下:
a. 數據預處理。從數據庫中提取和分析與任務相關的數據,并剔除異常數據。
b. 數據變換。將數據變換或統一成適合挖掘的形式。
c. 數據挖掘。數據挖掘技術的基本步驟,即使用智能方法提取數據模式。
d. 模式評估。依據某種興趣度度量,識別表示知識的真正有用模式[7]。
2.2.1關聯規則理論
關聯規則就是從事務數據庫、關系數據庫和其他存儲信息中的大量數據項集之間發現有趣的、頻繁出現的模式、關聯和相關性。
關聯規則定義如下:設I={i1,i2,…,in}是所有項目的集合,D是所有事務的集合,每個事務T是一些項目的集合,T包含在I中,每個事務可以用唯一的標識符TID表示。設集合X為某些項目的集合,如果X?T,則稱事務T包含X。關聯規則表示為X(X?T)?Y(Y?T),其中,X?I、Y?I、X∩Y=Φ。規則的普遍性一般用支持度和置信度來衡量。
支持度S表示事務在規則中出現的頻率。關聯規則X?Y的支持度S定義如下:

(1)
其中,|T(X∪Y)|為數據集中包含X∪Y的事務數;|T|為數據集中的事務總數。
置信度C表示關聯規則X?Y的強度,可定義為:

(2)
其中,|T(X∪Y)|為數據集中包含X∪Y的事務數;|T(X)|為數據集中包含X的事務數[8]。
由上可知,關聯規則的實現步驟可概括為:首先對原始數據庫進行數據分析并得到一個事務數據庫D,再人為地根據工藝要求提出一個最小支持度Smin和一個最小置信度Cmin,最后求出所有滿足該最小支持度和最小置信度的關聯規則。關聯規則的挖掘問題同樣可分為兩個子問題:
a. 找出事務數據庫D中滿足最小支持度Smin的所有頻繁項目集;
b. 檢驗滿足最小支持度的頻繁項目集是否滿足最小置信度Cmin,生成對應的關聯規則。
子問題a是關聯規則中的關鍵部分,當前大部分研究工作大都集中在該問題上。Apriori、DHP及Partition 等算法被認為是最有影響和最有效的關聯規則算法[9]。
2.2.2Apriori算法
Apriori算法是一種比較有影響力的挖掘布爾關聯規則頻繁項集的算法,其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。Apriori算法實現數據挖掘主要分為兩步:
a. 通過迭代,掃描事務數據庫中的所有項集,按照一定的最小支持度,篩選出所有頻繁項集,即淘汰閾值低于最小支持度的項集,保留閾值相對較大的頻繁項集;
b. 計算這些頻繁項集的置信度[10]。
可見,Apriori算法的整個實現過程由“連接”和“剪枝”兩個部分組成。
工廠基礎自動化層面獲取的數據十分龐大、復雜,但只需要系統穩態時的數據。所以,需要對原始數據進行預處理,從中提取出研究需要的穩態數據。
筆者使用相似穩定判別法得到系統穩態的時間段。生物氧化提金過程中,溫度和pH值是敏感監測點,可以認為某段時間內溫度和pH值都達到穩定時就是穩定工況。具體判別式為:
(3)

進風量為1 550~1 600m3/h,依據式(3)對數據進行篩選,得到對應穩態時的pH值、溫度和氧化還原電位數據共26條(表1)。

表1 系統穩態數據
Apriori算法是一種挖掘布爾關聯規則頻繁項集的算法,因此需要將表1中的數據轉換成布爾型數據。筆者采用適當的定義轉換方法實現了浮點型數據到布爾型數據的轉換,例如將pH值2.216 370 106轉換為“屬于[2.21,2.22]”。
筆者旨在研究生物氧化提金預處理系統的參數優化,因此省略了Apriori算法掃描數據庫生成項集的過程,只對4維項集{pH值,溫度,進風量,氧化還原電位}進行研究。按照pH值以0.1間隔、溫度以1℃間隔、氧化還原電位以1mV間隔,可得26條關聯規則。按照一般支持度計算方法,26條關聯規則的支持度全部為1/26,失去了研究的意義,因此筆者主要以氧化還原電位的支持度作為26條關聯規則的支持度。
由于研究對象和研究領域的不同,最小支持度和最小置信度的設定還沒有特定的公式和方法,通常依據專家經驗給定。筆者結合生物氧化提金預處理過程的一般要求和特殊性給定最小支持度Smin為7.7%,最小置信度Cmin為50%。結合式(2)可得強關聯規則(表2)。

表2 強關聯規則
依據式(2)可得,表2中第2行的強關聯規則滿足最小置信度,是筆者需要求取的關聯知識。
為了判定挖掘到的關聯知識是否能夠更好地指導實踐,需要結合被研究對象的實際工況具體分析各參數范圍是否符合工藝要求,是否能達到較高的生產指標。
結合筆者對生物氧化預處理階段影響因素的分析和西北高寒地區特殊的氣候條件可知,氧化槽內的氧化還原電位直接關系著槽內細菌的活性和分解速率:強酸性環境下細菌活性和分解率更高。相對于平原地區,西北高原地區較高的溫度環境更有利于細菌的生長。
依據表1的原始系統穩態數據可作出溫度、pH值與氧化還原電位的相關關系曲線,如圖1、2所示。可見,系統進風量在[1550,1600]時,溫度在[42,43]之間時氧化還原電位最穩定、pH值在[2.2,2.3]之間時氧化還原電位最高。

圖1 溫度與氧化還原電位相關關系曲線

圖2 pH值與氧化還原電位相關關系曲線
筆者依據系統穩態數據所挖掘出的關聯規則從理論上來講滿足工藝要求,各參數在物理上可提高生物氧化提金系統的提金率。
針對生物氧化提金技術提金率受工藝參數設定影響波動大的問題,筆者依據數據挖掘技術和關聯規則理論,采用Apriori算法建立了一種優化生物氧化預處理過程工藝參數的新方法,能夠較準確地挖掘隱藏在歷史數據中的溫度及pH值等工藝參數的最優范圍,可有效提高能源和原料的利用率,對生產實踐具有理論指導意義,在常規流程工業過程優化領域具有廣闊的應用前景。
[1] 陳飛.基于時間序列數據挖掘的生物氧化提金工藝參數優化[D].烏魯木齊:新疆大學,2014.
[2] 李泉.生物氧化提金預處理過程參數間關系的辨識研究[J].化工自動化及儀表,2014,41(10):1185~1188.
[3] 李偉,南新元,吳瓊.生物氧化提金中基于PSO-LSSVM的氧化還原電位建模研究[J].貴金屬,2014,35(4):60~64.
[4] 聶曉凱,陽春華,柴琴琴,等.基于最小二乘支持向量機的氧化鋁蒸發過程濃度在線預測[C].有色金屬工業科學發展——中國有色金屬學會第八屆學術年會論文集.長沙:中南大學出版社,2010:415~419.
[5] 劉子龍,秦曉鵬.影響生物氧化提金工藝的主要因素與措施[J].黃金科學技術,2010,18(2):58~60.
[6] Liao S H,Chu P H,Hsiao P Y.Data Mining Techniques and Applications-A Decade Review from 2000 to 2011[J].Expert Systems with Applications,2012,12(39):11303~11311.
[7] 高丙朋,南新元,魏霞.基于迭代LS-SVM生物氧化提金預處理工藝參數優化算法的研究[J].貴金屬,2012,33(2):40~43.
[8] Han J W,Micheline K,Pei J.Data Mining: Concepts and Techniques[M].San Francisco: Morgan Kaufmann,2011:147~149.
[9] Ralha C G,Carlos V S S.A Multi-agent Data Mining System for Cartel Detection in Brazilian Government Procurement[J].Expert Systems with Applications,2012,39(14):11642~11656.
[10] 包震宇.基于粗糙集對Apriori算法的改進[D].上海:上海師范大學,2010.