蘇文,趙力,鄧帥
?
基于基團拓撲的遺傳神經網絡工質臨界溫度預測
蘇文,趙力,鄧帥
(天津大學中低溫熱能高效利用教育部重點實驗室,天津300072)
用遺傳神經網絡預測工質的臨界溫度,網絡的輸入參數為分子基團和拓撲指數,輸出參數為臨界溫度。所劃分的16個分子基團涵蓋了制冷、熱泵及有機朗肯循環(huán)系統(tǒng)中的大部分工質,所選拓撲指數能夠分辨工質中所有的同分異構體。通過遺傳算法優(yōu)化得到網絡結構及初始參數后,由神經網絡對工質臨界溫度進行預測,同時為了提高網絡對臨界溫度預測的泛化能力,將200種工質劃分成訓練集、驗證集及測試集。所得網絡能夠區(qū)分所有的同分異構體,且與實驗值相比,各數據集臨界溫度的平均相對誤差分別為1.18%、1.69%、1.28%,表明該網絡對工質臨界溫度具有很好的預測能力。
熱力學性質;臨界溫度;工質;分子基團;拓撲指數;遺傳算法;神經網絡
工質作為實現(xiàn)熱力循環(huán)熱功轉換的流動介質,其基礎物性是熱力循環(huán)構建、控制和優(yōu)化的基礎,同時也決定著循環(huán)系統(tǒng)的安全性、經濟性。雖然,已有文獻都收集有大量可靠的熱物性數據[1-2],但隨著人們對溫室效應及臭氧空洞等環(huán)境問題的日益重視,研發(fā)高效、低ODP(ozone depletion potential)、低GWP(global warming potential)的循環(huán)工質迫在眉睫。通過分子設計逆向工程,高效率地尋找具有特定性質的分子已成為工質研發(fā)的主要手段[3]。分子設計的主要依據是分子構效關系,關鍵在于建立高精度的結構-物性預測模型。
作為亞臨界與跨臨界熱力循環(huán)的分界點,工質臨界溫度(c)不僅是工質重要的基礎物性,也是估算工質其他物性的基礎[4]。目前,估算物性最通用的方法便是基團貢獻法[5-8]。在臨界溫度方面,Joback等[9]提出了估算有機物臨界溫度的基團法;Constantinou等[10]在UNIFAC基團的基礎上,發(fā)展了一種考慮鄰近基團影響的基團法,提高了預測精度;Marrero等[11]論述了鍵貢獻法,采用單一原子形成原子對的值,預測了臨界溫度。國內方面,許文[12]建立了估算臨界溫度的三基團參數關聯(lián)式;馬沛生等[13]在系統(tǒng)整理大量臨界溫度數據的基礎上 ,提出了新基團估算法及基團貢獻值,提高了估算精度;Wang等[14]提出了定位分布貢獻法,其能夠區(qū)分大部分的同分異構體。但以上提出的方法針對的是全體有機物,缺乏對工質展開有針對性的研究,且已有方法不能完全區(qū)分異構體,基團劃分復雜,不利于分子設計中的物性快速估算。因此,本文引入了拓撲指數以區(qū)分異構體,并劃分了工質基團。
近年來,由于神經網絡的高度非線性功能,已成為物性預測的有力工具[15]。眾多學者將神經網絡和基團貢獻法相結合,估算了有機物的沸點、臨界參數等重要物性[16-18]。其中,曠戈等[19]提出了估算有機物臨界溫度的基團貢獻人工神經網絡集成法。但在相關研究中發(fā)現(xiàn),神經網絡具有網絡結構難以確定,容易陷入局部極小點等固有缺陷[20]。因此,本文將進化計算中的遺傳算法引入神經網絡,通過分子基團及拓撲指數,實現(xiàn)對工質臨界溫度的預測。
1.1 基團劃分
工質研究最早始于19世紀30年代,Midgely等[21]從元素周期表出發(fā),在綜合考慮工質熱物理性能、毒性、穩(wěn)定性等條件下,認為工質應由C、H、N、O、F、Cl、Br、I 8種元素構成。但隨著環(huán)境的惡化,工質正從最初的CFC、HCFC等氟氯工質向具有低ODP、低GWP的環(huán)保型工質發(fā)展,氟氯工質逐漸被淘汰。因此,基于分子基團的工質構效關系,采用分子設計逆向思維研發(fā)符合應用需求的高效工質已引起各國學者的廣泛關注[22]。根據已有工質構型及分子設計結果[23],可以得出熱力循環(huán)中有機工質主要由烷烴、烯烴、鹵代烴、醚、醇、胺六類有機物構成,同時考慮分子基團劃分的簡易性,將工質按照官能團劃分為16個基團,如圖1所示。
1.2 拓撲指數
引入分子拓撲指數EATII辨別工質中存在的大量同分異構體。EATII是從分子結構圖中衍生出來的一種數學量,依據分子拓撲結構及分子組成計算得到[24],不僅與物質性質具有較好地相關性,也對不同的分子結構具有唯一性,能唯一地區(qū)分22個碳原子內形成的所有異構體[25]。圖2表示拓撲指數EATII計算流程,所需的基團共價半徑Radii和連接度如表1所示。

表1 基團共價半徑及連接度
神經網絡是由具有適應性的簡單單元組成的廣泛并行互連網絡,其3層 BP (back propagation)網絡能以任意精度逼近任意有理函數[26]。因此,本文采用包括輸入層、隱層和輸出層的BP神經網絡建立基團、結構與臨界溫度之間的非線性關系。輸入層由17個節(jié)點構成,分別代表16個基團和1個拓撲指數,其中基團輸入值為該基團在分子中出現(xiàn)的次數。輸出層只有一個節(jié)點,表示臨界溫度。同時,利用遺傳算法(GA)優(yōu)化得到網絡的隱層節(jié)點數和初始參數值。200種不同工質用于建立遺傳神經網絡,碳元素最多為8個,臨界溫度值來源于美國Chemical Abstracts Service,并且所有的數據在使用前都作歸一化處理。
2.1 遺傳算法
遺傳算法GA最早由Holland[27]提出,采用全體進化的方式,將優(yōu)化問題的解以某種形式編碼,產生個體,由適應度函數指導搜索方向,再通過選擇、交叉、變異操作產生新一代個體,如此反復進行,直到搜索到最優(yōu)解為止。為使GA能同時優(yōu)化BP網絡的初始參數值和隱層節(jié)點數,本文采用遞階編碼機制,每個個體的染色體由控制基因和參數基因構成??刂苹驔Q定每個隱層神經元是否被激活,采用二進制編碼;參數基因用來表示每個神經元權值和閥值,采用實數編碼[28]。GA的適應度函數由網絡的誤差函數和復雜度函數構成,誤差函數MSE可由式(1)算得

式中,為工質總數;exp,i為臨界溫度實驗值,cal,i為臨界溫度計算值。
網絡復雜度函數由隱層節(jié)點個數決定,假設隱層節(jié)點數為,則復雜度函數NC如式(2)所示[29]

由于GA總是朝著適應度函數增大的方向迭代,因此個體適應度函數?定義如式(3)所示
(3)
對于遺傳算子,本文采用正常幾何分布的選擇算法、線性組合的算術交叉算法和所有基因隨機擾動的非均勻變異算法。同時考慮到工質總數為200,設最大隱層節(jié)點數為15,種群大小為100,最大迭代次數為500。遺傳算法流程如圖3所示。
2.2 BP神經網絡
基于誤差反向傳播的BP網絡主要由正向傳播和反向傳播兩部分組成。在正向傳播中,輸入參數從輸入層經隱含層神經元處理后,傳至輸出層,如果輸出層得到的不是期望輸出,就轉為反向傳播,依據網絡的實際輸出和期望輸出之間誤差的負梯度方向,從后往前逐層地迭代修正各層神經元之間的連接權值和閥值?;贕A得到的網絡初始參數及隱層節(jié)點數,本文采用收斂快且精度高的Levenberg-Marquardt(LM)學習算法對3層BP網絡進行訓練[30]。網絡神經元的傳遞函數主要有3類,分別為purelin、logsig、tansig,其中傳遞函數tansig在定位分布貢獻法被用來預測物質的臨界溫度[14]。因此,本文隱層和輸出層分別采用傳遞函數tansig和purelin,定義如下

(5)
式中,表示函數參數。
為提高BP網絡預測臨界溫度的泛化能力,防止網絡出現(xiàn)數據過擬合,本文將200種工質分為3類,分別為訓練集、驗證集、測試集,比例依次為70%、15%、15%[30]。BP網絡算法流程如圖4所示。
通過遺傳算法得網絡最優(yōu)隱層節(jié)點數為6,因此,BP網絡的拓撲結構為17-6-1。利用LM算法從GA得到的初始參數開始對該網絡進行訓練,得到如表2所示的網絡優(yōu)化值。同時,根據BP網絡傳遞函數,建立基團、結構與臨界溫度之間的關系,得式(6)

式中,W是隱層神經元的權重;W是基團對神經元的輸入權重;W是拓撲指數EATII對神經元的輸入權重;是隱層神經元常數;C是基團常數;N是工質所含基團的個數。和C列于表2。

表2 網絡優(yōu)化值及參數
訓練所得BP網絡預測臨界溫度的性能可由以下統(tǒng)計參數評價

(8)
(9)
其中AARD是平均相對誤差,用來表示網絡計算值偏離實驗值的程度;bias是平均偏差,用以描述計算值在實驗值兩側的平均分布;RMS是計算值與實驗值之間的絕對平均差。
圖5分別給出了訓練集、驗證集、測試集的臨界溫度計算值與實驗值之間的比較。相關系數用以反映計算值與實驗值之間的密切關系程度。對于訓練集、驗證集、測試集,分別為0.9951、0.9926、0.9976,說明由BP網絡計算的臨界溫度值和實驗值之間具有很好的一致性。每個集合的統(tǒng)計參數列于表3,對于200種工質,AAD、bias、RMS分別為1.27%、0.09%,9.0877。每種工質臨界溫度的相對誤差ARD定義如式(10)所示


表3 各數據集的統(tǒng)計參數
圖6給出了200種工質的相對誤差分布情況,其中ARD>5%的工質只有6種,最大誤差為12.4%,而ARD≤2%的工質有157種,占比78.5%。
對于工質中存在的大量同分異構體,表4給出了預測示例。當基團和工質結構都不一樣時,同分異構體的性質差異通過基團個數和拓撲指數進行區(qū)分。對于基團相同、結構不同的異構體,在低碳分子中,由于臨界溫度相差很小,則忽略EATII之間的差別。但隨著碳原子數的增多,EATII之間的差別逐漸增大,對異構體的區(qū)分能力增強。因此,對于具有大量同分異構體的有機工質而言,本文建立的BP神經網絡能有效區(qū)分異構體間的物性差異。

表4 工質同分異構體的預測
本文基于分子基團及拓撲指數,采用遺傳神經網絡,預測了工質的臨界溫度,發(fā)展了相應的關聯(lián)式。對網絡預測結果分析,得到以下結論。
(1)建立的網絡模型能準確的預測工質臨界溫度,對訓練集、驗證集和測試集的平均相對誤差分別為1.18%、1.69%、1.28%。
(2)所選拓撲指數與物質性質具有良好的相關性,能夠區(qū)分所有的工質異構體,使得網絡能夠有效地預測同分異構體。
(3)該模型能僅根據分子結構預測新型工質的臨界溫度,有利于工質分子設計中的物性快速估算。

AARD——平均相對誤差,% ARD——相對誤差,% bias ——平均偏差,% EATII ——拓撲指數 f——適應度函數 MSE——誤差函數 m——隱層節(jié)點數 N——工質總數 NC——復雜度函數 T——溫度,K RMS——絕對平均差 下角標 c——臨界溫度 cal——網絡計算臨界溫度值 exp——工質臨界溫度實驗值 i——第i種工質或第i個數
[1] 侯虞鈞.化學工程手冊[M].北京:化學工業(yè)出版社,1986. HOU Y J. Chemical Engineering Handbook[M]. Beijing: Chemical Industry Press, 1986.
[2] CALM J, HOURAHAN G. Physical, safety and environmental data for current and alternative refrigerants[C]// Proceedings of 23rd International Congress of Refrigeration (ICR2011). Prague, Czech Republic, 2011.
[3] SAMUDRA A, SAHINIDIS N. Design of secondary refrigerants.A combined optimization enumeration approach[C]//Proceedings of AIChE Annual Meeting, Philadelphia, 2009.
[4] POLING B.E, PRAUSNITZ J M, CONNELL J P. The Properties of Gases and Liquids[M]. 5th ed. New York: McGraw-Hill, 2004.
[5] 王小艷, 司繼林, 張達, 等. 純物質臨界參數估算方法的研究進展[J]. 化工進展, 2012, 31(9): 1871-1877. WANG X Y, SI J L, ZHANG D,. Research progress of estimation methods for critical parameters of pure substances[J]. Chem. Ind. Eng. Prog., 2012, 31(9): 1871-1877.
[6] 夏力,李忠杰,項曙光.估算有機物正常沸點的元素和化學鍵貢獻法[J].化工進展,2007, 26 (1): 138-144. XIA L, LI Z J, XIANG S G. A new method based on elements and chemical bonds for estimating normal boiling point of organic compounds [J]. Chem. Ind. Eng. Prog., 2007, 26(1): 138-144.
[7] 周永昌, 趙鎖奇, 許志明, 等. 預測復雜高沸點重質油餾分平均沸點的基團貢獻法[J]. 化工學報, 2004, 55(8): 1224-1229. ZHOU Y C, ZHAO S Q, XU Z M,. New group contribution method for estimating average boiling point of heavy oil fractions[J]. Journal of Chemical Industry and Engineering(China), 2004, 55(8): 1224-1229.
[8] 陳福明. 基團溶解度參數及有機物汽化熱的估算[J]. 化工學報, 1991, 42(3): 328-333. CHEN F M. Estimation of the group solubility parameter and the latent heat for organic compounds[J]. Journal of Chemical Industry and Engineering(China), 1991, 42(3): 328-333.
[9] JOBACK K G, REID R C. Estimation of pure-component properties from group-contributions[J]. Chemical Engineering Communications, 1987, 57(1-6): 233-243.
[10] CONSTANTINOU L, GANI R. New group contribution method for estimating properties of pure compounds[J]. AIChE Journal, 1994, 40(10):1697-1709.
[11] MARRERO J, PARDILLO E. Estimation of pure compound properties using group-interaction contributions [J]. AIChE Journal, 1999, 45(3): 615-621.
[12] 許文. 估算有機物基礎物性的三基團參數關聯(lián)式[J]. 化工學報, 1992, 43(2): 222-229. XU W. Estimation of three group parameters for correlating basic physical properties of organic compounds[J]. Journal of Chemical Industry and Engineering(China), 1992, 43(2): 222-229.
[13] 馬沛生, 王加寧, 李平. 基團法估算臨界參數的改進[J]. 高?;瘜W工程學報, 1996, 10(4):15-18. MA P S, WANG J N, LI P. Improvement of group contribution method for estimation of critical parameters[J]. Journal of Chemical Engineering of Chinese Universities, 1996, 10(4): 15-18.
[14] WANG Q, MA P, JIA Q,. Position group contribution method for the prediction of critical temperatures of organic compounds[J]. Journal of Chemical & Engineering Data, 2008, 53(5): 1103-1109.
[15] 許祿, 胡昌玉. 化學中的人工神經網絡法[J]. 化學進展, 2000, 17(1): 18-31. XU L, HU C Y. Artificial neural networks in chemistry[J]. Progress in Chemistry, 2000, 17(1): 18-31.
[16] 張維濤, 于雁武. 基團貢獻人工神經網絡集成法估算有機物物性研究進展[J].中國膠粘劑, 2015, 24(4): 46-48. ZHANG W T, YU Y W. Research progress of group contribution method integrated with artificial neural network for estimating the properties of organic compounds[J]. China Adhesives, 2015, 24(4): 46-48.
[17] 彭黔榮, 楊敏, 石炎福, 等. 基于混合遺傳算法的人工神經網絡模型及其對有機化合物熔點的預測[J]. 化工學報, 2005, 56 (10) :1922-1927. PENG Q R, YANG M, SHI Y F,. Artificial neural network based on hybrid genetic algorithm and prediction of melting points of organic compounds[J]. Journal of Chemical Industry and Engineering(China), 2005, 56(10):1922-1927.
[18] 張向東, 趙立群, 張國義. 人工神經網絡法預測有機物基礎物[J]. 化工學報, 1995, 46(1): 66-74. ZHANG X D, ZHAO L Q, ZHANG G Y. An artificial neural network for predicting the basic physical properties of organic compounds[J]. Journal of Chemical Industry and Engineering(China), 1995, 46(1): 66-74.
[19] 曠戈, 趙素英, 趙之山, 等. 人工神經網絡基團貢獻法估算純有機物的臨界參數[J]. 計算機與應用化學, 2001, 18 (4): 396-9. KUANG G, ZHAO S Y, ZHAO Z S,. Prediction of critical properties for organic compound by group-contribution artificial neural network method [J]. Computers and Applied Chemistry, 2001, 18(4): 396-399.
[20] 劉春艷, 凌建春, 寇林元, 等. GA-BP神經網絡與BP神經網絡性能比較[J]. 中國衛(wèi)生統(tǒng)計, 2013, 30 (2):173-6.LIU C Y, LING J C, KOU L Y,. Performance comparison between GA-BP neural network and BP neural network[J]. Chinese Journal of Health Statistics, 2013, 30 (2):173-176.
[21] MIDGLEY T, HENNEAL, MCNARY R R. Heat transfer and refrigeration: US 2104882 [P]. 1938-01-11.
[22] 李素芳, 陳臘生. 分子設計的發(fā)展與應用[J].化學世界, 2005, 46(9): 574-575. LI S F, CHEN L S. Development and application of molecular design[J]. Chemical World, 2005, 46(9): 574-575.
[23] KHETIB Y, LARKECHE O, MENIAI A,. Group contribution concept for computer-aided design of working fluids for refrigeration machines[J]. Chemical Engineering & Technology, 2013, 36(11): 1924-1934.
[24] GUO M, XU L, HU C Y,. Study on structure-activity relationship of organic compounds-applications of a new highly discriminating topological index[J]. Match, 1997, 14(35): 185-197.
[25] 許祿, 胡昌玉, 許志宏. 應用化學圖論[M]. 北京: 科學出版社, 2000. XU L, HU C Y, XU Z H. Apply Chemistry Graph Theory[M]. Beijing: Science Press, 2000.
[26] NIELSEN R. Theory of the back propagation neural network[J]. Neural Networks, 1988, 1(1): 65-93.
[27] HOLAND J H. Adaptation in Natural and Artificial Systems[M]. Ann Arbor: The University of Michigan Press, 1975.
[28] 孫娓娓.BP 神經網絡的算法改進及應用研究[D]. 重慶: 重慶大學, 2009. SUN W W. Study on improved algorithm and application of BP neural network[D]. Chongqing: Chongqing University, 2009.
[29] 趙壽玲. BP神經網絡結構優(yōu)化方法的研究及應用[D]. 蘇州: 蘇州大學, 2010.ZHAO S L. Researches and application on the structure optimization of the BP neural networks[D]. Suzhou: Soochow University, 2010.
[30] MOOSAVI M, SEDGHAMIZ E, ABARESHI M. Liquid density prediction of five different classes of refrigerant systems (HCFCs, HFCs, HFEs, PFAs and PFAAs) using the artificial neural network-group contribution method[J]. International Journal of Refrigeration, 2014, 48:188-200.
Prediction of refrigerant critical temperature with genetic neural network based on group topology
SU Wen, ZHAO Li, DENG Shuai
(Key Laboratory of Efficient Utilization of Low and Medium Grade Energy, Ministry of Education, School of Mechanical Engineering, Tianjin University, Tianjin300072, China)
A genetic neural network was presented to predict the critical temperature of refrigerants. The inputs of the network included molecular groups and a topological index, and the output was the critical temperature. 16 molecular groups divided can cover most of the refrigerants or working fluids in refrigeration, heat pump and Organic Rankine Cycle research. The chosen topological index was able to distinguish all refrigerant isomers. The critical temperatures of refrigerants were estimated by the neural network after obtaining the optimized network structure and initial parameters by genetic algorithm. At the same time, in order to improve network generalization ability of prediction, 200 data points were divided into three data sets including the training, validation, and test sets. The calculated results based on the developed network showed a good agreement with experimental data. The network can distinguish all refrigerant isomers and compared with the experimental data. The average absolute relative deviations for training, validation and test sets were 1.18%, 1.69% and 1.28%, respectively.
thermodynamics property; critical temperature; refrigerant; molecular groups; topological index; genetic algorithm; neural network
2016-03-11.
Prof. ZHAO Li, jons@tju.edu.cn
10.11949/j.issn.0438-1157.20160289
TK 123
A
0438—1157(2016)11—4689—07
蘇文(1991—),男,博士研究生。
國家自然科學基金項目(51276123, 51476110)。
2016-03-11收到初稿,2016-08-25收到修改稿。
聯(lián)系人:趙力。
supported by the National Natural Science Foundation of China (51276123, 51476110).