巫莉莉,黃志宏,何斌斌,曾 鳴
(華南農(nóng)業(yè)大學(xué) 現(xiàn)代教育技術(shù)中心,廣州 510642)
水產(chǎn)養(yǎng)殖在人類(lèi)的生產(chǎn)和生活中扮演著重要的角色,既能提供人體所需的優(yōu)質(zhì)蛋白,也能為工業(yè)提供重要原料,維持生態(tài)平衡。我國(guó)水產(chǎn)養(yǎng)殖歷史悠久,產(chǎn)量連續(xù)多年位居全球首位[1]。工廠(chǎng)化循環(huán)水養(yǎng)殖作為一種高密度、高產(chǎn)量、高投入、高效益的集約化養(yǎng)殖模式[2],具有養(yǎng)殖設(shè)施設(shè)備先進(jìn)、養(yǎng)殖環(huán)境可控、養(yǎng)殖生產(chǎn)不受地域空間限制及生態(tài)效益高等特點(diǎn),已成為現(xiàn)代海水養(yǎng)殖產(chǎn)業(yè)發(fā)展的方向[3]。隨著我國(guó)養(yǎng)殖集約化規(guī)模的擴(kuò)大,養(yǎng)殖水體的污染也日益嚴(yán)重。高產(chǎn)、高密度養(yǎng)殖模式加重了養(yǎng)殖水體環(huán)境中有機(jī)氮物質(zhì)分解轉(zhuǎn)化的負(fù)擔(dān),使微生物分解過(guò)程受到嚴(yán)重阻礙,進(jìn)而導(dǎo)致水體系統(tǒng)循環(huán)過(guò)程受到制約,引起水體富營(yíng)養(yǎng)化,引發(fā)養(yǎng)殖生物發(fā)病甚至死亡等問(wèn)題[4]。養(yǎng)殖水體中氨氮的過(guò)度積累會(huì)直接影響?zhàn)B殖生物生長(zhǎng),阻礙水產(chǎn)養(yǎng)殖的發(fā)展。
養(yǎng)殖水體中的氨氮以游離氨(NH3)和銨離子(NH+4)存在,主要來(lái)源于以下3方面:① 養(yǎng)殖對(duì)象排泄物、飼料的殘餌、動(dòng)植物尸體等;② 氧氣含量不足導(dǎo)致的水體反硝化反應(yīng);③養(yǎng)殖自身通過(guò)鰓和尿液排出體內(nèi)氨氮避免氨中毒[5-6]。我國(guó)《漁業(yè)水質(zhì)標(biāo)準(zhǔn)(GB 11607—1989)》中規(guī)定,氨氮質(zhì)量濃度小于0.02 mg/L時(shí),對(duì)魚(yú)類(lèi)的生命活動(dòng)沒(méi)有影響。當(dāng)非離子氨濃度處于0.02~0.2 mg/L時(shí),仍在魚(yú)類(lèi)可忍受的安全范圍內(nèi)。養(yǎng)殖水體中銨離子(NH+4)的質(zhì)量濃度不允許超過(guò) 5 mg/L[4,7-9]。
水中氨氮的含量作為衡量水體受污染程度的重要評(píng)價(jià)指標(biāo),實(shí)現(xiàn)其有效控制是水質(zhì)控制的關(guān)鍵,對(duì)養(yǎng)殖水體中的氨氮進(jìn)行準(zhǔn)確測(cè)定,將有助于對(duì)水體被污染情況和自?xún)裟芰M(jìn)行有效評(píng)價(jià)[10]。目前,養(yǎng)殖水體氨氮檢測(cè)方法主要有高精度實(shí)驗(yàn)室檢測(cè)、便攜式測(cè)試儀和試紙檢測(cè)、傳感器檢測(cè)、智能算法預(yù)測(cè)。實(shí)驗(yàn)室最為常用的是納氏試劑法、水楊酸-次氯酸鹽法及靛酚藍(lán)等分光光度法,納氏試劑法是測(cè)定氨氮的國(guó)家標(biāo)準(zhǔn)方法之一,但存在對(duì)顯色劑的配制要求高、測(cè)試范圍有限、成本高、操作相對(duì)復(fù)雜等問(wèn)題[11-13],且封閉式循環(huán)水養(yǎng)殖系統(tǒng)中的水質(zhì)參數(shù)是動(dòng)態(tài)變化的,需要持續(xù)計(jì)算這些參數(shù)對(duì)水產(chǎn)生物生長(zhǎng)的影響,采用傳統(tǒng)的測(cè)量方法難以實(shí)現(xiàn)對(duì)養(yǎng)殖水體水質(zhì)的實(shí)時(shí)預(yù)測(cè)[14]。便攜式測(cè)試儀和試紙?jiān)跈z測(cè)低濃度水體時(shí)容易產(chǎn)生較大誤差,且受人工操作不當(dāng)?shù)挠绊懸矔?huì)產(chǎn)生誤差[15-16]。使用傳感器檢測(cè),雖能解決實(shí)時(shí)性問(wèn)題,但同樣存在精度和使用壽命問(wèn)題[17]。近些年,也有學(xué)者逐步將智能算法應(yīng)用到水體氨氮的預(yù)測(cè)中,其中喬俊飛等[19,33]利用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行水體氨氮預(yù)測(cè),但該方法對(duì)樣本數(shù)量有很大的依賴(lài)性,且運(yùn)算速度慢、成本高;居錦武等[8,34]利用最小二乘支持向量機(jī)算法進(jìn)行水體氨氮預(yù)測(cè),但該方法在進(jìn)行參數(shù)選擇時(shí),主要依靠人的經(jīng)驗(yàn),對(duì)預(yù)測(cè)精度影響較大,且運(yùn)算速度慢;崔雪梅等[22,35]則使用組合智能算法克服單一算法的缺陷,但該方法仍存在編程復(fù)雜、耗時(shí)長(zhǎng)等問(wèn)題。此外,以上學(xué)者使用智能算法多是應(yīng)用在江河湖泊或是工業(yè)、農(nóng)業(yè)、生活污水的氨氮含量預(yù)測(cè)中,水產(chǎn)養(yǎng)殖水體中氨氮含量預(yù)測(cè)比較少,用于海水工廠(chǎng)化循環(huán)水養(yǎng)殖環(huán)境中氨氮的預(yù)測(cè)就更少了[18-21]。
對(duì)養(yǎng)殖環(huán)境中水質(zhì)參數(shù)進(jìn)行及時(shí)、準(zhǔn)確地預(yù)測(cè)已成為水產(chǎn)品集約化、精準(zhǔn)化養(yǎng)殖的一項(xiàng)重要的基礎(chǔ)性工作,其對(duì)預(yù)防水質(zhì)惡化及水產(chǎn)品疾病暴發(fā)具有十分重要的意義和價(jià)值[22]。本研究根據(jù)地下深井海水工廠(chǎng)化循環(huán)水養(yǎng)殖中室內(nèi)大氣壓強(qiáng)、溫度、濕度,水體溫度、鹽度、pH值變化不大,氨氮含量受以上因素影響較小的特點(diǎn)[23-24],通過(guò)分析和建立氨氮含量與養(yǎng)殖對(duì)象數(shù)量、均重、飼料投喂量之間的非線(xiàn)性關(guān)系,基于小樣本,采用隨機(jī)森林回歸的機(jī)器學(xué)習(xí)方法對(duì)氨氮含量進(jìn)行預(yù)測(cè),為實(shí)現(xiàn)養(yǎng)殖水體氨氮含量的精準(zhǔn)預(yù)測(cè)和精細(xì)化養(yǎng)殖建立基礎(chǔ),并對(duì)改善水質(zhì)、提高成活率和生長(zhǎng)率、保護(hù)環(huán)境等具有重要意義。
實(shí)驗(yàn)數(shù)據(jù)來(lái)自于山東東方海洋地下海水養(yǎng)殖場(chǎng)東7車(chē)間D組養(yǎng)殖池,養(yǎng)殖池水來(lái)自地下100 m以下深井海水,水溫常年保持在12~16℃,pH值保持在7.2~7.5,鹽度保持在28~31,溶氧含量控制在8~12 mg/L。養(yǎng)殖模式為工廠(chǎng)化循環(huán)水養(yǎng)殖,養(yǎng)殖品種為大西洋鮭(salmo salar),隸屬于鮭科(salmonoidea)鮭屬(salmon),入池質(zhì)量均約0.1 kg,養(yǎng)成商品魚(yú)規(guī)格約6.0 kg,養(yǎng)殖周期為18個(gè)月,采用鮭鱒魚(yú)專(zhuān)用飼料養(yǎng)殖,每日投餌4次(每6 h投喂1次)。每隔7 d人工采集后通過(guò)納氏試劑分光光度法測(cè)量養(yǎng)殖水體中的氨氮含量。本研究選取2017年1月至2018年12月間32組大西洋鮭平均質(zhì)量、尾數(shù)、飼料投喂量的養(yǎng)殖數(shù)據(jù)和養(yǎng)殖水體中氨氮含量作為實(shí)驗(yàn)數(shù)據(jù)。
本研究基于小樣本數(shù)據(jù)進(jìn)行,主要選用隨機(jī)森林回歸的機(jī)器學(xué)習(xí)方法對(duì)養(yǎng)殖水體中氨氮含量進(jìn)行分析和預(yù)測(cè)。隨機(jī)森林回歸作為一種監(jiān)督學(xué)習(xí)的算法,是以決策樹(shù)為基學(xué)習(xí)器的集成學(xué)習(xí)算法。通過(guò)集成學(xué)習(xí)可解決單個(gè)模型或某一組參數(shù)的模型所固有的缺陷,利用多個(gè)模型的組合,取長(zhǎng)補(bǔ)短,避免局限性。將其應(yīng)用到養(yǎng)殖水體氨氮含量的預(yù)測(cè)中,會(huì)帶來(lái)兩方面的好處:一是由于養(yǎng)殖水體氨氮含量學(xué)習(xí)任務(wù)的假設(shè)空間很大,可能會(huì)發(fā)生多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同樣性能的情況,通過(guò)多個(gè)基學(xué)習(xí)器的結(jié)合使用,可減少誤判,并減少由此而導(dǎo)致的算法泛化性能不佳的風(fēng)險(xiǎn);二是由于有些養(yǎng)殖水體氨氮含量學(xué)習(xí)任務(wù)的真實(shí)假設(shè)可能不在當(dāng)前學(xué)習(xí)算法考慮的假設(shè)空間中,通過(guò)多個(gè)基學(xué)習(xí)器的結(jié)合使用可避免無(wú)效性,可增加相應(yīng)的假設(shè)空間。
使用隨機(jī)森林回歸算法[25]構(gòu)建養(yǎng)殖水體中的氨氮含量預(yù)測(cè)模型,共經(jīng)歷3個(gè)步驟:
步驟1使用隨機(jī)抽樣的方式產(chǎn)生多個(gè)訓(xùn)練集。
步驟2以回歸決策樹(shù)作為學(xué)習(xí)器,依據(jù)最小方差作為分裂規(guī)則,對(duì)數(shù)據(jù)集進(jìn)行分裂操作,不斷生成二叉樹(shù)結(jié)構(gòu)的“是”和“否”的判斷,將特征空間劃分成若干單元,每個(gè)劃分單元都有一個(gè)特定的輸出,并通過(guò)對(duì)多個(gè)訓(xùn)練集分別進(jìn)行分裂操作訓(xùn)練出多個(gè)回歸決策樹(shù)基模型,生成許多棵沒(méi)有關(guān)聯(lián)的樹(shù)。
步驟3將許多棵回歸決策樹(shù)整合成森林,將所有回歸決策樹(shù)的結(jié)果綜合起來(lái),結(jié)合平均法策略得到預(yù)測(cè)最終結(jié)果。具體流程如圖1所示。
圖1 氨氮含量預(yù)測(cè)模型構(gòu)建流程框圖
1.2.1 生成訓(xùn)練集
本研究利用有放回的Bootstrap方法能夠很好地應(yīng)用于抽樣比例較小的分層抽樣調(diào)查的特點(diǎn)[26],從原始訓(xùn)練集中使用該方法隨機(jī)有放回采樣取出20組樣本,共進(jìn)行50次采樣,生成50個(gè)訓(xùn)練集。
1.2.2 生成回歸決策樹(shù)
回歸決策樹(shù)[25]對(duì)輸入空間的劃分采用一種啟發(fā)式的方法,通過(guò)遍歷所有輸入變量,對(duì)比不同的劃分誤差,找到最優(yōu)的切分變量j和最優(yōu)的切分點(diǎn)s,即選擇第j個(gè)特征xj和它的取值s將輸入空間劃分為2部分,然后重復(fù)這個(gè)操作,直至滿(mǎn)足停止條件。一個(gè)輸入空間的劃分的誤差是用真實(shí)值和劃分區(qū)域的預(yù)測(cè)值的最小二乘來(lái)衡量,具體計(jì)算公式如下:
式中,f(xi)是每個(gè)劃分單元的預(yù)測(cè)值,這個(gè)預(yù)測(cè)值是該單元內(nèi)每一個(gè)樣本點(diǎn)的均值,具體計(jì)算公式如下:
故每個(gè)分支的求解可以表達(dá)為
式中,R1(j,s)和 R2(j,s)是被劃分的 2個(gè)區(qū)間。
因此,回歸決策樹(shù)的算法流程可以總結(jié)為:
1)選擇最優(yōu)的切分變量和對(duì)應(yīng)最優(yōu)的切分點(diǎn),求解式(3),遍歷所有特征變量j,對(duì)固定的切分變量采用啟發(fā)式掃描切分點(diǎn)s,找出使上式達(dá)到最小值的對(duì)(j,s)。
2)使用選定的對(duì)(j,s)劃分區(qū)域,并確定該區(qū)域的預(yù)測(cè)值:
3)繼續(xù)對(duì)子區(qū)域調(diào)用上述步驟1和2,當(dāng)回歸樹(shù)的深度達(dá)到預(yù)設(shè)深度或者整個(gè)回歸樹(shù)的預(yù)測(cè)準(zhǔn)確度(誤差)低于閾值時(shí),停止區(qū)域劃分。
4)將輸入空間劃分為 M個(gè)區(qū)域 R1、R2、R3、…、RM,生成一棵回歸決策樹(shù):
1.2.3 生成隨機(jī)森林
重復(fù)生成T棵回歸決策樹(shù),將生成的多棵決策樹(shù)組成隨機(jī)森林[25],結(jié)合平均法策略,由多棵樹(shù)預(yù)測(cè)值的均值決定最終預(yù)測(cè)結(jié)果,具體公式如下。
式中:T是基學(xué)習(xí)器個(gè)數(shù);fi(x)是第i個(gè)基學(xué)習(xí)器的預(yù)測(cè)值。
本實(shí)驗(yàn)養(yǎng)殖池水來(lái)自地下100 m以下深井海水,水溫常年保持在12~16℃,pH值保持在7.2~7.5,溶氧含量控制在8~12 mg/L,鹽度保持在28~31。經(jīng)過(guò)分析地下海水工廠(chǎng)化循環(huán)水養(yǎng)殖的特點(diǎn)、水體中氨氮產(chǎn)生的過(guò)程、影響氨氮產(chǎn)生的因素,選取魚(yú)的平均質(zhì)量、魚(yú)的尾數(shù)、當(dāng)前預(yù)測(cè)時(shí)間點(diǎn)的上兩個(gè)時(shí)刻投喂量,作為模型的輸入變量,養(yǎng)殖水體氨氮含量作為模型輸出變量,通過(guò)歸一化處理,獲取4項(xiàng)32組樣本數(shù)據(jù),其中20組作為訓(xùn)練集,12組作為測(cè)試集,用于開(kāi)展氨氮含量的預(yù)測(cè)研究。
本研究在預(yù)測(cè)模型構(gòu)建的過(guò)程中,為了便于模型的訓(xùn)練,消除各變量之間的差別,平滑樣本數(shù)據(jù)的波函數(shù),更容易正確地收斂到最優(yōu)解,在生成訓(xùn)練集和測(cè)試集之前對(duì)樣本數(shù)據(jù)進(jìn)行離差歸一化處理[27],對(duì)樣本數(shù)據(jù)進(jìn)行線(xiàn)性變化,將其結(jié)果落到[0,1]區(qū)間上,使有量綱的表達(dá)式,經(jīng)過(guò)變換,化為無(wú)量綱的表達(dá)式,成為純量。該過(guò)程不會(huì)改變?cè)紨?shù)據(jù)的數(shù)值排序,對(duì)數(shù)據(jù)改變后不會(huì)造成“數(shù)據(jù)失效”。其對(duì)應(yīng)的公式如下:
式中:xi為歸一化前的樣本數(shù)據(jù)值;xmax為樣本數(shù)據(jù)的最大值;xmin為樣本數(shù)據(jù)的最小值;xscale為歸一化后的樣本數(shù)據(jù)值。
本研究中使用隨機(jī)森林回歸算法構(gòu)建的模型對(duì)養(yǎng)殖水體中的氨氮含量預(yù)測(cè),共經(jīng)歷3個(gè)步驟:
步驟1使用有放回的Bootstrap方法產(chǎn)生50個(gè)訓(xùn)練集。
步驟2對(duì)50個(gè)訓(xùn)練集分別進(jìn)行分裂操作訓(xùn)練出50個(gè)回歸決策樹(shù)基模型,生成50棵沒(méi)有關(guān)聯(lián)的樹(shù)。
步驟3將50棵回歸決策樹(shù)整合成森林,將所有回歸決策樹(shù)的結(jié)果綜合起來(lái),結(jié)合平均法策略得到預(yù)測(cè)最終結(jié)果。
為了證明本研究所提算法在對(duì)大西洋鮭循環(huán)水養(yǎng)殖環(huán)境中氨氮含量進(jìn)行小樣本預(yù)測(cè)的優(yōu)越性,選取最小二乘線(xiàn)性回歸、支持向量機(jī)回歸預(yù)測(cè)方法與本研究使用的預(yù)測(cè)方法進(jìn)行對(duì)比分析。實(shí)驗(yàn)的誤差評(píng)價(jià)體系采用均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)作為評(píng)價(jià)指標(biāo)[28-29],公式如下所示:
將數(shù)據(jù)按照比例切分為訓(xùn)練集和測(cè)試集,然后分別對(duì)訓(xùn)練集采用隨機(jī)森林回歸(RFR)、最小二乘線(xiàn)性回歸(LSR)和支持向量機(jī)回歸(SVR)進(jìn)行訓(xùn)練,并對(duì)殘差(真實(shí)值與預(yù)測(cè)值的差)進(jìn)行分析,得到結(jié)果如圖2所示。
圖2 殘差對(duì)比圖
由圖2可知,分別采用隨機(jī)森林回歸、最小二乘線(xiàn)性回歸和支持向量機(jī)回歸3種方法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,3個(gè)算法構(gòu)建的模型效果在6號(hào)、18號(hào)和19號(hào)訓(xùn)練樣本上殘差都較大,此外,隨機(jī)森林回歸和支持向量機(jī)回歸在其他樣本的殘差大都控制在0.2以下,而最小二乘線(xiàn)性回歸另外在4號(hào)和15號(hào)訓(xùn)練樣本也出現(xiàn)精度不高的情況。從整體效果上看,訓(xùn)練集采用隨機(jī)森林回歸的殘差比支持向量機(jī)回歸和最小二乘線(xiàn)性回歸小,預(yù)測(cè)值更加接近真實(shí)值,訓(xùn)練效果更好。
分別將訓(xùn)練模型保存下來(lái),并應(yīng)用到測(cè)試集上,得到效果如圖3所示。
圖3 模型預(yù)測(cè)效果曲線(xiàn)
由圖3可知,3個(gè)模型對(duì)養(yǎng)殖水體氨氮含量進(jìn)行預(yù)測(cè)時(shí),在2、5、7號(hào)測(cè)試樣本出現(xiàn)預(yù)測(cè)不準(zhǔn)的情況,其他測(cè)試樣本預(yù)測(cè)效果較好。其中,在2號(hào)樣本上,RFR有較好的預(yù)測(cè)效果。7號(hào)樣本上,SVR能有較好的預(yù)測(cè)效果,這可能是由于樣本量不足而導(dǎo)致的模型的泛化性差、適應(yīng)新數(shù)據(jù)能力不足等缺陷造成的。而在5號(hào)點(diǎn)上,3個(gè)模型的預(yù)測(cè)效果都出現(xiàn)了較大的誤差,若排除當(dāng)天養(yǎng)殖實(shí)驗(yàn)沒(méi)出現(xiàn)異常情況,導(dǎo)致氨氮含量出現(xiàn)波動(dòng),則可能由于算法自身的泛化性不足導(dǎo)致的。
本研究通過(guò)計(jì)算RMSE和MAE 2種評(píng)價(jià)指標(biāo)值得到預(yù)測(cè)誤差,如表1所示。
表1 RMSE和MAE評(píng)價(jià)指標(biāo)值
在模型的比較上,隨機(jī)森林回歸的均方根誤差和平均絕對(duì)誤差不管在訓(xùn)練集還是測(cè)試集都比最小二乘線(xiàn)性回歸和支持向量機(jī)回歸算法的小,其原因是RFR集合多個(gè)單學(xué)習(xí)器的算法策略,提高了模型的泛化性能,能適應(yīng)更多的假設(shè)空間,對(duì)氨氮含量預(yù)測(cè)有更好的效果。
3個(gè)模型在測(cè)試集的應(yīng)用上誤差都增加,其中,RFR訓(xùn)練集均方根誤差為0.005 6,測(cè)試集均方根誤差為0.072 7,誤差提高了0.06,SVR訓(xùn)練集的均方根誤差為0.060 1,測(cè)試集的均方根誤差為0.130 7,誤差提高了0.07,LSR訓(xùn)練集的均方根誤差為0.034 6,測(cè)試集的均方根誤差為0.222 9,誤差提高了0.19,出現(xiàn)這一現(xiàn)象的原因是3個(gè)模型都出現(xiàn)了過(guò)擬合的情況,而其中LSR和SVR的過(guò)擬合現(xiàn)象更為嚴(yán)重,RFR由于算法基于集成學(xué)習(xí)的思想,減少了部分過(guò)擬合的影響,在模型應(yīng)用上有更好的表現(xiàn)。
在實(shí)際的模型訓(xùn)練中,由于訓(xùn)練結(jié)果對(duì)初始設(shè)置的條件比較敏感,故對(duì)于訓(xùn)練集的擬合程度通常較好,但對(duì)于訓(xùn)練集之外的數(shù)據(jù)擬合程度通常不太好,因此會(huì)將樣本數(shù)據(jù)分出一部分生成測(cè)試集,不參加模型訓(xùn)練,以便對(duì)訓(xùn)練集生成的模型進(jìn)行測(cè)試,相對(duì)客觀的判斷模型對(duì)訓(xùn)練集之外的數(shù)據(jù)的預(yù)測(cè)能力,但簡(jiǎn)單的通過(guò)一次對(duì)樣本數(shù)據(jù)按比例劃分出訓(xùn)練集和測(cè)試集,會(huì)產(chǎn)生模型選擇不嚴(yán)謹(jǐn)?shù)膯?wèn)題。本研究針對(duì)以上問(wèn)題,對(duì)3種算法引入交叉驗(yàn)證,如圖4所示,將數(shù)據(jù)集D隨機(jī)劃分成S個(gè)大小相同的的互斥子集,每次隨機(jī)選擇S-1份作為訓(xùn)練集,剩下的1份做測(cè)試集。完成一輪訓(xùn)練后,重新選擇S-1份來(lái)訓(xùn)練。經(jīng)過(guò)若干輪(小于S)的訓(xùn)練后,使用此方法的若干次結(jié)果作為模型效果的評(píng)價(jià)更具有穩(wěn)定性[30]。
圖4 交叉驗(yàn)證過(guò)程
對(duì)于本研究所進(jìn)行的氨氮預(yù)測(cè),考慮到數(shù)據(jù)集的大小,分別采用5折交叉驗(yàn)證和8折交叉驗(yàn)證,并采用絕對(duì)均值誤差作為評(píng)價(jià)函數(shù)[31-32],得到結(jié)果如表2所示。
表2 交叉驗(yàn)證結(jié)果
表2為5折交叉驗(yàn)證和8折交叉驗(yàn)證的結(jié)果,當(dāng)S=5時(shí),最小二乘線(xiàn)性回歸模型的絕對(duì)均值誤差為0.220 4,支持向量機(jī)回歸模型的絕對(duì)均值誤差為0.189 5,隨機(jī)森林回歸模型的絕對(duì)均值誤差為0.135 5,隨機(jī)森林算法在整體上有更好的表現(xiàn),同理,在8折交叉驗(yàn)證的過(guò)程中,隨機(jī)森林回歸模型仍有較好的表現(xiàn),由此得出:隨機(jī)森林模型相對(duì)于最小二乘線(xiàn)性回歸模型和支持向量機(jī)回歸模型更適合氨氮預(yù)測(cè)。
針對(duì)實(shí)驗(yàn)室測(cè)量成本高、操作復(fù)雜、難推廣便攜式儀器、試紙、傳感器檢測(cè)精度不高等問(wèn)題。根據(jù)深井海水工廠(chǎng)化循環(huán)水養(yǎng)殖特色,建立氨氮含量與養(yǎng)殖對(duì)象生物信息及養(yǎng)殖作業(yè)數(shù)據(jù)之間的非線(xiàn)性關(guān)系,提出一種基于隨機(jī)森林回歸的集成機(jī)器學(xué)習(xí)方法的海水工廠(chǎng)化循環(huán)水養(yǎng)殖水體氨氮預(yù)測(cè)模型。研究結(jié)果表明:在地下深井海水工廠(chǎng)化循環(huán)水養(yǎng)殖中,該模型預(yù)測(cè)絕對(duì)均值誤差為0.135 5,與線(xiàn)性回歸和支持向量機(jī)回歸模型相比,其誤差分別減少62.66%和39.85%。所提方法具有實(shí)時(shí)性、檢測(cè)時(shí)間短、誤差小等優(yōu)點(diǎn),將其應(yīng)用到基于小樣本數(shù)據(jù)的海水工廠(chǎng)化循環(huán)水養(yǎng)殖水體氨氮的預(yù)測(cè)中,效果良好。在后續(xù)的研究中,可通過(guò)增加樣本數(shù)量和構(gòu)建模型的特征變量,進(jìn)一步提高模型預(yù)測(cè)精度。
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2021年4期