李昕悅
摘要:為降低胡蜂的不利影響,公眾提交目擊報告,而政府分配資源來解決。然而有些目擊報告的錯誤率較高,并且政府可以分配的資源也是有限的。為了解決這一問題,我們對這個過程進行建模和優化,我們通過分析和擬合大量數據來檢驗我們模型的可靠性,具體來說
第一點:我們選取了14個被判別為Pasitive ID的地理數據點,采用MaxEnt模型對亞洲大黃蜂在未來可能傳播的潛在地區范圍進行了預測,并通過ROC評估體系對模型進行了評價。事實證明該模型精確度很高。
第二點:我們主要建立了三個有效模型并且采用了層次分析法,建立了一套完整的評價體系:導入報告人提交的圖片、評論以及所在位置這些信息就可以得出該報告成為Positive ID的可能性指標。并通過分析這些數值來預測公眾錯誤分類的可能性大小以及幫助政府優先分配資源。
第三點:隨著時間的推移,我們需要不斷更新數據庫,基于原模型提取部分數據對整體數據進行評分,通過誤差積分,該模型在對未來3個月內的預測較為準確,從而確定3個月的更新周期,并且3個月內不再出現Positive ID為華盛頓徹底消除害蟲的依據。
關鍵詞:亞洲大黃蜂;層次分析法;數據建模
引言:
胡蜂作為世界最大的大黃蜂,不僅是歐洲蜜蜂的捕食者,還能在短時間內摧毀整個歐洲蜜蜂群落,對當地蜜蜂等種群造成嚴重影響,因此對胡蜂的防治有很重要的意義。
然而在華盛頓洲收到的公眾對此害蟲的目擊事件中,只有少部分是確認的報告,絕大多數都是錯誤的目擊事件報告。鑒于政府機構資源有限,解決如何優先分配這些資源這一問題是十分必要的。
1工作概況
1.1數學模型
為了研究胡蜂對于當地蜜蜂等種群的影響力,利用數據建立數學模型,找出一些影響因子來判斷胡蜂的傳播是否可以預測,得出相關數據后解釋這種有害生物在一段時間內的傳播,利用建立數學模型,找出并量化反映公眾報告正確率的指標,形成評價體系,對公眾報告提供的數據以及政府優先分配資源方案做出解釋。
隨著時間的變化,該模型會隨著數據更新而優化和更新。
2模型假設和解釋說明
不考慮授粉蜂群的移動對胡蜂位置,在已確認的公眾報告中胡蜂的位置不隨時間變化;不考慮在化學有道因素下蜜蜂或其他種群對胡蜂的反擊行為對胡蜂位置的影響;然后不考慮地理環境因素,如山川,河流的分布,對胡蜂位置的影響,公眾報告中的總體樣本數據服從平均分布,每個公民都清楚地知道胡蜂的特征,所提交的評論都是嚴謹可靠的,不考慮胡蜂繁衍密度對其位置分布的影響。
3模型建立與求解
3.1最大熵模型
3.1.1數據材料
地理分布數據:亞洲大黃蜂的分布數據由本次競賽題目給出。環境數據采用WorldClim version 2.1下載的歷史氣候數據(1970~2000年),共19個氣候變量,其空間分辨率為 30 秒(大約1平方千米)。地圖數據分別來自CSDN論壇以及ArcGIS Online。
軟件:Maxent 3.4.1、ArcGIS 10.2、SPSS22。
3.1.2數據處理
為了使預測結果不受假信息或其他干擾因素影響,我們采用專家已經判別為 Positive ID 的14個地理坐標點作為我們預測亞洲大黃蜂傳播的原始數據,并按照MaxEnt V3.4.1軟件的要求,將這些數據的經緯度轉換為.csv存儲。
3.1.3模型操作
我們采用最大熵模型分析上述數據,將14個被判定為 Positive ID的大黃蜂的發現坐標點以及19個氣候變量的文件分別導入到MaxEnt V3.4.1 軟件中預先運行,得到每個氣候變量對對亞洲大黃蜂初步預測結果的貢獻率。然后對這十九個變量作主成分分析以及相關性分析(SPSS22),篩選出貢獻率較高而空間自相關性較低的十個變量。
3.1.4結果與分析
MaxEnt 生態位模型預測的亞洲大黃蜂的潛在分布區。根據預測結果,隨時間變化,大黃蜂傳播的高適宜性地區集中在華盛頓州、俄勒岡州以及加利福尼亞州北部沿海地區,也有一部分較高適宜傳播地區在夏威夷群島。另外,少部分適宜區分別分布在阿拉斯加州的西南群島以及美國南部阿肯色河和密西西比河交匯處北部的附近。
3.1.5模型評估
我們采用ROC曲線下面積AUC對我們的模型預測結果進行精度檢驗。AUC值越大,表示與隨機分布相距越遠,環境變量與預測的物種地理分布模型之間相關性越大,即模型預測效果越好,MaxEnt 軟件在運行過程中會自動繪制ROC曲線,并計算出AUC值,我們可以通過它們直接評估我們的模型的預測水平。
3.2.子模型:坐標可視化模型
對所有數據集上的經緯度進行可視化處理,并使用紅色散點突出Positive ID對應經緯度的所在區域,在對這 14 份 Positive ID 的經緯度進行統計后發現這些被驗證為真的亞洲大黃蜂的樣本。由此,被驗證為真的亞洲大黃蜂地理位置僅處于一個較小范圍內。
4. 模型更新
4.1題目分析
根據建立的概率估計模型,我們可以對民眾所提交的報告進行打分評估,分數高的報告將會被政府優先研究。但隨著時間的推移,新數據庫的擴充,我們所建模型必然將會不再適用,所以我們需要對模型進行數據庫的擴充,同時我們需要確定數據庫的更新周期。
4.2 數據庫更新方式
我們評價模型的參考因素分為圖片相似度、位置相關度、評論重復率。圖像識別部分主要基于已知確定為大黃蜂圖像來對其他圖像進行相似度檢驗,報告在圖像部分的得分主要基于上述相似度值。因此,模型更新時,我們只需要增加新確定為大黃蜂的圖片數據對基準數據進行補充即可。
經緯度評分部分,我們觀察POSITIVE ID所對應的經緯度坐標,由于數據過少,現已知的坐標基本上都存在一個很小的范圍。所以在處理時,我們將這個范圍視為一個整體。滿足0.7評分的區域需要同時是所有Positive ID所輻射區域的交集。更新模型時,由于新的數據補充,我們無法再將包含所有Positive ID的范圍視為整體。需要對經緯度數據進行預處理,分割成為Positive ID密集的幾個區域,再求交集區域擬定打分標準。
5. 模型的評估
5.1優點
①預測模型除原有數據集外還包含影響亞洲大黃蜂分布的一系列因素,精準度高。
②從R,G,B三個通道的直方圖來分析兩張圖片的相似性,既直觀又可靠
③筆記篩選機制簡單且與亞洲大黃蜂的判斷正確度相關性高。
④采用少量樣本即可對報告的正確率進行預判,具有較強實用性且適應性強。
5.2缺點
①對于經緯度因素的處理沒有考慮到時間因素,且判斷標準較為單一,會丟失部分訊息,需要改進。
②通過計算直方圖的方法對比圖象,總是不能消除圖像背景顏色的相似度的影響。
參考文獻
[1]Alaniz A J, Carvajal M A, Vergara P M。關鍵詞:大黃蜂,生物多樣性,生物多樣性,生物多樣性,生物多樣性害蟲防治科學,202.
[2]測量診斷系統的準確性。科學通報,2000,37 (6):689 - 693.
[3]https://blog.csdn.net/sunzhenlin2008/article/details/106876973
[4]https://www.cnblogs.com/jimmy-muyuan/p/5324291.html
[5]http://www.lishimeiye.cn/fun/563.html
[6]https://download.csdn.net/download/qq_38473916/10468077