999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貪婪算法與隨機森林算法的大米產地確證方法研究

2022-10-17 09:48:28崔浩梁林杰王婉秋王靖會張淑梅李全明秦堯
農業與技術 2022年19期
關鍵詞:分類特征模型

崔浩梁林杰王婉秋王靖會張淑梅李全明秦堯

(1.吉林建筑科技學院網絡信息中心,吉林 長春 130000;2.吉林建筑科技學院土木工程學院,吉林 長春 130000;3.吉林建筑科技學院計算機科學與工程學院,吉林 長春 130000;4.吉林農業大學信息技術學院,吉林 長春 130000;5.范家屯第二中學,吉林 長春 130000)

隨著全球食品貿易體系的不斷發展,我國地標大米在獨特的地理環境培育下,造就了不同于其他國家的獨特風味,在我國百姓日常生活中占據了重要的食品地位。隨著生活水平的不斷提高,人民對食品的營養價值、食用口味要求也隨之提升,在眾多的食品中,我國地標大米的食用價值也得到普遍認可[1-3]。隨著地標大米的價值不斷升高,部分不良商家為追求利益,開始假冒地標大米品牌從中獲取非法利潤[4-6],導致地標大米市場出現“難銷售,假冒多”的現象。在現今的糧食市場中,由于人們不能對地標大米產品進行真偽性鑒別,一些不法商家便以次充好,以較低的售價冒充地標大米,嚴重打壓了地標大米的價格,非法占用大米市場的部分空間,影響人們對地標大米的認可度。

我國為保護地標大米采取了眾多措施,放眼國內為保護地標大米出臺多種法律法規,并且多次規范市場,但是地標大米的假冒現象屢禁不止。國內學者為了保護地標大米采用物聯網技術、生物指紋信息技術與編碼技術等對地標大米進行過程跟蹤查詢,構建地標大米產地溯源平臺實現過程跟蹤[7-14],但是這種溯源平臺結果依舊存在一定的偏差。以二維碼溯源為例,溯源的真實性取決于二維碼的真實性,但由于人為參與到溯源過程中,易出現“真條碼,假溯源”的現象,使得溯源結果有可能出現偏差。為解決人為因素對產地鑒別產生的影響,國內學者開始采用機器學習方法從源頭對大米的真實性進行鑒別[15,16]。由于機器學習方法可以根據地標大米的特征指標找尋潛在關系,因此可以在源頭構建地標大米的產地確證模型,降低人為因素在傳統產地鑒別中的影響?,F階段隨機森林與人工神經網絡等機器學習算法已經被廣泛應用到地標大米的產地確證中,并已出現依托機器學習算法構建的大米產地確證平臺,填補了現階段產地溯源平臺的空缺。如,胡翼然等[17]采用隨機森林算法對絨柄牛肝菌產地進行鑒別,模型的正確率達到99.6%;楊尚梅等[18]采用隨機森林算法對蕨麻產地進行鑒別,模型的正確率達到100%;Canizoa等[19]采用隨機森林方法對阿根廷葡萄籽進行產地鑒別,正確率達到93%;臧妍宇[20]采用人工神經網絡算法構建柳河產地確證模型,模型準確率達到95%;王靖會[21]等采用隨機森林算法構建產地確證模型,模型準確率達到97.55%;李芳等[22]構建了大米質量追溯與產地判別系統,通過8種礦物質元素對大米進行產地分類,系統的分類準確率達到94.5%;崔浩[23]采用并行化的隨機森林算法構建了大米產地確證平臺,實現了地標大米的產地確證功能。

研究表明,隨機森林算法已經被普遍應用在產地鑒別方向[24-28],并已經實現依托機器學習算法構建的大米產地確證平臺,從源頭為地標大米提供保障,但是可以看出,隨機森林算法在產地確證中,由于地標大米的特征指標較為復雜,樣本檢測數量較多,導致現階段隨機森林算法在產地確證中的檢測成本偏高,因此有效進行篩選元素指標建立大米原產地確證模型,降低現階段產地確證平臺的成本具有深遠的意義[8-12]。綜上,本文以吉林省梅河地理標志大米的礦物質元素含量數據為基礎,研究貪婪算法與隨機森林算法等關鍵技術,依托貪婪算法進行特征篩選,并以隨機森林算法構建產地確證模型,降低產地確證成本,為完善地標大米產地確證體系提供參考。

1 材料與方法

1.1 數據來源

本文為保障數據來源的可靠性,對梅河、延邊、輝南、柳河4個地區地標大米進行實地采樣確保數據的真實性。同時為避免數據分布不平衡對模型結果造成影響,梅河口地區采集85份地標大米樣本,柳河、輝南、延邊地區采集共81份地標大米樣本,并且將上述3個區域的樣本作為非梅河地區數據。采集地區的具體分布如表1所示。

表1 采集樣本地點分布信息表

1.2 礦物質元素含量檢測

本文基于我國發行的GB 5009.12-2010、GB/T 5009.91-2003、GB/T 14609-2008的食品標準,采用新豐牌HNMJ3碾米機與JLGJ4.5礱谷機分別進行脫殼和去糙工作,并用JXFM110錘式旋風磨對稻米樣品進行研磨,最終采用石墨爐原子吸收分光光度法測定鉛(Pb)和鎘(Cd)的元素含量,其余元素采用采用火焰原子吸收分光光度法測定。

1.3 數據集的劃分

本文為了驗證模型的有效性,將數據分成3個數據集,分別為數據集A、數據集B與數據集C。其中3個數據集的數據總數分別為60條、100條與166條,同時每個數據集按照7∶3的比例劃分訓練集與測試集,并且為了消除不平衡數據對結果產生影響,每個訓練集與測試集中梅河與非梅河地區的數據量大體相同。

2 相關技術介紹

2.1 特征篩選

在機器學習算法中,特征篩選就是將M個原始特征數據按照一定規則篩除無關緊要的特征數據,這樣不僅可以提升模型的分類效果,而且可以降低模型的過擬合程度。同時由于特征篩選將特征屬性進一步進行縮減,可以有效降低模型的復雜度與處理數據的資源需求,并且降低訓練集數據構建模型的成本。

特征篩選的基本流程:采用特定的搜索方法對原始特征集合進行搜索并且形成特征子集;采用一定的評價函數指標對特征子集進行評估;當滿足了相關要求后停止對特征屬性進行搜索,如當分類精度達到了某個點,可以選擇其作為特征子集;使用已經明確分類結果的測試集數據對特征子集進行效果驗證。

2.2 貪婪算法原理

貪婪算法在處理問題的時候,將處理問題的過程分為多個過程進行處理,并采用逐步建立最優解的方式,在問題的不同階段做出明顯最優的決策,從問題的初始解開始,使用自頂向下的迭代方法進行連續的貪婪選擇,并不斷向給定目標靠近,以盡快獲得更好的解。

貪婪算法通常遵循的步驟:分析問題的內容,明確問題要解決的目標以及將問題劃分成多個子問題;針對多個子問題的范圍與解決目標,求得子問題的最優解;在獲得所有子問題的最優解后,綜合所有子問題最優解作為最終的全局最優解。

2.3 隨機森林算法原理

隨機森林算法采用可放回式的隨機抽樣方法獲得多個訓練子集,同時每個訓練子集構建基礎的決策樹分類器,多個決策樹分類器形成隨機森林模型。隨機森林在分類過程中,樣本數據會分別輸入到多個決策樹分類器中,每個決策樹最終會產生1個分類結果,并采用投票方式確定最終的分類結果。由于隨機森林算法是由多個基礎的決策樹分類器構成,分類結果來源于多個基礎分類器進行投票操作,因此降低了傳統分類過程中單一分類器可能產生的錯誤結果,因此隨機森林模型在產地分類中被廣泛應用。

隨機森林算法模型的構建過程:采用可放回式的抽樣方法對訓練集數據依次進行隨機抽取形成訓練子集,訓練子集作為基本分類器的原始數據來源;針對每個訓練子集構建決策樹,用以形成隨機森林模型;當新樣本的元素數據輸入模型中時,每個基礎的決策樹分類器對新樣本進行分類操作,將形成的多個分類結果進行投票處理,將投票后的結果作為最終分類結果。

2.4 模型評估標準

混淆矩陣中包含真正例、假正例、真反例與假反例4種主要數據結果,并且通過以上數據結果計算模型的準確度、特異度與靈敏度,計算公式如(1)、(2)、(3)所示。混淆矩陣中的詳細設置如表2所示。

(1)

(2)

(3)

式中,TP為真正例;TN為真反例;FP為假正例;FN為假反例。

表2 產地確證模型的混淆矩陣分布

3 以貪婪算法篩選特征指標構建的隨機森林產地模型分析

3.1 篩選特征指標

本文通過貪婪算法分別對數據集A、數據集B與數據集C中的訓練集數據進行特征篩選,并依據篩選結果構建測試集數據。依據貪婪算法篩選的特征指標結果如表3所示。

表3 貪婪算法篩選的特征指標

由上述結果可以看出,隨著數據集的不斷增加,篩選的特征指標也隨之變化,在處理數據集B與數據集C時,特征指標數目整體保持不變,篩選的元素個別出現變化,分析原因可知,隨著數據集的不斷增加,元素之間的內在聯系與規則也隨之體現出來。

3.2 模型對比分析

在使用隨機森林算法構建模型的過程中,數據通常被分為訓練集與測試集,其中訓練集部分數據用以構建數據模型,另外部分數據對模型進行第1次評估,測試集數據對模型進行第2次性能評估。當模型在訓練集中的評估結果較好,但在測試集數據中評估效果較差時,即模型出現在訓練集與測試集數據準確率相差較大的現象,叫作過擬合現象。

本文以貪婪算法篩選特征指標作為訓練集與測試集的數據屬性,同時采用隨機森林算法對數據集A、數據集B與數據集C分別構建大米產地確證模型,與傳統隨機森林模型進行比對。其中模型的比較結果如表4所示。

表4 模型對比結果

由表4可知,在處理數據集A時,本文使用貪婪算法篩選特征指標建立的隨機森林模型與傳統的隨機森林模型具有相同的泛化能力,分析其原因可知,由于數據集A的數據較少,元素之間的數據范圍關系不明顯,不足以找到規則特征,因此導致在局部篩選過程中,最終的元素結果不能作為整體篩選的最優結果。但是隨著數據集的不斷增加,元素之間的特征關系也逐步體現出來。在處理數據集B時,貪婪算法篩選的元素指標建立隨機森林模型相比傳統的隨機森林模型在訓練集中效果相同,但是前者在測試集中比傳統的隨機森林模型具有更好的分類效果,過擬合程度較低。在處理數據集C時,貪婪算法篩選元素構建的隨機森林模型在訓練集中依舊與傳統隨機森林算法具有相同的分類效果,在測試集中前者的分類效果比傳統的隨機森林模型效果更好,過擬合程度相比更低。分析原因可知,在處理數據集B與數據集C的過程中,基于貪婪算法構建的隨機森林模型隨著數據集不斷增加,元素之間的特征關系更加明顯,構建的產地確證模型相比傳統模型具有更好的分類效果,過擬合程度也隨之降低。

綜上表明,通過貪婪算法篩選的Cu、Fe、Zn、Mg、K、Ca、Pb、Na 8種礦物質元素可以作為梅河地區地標大米的產地確證指標,相比于傳統隨機森林算法構建的產地確證模型,降低了產地確證成本,達到了本文預期的模型效果。

4 結論與展望

本文的研究表明,相比于傳統的隨機森林算法在區分梅河地區的地標大米過程中,基于貪婪算法構建的隨機森林模型具有更好的分類效果,同時隨著數據集的不斷增加,分類效果也隨之得以提升,最終篩選出的Cu、Fe、Zn、Mg、K、Ca、Pb、Na 8種礦物質元素指標可以作為梅河地區的大米產地確證指標元素,實現以較少的特征變量構建有效的大米產地確證模型的目標,同時為后期依托貪婪算法與隨機森林算法構建的梅河地區大米產地確證平臺提供一定的理論基礎。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 欧美综合区自拍亚洲综合绿色 | 天天操精品| 国产综合精品一区二区| 韩国福利一区| 18禁色诱爆乳网站| 亚洲国产成人麻豆精品| 国产一区二区三区夜色| 国产小视频免费| 国产亚洲精| a毛片免费在线观看| 毛片一区二区在线看| 亚洲天堂免费| 少妇高潮惨叫久久久久久| 日本一区二区三区精品视频| 一边摸一边做爽的视频17国产| 中日韩一区二区三区中文免费视频 | 亚洲成人黄色在线观看| 亚洲最大福利网站| 国产一二三区视频| 欧美一级夜夜爽| 日本高清视频在线www色| 婷婷激情五月网| 日韩无码视频播放| 亚洲天堂网视频| 亚洲男人天堂久久| 国产精品成人久久| 色偷偷一区二区三区| 国产精品免费福利久久播放| 精品国产欧美精品v| 婷婷六月色| 99热这里只有精品免费国产| 亚洲日韩精品综合在线一区二区| 亚洲人成网站日本片| 日本三级欧美三级| 71pao成人国产永久免费视频| 国产三级精品三级在线观看| 狠狠色狠狠综合久久| 国产96在线 | 国产SUV精品一区二区6| 欧美综合一区二区三区| 久草热视频在线| 在线看免费无码av天堂的| 国产成人精品2021欧美日韩| 国产主播喷水| 亚洲人成影院在线观看| 国产国语一级毛片在线视频| 中文字幕免费视频| 国产精品人人做人人爽人人添| 永久免费无码成人网站| 久久精品国产精品一区二区| 精品国产Ⅴ无码大片在线观看81| 综合亚洲网| 51国产偷自视频区视频手机观看| 99在线视频网站| 日韩成人午夜| 国产成人亚洲精品色欲AV| 亚洲成人免费看| 亚洲性影院| 国产精品原创不卡在线| 九九九久久国产精品| 日本成人一区| av在线5g无码天天| 朝桐光一区二区| 视频一本大道香蕉久在线播放| 伊人久久大香线蕉成人综合网| 精品福利国产| 26uuu国产精品视频| 99视频精品全国免费品| 99久久精品免费看国产免费软件 | 午夜国产不卡在线观看视频| 国产又爽又黄无遮挡免费观看| 狠狠色狠狠综合久久| 亚洲a级毛片| 久久国产精品麻豆系列| 99久久人妻精品免费二区| 无遮挡国产高潮视频免费观看| 欧美午夜在线播放| 亚洲熟女中文字幕男人总站 | 精品无码一区二区三区电影| 中美日韩在线网免费毛片视频 | 国产乱人乱偷精品视频a人人澡| 国产毛片一区|