王維虎,劉艷超,楊 雷,紀慎思
(1.湖北工程學院 計算機與信息科學學院,湖北 孝感 432000;2.湖北工程學院 信息技術中心,湖北 孝感 432000;3.湖北工程學院新技術學院,湖北 孝感 432000)
家庭垃圾分類是指按照一定標準將家庭垃圾進行分類儲存、分類投放和分類搬運,從而轉變成公共資源的一系列活動總稱。當前,垃圾分類研究已取得一定的成績,許多學者從理論和技術兩個方面展開研究。楊雅瑜等[1]指出傳統的垃圾分類技術主要有人工篩分、重選、風選、浮選、磁選、電選等分選技術,采用特性技術對混合后垃圾進行分類,取得了一定效果,但是分類效率比較低;江輝等[2]基于射頻識別技術進行垃圾分類,在垃圾袋上貼有IC電子標簽,通過識讀標簽,實現垃圾分類的投放;吳新華等[3]利用二維碼技術進行垃圾分類,需要人工提前分好類且貼好標簽,其缺點是人類需要具有一定的垃圾分類知識,并不能自動分類;文獻[4-7]主要利用第三方現有技術(比如紅外線、物聯網、語音識別),均基于已經篩選過的垃圾再一次進行分類,實現垃圾的自動回收處理,但并未考慮對首次垃圾進行分類。同時,鄧冰峰等[8]研究德國專注運用IOT、云計算、大數據、3S等技術,采用循環利用模式進行消化垃圾,致力于為垃圾分類系統提供全面的信息化解決方案,但是垃圾種類均過于復雜。另外,部分學者對垃圾自動分類展開研究,吳健等[9]提出基于計算機視覺的實驗室場景下廢物垃圾分析與識別的方案,但是受限于垃圾種類廣,新垃圾的出現、垃圾語料庫的缺乏、固定匹配方法,導致分類正確率較低,并不能滿足于實際的使用需求。
目前,我國垃圾每天產量數以萬噸,主要是家庭垃圾,種類復雜,分類困難,給生存環境帶來巨大壓力和考驗,成為當前的迫切待解決問題。為了克服不同家庭垃圾分類方法的缺點,本文提出一種基于決策樹的家庭垃圾分類識別方法。首先利用網絡爬蟲技術,構建一套家庭垃圾分類標準與數據集;然后,分析家庭垃圾特征,選取有效的特征集,采用機器學習中的決策樹ID3算法建立決策樹的家庭垃圾自動分類模型的研究,實現自動分類,無需人工分類,提高分類效率、精度與粒度,為上層的“語音+垃圾分類”和“物聯網+垃圾分類”等物聯網應用提供基礎技術支撐。
結合當前我國最新垃圾分類類別標準,為了解決家庭垃圾分類存在的問題和提高分類的效率和準確率,本文提出基于決策樹的家庭垃圾分類模型,框架如圖1所示。

圖1 基于決策樹的家庭垃圾分類識別框架
從圖1可知,本文主要分為兩個階段:訓練階段和測試階段。在訓練階段中,首先,通過手工收集、網絡工具或網絡爬蟲爬取國家省市縣區環保領域網站,以及淘寶、京東等購物網站,獲取家庭垃圾常用實體數據集,并對數據集進行數據去噪和去重等操作處理;然后,邀請環保領域專家對家庭垃圾數據集進行抽取數據特征,并優化特征集;其次,環保領域專家和學者根據特征集標注實體家庭垃圾數據集,得到規模為4000條實體數據集語料庫,作為本文構建模型中所需要的訓練語料和測試語料;最后,結合決策樹算法,構建基于決策樹的家庭垃圾分類模型。在測試階段中,將家庭垃圾測試語料應用于已構建的基于決策樹的家庭垃圾分類模型,得到家庭垃圾分類預測的結果。
決策樹ID3算法是通過特征的信息增益作為準則來構建決策樹,每次選取信息增益最大的特征作為結點。特征的信息增益越大,則該特征對分類X的不確定性就減少的越多。決策樹算法已經廣泛運用在智能機器人研究、遙感圖像分類研究、競爭對手識別模型等不同應用領域。本文正是利用決策樹的速度快、準確性高、適合高維數據等優點,來構建家庭垃圾分類模型。
對于一個給定的數據集,具體計算方法如下:
設訓練集為D,D的樣本個數為N, D的數據有m個分類,分別為C1,C2,C3,…,Cm,分類Cm的數據個數為|Cm|,那么D的信息熵為,如公式(1)所示。
(1)
設任一個特征的n個不同取值,記為a1,a2,a3,…,an。根據特征的n個取值將D劃分的n個子集為D1,D2,D3,…,Dn。對于任意的子集Di∈{D1,D2,D3,…,Dn},設Di的樣本個數為Ni,Di中屬于類Ci∈{C1,C2,C3,…,Cm}的樣本個數為|Cii|,那么特征A對數據集D的條件熵為,如公式(2)所示。
(2)
那么,特征A對數據集D的信息增益,如公式(3)所示。
G(D,A)=H(D)-H(D|A)
(3)
2.2.1 特征的選取與分析
特征的選取決定模型性能,因此非常重要。本文主要根據環保專家和學者經驗以及相關書籍資料,同時考慮常見家庭垃圾處理方法和結合家庭垃圾特點,選取材質、形態、毒性、是否易腐爛和是否包含再利用材料作為有效特征。
1)毒性特征。在家庭垃圾中,有部分垃圾具有毒性,例如廢電池、廢燈管、廢溫度計、廢藥品、廢油漆、廢殺蟲劑、廢相紙等,這些毒性家庭生活垃圾可以明顯區分垃圾類別,一般作為不可回收類別。因此,選取毒性作為本文有效特征(“1”表示有毒,“0”表示無毒)。
2)腐爛性特征。家庭生活中產生的易腐性垃圾(即濕垃圾),腐爛性垃圾主要包括:剩菜剩飯、菜梗菜葉、肉食內臟、果殼瓜皮、室內綠植等等,但是這些腐爛的家庭垃圾卻是生物或者有機物中的一類,可以形成沼氣和有機肥,正是植物所需養分的主要來源,也能夠改善土壤肥力特性,所以可以將物體是否易腐作為一個維度特征劃分。因此,選取腐爛性作為本文有效特征(“1”表示腐爛,“0”表示不腐爛)。
3)再利用特征。在家庭垃圾中,有部分垃圾廢棄物可以回收利用,例如紙類、塑料、玻璃、金屬、織物及瓶罐等,這些垃圾都能通過重新加工處理被再次利用。因此,再利用作為一個重要特征維度(“1”表示可再利用,“0”表示不可再利用)。
4)材質特征。在家庭生活中,不同垃圾有著不同的材質構成,在一定程度上,材質決定所屬類別,例如紙張、玻璃、塑料、金屬、橡膠、木材、棉織物、電子產品、化學品、肉類等。因此,選取9種主要的材質作為本文有效特征(“0”表示紙張,“1”表示玻璃,“2”表示塑料,“3”表示橡膠,“4”表示木材,“5”表示金屬,“6”表示棉織物,“7”表示電子產品,“8”表示化學品,“9”表示肉類)。
5)形態特征。家庭生活垃圾的形態,一般分為固體(板凳)、液體(醬油)、氣體(瓶罐中的氧氣),它能夠比較明顯區分是否是濕垃圾或再利用垃圾。因此,選取形態作為本文有效特征。其中,(“0”表示固態,“1”表示液態,“2”表示氣態)。根據選取特征維度,將家庭垃圾數據進行整理,如表1所示。

表1 家庭垃圾數據集格式
2.2.2 垃圾類別
根據國家現行的垃圾分類標準,本文采用“0”表示有害垃圾、“1”表示濕垃圾、“2”表示可回收垃圾、“3”表示其他垃圾。
本文采用正確率作為家庭垃圾分類模型的測評標準,其計算公式如式(4)所示。
(4)
式中,P為正確率,Nr為家庭垃圾測試集中預測分類正確的個數,Nc為家庭垃圾測試集中垃圾的總數。
本文實驗數據規模為4000條,主要來源是通過手工收集和網絡爬蟲等技術,收集國家省市縣區環保領域網站以及淘寶、京東等家庭垃圾實體數據,并邀請環保專家學者進行數據去噪和數據清洗,并按照國家垃圾分類標準進行分類,將訓練數據和測試數據保存在格式為UTF-8的文本中。
為了驗證本文提出的基于決策樹的家庭垃圾分類模型性能,本次實驗平臺采用Python語言,使用繪圖工具庫Matplotlib和機器學習知識庫SKLearn,分別進行開放與封閉實驗、5倍交叉實驗和數據規模實驗,進行綜合評價。
3.3.1 實驗一
為了能夠進一步準確評估構建的決策樹家庭垃圾分類模型,本次實驗將家庭垃圾數據集按照每500條均勻劃分為500條、1000條、1500條、2000條、2500條、2500條、3500條和 4000條等8組不同訓練數據規模集合,進行正確率測試,實驗結果圖如圖2所示。

圖2 不同數據規模實驗正確率
從圖2可見,基于8次實驗數據規模,對決策樹模型的性能評估,正確率分別為高達82.26%、82.30%、82.35%、82.45%、82.75%、83.21%、83.34%和83.52%,隨著數據數據規模的增加,正確率穩定于83.52%。
3.3.2 實驗二
為了能夠更加準確評估構建的決策樹家庭垃圾分類模型,本次實驗采用5倍交叉實驗,將家庭垃圾語料庫4000條數據集平均劃分為5等份,其中4份作為訓練數據,另外1份作為測試數據,實驗結果如表2所示。

表2 5倍交叉實驗結果
從表2可見,5倍交叉實驗對基于決策樹模型的性能評估,正確率分別為83.53%、83.41%、84.16%、83.21%和83.27%,本文采用平均值更加準確客觀評價模型性能,正確率為83.52%。
3.3.3 實驗三
本次實驗采用開放測試與封閉實驗,評估構建的基于決策樹ID3算法的家庭垃圾分類模型的性能,測試結果如圖3所示。

圖3 開放實驗與封閉實驗對比圖
由圖3可知,封閉實驗正確率為83.52%,開放實驗的正確率為76.51%,兩者相差7.01%,分析其差異主要在于進行開放測試過程中,存在未登詞現象,從而導致正確率下降。
針對當前家庭垃圾種類繁多,人工分類導致垃圾分類效率和正確率低的問題,本文通過構建家庭垃圾實體數據集,結合機器學習決策樹算法建模,得到基于決策樹的家庭垃圾分類識別模型,對家庭垃圾實體進行識別,能夠有效地降低人力、物力、財力在環保領域的投入。本文語料數據集規模還不夠廣,家庭垃圾的有效特征還需進一步抽取優化。下一步,擴大垃圾實體種類,構建更多領域的垃圾分類模型,提取更多有效特征,能夠更加精準、全面、快速地識別家庭垃圾的類別。