馬暢遙
(寧波市惠貞書院,浙江 寧波 315000)
水果的品種、甜度有區別,但用肉眼較難區分,日常生活選購時會產生困難。而且我觀察到有些不法商家會用不同品種、較低品質的水果冒充高品質、高價格水果,讓普通消費者難以識別,所以想到利用機器學習技術,充分發揮人工智能識別精細準確的特點來識別。
機器學習是近年來較為流行的一種人工智能技術。機器學習試圖讓計算機能夠模擬人的學習,思考和處理。機器學習從學習角度分為有監督學習和無監督學習。
有監督學習一般是事先準備一系列已經標注過的數據,將這些標注過的數據作為學習樣本,用一些方式來擬合出內部的映射關系,從而推斷未標注過的新的數據。在本文案例中,已經標注過的水果照就是學習樣本,使用一些擬合算法擬合出內部映射關系后,就可以對新的未標注過的水果照片進行等級識別。

PaddlePaddle 是百度開發的一個人工智能深度學習平臺,可用于圖像處理、自然語言處理、翻譯等。內置了主流的人工智能算法,并且支持GPU 加速。而且提供了圖形化界面,針對新手非常友好。
日常生活中我們會有一些常識性的判斷水果好不好吃的方法,例如去買西瓜的時候會去敲一敲聽聽看聲音等。這些方法本質上也是在發現水果的外在屬性與其好不好吃之間的聯系。例如西瓜好不好吃,可能和瓜紋、瓜蒂、西瓜大小等屬性有關系。故而我大膽推測,水果的外表,包含了一部分和水果的好吃與否有一定關系的特征。那么可能可以使用一些人工智能算法,來嘗試測算下是否存在這樣的關聯性,使得光憑水果外表就推算其是否好吃。
在這個案例中,水果的外觀是數據特征(feature),水果好吃不好吃的分類,是標注(label),而我需要做的事情,就是去收集一系列的水果照片(外觀特征feature),然后根據好吃不好吃,給它們分類成不同的級別(label)。
受制于實際的實驗設備和環境,我無法定量的去根據果糖比例等方法,去量化測量水果的好吃程度,所以我只能退而求其次,根據商場中賣的價格,和該水果品種網上找來的評價,將其分成了11級(level1-level11),level1的品種,價格最貴,網上口碑最好,level11的品種,價格最便宜,口碑較一般。


機器學習算法對于越復雜的特征(feature),越難以識別,越需要高級技巧去調試。我一開始沒有控制照片的背景色、光線和拍攝角度,導致數據集的訓練效果不太好,大致在67%,所以后來為了減少識別難度,每張水果照片,都是以白色紙頭為底進行拍攝,減少周圍環境的干擾。
水果拍攝的時候,角度各不相同。為了能覆蓋所有的特征(feature),我覺得去采集水果照片時,需要對每一個樣本在不同角度多次拍攝采樣。

人工智能涉及到的算法都非常深奧,幸好現在已經出現了很多工具,它們將這些成熟的算法封裝成了各種好用的工具。老師給我們推薦了一款工具:PaddlePaddle人工智能框架。這個框架對新手非常友好,所以我們根據老師的教學,使用了PaddlePaddle 的AutoDL Transfer算法進行訓練。
因為數據訓練的過程中可能會產生過擬合等現象,也同時為了驗證數據訓練的準確性,所以需要將數據集分成訓練集和測試集,大致以9:1的比例將原始標注數據劃分。
經過訓練后的模型(model),對測試集的預測準確率大致在79.24%左右,原因可能是樣本過少,拍攝角度和光線的訓練特征過少。
防止消費者在日常選購中買到劣等水果,根據個人口味選擇合適水果。
水果個體零售商進到符合要求的品種。
作品完成后進行實地測驗,發現準確率大致為75.35%,不是特別高。
本文從生活實際出發,基于人工智能的機器學習技術,有效便利了消費者日常選購水果但由于樣本數量不足,拍攝角度和光線的特征過少,本作品識別的準確率還有待提高,針對這一點不足,我會在日后不斷增加數據集種類、數量,調整拍攝角度,讓本作品更有現實意義。