王彬 張正平 賈明俊 陸安江 盧學敏



摘 要: 隨著大數據時代的到來,數據挖掘、圖像處理等已經成為了一個熱門研究方向。本文的研究目的是自動識別貓狗類型,采用的是基于數據挖掘的貓狗自動識別技術。本文將位于全方位下拍攝的具有外貌復雜的貓狗圖像運用卷積神經網絡訓練。本實驗挑選前沿的深度學習框架pytorch以及計算能力強大的GPU,使用深度神經網絡VGG16,分別對貓狗圖像進行網絡訓練與測試。實驗顯示使用VGG16網絡模型進行識別的準確率非常高,在貓狗類型識別問題上具有突出優勢。
關鍵詞: 數據挖掘;? VGG16; 分類; 圖像處理; 深度學習
文章編號: 2095-2163(2021)07-0162-04中圖分類號:TP317.4 文獻標志碼: A
VGG dog and cat recognition based on convolutional neural network
WANG Bin,? ZHANG Zhengping, JIA Mingjun,? LU Anjiang, LU Xuemin
(College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China)
【Abstract】With the advent of the era of big data, data mining and image processing has become the hot research direction. The purpose of this paper is to automatically identify the cat and dog types using the cat and dog automatic recognition technology based on deep learning. In this paper, convolution neural network is used to train the cat and dog images with complex appearance. In this experiment, the researchers select the advanced deep learning framework pytorch and the powerful GPU, and use the deep neural network VGG16 to train and test the cat and dog images. Experiments show that the accuracy of VGG16 network model is very high, and it has outstanding advantages in cat and dog type recognition.
【Key words】data mining; VGG16; classification; image processing; deep learning
0 引 言
在數據挖掘中,對數據挖掘模型進行分析和設計主要是通過對算法模型的研究來付諸實現的,其中卷積池化方法是最基本的。數據挖掘包括的內容十分廣泛,主要有:數據分析理論、數據預測理論、數據安全理論、數據偵測理論和數據追蹤理論。數據挖掘中比較有名的數據庫中的知識發現(Knowledge Discover in Database,KDD),迄至目前也仍是人工智能和數據庫領域的熱點研究問題。研究可知,數據挖掘的含義是指從數據庫的各種數據中找出潛在的、并有隱藏價值的信息的過程。數據挖掘是一種決策支持過程,并主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,做出歸納性的推理[1],從中挖掘出潛在的模式,幫助決策者調整市場策略,降低風險,做出正確的決策。
1 研究背景與意義
1.1 研究背景
數據挖掘源起自上世紀80年代關于人工智能的投資項目夭折,從而改變戰略投身實際應用。這是一種時興的,面向商業應用的人工智能研究。選擇數據挖掘這一術語,展現了與統計、精算、長期從事預言模型的經濟學家之間沒有技術的重復部分。數據挖掘技術主要包含3個部分:算法和技術;數據;建模能力[2]。對此擬做闡釋分述如下。
(1)機器學習。機器學習是計算機科學和人工智能衍生的產物。機器學習分為2種學習方式:自組織學習(如神經網絡)和從例子中總結出規律(如決策樹)。
(2)統計。統計包括:預言算法(回歸)、抽樣、基于經驗的設計等,現在也開始支持數據挖掘。
(3)決策支持系統。
(4)數據倉庫。
(5)OLAP(聯機分析處理)、DataMart(數據集市)、多維數據庫等將數據倉庫、OLAP、數據挖掘等技術融合在一起,即構成企業決策分析環境。
1.2 研究意義
目前,正處于一個大數據時代,無論是云計算、社交網絡,還是物聯網、移動互聯網和智慧城市,都與大數據息息相關。大數據已然成為有著特定意義的專有名詞,而不只是說數據量龐大。21世紀的新一代信息技術有了突破創新以及廣泛實用性普及,例如云計算、移動互聯網和物聯網等,這意味著人類社會正以高速跨進大數據時代。越來越多的行業對大數據的發展與應用都抱有積極態度,而更多的用戶為了提升自身的工作效率也開始去嘗試或考慮如何運用大數據類的解決方案。隨著數據化的逐步推進,繼傳統企業三大競爭策略陸續問世后,大數據已然成為企業可以運營的第四種全新戰略[3-4]。值得一提的是,社會只需要該項技術注重相關關系,摒棄因果。簡單來講就是,只要知道是什么就好,而不用了解其背后原因。故而傳統慣例就此被顛覆,人們對現實世界的理解以及面對事物的判決思維方式也被質疑挑戰,基于此將會換個層面、角度思考問題,從而對傳統決策產生了極其重大的影響。因此人們就可從眾多繁雜數據中提取需要的,有用的、關注的信息。這也就是數據挖掘的意義所在。
2 貓狗分類器設計
2.1 模型選擇
研究中,給出一個VGG結構圖,如圖1所示。在此過程中,主要使用的是共有16層模型的VGG16,該模型需要的是 224*224*3 維度的輸入數據[5]。VGG模型在2014年的ILSVRC競賽中因表現優異而榮獲第二,雖然GoogLeNet占據了第一名的位置,但是在多個遷移學習任務的較量中,VGG模型的表現都比GoogLeNet好。此外,VGG模型是從圖像中提取CNN特征的首選算法。只不過140多兆的參數量卻是其主要缺點,所需存儲空間較大[6]。綜合上述分析可知,VGG模型的研究價值很大。所以本次研究選用了VGG16模型。
2.2 平臺搭建
實驗室的電腦是深度學習工作站,有著高性能的GPU。所使用的Ubuntu18.04 64 bit。安裝軟件是Anaconda,基于anaconda安裝pytorch的框架。下載kaggle比賽中所使用的數據集[7]。
2.3 貓狗分類器
2.3.1 圖片的導入和預覽
輸入的圖片需要分辨率為224*224,如圖2所示。為此使用transform.CenterCrop(224)對原始圖片進行裁剪。載入的圖片訓練集合為20 000個和驗證集合為5 000個,原始圖片全部為訓練集合,需要拆分出一部分驗證集合,輸出的Label,1代表狗,0代表貓[8]。
2.3.2 遷移模型
研究中使用的訓練集的圖片都為224*224*3,要想對貓與狗的圖片識別效果更佳,那么遷移過來的VGG16模型就要去適應新的要求,因此本次研究就將VGG16全連接層的最后一部分做出了調整改動并且對參數進行了重新訓練。但即便是訓練整個全連接層的全部參數,計算機的運行耗時也并不少,所以本文只是訓練了全連接層的最后一層,在節約時間的同時也能得到很好的效果。這里給出了訓練的部分截圖如圖3所示。
2.3.3 測試模型
網上的實例CPU進行訓練,因為速度很慢,只對100張圖片進行訓練的演示,進行1次訓練的Loss為0.350 1, Accuracy準確率為94%。驗證集的Loss為0.9151,Accuracy準確率為88%。這只是100張圖片的1次訓練,更多的圖片以及多次的訓練可能會得到一個更好的結果[9]。測試中無需考慮此問題,因為研究中使用的訓練很快。本次研究最終得到的測試結果見圖4。
研究中,在5 000個驗證集中隨機地選擇了16張圖片進行測試,可以看到,第一個是狗,雖然只有鼻子和嘴,但還是做到了正確的識別。測試的16張圖片中,肉眼看到的是—狗、貓、貓、狗、狗、貓、貓、狗、狗、貓、貓、貓、貓、貓、貓和狗。有的圖片雖然連面部都沒有,但是VGG模型的測試結果都是正確的。由此可見,在大量訓練下的準確率是很高的[10]。
3 結束語
本文所涉及的模型系統主要用到了數據挖掘中的圖像處理理論—分類:這是數據挖掘中最為基本和比較成熟的一個分支,著重于研究大數據的分析和圖像處理問題,其基本的分析和綜合方法是卷積池化。主要對于圖像特征進行提取,一層層卷積、一層層池化之后,再將每層都要進行優化。最后將每個圖片信息降到一維的維度。由連接層輸出。本文在實際測試過程中也發現一些問題,沒有預處理數據集,對一些反光、模糊等的圖片識別有誤差。還有理論沒有很好地結合實際。同時,對于代碼移植方面暴露出的問題,也要在后續研究中進一步加以完善和改進。
參考文獻
[1]任劍嵐. 數據挖掘技術應用案例的分析[J]. 信息通信, 2012(6):164.
[2]周晟. 挖掘.com公司─數據挖掘技術和.com公司[J]. 軟件世界, 2001(6):132-134.
[3]維克托·邁爾-舍恩伯格, 肯尼思·庫克耶. 大數據時代[M]. 杭州:浙江人民出版社, 2013.
[4]馬毅. 商業銀行邂逅大數據:挑戰與競爭戰略演進[J]. 征信, 2014,32(2):75-78.
[5]馮國徽. 基于卷積神經網絡VGG模型的小規模圖像分類[D]. 蘭州:蘭州大學,2018.
[6]湯鵬杰, 譚云蘭, 許愷晟,等. 基于GoogLeNet多階段連帶優化的圖像描述[J]. 井岡山大學自然版, 2016, 37(5):47-57.
[7]LEI Tao, ZHANG Yu, WANG S I, et al. Simple recurrent units for highly parallelizable recurrence[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: EMNLP, 2018:4470-4481.
[8]王鵬偉. 基于多尺度理論的圖像分割方法研究[D]. 合肥:中國科學技術大學, 2007.
[9]TOMAEV N, MLADENI[KG-*5]C[DD(]′[DD)]D. Class imbalance and the curse of minority hubs[J]. Knowledge-Based Systems, 2013, 53:157-172.
[10]李華勝, 楊樺, 袁保宗. 人臉識別系統中的特征提取[J]. 北京交通大學學報, 2001, 25(2):18-21.
作者簡介: 王 彬(1996-),男,碩士研究生,主要研究方向:圖像處理; 張正平(1964-),男,博士,教授,主要研究方向:無線電技術、電信技術、信息處理與控制; 陸安江(1978-),男,博士,教授,主要研究方向:優化通信與信息系統。
收稿日期: 2021-03-15