王海洋 王寧 朱專專 王璐
摘 要:構建一個基于人臉識別的智能大數據處理系統,將圖片中提取的人臉數據特征上傳到HBase分布式數據庫中進行存儲,使用Mahout提供的推薦、分類等數據挖掘算法進行數據挖掘,使用Echarts框架將挖掘結果直觀顯示給用戶。
關鍵詞:大數據;數據可視化;數據挖掘;數據預處理
1 概述
面對互聯網絡的海量數據,如何提取有用的信息并進行數據分析和挖掘就顯得尤為重要。一般置于商場和公共場所的數字標牌廣告機只具有信息顯示和信息發布功能,無法了解用戶更多行為,運用先進的人臉識別技術和視頻智能分析技術提供一套完善的解決方案,能夠智能統計和分析用戶狀態,幫助了解用戶的喜好。
基于人臉識別技術設計一個對人臉信息進行智能處理的系統,利用人臉識別技術統計商家數字標牌內容的觀看人數、觀看人的性別、年齡等信息,基于收集的數據利用大數據分析技術輔助產品提供者制定更加精準、人性化的推廣方案和內容。
2 關鍵技術簡介
2.1 Hadoop分布式數據處理平臺
Hadoop是基于MapReduce數據集計算框架對原始的數據集進行處理的平臺,可以快速、高效的對海量數據進行快速處理。
2.2 HBase分布式數據
HBase是基于Hadoop平臺的分布式的開源數據庫,是一種基于列存儲的、非關系型的數據庫。
2.3 Mahout數據挖掘工具
Mahout是Apache旗下的一款數據挖掘工具,可以運行在Hadoop平臺上對數據進行處理,包含了諸多的挖掘算法,例如:聚類、分類、推薦等,對數據處理提供了極大的便利性。
2.4 Echarts數據可視化工具
Echarts商業報表技術是一個純的JavaScript的圖表庫,其中包含了諸多的商用圖表,例如:折線圖、柱狀圖、散點圖、K線圖、餅圖等等,提供了簡潔、直觀、生動、可交互的數據可視化圖表。
2.5 Face++人臉識別技術
Face++人臉識別技術可用于對圖片中人臉的檢測、微笑分析以及性別、年齡、種族、面部器官等坐標數據的獲取。
3 系統功能描述
基于人臉識別的大數據智能處理系統首先通過人臉識別技術收集信息,利用大數據處理技術分析用戶對內容的喜好,為不同性別、年齡、情緒狀態的用戶提供更加人性化的內容,在不同時段投放不同內容作出參考依據,為用戶帶來更好體驗同時為投資者帶來更豐厚的回報。具體包括人臉識別和數據分析兩部分內容。
3.1 人臉識別
(1)人臉檢測:通過攝像頭獲取人臉輪廓,提取特征生成特征數據庫。
(2)表情檢測:通過攝像頭判斷當前人臉是否注視攝像頭,可識別睜眼、閉眼、眨眼等動作。
(3)姿態檢測:通過攝像頭判斷當前人臉是平視、抬頭、低頭、左右轉頭等。
3.2 數據分析
通過人臉特征的提取,對其中的信息進行分析,根據統計數據,給出推薦的廣告位置和投放時間等信息,為商家提供參考依據。
4 系統構建
4.1 系統設計
針對系統的功能描述,構建分布式集群環境,通過圖片預處理、數據挖掘以及數據可視化三大核心模塊,完成系統的構建。
(1)圖片預處理
在數據處理前期對圖片進行預處理,利用Face++人臉識別技術,提取人臉信息,并將其上傳到HBase分布式數據庫中進行存儲。
(2)數據挖掘
使用Mahout開源的數據挖掘框架,進行參數設置后調用推薦、分類算法進行數據挖掘工作,獲取挖掘結果,并將其存放到數據庫中。
(3)數據可視化
從前臺獲取數據庫中存儲的挖掘結果,使用Echarts可視化工具進行數據顯示。
4.2系統實現
(1)人種興趣圖
鼠標放在某一區域時會顯示該人種所占的比例,點擊下載圖標時可將整個圖表以圖片的形式保存下來。
(2)數據分布圖
查看每個區域的數據分布情況,直觀明了。
5 結束語
本系統可以快速的對大量的人臉數據進行處理并提取出有效信息,在數據可視化平臺進行數據展示,給用戶以直觀、生動的數據感受。同時,用戶可以對相關結果進行下載、打印等操作。
參考文獻
[1]董西成.hadoop技術內幕:深入解析YARN架構設計與實現原理[M].北京:機械工業出版社,2013.
[2]張霄宏,雒芬,賈宗璞,等.一種適用于HadoopMapReduce環境的數據預取方法[J].西安電子科技大學學報(自然科學版),2014,41(2).
[3]萬兵,黃夢醒,段茜.一種基于資源預取的Hadoop作業調度算法[J].計算機應用研究,2014,31(6).
[4]何榮波.MapReduce模型在Hadoop中的性能優化及改進[D].北京:北京化工大學,2011.
作者簡介:王海洋,長春工業大學應用技術學院計算機科學與技術專業152401班學生;王寧,長春工業大學應用技術學院計算機科學與技術專業152401班學生;朱專專,長春工業大學應用技術學院計算機科學與技術專業152401班學生。
*通訊作者:王璐(1980-),女,副教授。