李根



摘 要:人臉識別技術由于其具備的快速準確識別目標身份的特點,成為目前國內外相關企業和高校的研究熱點,專利申請量逐年遞增。本文對計算機人臉識別技術的專利申請趨勢、區域分布、主要申請人以及核心技術路線進行了分析和梳理,能夠幫助相關技術人員了解現有技術并研判未來發展趨勢。
關鍵詞:人臉識別;人工智能;深度學習;申請態勢;技術路線
一、引言
人臉識別不需要被監控對象的主動配合,并且可以實現遠距離識別,在安防影像分析、泛金融身份認證等領域得到了廣泛的應用,國內外安防廠商、計算機視覺及人工智能相關企業均將其作為主要研發對象[1]。
人臉識別算法經歷了早期算法,人工特征+分類器,深度學習三個階段。早期的算法有基于幾何特征的算法,基于模板匹配的算法,子空間算法等多種類型,這些算法嚴重依賴訓練集和測試集場景,且對光照、人臉的表情、姿態敏感,泛化能力不足,不具有太多的實用價值;第二階段的人臉識別算法普遍采用了人工特征+分類器的思路,部分解決了光照敏感問題,但還是存在姿態和表情的問題;直到2006年深度學習算法的引入,人臉識別算法進入了新紀元,準確率和魯棒性都得到了大幅提升,甚至超過了人眼的識別水平,突破了工業化紅線,得以運用到各種生活場景中,基于深度學習算法的人臉識別技術成為目前的主流[2]。因此本文針對2006年以后的計算機視覺相關的專利進行分析研究,擬對該領域的專利申請趨勢、核心技術路線進行分析和梳理。
二、專利申請態勢
通過前期調研、技術研究和專利數據檢索等多方面的反復論證與修改,最終依據人臉識別技術的實現流程,將其分解為采集預處理、特征提取、特征比對和多手段融合四個技術分支,并據此進行專利檢索與分析。
在中國專利摘要數據庫(CNABS)、德溫特世界專利數據庫(DWPI)中進行檢索,檢索文獻涵蓋了公開日或公告日在2017年12月31日之前的全球發明專利申請,在檢索過程中采用分類號與關鍵詞結合的方式進行。
(一)申請趨勢
圖1為人臉識別技術全球專利申請趨勢,結合圖1分析可知,從2006年深度學習提出以來,人臉識別技術的發展經歷了三個階段:
1.技術萌芽期(2006—2011年)。2006年Hinton在Science期刊上發表了關于深度神經網絡論文(Reducing the Dimensionality of Data with Neural Networks),指出多隱層神經網絡具有更為優異的特征學習能力,并且其在訓練上的復雜度可以通過逐層初始化來有效緩解,從而提出了深度學習概念。但該論文并未引起產業界的足夠重視,同時受限于當時計算機硬件性能,基于深度學習的人臉識別技術并未成為主流研究方向,2006—2011年期間,全球的計算機視覺全球專利申請量不足30項/年,國內專利申請了不足5項/年。
2.技術發展期(2012—2015)。2012年,Hinton課題組為了證明深度學習的潛力,參加ImageNet圖像識別比賽,其通過構建的深度學習網絡AlexNet將圖像識別錯誤率降低了10%,成為影響人工智能進程的里程碑事件。識別準確率的大幅提升標志著人臉識別技術能夠被運用到日常生活中。此后,媒體大量宣傳報道人工智能,學術界和產業界也紛紛探索將深度學習融入到人臉識別技術中,人臉識別技術在安防、金融等領域開始探索商業化,全球及國內專利申請量開始呈指數增長。
3.技術應用期(2016—至今)。隨著新的深度學習算法不斷改進,人工智能成為引領未來的戰略性技術,世界主要發達國家把發展人工智能作為提升國家競爭力、維護國家安全的重大戰略,加緊出臺規劃和政策,人臉識別技術也隨之獲得空前的發展,全球專利年申請量突破了350項。隨著各國的政策激勵,計算機視覺技術在未來幾年將會保持持續地快速增長趨勢。
(二)申請區域分布
圖2為人臉識別技術全球專利申請來源國家和地區分布,由圖3可知,68%的專利申請來自中國,這一數量是第二位美國的4倍,是第三位韓國的6倍,得益于中國對人工智能的高度重視以及相關政策的激勵,國內涌現了一批計算機視覺創業企業,引領了人臉識別技術的發展,使得中國成為人臉識別技術的主要技術來源國。
圖3為人臉識別技術全球專利申請目標國家和地區分布。中國是人臉識別技術的最大專利申請目標國,專利申請量占申請總量的72%,美國、韓國和日本的專利申請量占比分別是12%、9%和5%,中國較為開放的市場環境、巨大的市場需求和海量的數據資源吸引了各國相關創新主體,紛紛在中國進行專利布局。
(三)主要申請人分布
圖4示出了人臉識別技術全球排名前十的申請人。前十申請人中,有六席來自中國,美國和韓國各自占據兩席,表明中國已經培育出了一批人臉識別技術領域的小巨頭企業。來自中國的商湯科技和曠視科技分別位列第一和第二,二者均為技術驅動型企業,人才儲備雄厚,研發實力強勁,擁有大量人臉識別核心技術,并且重視專利布局;來自韓國的三星和LG分列第三和第五位,一直持續研發和改進人臉識別技術,以謀求進軍安防、金融、手機互娛等領域;來自美國的谷歌和臉譜是人工智能領域的佼佼者,吸納了多位深度學習領域的頂尖學者及團隊,掌握多項人臉識別核心專利與技術;除此之外,大華技術、中國科學院、百度和海康威視分別位列第六至第十,作為安防領域的兩大巨頭,大華技術和海康威視均組建了自己的研發團隊,自主研發人臉識別技術并嵌入至自家的安防產品中,以占領更大智能安防市場氛圍,中科院以及百度也成立了各自的人工智能實驗室,將基于深度學習的人臉識別技術作為主要研發方向之一。
(四)技術主題分布
圖5為人臉識別技術各分支專利申請占比圖。特征提取技術專利申請量占比最高,為42%,作為人臉識別技術環節中的核心,特征提取算法和模型的好壞決定了特征提取的質量,對于人臉識別的準確率的影響程度較高,同時也是人臉識別四個技術環節中運用到深度學習算法最多的步驟;特征比對技術專利申請量占比次高,為36%,特征比對的結果直接決定了人臉識別的結果;采集預處理和多手段融合技術分別占比19%和3%。
三、核心技術路線梳理
基于前面的分析,通過對于人臉識別核心專利的深入閱讀分析,對人臉識別的核心技術環節特征提取的技術發展脈絡進行了梳理。
2006年,機器學習大師、多倫多大學教授Geoffrey Hinton及其學生Ruslan發表在世界頂級學術期刊《科學》上的一篇論文引發了深度學習在研究領域和應用領域的發展熱潮。這篇文獻提出了兩個主要觀點:一是多層人工神經網絡模型有很強的特征學習能力,深度學習模型學習得到的特征數據對原數據有更本質的代表性,這將大大便于分類和可視化問題;二是對于深度神經網絡很難訓練達到最優的問題,可以采用逐層訓練方法解決,將上層訓練好的結果作為下層訓練過程中的初始化參數。在這一文獻中深度模型的訓練過程中逐層初始化采用無監督學習方式。
隨后深度學習開始得到業界的關注,2012年由Hinton和他的學生Alexander Krizhevsky設計的AlexNet,獲得了ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽分類項目的冠軍,準確率達到57.1%,top 1-5 達到80.2%,這相對于傳統的機器學習分類算法而言,已經相當的出色。憑借優異的表現,Hinton和Alexander加入了Google并以此申請了專利US14/030,938。AlexNet采用深度卷積神經網絡,共有8層結構,前5層為卷積層,后3層為全連接層。AlexNet卷積神經網絡在圖像分類中顯示出了巨大的威力,通過學習得到的卷積核明顯優于人工設計的特征+分類器的方案,很多研究者都在嘗試將其應用在自己的方向,這極大的推動了深度學習的發展,使用深度學習實現人臉識別開始成為主流。
2013年,Facebook的Yaniv Taigman等人提出了DeepFace算法,以此申請了專利US14/530,585。DeepFace采用了基于檢測點的人臉檢測方法,對檢測后的圖片進行二維裁剪,將人臉部分裁剪出來,然后轉換為放正的3D模型,隨后輸入CNN提取特征;CNN共8層,包括5個卷積層,1個池化層,2個全連接,最后對輸出的特征向量進行歸一化和分類,從而完成識別。其早于DeepID和FaceNet,但其所使用的方法在后面模型中都有體現,可謂是早期的奠基之作。
同在2013年,香港中文大學的湯曉鷗教授及其團隊提出了DeepID算法,以此申請專利CN201380081288.3。2014年憑借該算法首次參加ImageNet大規模物體檢測任務比賽便以40.7%的優異戰績位居第二名;幾個月后,DeepID-Net團隊將此成績大幅提高至50.3%,達到了全球最高的檢測率。2014年湯曉鷗創立了商湯科技,并對DeepID算法進行改進提出DeepID2算法,以此申請專利CN201480079316.2。DeepID采用深度學習的方法來提取人臉高級特征(high-level features),這種特征被稱為DeepID,DeepID特征是通過人臉分類任務學習得到的,這樣的特征可以使用在人臉驗證中,最終在LFW數據集上取得了準確率97.45%的結果;其采用的CNN網絡結構共為10層,包括輸入層、4個卷積層、3個池化層、1個DeepID層和1個Softmax層;在提取特征后,使用了Joint Bayesian和Neural Network兩種方法進行區人臉比對,最終得出識別結果。
同在2014年,Google的Christian Szegedy等人提出了提出了Inception網絡結構,就是構造一種“基礎神經元”結構,來搭建一個稀疏性、高計算性能的網絡結構;該結構將CNN中常用的卷積(1x1,3x3,5x5)、池化操作(3x3)堆疊在一起(卷積、池化后的尺寸相同,將通道相加);一方面增加了網絡的寬度,另一方面也增加了網絡對尺度的適應性,基于Inception搭建了GoogLeNet,共22層結構,以此申請了專利US14/839,452。GoogLeNet憑借其優秀的表現,得到了很多研究人員的學習和使用。
2014年至2016年期間,GoogLeNet團隊對GoogLeNet進行了進一步地發掘改進,研發出了Inception v2,Inception v3和Inception v4,最終基于Inception v4提出了inception-resnet-v2,據此于2016年申請了專利US15/395,530。其中將nxn的卷積通過1xn卷積后接nx1卷積來替代,這樣既可以加速計算,又可以將1個卷積拆成2個卷積,使得網絡深度進一步增加,增加了網絡的非線性;使用了兩個并行化的模塊(卷積、池化并行執行,再進行合并)來降低計算量;將ResNet與Inception 結合。這些改進大幅提升了其性能。
2016年,Google的Barret ZOPH等提出了NasNet,并以此申請了專利US62/414,300。這個模型并非是人為設計出來的,而是通過谷歌很早之前推出的AutoML自動訓練出來的。該項目目的是實現“自動化的機器學習”,即訓練機器學習的軟件來打造機器學習的軟件,自行開發新系統的代碼層。它也是一種神經架構搜索技術(Neural Architecture Search technology),其模型就是基于AutoML,首先在CIFAR-10這種數據集上進行神經網絡架構搜索,以便 AutoML 找到最佳層并靈活進行多次堆疊來創建最終網絡,并將學到的最好架構轉移到 ImageNet 圖像分類和 COCO 對象檢測中,也就得到了NasNet,其在圖像分類任務中表現極為優秀。
2017年,Google的Howard Andrew Gerald等推出了MobileNet,以此申請了專利US15/707,064。其使用了一種稱之為deep-wise的卷積方式來替代原有的傳統3D卷積,減少了卷積核的冗余表達,在計算量和參數數量明顯下降之后,卷積網絡可以應用在更多的移動端平臺。同年,商湯科技也針對移動端應用,分別申請了專利CN201710671900.2和CN201711214145.1,前者注重于神經網絡模型的壓縮,后者通過大型神經網絡對小型神經網絡進行訓練,將大型網絡的特性遷移至小型網絡中。
谷歌、商湯科技和曠視科技都是人臉識別技術的引領者,擁有多項核心技術和專利,其中谷歌在深度學習網絡模型方面持續進行研發和改進,技術和專利儲備雄厚,商湯科技和曠視科技作為后起之秀也自主研發了多項深度學習網絡模型。2017年之后,這三家公司均開始研發小型神經網絡模型,意圖布局移動端。
四、結語
作為人工智能技術的關鍵技術之一,近二十年來,人臉識別技術的專利申請量呈現迅速增長的趨勢,隨著各國的政策激勵以及應用場景的豐富,人臉識別技術在未來幾年將會保持持續地快速增長趨勢。在各項政策激勵、人才儲備以及應用市場多方因素的作用下,中國培育出了一批人臉識別技術領域的小巨頭企業,掌握了多項核心專利和技術,引領了人臉識別技術的不斷發展。深度學習的出現使得人臉識別的效率和準確率均超過了人眼,得以運用到安防、金融等各個領域中,基于深度學習的人臉識別技術成為目前的主流研發方向。隨著人工智能專用芯片的出現和移動終端性能的提升,適用于移動端的人臉識別技術的研究與開發將成為未來的研究熱點之一。
參考文獻
[1] 廖育梅.人工智能控制理論現狀分析與發展探討[J].才智,2013(8):270.
[2] 李兵兵,伍維根,謝永春.智能控制理論在電力電子中的應用[J].科技創新與應用,2018(35):170-172.