陳繼剛 馮璐
1. 西安交通大學第二附屬醫院信息網絡部 陜西 西安 710076;2. 聯詠電子科技(西安)有限公司 陜西 西安 710076
基于視網膜假體植入的仿生假體視覺技術(SPV)是視力障礙患者視力改善的一種解決方案,其信息表達方式直接、全面,具有良好的研究前景。SPV重建了一條新的信息傳遞通路,利用外部攝像頭替代眼睛去捕獲視覺信息,通過移植在視網膜上的假體電極陣列,將視覺信息以電刺激的形式傳遞給視網膜,大腦視覺皮層即可產生相應的光感影像信息(稱為光幻視)。
當前電極陣列制造技術有限,僅可產生低分辨率(有限像素)的光幻視,缺失大量的關鍵語義信息,無法滿足患者大腦視覺皮層進行深層次的感知、理解的需求。為解決該問題,需要對攝像頭獲取的“物理真實”信息進行算法的特征提取與模式識別,抽象出其中的關鍵語義,翻譯為“感官真實”信息傳遞給假體電極陣列以產生光幻視,用少量的像素即可實現有效表達,緩解了假體功能缺陷引發的語義缺失問題的影響。
本文旨在從算法層面彌補SPV硬件性能的不足,在低分辨率工況下高效表示人臉語義的關鍵信息,使視力障礙患者能夠通過光幻視有效了解溝通對象的面部信息,知曉其面部外形、理解其表情,提升患者的社交能力和幸福指數,使其更好地融入社會生活中。
本研究的主要難點在于提升低像素光幻視的表達能力,即解決圖像翻譯中因分辨率縮減帶來的語義信息缺失的問題。人臉圖像語義信息的缺失主要包括兩點:
空間語義信息缺失:空間語義關系到人臉面部輪廓信息,缺失將導致輸出結果無法確定人物身份。
頻譜語義信息缺失:頻譜語義關系到人物的面部表情等關鍵信息,缺失將導致無法應用傳統的循環一致性[1]和感知損失[2]訓練策略。
研究表明[3],漫畫風格的人臉圖像在表征面部語義方面具有高效性,其特征表達能力更強,可以更好地傳遞人臉圖像的內在信息。鑒于視網膜假體電極陣列提供的電刺激等級有限,產生的光幻視的像素等級及灰度等級極低[4],本任務中考慮極端情況,完全使用分辨率為25×23的二值化(即像素化)的漫畫風格人臉圖像(簡稱為像素人臉圖像)來表達人臉圖像的空間、頻譜語義。
針對SPV人臉語義翻譯任務,當前仍缺乏相關的用于部署的低像素數據集。為便于后續工作的開展,本次研究構建了漫畫風格的像素人臉數據集Pixel Face Dataset(PFD)。
PFD由1278張像素人臉圖像組成,所有樣本均為二值化圖像,并且尺寸符合視網膜假體的顯示需求,可方便部署于視網膜假體之上。

1.2.1 空間語義信息的引入。通過語義分割模塊MU(MaskingUnit),將分割得到其對應的:

MU模塊可任意選用成熟的人臉掩模分割方法予以實現。
1.2.2 空間及頻譜語義的循環重構保持。空間及頻譜語義的維持是通過引入信息,完成與間循環重構生成過程,指導的生成實現的。為實現該循環重構生成策略,需構建一個特殊的GAN結構模塊,該結構中包含傳統意義上GAN所需的生成器及判別器D,同時也包含實現與間的循環重構生成策略的兩個生成器與:





1.2.5 標簽分類損失。頻譜語義主要由面部表情這類抽象信息構成,因此可添加標簽分類任務用以約束生成的像素人臉圖像具有與原真實人臉圖像相同的表情,確保兩者的頻譜語義的一致性。此標簽分類任務可交由判別器完成,為其添加標簽分類頭予以實現。在判別器D的訓練階段有:


1.2.6D的對抗損失。D的對抗損失項具體表達公式如下:


本次研究將本文的F2Pnet模型與多個圖像語義翻譯的經典SOTA(state-of-the-art)模型進行了性能比對,具體涉及CycleGAN、U-GAT-IT、photo2cartoon、GNR,見圖1。

圖1 各模型生成的像素人臉圖像及其光幻視
分析結果可知,CycleGAN人臉圖像翻譯結果中存在大量生成缺陷,而且缺陷位置多集中于關鍵的面部區域,對人臉關鍵信息影響較大,而且CycleGAN的翻譯結果的語義特征與原始人臉圖像存在較大差異,進一步驗證了上文僅使用循環一致性損失無法保證翻譯前后的圖像間語義對應關系這一結論。
值得注意的是,U-GAT-IT在本實驗中表現較好,其圖像翻譯結果輪廓清晰、缺陷較少。但對人物發型與面部表情信息未能做到正確保留,且翻譯結果中仍保留了部分背景信息,會對前景信息內容存在干擾。
Photo2cartoon在本實驗中表現較差,只能簡單勾勒出人物的面部外輪廓線條,缺失了大量的面部器官信息,導致人臉關鍵語義的大幅丟失,且翻譯結果中保留了大量的背景信息,嚴重影響對人臉語義的表達。
GNR有較強的頻譜語義表征能力,但仍存在生成缺陷,且丟失部分面部信息;仔細觀察可發現其結果與原始圖像在空間位置上存在一定偏差,即存在空間語義表征能力缺陷。
F2Pnet模型的圖像翻譯結果輪廓清晰、銳利,基本無肉眼可見缺陷,且與原始人臉圖像的語義信息(例如面部外形、發型、表情等)存在強對應關系,是圖像翻譯效果最好的一個。
F2Pnet與人類基準對比實驗結果見表1。可以得出以下結論:

表1 F2Pnet與人類基準對比
F2Pnet的圖像翻譯結果在語義相似度、表情辨識度及身份辨識度方面略遜于人類基準,但在單一表情,特別是“憤怒”、“恐懼”、“高興”、“驚訝”中的表征能力已優于人類基準,在“高興”表情辨識度(即正確率)上已高達0.96,證明F2Pnet可以為視障患者提供較為可靠的人臉語義信息。
F2Pnet的圖像翻譯結果在轉換成光幻視點陣圖像(考慮30%電極失效)后表征能力的下降幅度低于人類畫師繪制的圖像,并且除了在“中性”、“悲傷”表情中,F2Pnet的光幻視點陣圖像評分略低于人類基準外,其余表情的得分均高于人類基準。這一結果進一步論證了F2Pnet的語義表征能力,并且說明了使用PFD數據集進行轉換這一思路的正確性。
F2Pnet與其他圖像語義翻譯方法對比實驗結果見表2,多數志愿者認為F2Pnet翻譯結果更符合原始人臉圖像,F2Pnet得票率高于次優方法(GNR)31.29%。實驗結果表明F2Pnet具有更強的空間語義及頻譜語義保持能力,更符合人類感知,比現有圖像語義翻譯方法具有更強的語義表征性能。

表2 不同模型圖像翻譯質量的用戶調研統計結果
本次研究選用樹莓派作為模型部署的硬件設備,型號為當前最新的Raspberry Pi 4B,由于嵌入式設備的運算性能有限,為保證模型具有足夠的推理速度,需對其進行下述的網絡結構簡化操作:將中間層的所有常規卷積操作替換為深度可分離卷積,并將其通道數大于64的層均縮減至64。去除所有實例歸一化的參數,僅使用均值與方差對各特征圖進行歸一化操作。
通過實測發現,人臉檢測算法的運行效率為37pfs(單幀耗時27ms),F2Pnet在嵌入式設備上的轉換速率為17.7fps(單幀耗時56.5ms),單幀總耗時為83.5ms。翻譯后的效果見圖2。

圖2 F2Pnet模型簡化前、后的翻譯效果
模型簡化后,提升推理效率的同時,不可避免地會降低圖像的語義翻譯質量,部署模型最終在CelebA測試集中的FID與KID指標見表3。由表可知,語義翻譯質量的確存在小幅下降,但光幻視點陣圖像仍可正確表示人臉信息;同時,考慮30%點陣失效下的光幻視也依然能夠為患者提供較為可靠的語義特征。

表3 F2Pnet簡化前、后翻譯結果的FID、KID值
為有效解決有限像素下表征人臉信息時的語義丟失問題,本文給出了將“物理真實”轉換為“感官真實”的研究思路,使用具有強抽象表征能力的、漫畫形式的像素人臉圖像去表示人臉語義。(縮進)為了規范生成低像素、富語義信息、可直接在視網膜假體上部署的漫畫形式圖像,本文構建了像素人臉數據集PFD。為解決人臉圖像翻譯過程中的語義信息丟失問題,本文給出了間接循環重構的對抗訓練策略。基于上述策略,本文構建了F2Pnet網絡。
經實驗論證,F2Pnet的人臉語義翻譯結果在語義相似度、表情辨識度、身份辨識度方面已接近人類基準,其在面部特征、表情等方面的表達能力優于現有其他人臉圖像翻譯方法。