技術(shù)
導(dǎo)讀:人臉識(shí)別主要包括一對(duì)一或者一對(duì)多的應(yīng)用場(chǎng)景,對(duì)目標(biāo)人臉進(jìn)行識(shí)別和驗(yàn)證。
一、人臉識(shí)別技術(shù)介紹
人臉識(shí)別作為一種生物特征識(shí)別技術(shù),具有非侵?jǐn)_性、非接觸性、友好性和便捷性等優(yōu)點(diǎn)。早在二十世紀(jì)初期,人臉識(shí)別已經(jīng)出現(xiàn),于二十世紀(jì)中期,發(fā)展成為獨(dú)立的學(xué)科。人臉識(shí)別真正進(jìn)入應(yīng)用階段是在90年代后期。人臉識(shí)別屬于人臉匹配的領(lǐng)域,人臉匹配的方法主要包括特征表示和相似性度量。
人臉識(shí)別通用的流程主要包括人臉檢測(cè)、人臉裁剪、人臉校正、特征提取和人臉識(shí)別。人臉檢測(cè)是從獲取的圖像中去除干擾,提取人臉信息,獲取人臉圖像位置,檢測(cè)的成功率主要受圖像質(zhì)量,光線強(qiáng)弱和遮擋等因素影響。獲取人臉后,人臉裁剪是根據(jù)實(shí)際需求,裁剪部分或整體的人臉,進(jìn)一步精確化人臉圖像。為提高人臉識(shí)別準(zhǔn)確率,人臉校正可以盡可能的降低由于姿態(tài)和表情導(dǎo)致的人臉變化,獲取正面或者平靜狀態(tài)下的人臉照片。特征提取利用不同的特征,對(duì)圖片進(jìn)行相似度的衡量和評(píng)價(jià)。人臉識(shí)別主要包括一對(duì)一或者一對(duì)多的應(yīng)用場(chǎng)景,對(duì)目標(biāo)人臉進(jìn)行識(shí)別和驗(yàn)證。
人臉表達(dá)模型主要分為2D,2.5D,3D。2D人臉指的是RGB,灰度和紅外圖像,是確定視角下表征顏色或紋理的圖像,不包括深度信息。2.5D是在某一視角下拍攝獲取的人臉深度數(shù)據(jù),但是曲面信息不連續(xù),沒(méi)有被遮擋部分的深度數(shù)據(jù)信息。3D人臉由多張不同角度的深度圖像合成,具有完整連續(xù)的曲面信息,包含深度信息。2D圖像人臉識(shí)別的研究時(shí)間較長(zhǎng),軟硬件技術(shù)較為完備,得到了廣泛的應(yīng)用。但是由于2D圖像反映二維平面信息,不包含深度數(shù)據(jù),不能夠完整的表達(dá)出真實(shí)人臉模型。相比于二維人臉圖像,三維圖像不受光照等影響,具有更強(qiáng)的描述能力,能夠更為真實(shí)的反映人臉信息,在人臉合成、人臉遷移、三維人臉識(shí)別等場(chǎng)景中應(yīng)用。3D人臉識(shí)別一般采用深度相機(jī)獲取人臉深度信息,主要包括雙目相機(jī),基于結(jié)構(gòu)光原理的RGB-D相機(jī)和基于光飛行時(shí)間原理的TOF相機(jī)。常見(jiàn)的三維人臉識(shí)別算法主要包括傳統(tǒng)識(shí)別方法和深度學(xué)習(xí)識(shí)別方法。
1.傳統(tǒng)識(shí)別方法
(1)基于點(diǎn)云數(shù)據(jù)的人臉識(shí)別
點(diǎn)云是3D人臉數(shù)據(jù)的一種表征方式,每一個(gè)點(diǎn)都對(duì)應(yīng)一個(gè)三維坐標(biāo),掃描設(shè)備使用這種數(shù)據(jù)格式存儲(chǔ)采集的三維人臉信息,甚至可以將稀疏坐標(biāo)也拼接到形狀信息上,更為完善的反映人臉信息?;邳c(diǎn)云數(shù)據(jù)的3D人臉識(shí)別直接使用三維點(diǎn)云進(jìn)行匹配,常見(jiàn)方法有ICP(Iterative Closest Point)和Hausdorff距離。前者可以修正點(diǎn)云信息中平移和旋轉(zhuǎn)變換的誤差,后者利用三維點(diǎn)云之間的距離最大值,匹配人臉,但是兩者均存在魯棒性不足的問(wèn)題。
(2)基于面部特征的3D人臉識(shí)別
人臉的面部特征主要包括局部特征和全局特征,局部特征可以選擇從深度圖像上提取關(guān)于面部關(guān)鍵點(diǎn)的特征信息,全局特征是對(duì)整張人臉進(jìn)行變換提取特征,例如球面諧波特征或者稀疏系數(shù)特征。
2.深度學(xué)習(xí)識(shí)別方法
(1)基于深度圖的人臉識(shí)別
深度圖像中三維數(shù)據(jù)的z值被投影至二維平面,形成平滑的三維曲面。可使用歸一化網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)實(shí)現(xiàn)深度圖人臉識(shí)別,歸一化網(wǎng)絡(luò)將輸入的深度圖像轉(zhuǎn)化為HHA圖像,再使用卷積神經(jīng)網(wǎng)絡(luò)回歸用于獲取歸一化深度圖的參數(shù),特征提取網(wǎng)絡(luò)用于獲取表征深度圖人臉的特征向量。
(2)基于RGB-3DMM的人臉識(shí)別
3DMM是指三維人臉變形統(tǒng)計(jì)模型,其最早是用于解決從二維人臉圖像恢復(fù)三維形狀的問(wèn)題,現(xiàn)多被用于對(duì)深度圖像或彩色圖像進(jìn)行人臉模型回歸,實(shí)現(xiàn)識(shí)別任務(wù)。
(3)基于RGB-D的人臉識(shí)別
RGB-D圖像是包含了彩色圖像和深度圖,前者是從紅、綠、藍(lán)顏色通道獲取的圖像,后者是指包含與視點(diǎn)的場(chǎng)景對(duì)象的表面的距離有關(guān)的圖像通道,兩者之間是相互配準(zhǔn)。通過(guò)對(duì)彩色圖像和多幀融合后的深度圖像分別進(jìn)行預(yù)訓(xùn)練和遷移學(xué)習(xí),在特征層進(jìn)行融合,提高人臉識(shí)別率。
二、表情識(shí)別最新研究
1) Facial Emotion Recognition with Noisy Multi-task Annotations
摘要
從面部表情可以推斷出人類(lèi)的情感。但是,在常見(jiàn)的情感編碼模型中,包括分類(lèi)和維度模型,面部表情的注釋通常會(huì)非常嘈雜。為了減少人為標(biāo)注多任務(wù)標(biāo)簽的工作量,文中引入了帶有嘈雜的多任務(wù)注釋的面部表情識(shí)別新問(wèn)題。對(duì)于這個(gè)新問(wèn)題,文中建議從聯(lián)合分布匹配的角度進(jìn)行計(jì)算,其目的是學(xué)習(xí)原始人臉圖像和多任務(wù)標(biāo)簽之間更可靠的關(guān)聯(lián),從而減少噪聲影響。采用一種新方法來(lái)在統(tǒng)一的對(duì)抗性學(xué)習(xí)游戲中啟用情緒預(yù)測(cè)和聯(lián)合分布學(xué)習(xí)。在廣泛的實(shí)驗(yàn)中進(jìn)行的評(píng)估研究了所提出的新問(wèn)題的實(shí)際設(shè)置,以及所提出的方法在合成嘈雜的帶標(biāo)簽CIFAR-10或?qū)嶋H嘈雜的多點(diǎn)干擾方法上優(yōu)于最新競(jìng)爭(zhēng)方法的明顯優(yōu)勢(shì)標(biāo)記為RAF和AffectNet的任務(wù)。
本文探討的是嘈雜的多任務(wù)標(biāo)簽中面部表情識(shí)別的問(wèn)題。實(shí)際應(yīng)用中,兩種最常用的面部情緒編碼模型是分類(lèi)和維數(shù),但是通過(guò)從可用的情感標(biāo)簽中進(jìn)行模型的學(xué)習(xí)容易產(chǎn)生不好的結(jié)果,因此,文中提出的公式是從聯(lián)合分布匹配的角度解決此問(wèn)題的,旨在利用數(shù)據(jù)和多任務(wù)標(biāo)簽之間的相關(guān)性來(lái)減少標(biāo)簽噪聲的影響。
該文為解決人臉情感識(shí)別的實(shí)際案例提供了一些貢獻(xiàn),主要可概括為以下三點(diǎn):(1)提出了一個(gè)帶有嘈雜的多任務(wù)標(biāo)簽的面部表情識(shí)別新問(wèn)題,該問(wèn)題的目標(biāo)是易于獲得的廉價(jià)多任務(wù)注釋?zhuān)?2)提出了一種廣義化的公式,在數(shù)據(jù)和異構(gòu)多任務(wù)標(biāo)簽之間具有明確的聯(lián)合和邊際分布匹配;(3)引入了一種新的對(duì)抗學(xué)習(xí)模型,以基于聯(lián)合和邊際分布的約束條件來(lái)優(yōu)化對(duì)情緒預(yù)測(cè)的訓(xùn)練,這被證明適合于新提出的問(wèn)題。
帶有噪音標(biāo)簽的面部情感識(shí)別僅在帶有噪音標(biāo)簽的面部圖像上訓(xùn)練魯棒模型。傳統(tǒng)的方法是直接用噪聲標(biāo)簽分布對(duì)噪聲建模,但是傳統(tǒng)的條件概率建模具有幾個(gè)明顯的缺點(diǎn),例如轉(zhuǎn)換矩陣缺乏約束條件收斂到真值等。針對(duì)于此,本文利用匹配兩個(gè)聯(lián)合分布的關(guān)鍵思想,考慮在兩對(duì)數(shù)據(jù)和標(biāo)簽上的以下兩個(gè)聯(lián)合概率分布:
由于對(duì)現(xiàn)實(shí)世界數(shù)據(jù)的數(shù)據(jù)分布的顯式概率密度函數(shù)進(jìn)行建模難以計(jì)算,因此將兩個(gè)聯(lián)合分布與精確建模進(jìn)行匹配通常是不可行的。為克服該問(wèn)題,本文采用了生成對(duì)抗模型方法。其中,編碼器的學(xué)習(xí)函數(shù)以從輸入圖像中推斷出干凈的標(biāo)簽,解碼器的學(xué)習(xí)函數(shù)以生成面部圖像,來(lái)自嘈雜標(biāo)簽的對(duì)應(yīng)表達(dá)式。整體架構(gòu)如下圖所示
為了匹配編碼器和解碼器捕獲的聯(lián)合分布,在生成器和鑒別器之間進(jìn)行對(duì)抗游戲。鑒別器是專(zhuān)門(mén)為匹配面部圖像,噪聲矢量以及GY和GX的多任務(wù)標(biāo)簽的組的聯(lián)合分布而設(shè)計(jì)。對(duì)于聯(lián)合分布對(duì)齊,一種自然的方法是將分別從編碼器和解碼器采樣的數(shù)據(jù)在網(wǎng)絡(luò)中以進(jìn)行對(duì)抗訓(xùn)練。但是,每個(gè)組中的數(shù)據(jù)是高度異構(gòu)的,因此直接串聯(lián)是不合適的。為了減少數(shù)據(jù)和多任務(wù)標(biāo)簽之間的異質(zhì)性,本文采用多個(gè)網(wǎng)絡(luò)流,并將所有網(wǎng)絡(luò)流的輸出送入網(wǎng)絡(luò),完整的目標(biāo)函數(shù)如下,
文中提出的生成器和鑒別器能夠在統(tǒng)一框架內(nèi)優(yōu)化基于情緒預(yù)測(cè)的損失和基于分布匹配的約束。文中根據(jù)此方案設(shè)計(jì)了最小—最大目標(biāo)函數(shù):
在該文中,由于將面部情感識(shí)別視為目標(biāo)任務(wù),因此將情感預(yù)測(cè)用作輔助任務(wù),從而從圖像到標(biāo)簽的關(guān)系和任務(wù)到任務(wù)的關(guān)系中使目標(biāo)任務(wù)受益,該算法如下圖所示。
文中在兩種情況下對(duì)該模型進(jìn)行評(píng)估:(1)用于圖像分類(lèi)的合成噪聲標(biāo)簽數(shù)據(jù)集(CIFAR-10 [25]);(2)用于面部表情識(shí)別的兩個(gè)實(shí)用的面部表情數(shù)據(jù)集(RAF和AffectNet)。
下圖為實(shí)驗(yàn)1的結(jié)果,可見(jiàn)采用文中提出的模型使得準(zhǔn)確率得到提高。
下圖為基線和在訓(xùn)練步驟中提出的模型的測(cè)試準(zhǔn)確性曲線的可視化呈現(xiàn)。
下圖為實(shí)驗(yàn)2的面部情緒數(shù)據(jù)集的評(píng)估結(jié)果,可知在多任務(wù)情況下,運(yùn)用本文提出的模型獲得的預(yù)測(cè)準(zhǔn)確性更高。
本文介紹了一個(gè)帶有噪聲的多任務(wù)注釋的面部情緒識(shí)別的問(wèn)題,在減少人為多任務(wù)學(xué)習(xí)的標(biāo)簽工作方面具有很大的應(yīng)用潛力。文中從聯(lián)合分配匹配的角度介紹了一種新的公式,按照該公式,采用一種新的對(duì)抗學(xué)習(xí)方法來(lái)共同優(yōu)化情緒預(yù)測(cè)和聯(lián)合分布學(xué)習(xí)。最后研究了合成噪聲標(biāo)簽數(shù)據(jù)集和實(shí)用的噪聲多任務(wù)數(shù)據(jù)庫(kù)的建立,并通過(guò)對(duì)它們的評(píng)估證明了該方法在解決新問(wèn)題方面的明顯優(yōu)勢(shì)。
2) THIN: THrowable Information Networks and Application for Facial Expression Recognition In The Wild
摘要
對(duì)于使用深度學(xué)習(xí)技術(shù)解決的許多任務(wù),可以識(shí)別一個(gè)外生變量,該變量會(huì)影響到不同類(lèi)的外觀,并且理想分類(lèi)器能夠?qū)Υ俗兞渴冀K保持不變。本文提出了雙重外生/內(nèi)生表示法。文中設(shè)計(jì)了一個(gè)預(yù)測(cè)層,該預(yù)測(cè)層使用由外生表示條件限定的深度整體,可以學(xué)習(xí)自適應(yīng)的弱預(yù)測(cè)變量的權(quán)重,并且顯式地建模外生變量和預(yù)測(cè)任務(wù)之間的依賴(lài)關(guān)系。此外,文中提出了外源性消除損失的計(jì)算,以從內(nèi)源性表示中刪除外源性信息。因此,外生信息被使用了兩次,第一次是作為目標(biāo)任務(wù)的條件變量,第二次是在內(nèi)生表示中產(chǎn)生不變性。本文將該方法命名為T(mén)HIN,代表THrowable Information Net-works。本文在幾種可以識(shí)別外源信息的情況下,通過(guò)實(shí)驗(yàn)驗(yàn)證了THIN,例如大旋轉(zhuǎn)下的數(shù)字識(shí)別和多尺度下的形狀識(shí)別。還將其應(yīng)用于以身份為外生變量的FER。特別是證明了THIN在某些具有挑戰(zhàn)性的數(shù)據(jù)集上的性能明顯優(yōu)于最新方法。
深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)的監(jiān)督學(xué)習(xí)中取得了重大進(jìn)展,允許共同學(xué)習(xí)一種表示形式和基于這種表示形式的預(yù)測(cè)變量。完善的深度學(xué)習(xí)技術(shù)構(gòu)成了大多數(shù)計(jì)算機(jī)視覺(jué)問(wèn)題中的最新方法,例如對(duì)象分類(lèi)或檢測(cè),語(yǔ)義分割或面部和身體分析。然而,在許多此類(lèi)任務(wù)中,對(duì)象的外觀會(huì)受到外生變量的嚴(yán)重影響,理想情況下,任務(wù)預(yù)測(cè)應(yīng)根據(jù)該變量進(jìn)行不變。
但是,與此同時(shí),從預(yù)測(cè)系統(tǒng)的角度來(lái)看,無(wú)論外在變量(例如受試者身份)的變化如何,都應(yīng)該預(yù)測(cè)我們的目標(biāo)任務(wù)(例如面部表情)。因此,本文認(rèn)為與任務(wù)相關(guān)的表示(稱(chēng)為內(nèi)生表示)應(yīng)包含盡可能少的有關(guān)外生變量的信息。
綜上所述,在這種情況下,該外生變量是數(shù)據(jù)變化的重要來(lái)源,同時(shí)也是信息的來(lái)源,從該信息中,預(yù)測(cè)變量的輸出應(yīng)盡可能不變。因此,我們建議使用單獨(dú)的外在和內(nèi)在表示。
本文的貢獻(xiàn):(1)提出了一個(gè)外生樹(shù)狀深度集成方法,該模型使用內(nèi)生和外生雙重網(wǎng)絡(luò)。第一個(gè)輸出表示用于預(yù)測(cè)任務(wù),而第二個(gè)輸出的表示通過(guò)適應(yīng)性和聯(lián)合學(xué)習(xí)更多相關(guān)的弱預(yù)測(cè)變量,以進(jìn)行深度相關(guān)的調(diào)整;(2)提出了一種外源消除損失,通過(guò)內(nèi)源表示與外源表示之間的正交性,從內(nèi)源表示中消除外源變異;(3)在具有不同外生變量的多個(gè)任務(wù)上實(shí)驗(yàn)性地驗(yàn)證了這種方法。
文中通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)外生信息建模,然后從定義一個(gè)簡(jiǎn)單的基線模型開(kāi)始,然后逐步引入其他的架構(gòu),從而描述如何明確地合并外生表示和任務(wù)預(yù)測(cè)之間的依賴(lài)關(guān)系,整體架構(gòu)如下圖所示。
如上圖所示,主要呈現(xiàn)了基線框架,簡(jiǎn)單的深度集成方法框架,樹(shù)狀深度集成方法框架,外生樹(shù)狀深度集成方法框架。從基線框架開(kāi)始,通過(guò)自適應(yīng)加權(quán)深層集成的預(yù)測(cè)并利用外源表示來(lái)逐步改進(jìn)框架的設(shè)計(jì)方法。
樹(shù)狀深度集成網(wǎng)絡(luò)通過(guò)參數(shù)優(yōu)化相應(yīng)的損失,然后將與外生變量有關(guān)的信息分解為內(nèi)生表示中的任務(wù),并將提取的外生和內(nèi)生的特征輸入網(wǎng)絡(luò)和進(jìn)行輸出,通過(guò)超參數(shù)進(jìn)行實(shí)驗(yàn)設(shè)置,從而實(shí)現(xiàn)從內(nèi)在表征中去除外源性信息。
文中通過(guò)將模型在合成數(shù)據(jù)集上進(jìn)行評(píng)估,從中可以清楚地識(shí)別外生變量。緊接著,在真實(shí)的FER數(shù)據(jù)集中定性和定量驗(yàn)證模型,主要是介紹了用于訓(xùn)練或測(cè)試所提出方法的數(shù)據(jù)集,具體的實(shí)現(xiàn)細(xì)節(jié)。下圖中Table 2為在MNIST-R和dSprites數(shù)據(jù)集上,根據(jù)平均準(zhǔn)確度比較不同體系結(jié)構(gòu);Figure 4為MNIST-R以平均準(zhǔn)確度表示的消融外源表征消除的消融研究
除了在MNIST數(shù)據(jù)集上之外,文中還在RAF-DB,AffectNet和ExpW數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,Table 3從平均準(zhǔn)確率上比較了不同的體系架構(gòu),F(xiàn)igure 5是在數(shù)據(jù)集RAF-DB上進(jìn)行消融研究的結(jié)果。
最后將THIN與最新的FER方法進(jìn)行了比較,證明了THIN在當(dāng)今最新的,具有挑戰(zhàn)性的FER數(shù)據(jù)庫(kù)上的性能明顯優(yōu)于最新技術(shù)。
本文中所提出的模型具有較多的應(yīng)用可能性。首先,理論上可以將THIN直接應(yīng)用于其他問(wèn)題,例如以姿勢(shì)或比例作為外生變量的身體姿勢(shì)估計(jì),或具有領(lǐng)域信息的語(yǔ)義分割。其次,在本文中僅使用一個(gè)外生變量來(lái)訓(xùn)練THIN。但是,可以嘗試使用多個(gè)這樣的變量和表示網(wǎng)絡(luò)以及某種融合方案來(lái)應(yīng)用。此外可以嘗試使用身份作為外生變量的THIN來(lái)預(yù)測(cè)面部表情,然后使用以面部表情作為外生變量的另一個(gè)THIN來(lái)預(yù)測(cè)身份,依此類(lèi)推,以迭代地完善FER和身份預(yù)測(cè)。
備注:在公眾號(hào)「計(jì)算機(jī)視覺(jué)工坊」后臺(tái),回復(fù)「人臉識(shí)別技術(shù)」,即可獲得上述兩篇論文。
參考文獻(xiàn)
1、基于深度學(xué)習(xí)的自然場(chǎng)景下多人臉檢測(cè)
2、Facial Emotion Recognition with Noisy Multi-task Annotations
3、THIN: THrowable Information Networks and Application for Facial Expression Recognition in the Wild
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文