新聞動態(tài)
NEWS
武漢安裝人臉識別門禁一卡通系統(tǒng)|無人值守車牌識別停車場|景區(qū)電子票務(wù)系統(tǒng)掃碼檢票閘機(jī)|擺閘通道閘機(jī)|考勤機(jī)|消費(fèi)機(jī)|水控機(jī)|手機(jī)二維碼門禁考勤系統(tǒng)。
在我們生存的這個(gè)地球上,居住著近65億人。每個(gè)人的面孔都由額頭、眉毛、眼睛、鼻子、嘴巴、雙頰等少數(shù)幾個(gè)區(qū)域組合而成,它們之間的大體位置關(guān)系也是固定的,并且每張臉的大小不過七八寸見方。然而,它們居然就形成了那么復(fù)雜的模式,即使是面容極其相似的雙胞胎,其家人通常也能夠非常容易地根據(jù)他們面孔上的細(xì)微差異將他們區(qū)分開來。這使得我們不得不承認(rèn)這個(gè)世界上找不出兩張完全相同的人臉!那么,區(qū)分如此眾多的不同人臉的“特征”到底是什么?能否設(shè)計(jì)出具有與人類一樣的人臉識別能力的自動機(jī)器?這種自動機(jī)器的人臉識別能力是否能夠超越人類自身?對這些問題的分析和解答無疑具有重要的理論和應(yīng)用價(jià)值,這正是眾多從事自動人臉識別研究的研究人員所面臨的挑戰(zhàn)。
然而,對這些問題的回答并不像看起來那么容易。即使在大量來自模式識別、計(jì)算機(jī)視覺、神經(jīng)計(jì)算、生理學(xué)等領(lǐng)域的研究人員對自動人臉識別艱苦工作40余年之后,這些最基本的科學(xué)問題仍然困惑著研究人員。而退一步講,即使對我們自己,盡管我們每天都在根據(jù)面孔區(qū)分著親人、同學(xué)、朋友、同事等,大多數(shù)人卻很難準(zhǔn)確地描述出自己到底是如何區(qū)分他們的,甚至描述不出自己熟悉的人有什么具體的特征。即使專門從事相關(guān)的生理學(xué)、心理學(xué)、神經(jīng)科學(xué)研究的一些專家,也很難描述清楚人類人臉識別的生理學(xué)過程。這意味著基于仿生學(xué)的人臉識別研究路線在實(shí)踐上是難以操作的。當(dāng)然,飛機(jī)的翅膀并不需要像鳥兒的翅膀一樣煽動,自動人臉識別的計(jì)算模型也未必需要模擬“人腦”。我們也許可以通過另外的途徑,例如建立人臉識別的計(jì)算模型,這種計(jì)算模型可能是基于仿生神經(jīng)網(wǎng)絡(luò)的,也可能是純粹基于統(tǒng)計(jì)的,或者是這二者之外的第三只眼睛,并通過構(gòu)建實(shí)用的自動人臉識別系統(tǒng)來驗(yàn)證這些計(jì)算模型,從而找出對上述基本科學(xué)問題的解答。
本文首先給出了人臉識別的一個(gè)一般計(jì)算模型,然后簡單回顧自動人臉識別的研究歷史,接下來闡述人臉識別的研究現(xiàn)狀并介紹幾種主流的技術(shù)方法,簡單介紹計(jì)算所人臉識別研究組的研究進(jìn)展,最后對上述哲學(xué)層面的問題作了一些簡單的探討。
2 計(jì)算模型初探
通常我們所說的人臉識別是基于光學(xué)人臉圖像的身份識別與驗(yàn)證的簡稱。光學(xué)人臉圖像(以下簡稱人臉圖像)是外界光源(包括太陽、室內(nèi)人造光源和其他物體表面反射)的光線照射在人臉上,經(jīng)人臉表面反射后傳播到攝像機(jī)傳感器的光線強(qiáng)度的度量。不難理解,這一成像過程實(shí)際上涉及到三大類關(guān)鍵要素:
1. 人臉內(nèi)部屬性:包括人臉表面的反射屬性(如反射系數(shù)等,通常簡稱為紋理--Texture)、人臉3D形狀(表面法向量方向)、人臉表情、胡須等屬性的變化;
2. 外部成像條件:包括光源(位置和強(qiáng)度等)、其他物體(比如眼鏡、帽子)或者人體其他部件(比如頭發(fā))對人臉的遮擋等;
3. 攝像機(jī)成像參數(shù):包括攝像機(jī)位置(視點(diǎn))、攝像機(jī)的焦距、光圈、快門速度等內(nèi)外部參數(shù)
因此,光學(xué)人臉圖像的成像過程可以簡單地形式化為:
(1) 其中,函數(shù)f表示成像函數(shù),F(xiàn),L和C分別表示人臉內(nèi)部屬性、外部成像條件和攝像機(jī)成像參數(shù)這三類要素,I為生成的人臉圖像。如果我們進(jìn)一步假設(shè):人臉皮膚的反射屬性滿足朗博(Lambertian)模型,人臉為凸表面結(jié)構(gòu),光源為無窮遠(yuǎn)處的單色點(diǎn)光源,上述成像公式可以進(jìn)一步改寫為:
(2) 其中, 表示人臉表面的一點(diǎn)P的三維坐標(biāo); 表示P點(diǎn)的表面反射率; 表示P點(diǎn)的表面法向量方向; 表示光源的方向和強(qiáng)度; 表示攝像機(jī)的成像函數(shù);而 則為攝像機(jī)最終輸出的對應(yīng)P點(diǎn)的圖像像素的強(qiáng)度。不難理解,在上述成像過程中,人臉表面3D結(jié)構(gòu)及其反射屬性才是人臉相對穩(wěn)定的本質(zhì)屬性,是人臉識別算法應(yīng)該賴以區(qū)分不同人臉的主要特征。而人臉表情變化、有無胡須等盡管也屬于人臉內(nèi)部屬性,但因?yàn)榫哂锌勺冃远荒茏鳛槿四樀膮^(qū)分特征。光源等外部成像條件以及攝像機(jī)參數(shù)等外部因素就更不能作為人臉識別依賴的屬性。
綜上所述,理想情況下,要根據(jù)人臉圖像區(qū)分出不同的人臉,根本上似乎需要從人臉圖像表觀中分離開人臉穩(wěn)定不變的本質(zhì)屬性(3D形狀與表面反射率)與外界條件和攝像參數(shù)。然后,從3D形狀與表面反射率屬性中提取不同人臉的差異信息,饋入到后端的判別分類器中進(jìn)行識別。設(shè)輸入圖像為I,這一過程可以形式化為以下三個(gè)步驟:
1. 屬性分離。分離人臉本質(zhì)屬性要素與光源條件s*、攝像參數(shù)c*等外部參數(shù)要素:
2. 特征提取。從人臉屬性要素中提取能夠體現(xiàn)特定人臉身份的特征:其中,T表示特征提取過程。
3. 分類判別。將提取的特征與數(shù)據(jù)庫中存儲的已知人臉特征進(jìn)行對比,選擇相似度最大的人臉作為輸入人臉的身份信息:
其中,Sim(.)表示計(jì)算特征之間的相似度, 表示已知人臉集合。
然而,這一過程并不那么簡單直接:從單一未知光源條件的圖像中恢復(fù)3D形狀信息和表面反射率是經(jīng)典的視覺難題,本質(zhì)上是一個(gè)病態(tài)的問題。盡管近年來研究人員通過利用各種約束條件和先驗(yàn)知識可以在一定程度上實(shí)現(xiàn)該功能,或者要求多幅不同光照條件下的圖像以便得到更精確的估計(jì)結(jié)果,但直到現(xiàn)在仍沒有取得本質(zhì)的突破。除了少數(shù)采用特殊設(shè)備獲取人臉3D結(jié)構(gòu)的系統(tǒng)外,多數(shù)系統(tǒng)不得不退而求其次,采用的人臉建模方法仍然停留在圖像表觀層面上,并沒有使用對3D形狀和紋理進(jìn)行顯式分離的步驟,而是直接從圖像表觀中提取判別特征并進(jìn)行分類來完成識別,此時(shí)公式(2-4)相應(yīng)地改寫為:
例如,在基于面部結(jié)構(gòu)幾何特征的人臉識別方法中,T通常是一個(gè)計(jì)算面部主要器官(眉毛、眼睛、鼻子、嘴巴和下巴)的大小、形狀、位置和角度關(guān)系等幾何度量參數(shù)的過程,最終形成的特征F*是一個(gè)反映這些幾何度量的特征向量。對于模板匹配方法而言,T是對人臉圖像進(jìn)行幾何歸一化和亮度校正的過程,得到的F*則是一個(gè)反映圖像各像素點(diǎn)亮度的二維數(shù)據(jù)矩陣。再比如對“特征臉”方法而言,T是一個(gè)將高維空間中的人臉圖像降維到一個(gè)低維子空間中的變換(主成分分析),形成的特征F*是降維后的主成分特征分量。
需要指出的是,近年來布蘭茲(Blanz)和維特(Vetter)等人提出的3D變形模型方法是上述理論計(jì)算模型的重要嘗試,已經(jīng)引起了研究人員的高度重視。盡管還存在很多困難,比如速度和恢復(fù)精度問題,但相信此方面的工作近期會有更大的突破。
3 研究簡史
人臉識別的研究歷史比較悠久。高爾頓(Galton)早在1888年和1910年就分別在《Nature》雜志發(fā)表了兩篇關(guān)于利用人臉進(jìn)行身份識別的文章,對人類自身的人臉識別能力進(jìn)行了分析。但當(dāng)時(shí)還不可能涉及到人臉的自動識別問題。最早的AFR[1]的研究論文見于1965年陳(Chan)和布萊索(Bledsoe)在Panoramic Research Inc.發(fā)表的技術(shù)報(bào)告,至今已有四十年的歷史。近年來,人臉識別研究得到了諸多研究人員的青睞,涌現(xiàn)出了諸多技術(shù)方法。尤其是1990年以來,人臉識別更得到了長足的發(fā)展。幾乎所有知名的理工科大學(xué)和主要IT產(chǎn)業(yè)公司都有研究組在從事相關(guān)研究。
表1 人臉識別發(fā)展歷史簡表
階段
1964~1990
1991~1997
1998-現(xiàn)在
主要
特征
作為一般識別問題研究,基于特征的方法是主流
重點(diǎn)是較理想條件下、用戶配合、中小規(guī)模數(shù)據(jù)庫上的識別問題;基于表觀的子空間分析和統(tǒng)計(jì)方法是主流;
重點(diǎn)是非理想條件、用戶不配合、大規(guī)模數(shù)據(jù)庫的識別問題;3D和非線性是趨勢;
代表性的人臉識別技術(shù)與方法
及其關(guān)鍵性事件和作品
已知的最早的AFR研究論文
特征臉(Eigenface)
光照錐技術(shù)
基于特征的方法與基于模板的方法對比
SVM[2]用于人臉識別中
首個(gè)半自動人臉識別系統(tǒng)
美國DARPA[3]啟動FERET[4]測試項(xiàng)目
3D可變形模型
第一篇AFR方面的博士論文
局部特征分析(LFA[5])人臉識別方法發(fā)展成為Visionics公司FaceIt商業(yè)系統(tǒng)
基于AdaBoost[6]的人臉檢測技術(shù)
基于剪影分析的人臉識別
基于雙子空間的貝葉斯概率學(xué)習(xí)
流形學(xué)習(xí)ISOMAP[7], LLE[8]
人臉識別研究綜述
朗博反射與線性空間分析
人臉的低維表示
Fisherface[9]
基于商圖像的識別方法
彈性圖匹配技術(shù)
人臉檢測綜述
ASM/AAM[10]
FRVT[11]2000, 2002測試
技術(shù)特點(diǎn)
基于特征的方法
基于模板的方法
---
基于神經(jīng)網(wǎng)絡(luò)的識別方法
---
---
基于表觀的2D人臉子空間分析與統(tǒng)計(jì)學(xué)習(xí)方法
線性模型方法
非線性流形分析技術(shù)
基于2D圖像模型的人臉識別
基于3D模型的人臉識別
人臉識別是一個(gè)被廣泛研究著的熱門問題,大量的研究論文層出不窮,在一定程度上有泛濫成“災(zāi)”之嫌。為了更好地對人臉識別研究的歷史和現(xiàn)狀進(jìn)行介紹,本文將AFR的研究歷史按照研究內(nèi)容、技術(shù)方法等方面的特點(diǎn)大體劃分為三個(gè)時(shí)間階段,如表1所示。該表格概括了人臉識別研究的發(fā)展簡史及其每個(gè)歷史階段代表性的研究工作及其技術(shù)特點(diǎn)。下面對三個(gè)階段的研究進(jìn)展情況作簡單介紹:
第一階段(1964年~1990年)
這一階段人臉識別通常只是作為一個(gè)一般性的模式識別問題來研究,所采用的主要技術(shù)方案是基于人臉幾何結(jié)構(gòu)特征(Geometric feature based)的方法。這集中體現(xiàn)在人們對于剪影(Profile)的研究上,人們對面部剪影曲線的結(jié)構(gòu)特征提取與分析方面進(jìn)行了大量研究。人工神經(jīng)網(wǎng)絡(luò)也一度曾經(jīng)被研究人員用于人臉識別問題中。較早從事AFR研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于1973年在京都大學(xué)完成了第一篇AFR方面的博士論文,直到現(xiàn)在,作為卡內(nèi)基-梅隆大學(xué)(CMU)機(jī)器人研究院的一名教授,仍然是人臉識別領(lǐng)域的活躍人物之一。他所在的研究組也是人臉識別領(lǐng)域的一支重要力量??傮w而言,這一階段是人臉識別研究的初級階段,非常重要的成果不是很多,也基本沒有獲得實(shí)際應(yīng)用。
第二階段(1991年~1997年)
這一階段盡管時(shí)間相對短暫,但卻是人臉識別研究的高潮期,可謂碩果累累:不但誕生了若干代表性的人臉識別算法,美國軍方還組織了著名的FERET人臉識別算法測試,并出現(xiàn)了若干商業(yè)化運(yùn)作的人臉識別系統(tǒng),比如最為著名的Visionics(現(xiàn)為Identix)的FaceIt系統(tǒng)。
美國麻省理工學(xué)院(MIT)媒體實(shí)驗(yàn)室的特克(Turk)和潘特蘭德(Pentland)提出的“特征臉”方法無疑是這一時(shí)期內(nèi)最負(fù)盛名的人臉識別方法。其后的很多人臉識別技術(shù)都或多或少與特征臉有關(guān)系,現(xiàn)在特征臉已經(jīng)與歸一化的協(xié)相關(guān)量(Normalized Correlation)方法一道成為人臉識別的性能測試基準(zhǔn)算法。
這一時(shí)期的另一個(gè)重要工作是麻省理工學(xué)院人工智能實(shí)驗(yàn)室的布魯內(nèi)里(Brunelli)和波基奧(Poggio)于1992年左右做的一個(gè)對比實(shí)驗(yàn),他們對比了基于結(jié)構(gòu)特征的方法與基于模板匹配的方法的識別性能,并給出了一個(gè)比較確定的結(jié)論:模板匹配的方法優(yōu)于基于特征的方法。這一導(dǎo)向性的結(jié)論與特征臉共同作用,基本中止了純粹的基于結(jié)構(gòu)特征的人臉識別方法研究,并在很大程度上促進(jìn)了基于表觀(Appearance-based)的線性子空間建模和基于統(tǒng)計(jì)模式識別技術(shù)的人臉識別方法的發(fā)展,使其逐漸成為主流的人臉識別技術(shù)。
貝爾胡米爾(Belhumeur)等提出的Fisherface人臉識別方法是這一時(shí)期的另一重要成果。該方法首先采用主成分分析(Principal Component Analysis,PCA,亦即特征臉)對圖像表觀特征進(jìn)行降維。在此基礎(chǔ)上,采用線性判別分析(Linear Discriminant Analysis, LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內(nèi)散度”。該方法目前仍然是主流的人臉識別方法之一,產(chǎn)生了很多不同的變種,比如零空間法、子空間判別模型、增強(qiáng)判別模型、直接的LDA判別方法以及近期的一些基于核學(xué)習(xí)的改進(jìn)策略。
麻省理工學(xué)院的馬哈丹(Moghaddam)則在特征臉的基礎(chǔ)上,提出了基于雙子空間進(jìn)行貝葉斯概率估計(jì)的人臉識別方法。該方法通過“作差法”,將兩幅人臉圖像對的相似度計(jì)算問題轉(zhuǎn)換為一個(gè)兩類(類內(nèi)差和類間差)分類問題,類內(nèi)差和類間差數(shù)據(jù)都要首先通過主成分分析(PCA)技術(shù)進(jìn)行降維,計(jì)算兩個(gè)類別的類條件概率密度,最后通過貝葉斯決策(最大似然或者最大后驗(yàn)概率)的方法來進(jìn)行人臉識別。
人臉識別中的另一種重要方法——彈性圖匹配技術(shù)(Elastic Graph Matching,EGM) 也是在這一階段提出的。其基本思想是用一個(gè)屬性圖來描述人臉:屬性圖的頂點(diǎn)代表面部關(guān)鍵特征點(diǎn),其屬性為相應(yīng)特征點(diǎn)處的多分辨率、多方向局部特征——Gabor變換[12]特征,稱為Jet;邊的屬性則為不同特征點(diǎn)之間的幾何關(guān)系。對任意輸入人臉圖像,彈性圖匹配通過一種優(yōu)化搜索策略來定位預(yù)先定義的若干面部關(guān)鍵特征點(diǎn),同時(shí)提取它們的Jet特征,得到輸入圖像的屬性圖。最后通過計(jì)算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優(yōu)點(diǎn)是既保留了面部的全局結(jié)構(gòu)特征,也對人臉的關(guān)鍵局部特征進(jìn)行了建模。近來還出現(xiàn)了一些對該方法的擴(kuò)展。
局部特征分析技術(shù)是由洛克菲勒大學(xué)(Rockefeller University)的艾提克(Atick)等人提出的。LFA在本質(zhì)上是一種基于統(tǒng)計(jì)的低維對象描述方法,與只能提取全局特征而且不能保留局部拓?fù)浣Y(jié)構(gòu)的PCA相比,LFA在全局PCA描述的基礎(chǔ)上提取的特征是局部的,并能夠同時(shí)保留全局拓?fù)湫畔?,從而具有更佳的描述和判別能力。LFA技術(shù)已商業(yè)化為著名的FaceIt系統(tǒng),因此后期沒有發(fā)表新的學(xué)術(shù)進(jìn)展。
由美國國防部反毒品技術(shù)發(fā)展計(jì)劃辦公室資助的FERET項(xiàng)目無疑是該階段內(nèi)的一個(gè)至關(guān)重要的事件。FERET項(xiàng)目的目標(biāo)是要開發(fā)能夠?yàn)榘踩?、情?bào)和執(zhí)法部門使用的AFR技術(shù)。該項(xiàng)目包括三部分內(nèi)容:資助若干項(xiàng)人臉識別研究、創(chuàng)建FERET人臉圖像數(shù)據(jù)庫、組織FERET人臉識別性能評測。該項(xiàng)目分別于1994年,1995年和1996年組織了3次人臉識別評測,幾種最知名的人臉識別算法都參加了測試,極大地促進(jìn)了這些算法的改進(jìn)和實(shí)用化。該測試的另一個(gè)重要貢獻(xiàn)是給出了人臉識別的進(jìn)一步發(fā)展方向:光照、姿態(tài)等非理想采集條件下的人臉識別問題逐漸成為熱點(diǎn)的研究方向。
柔性模型(Flexible Models)——包括主動形狀模型(ASM)和主動表觀模型(AAM)是這一時(shí)期內(nèi)在人臉建模方面的一個(gè)重要貢獻(xiàn)。ASM/AAM將人臉描述為2D形狀和紋理兩個(gè)分離的部分,分別用統(tǒng)計(jì)的方法進(jìn)行建模(PCA),然后再進(jìn)一步通過PCA將二者融合起來對人臉進(jìn)行統(tǒng)計(jì)建模。柔性模型具有良好的人臉合成能力,可以采用基于合成的圖像分析技術(shù)來對人臉圖像進(jìn)行特征提取與建模。柔性模型目前已被廣泛用于人臉特征對準(zhǔn)(Face Alignment)和識別中,并出現(xiàn)了很多的改進(jìn)模型。
總體而言,這一階段的人臉識別技術(shù)發(fā)展非常迅速,所提出的算法在較理想圖像采集條件、對象配合、中小規(guī)模正面人臉數(shù)據(jù)庫上達(dá)到了非常好的性能,也因此出現(xiàn)了若干知名的人臉識別商業(yè)公司。從技術(shù)方案上看, 2D人臉圖像線性子空間判別分析、統(tǒng)計(jì)表觀模型、統(tǒng)計(jì)模式識別方法是這一階段內(nèi)的主流技術(shù)。
第三階段(1998年~現(xiàn)在)
FERET’96人臉識別算法評估表明:主流的人臉識別技術(shù)對光照、姿態(tài)等由于非理想采集條件或者對象不配合造成的變化魯棒性比較差。因此,光照、姿態(tài)問題逐漸成為研究熱點(diǎn)。與此同時(shí),人臉識別的商業(yè)系統(tǒng)進(jìn)一步發(fā)展。為此,美國軍方在FERET測試的基礎(chǔ)上分別于2000年和2002年組織了兩次商業(yè)系統(tǒng)評測。
基奧蓋蒂斯(Georghiades)等人提出的基于光照錐 (Illumination Cones) 模型的多姿態(tài)、多光照條件人臉識別方法是這一時(shí)期的重要成果之一,他們證明了一個(gè)重要結(jié)論:同一人臉在同一視角、不同光照條件下的所有圖像在圖像空間中形成一個(gè)凸錐——即光照錐。為了能夠從少量未知光照條件的人臉圖像中計(jì)算光照錐,他們還對傳統(tǒng)的光度立體視覺方法進(jìn)行了擴(kuò)展,能夠在朗博模型、凸表面和遠(yuǎn)點(diǎn)光源假設(shè)條件下,根據(jù)未知光照條件的7幅同一視點(diǎn)圖像恢復(fù)物體的3D形狀和表面點(diǎn)的表面反射系數(shù)(傳統(tǒng)光度立體視覺能夠根據(jù)給定的3幅已知光照條件的圖像恢復(fù)物體表面的法向量方向),從而可以容易地合成該視角下任意光照條件的圖像,完成光照錐的計(jì)算。識別則通過計(jì)算輸入圖像到每個(gè)光照錐的距離來完成。
以支持向量機(jī)為代表的統(tǒng)計(jì)學(xué)習(xí)理論也在這一時(shí)期內(nèi)被應(yīng)用到了人臉識別與確認(rèn)中來。支持向量機(jī)是一個(gè)兩類分類器,而人臉識別則是一個(gè)多類問題。通常有三種策略解決這個(gè)問題,即:類內(nèi)差/類間差法、一對多法(one-to-rest)和一對一法(one-to-one)。
布蘭茲(Blanz)和維特(Vetter)等提出的基于3D變形(3D Morphable Model)模型的多姿態(tài)、多光照條件人臉圖像分析與識別方法是這一階段內(nèi)一項(xiàng)開創(chuàng)性的工作。該方法在本質(zhì)上屬于基于合成的分析技術(shù),其主要貢獻(xiàn)在于它在3D形狀和紋理統(tǒng)計(jì)變形模型(類似于2D時(shí)候的AAM)的基礎(chǔ)上,同時(shí)還采用圖形學(xué)模擬的方法對圖像采集過程的透視投影和光照模型參數(shù)進(jìn)行建模,從而可以使得人臉形狀和紋理等人臉內(nèi)部屬性與攝像機(jī)配置、光照情況等外部參數(shù)完全分開,更加有利于人臉圖像的分析與識別。Blanz的實(shí)驗(yàn)表明,該方法在CMU-PIE(多姿態(tài)、光照和表情)人臉庫和FERET多姿態(tài)人臉庫上都達(dá)到了相當(dāng)高的識別率,證明了該方法的有效性。
2001年的國際計(jì)算機(jī)視覺大會(ICCV)上,康柏研究院的研究員維奧拉(Viola)和瓊斯(Jones)展示了他們的一個(gè)基于簡單矩形特征和AdaBoost的實(shí)時(shí)人臉檢測系統(tǒng),在CIF格式上檢測準(zhǔn)正面人臉的速度達(dá)到了每秒15幀以上。該方法的主要貢獻(xiàn)包括:1)用可以快速計(jì)算的簡單矩形特征作為人臉圖像特征;2)基于AdaBoost將大量弱分類器進(jìn)行組合形成強(qiáng)分類器的學(xué)習(xí)方法;3)采用了級聯(lián)(Cascade)技術(shù)提高檢測速度。目前,基于這種人臉/非人臉學(xué)習(xí)的策略已經(jīng)能夠?qū)崿F(xiàn)準(zhǔn)實(shí)時(shí)的多姿態(tài)人臉檢測與跟蹤。這為后端的人臉識別提供了良好的基礎(chǔ)。
沙蘇哈(Shashua)等于2001年提出了一種基于商圖像[13]的人臉圖像識別與繪制技術(shù)。該技術(shù)是一種基于特定對象類圖像集合學(xué)習(xí)的繪制技術(shù),能夠根據(jù)訓(xùn)練集合中的少量不同光照的圖像,合成任意輸入人臉圖像在各種光照條件下的合成圖像?;诖?,沙蘇哈等還給出了對各種光照條件不變的人臉簽名(Signature)圖像的定義,可以用于光照不變的人臉識別,實(shí)驗(yàn)表明了其有效性。
巴斯里(Basri)和雅各布(Jacobs)則利用球面諧波(Spherical Harmonics)表示光照、用卷積過程描述朗博反射的方法解析地證明了一個(gè)重要的結(jié)論:由任意遠(yuǎn)點(diǎn)光源獲得的所有朗博反射函數(shù)的集合形成一個(gè)線性子空間。這意味著一個(gè)凸的朗博表面物體在各種光照條件下的圖像集合可以用一個(gè)低維的線性子空間來近似。這不僅與先前的光照統(tǒng)計(jì)建模方法的經(jīng)驗(yàn)實(shí)驗(yàn)結(jié)果相吻合,更進(jìn)一步從理論上促進(jìn)了線性子空間對象識別方法的發(fā)展。而且,這使得用凸優(yōu)化方法來強(qiáng)制光照函數(shù)非負(fù)成為可能,為光照問題的解決提供了重要思路。
FERET項(xiàng)目之后,涌現(xiàn)了若干人臉識別商業(yè)系統(tǒng)。美國國防部有關(guān)部門進(jìn)一步組織了針對人臉識別商業(yè)系統(tǒng)的評測FRVT,至今已經(jīng)舉辦了兩次:FRVT2000和FRVT2002。這兩次測試一方面對知名的人臉識別系統(tǒng)進(jìn)行了性能比較,例如FRVT2002測試就表明Cognitec, Identix和Eyematic三個(gè)商業(yè)產(chǎn)品遙遙領(lǐng)先于其他系統(tǒng),而它們之間的差別不大。另一方面則全面總結(jié)了人臉識別技術(shù)發(fā)展的現(xiàn)狀:較理想條件下(正面簽證照),針對37437人121,589 幅圖像的人臉識別(Identification)最高首選識別率為73%,人臉驗(yàn)證(Verification)的等錯(cuò)誤率(EER[14])大約為6%。FRVT測試的另一個(gè)重要貢獻(xiàn)是還進(jìn)一步指出了目前的人臉識別算法亟待解決的若干問題。例如,F(xiàn)RVT2002測試就表明:目前的人臉識別商業(yè)系統(tǒng)的性能仍然對于室內(nèi)外光照變化、姿態(tài)、時(shí)間跨度等變化條件非常敏感,大規(guī)模人臉庫上的有效識別問題也很嚴(yán)重,這些問題都仍然需要進(jìn)一步的努力。
總體而言,目前非理想成像條件下(尤其是光照和姿態(tài))、對象不配合、大規(guī)模人臉數(shù)據(jù)庫上的人臉識別問題逐漸成為研究的熱點(diǎn)問題。而非線性建模方法、統(tǒng)計(jì)學(xué)習(xí)理論、基于Boosting[15]的學(xué)習(xí)技術(shù)、基于3D模型的人臉建模與識別方法等逐漸成為備受重視的技術(shù)發(fā)展趨勢。
4 從FRVT2002看研究現(xiàn)狀
FRVT2002人臉識別測試集中反映了目前人臉識別理論與應(yīng)用研究的最高學(xué)術(shù)水平。該測試所使用的數(shù)據(jù)庫的規(guī)模達(dá)到了37,437人,共121,589幅圖像,大多數(shù)知名的人臉識別商業(yè)系統(tǒng)公司都參加了此次評測。此次測試分為高計(jì)算強(qiáng)度(HCInt)和中等計(jì)算強(qiáng)度(MCInt)兩種。其中HCInt測試使用的數(shù)據(jù)庫規(guī)模達(dá)到了37,437人的121,589幅圖像,所有圖像全部由美國國務(wù)院(DOS)下屬的領(lǐng)事事務(wù)局(Bureau of Consular Affairs)簽證服務(wù)處提供。每人至少三幅標(biāo)準(zhǔn)的簽證照,圖像質(zhì)量很高,采集環(huán)境也非常一致。而MCInt測試使用的數(shù)據(jù)庫則既包括室內(nèi)也包括室外采集的圖像,最長時(shí)間跨度為三年。基于這些數(shù)據(jù),F(xiàn)RVT2002測試了身份認(rèn)證、閉集識別、開集識別三類不同的人臉識別任務(wù)的性能,結(jié)果表明:
n 對目前最好的人臉識別系統(tǒng),在37,437人簽證照測試庫上,閉集識別任務(wù)的最高首選識別率為73%,前10候選累計(jì)識別率82%,前50候選識別率87%。
n 目前最好的人臉識別系統(tǒng)對簽證照質(zhì)量的人臉圖像,人臉驗(yàn)證錯(cuò)誤接收率為0.01%時(shí),最低錯(cuò)誤拒絕率30%左右;錯(cuò)誤接受率為0.1%時(shí),最低錯(cuò)誤拒絕率18%左右;錯(cuò)誤接受率為1%時(shí),最低錯(cuò)誤拒絕率10%左右。
n 虛警率控制在1%時(shí),最好的識別系統(tǒng)在25人規(guī)模的觀察對象表(Watch list)上的正確檢測識別率為77%,而在3000人的觀察對象表上,正確率則下降為56%。因此,如果可能,要盡量減少觀察對象表中人臉的數(shù)量。
n 非理想圖像采集條件下,虛警率為1%時(shí),在787人的數(shù)據(jù)庫上,圖像樣本庫中圖像均為正面中性表情,室內(nèi)白熾燈光源條件下采集,對室外同一天測試圖像最高首選識別率54%,室外152-505天之間的測試圖像最高首選識別率46%。
n 對姿態(tài),在87人的人臉庫上,圖像樣本庫和測試圖像光照條件一致,左右深度旋轉(zhuǎn)45度時(shí)最高首選識別率42%,低頭/抬頭30度時(shí)最高首選識別率53%。
n 對大約3年后的照片,在錯(cuò)誤接受率為1%時(shí),最高首選識別率60%左右,而最低的錯(cuò)誤拒絕率則為15%左右。而時(shí)間跨度增加一年,最好系統(tǒng)的識別性能大約下降5個(gè)百分點(diǎn)。
n 人臉數(shù)據(jù)庫的規(guī)模每增加一倍,最好的商業(yè)識別系統(tǒng)的首選識別率大約會下降2到3個(gè)百分點(diǎn)。而不同屬性的人群識別性能也有差別,例如男性比女性更易于識別(大約有6到9個(gè)百分點(diǎn)的差別);年輕人比老年人難識別。
5 計(jì)算所人臉識別研究組
計(jì)算所-哈工大人臉識別聯(lián)合研究組從九十年代中期開始人臉識別的研究,并于2000年5月與成都銀晨網(wǎng)訊(現(xiàn)上海銀晨科技的前身)聯(lián)合創(chuàng)立了國內(nèi)首家專門從事面像識別核心技術(shù)研究與開發(fā)的實(shí)驗(yàn)室——ICT-ISVISION面像識別聯(lián)合實(shí)驗(yàn)室。該聯(lián)合實(shí)驗(yàn)室從2001年起一直維持著20人左右規(guī)模的研究隊(duì)伍。目前核心研究隊(duì)伍包括2名教授,2名助理研究員,1名講師和來自中國科學(xué)院計(jì)算技術(shù)研究所、哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院以及中國科學(xué)院研究生院的十多名博士、碩士研究生。經(jīng)過不懈努力,聯(lián)合實(shí)驗(yàn)室近年來取得了一定的成果,主要包括:
在預(yù)處理、人臉檢測、人臉識別與確認(rèn)等方面,提出了一系列新算法和改進(jìn)算法。在光照可變、多姿態(tài)等條件下獲得了優(yōu)于其他系統(tǒng)的性能:1)性能明顯優(yōu)于FERET'97測試(美國DARPA組織的最近一次人臉識別比賽)的最好結(jié)果;2)與在FRVT2002(美國NIST組織的最近一次人臉識別比賽)中取得第一的FaceVACS系統(tǒng)(Cognitec公司)性能基本接近,在光照子庫上性能明顯超出對方;3)在中國首屆生物特征識別評測競賽BVC2004中,以絕對優(yōu)勢取得了第一名。
在基礎(chǔ)數(shù)據(jù)建設(shè)方面,收集整理了萬人以上超過百萬幅圖像的人臉圖像數(shù)據(jù)庫CAS-PEAL,公布了包含3萬多幅人臉圖像的大規(guī)模中國人臉圖像數(shù)據(jù)庫CAS-PEAL-R1,已被國內(nèi)外50余單位使用,在國際上率先提供了大規(guī)模共享中國人臉圖像數(shù)據(jù)庫。
在應(yīng)用系統(tǒng)和成果轉(zhuǎn)化方面,開發(fā)了會議代表身份認(rèn)證/識別系統(tǒng)、銀行智能視頻監(jiān)控系統(tǒng)、嫌疑人面像比對系統(tǒng)、面像識別考勤/門禁系統(tǒng)、出入口黑名單監(jiān)控系統(tǒng)等19種產(chǎn)品;申請各類專利26項(xiàng)(8項(xiàng)已獲授權(quán)),軟件著作權(quán)11項(xiàng)。產(chǎn)品已成功應(yīng)用于人民大會堂、天安門廣場等重要場所及海南、云南省建行等多處。成果轉(zhuǎn)化的產(chǎn)品在公安、金融等領(lǐng)域推廣,取得了較好的經(jīng)濟(jì)和社會效益。這些研究成果結(jié)束了國內(nèi)企業(yè)長期依賴國外技術(shù)、只能做二次開發(fā)商的歷史,從總體上提高了我國相關(guān)技術(shù)的國際競爭力,也為我國生物特征識別及其相關(guān)產(chǎn)業(yè)發(fā)展起到了積極的推動作用。
6 挑戰(zhàn)
經(jīng)過四十多年的發(fā)展,尤其是近十年來的研究,人臉識別技術(shù)已經(jīng)取得了長足的進(jìn)步。目前最好的人臉識別系統(tǒng)在注冊和認(rèn)證環(huán)境條件比較一致、對象比較配合的情況下已經(jīng)能夠達(dá)到令人滿意的效果。對1000人左右的識別系統(tǒng),其正確識別率可以在95%左右;驗(yàn)證系統(tǒng)的等錯(cuò)誤率性能也在2%以下。然而,這并不意味著人臉識別技術(shù)已經(jīng)非常成熟了。恰恰相反,因?yàn)楦罅康娜四樧R別應(yīng)用系統(tǒng)需要在更大大規(guī)模人臉庫、攝像環(huán)境不可控、對象不配合的情況下使用,即使是目前最好的識別系統(tǒng)在這樣的情況下識別性能下降也非???,很多情況下識別系統(tǒng)正確識別率陡降至75%以下,驗(yàn)證系統(tǒng)等錯(cuò)誤率攀升到10%以上——這樣的性能顯然是應(yīng)用系統(tǒng)用戶根本無法接受的!因此,現(xiàn)有的人臉識別系統(tǒng)尤其需要有針對性地解決在非理想攝像條件下(光照變化、背景變化、攝像設(shè)備差異)和對象不配合(視角變化、表情變化、佩帶飾物乃至化妝)時(shí)必然遇到識別性能下降問題。這些變化因素在不同的應(yīng)用系統(tǒng)中均會有不同程度的出現(xiàn),因而會極大地影響實(shí)用識別系統(tǒng)的性能,導(dǎo)致識別系統(tǒng)性能的下降。概括而言,目前人臉識別領(lǐng)域面臨的主要挑戰(zhàn)包括:魯棒性、準(zhǔn)確的特征配準(zhǔn)問題,對各種圖像采集條件變化魯棒的核心識別算法,識別算法的泛化能力和自適應(yīng)學(xué)習(xí)問題,光照變化問題,尤其是室外光照變化,姿態(tài)不變的人臉識別算法,人臉信息采集設(shè)備帶來的問題,低質(zhì)量照片的檢測識別問題,年齡變化導(dǎo)致的照片老化問題,墨鏡、帽子、口罩等造成的遮擋問題,化妝、整容帶來的問題。而且上述挑戰(zhàn)并不是單獨(dú)作用的,例如姿態(tài)和光照問題同時(shí)出現(xiàn),會更進(jìn)一步地增加問題的難度。
7 結(jié)束語
人臉識別是一項(xiàng)既有科學(xué)研究價(jià)值,又有廣泛應(yīng)用前景的研究課題。國際上大量研究人員幾十年的研究取得了豐碩的研究成果,自動人臉識別技術(shù)已經(jīng)在某些限定條件下得到了成功應(yīng)用。這些成果更加深了我們對于自動人臉識別這個(gè)問題的理解,尤其是對其挑戰(zhàn)性的認(rèn)識。盡管在海量人臉數(shù)據(jù)比對速度甚至精度方面,現(xiàn)有的自動人臉識別系統(tǒng)可能已經(jīng)超過了人類,但對于復(fù)雜變化條件下的一般人臉識別問題,自動人臉識別系統(tǒng)的魯棒性和準(zhǔn)確度還遠(yuǎn)不及人類。這種差距產(chǎn)生的本質(zhì)原因現(xiàn)在還不得而知,畢竟我們對于人類自身的視覺系統(tǒng)的認(rèn)識還十分膚淺。但從模式識別和計(jì)算機(jī)視覺等學(xué)科的角度判斷,這既可能意味著我們尚未找到對面部信息進(jìn)行合理采樣的有效傳感器(考慮單目攝像機(jī)與人類雙眼系統(tǒng)的差別),更可能意味著我們采用了不合適的人臉建模方法(人臉的內(nèi)部表示問題),還有可能意味著我們并沒有認(rèn)識到自動人臉識別技術(shù)所能夠達(dá)到的極限精度。但無論如何,賦予計(jì)算設(shè)備與人類似的人臉識別能力是眾多該領(lǐng)域研究人員的夢想。相信隨著研究的繼續(xù)深入,我們的認(rèn)識應(yīng)該能夠更加準(zhǔn)確地逼近這些問題的正確答案。
計(jì)算所人臉識別課題組經(jīng)過多年努力,終于逐漸進(jìn)入了國際人臉識別競爭的第一方陣。我們提出的新穎算法、完成的高效識別系統(tǒng)也逐漸得到了國內(nèi)外同行的認(rèn)可。但我們也必須清醒地看到,在人臉識別領(lǐng)域,其實(shí)很難說誰的算法就比別的算法真正地好了多少。而且眾多的研究人員正在加入進(jìn)來,逆水行舟,慢進(jìn)則退。我們必須付出更多的艱辛才能真正在算法和系統(tǒng)兩方面超越前人,取得更大的研究成果!
作者簡介:
山世光 中國科學(xué)院計(jì)算技術(shù)研究所數(shù)字化技術(shù)研究室,助理研究員,博士