本發(fā)明涉及人臉識別,尤其涉及一種基于熵調(diào)控的多通道監(jiān)督人臉識別方法。
背景技術(shù):
1、人臉識別技術(shù)作為生物特征識別領(lǐng)域的核心分支,自20世紀(jì)90年代起逐步從實驗室研究走向規(guī)?;瘧?yīng)用。早期方法(如基于幾何特征的lbp、基于統(tǒng)計學(xué)習(xí)的pca)受限于特征表達(dá)能力,僅能在理想光照、無遮擋條件下實現(xiàn)基礎(chǔ)識別。隨著深度學(xué)習(xí)的興起,卷積神經(jīng)網(wǎng)絡(luò)(cnn)憑借局部感知和權(quán)值共享的歸納偏置,在復(fù)雜場景下的識別精度取得突破性進(jìn)展,成為移動支付、公共安防等領(lǐng)域的主流方案。
2、然而,cnn的局部感受野特性使其在捕捉人臉全局結(jié)構(gòu)關(guān)聯(lián)(如跨區(qū)域的表情、年齡變化)時存在天然局限。2020年transformer模型(如vision?transformer,?vit)被引入計算機(jī)視覺領(lǐng)域后,通過自注意力機(jī)制建模全局依賴關(guān)系,在人臉屬性分析(如年齡、性別)和跨姿態(tài)識別任務(wù)中展現(xiàn)出更強(qiáng)的表征能力,逐漸成為人臉識別技術(shù)升級的重要方向。
3、盡管transformer顯著提升了復(fù)雜場景下的識別魯棒性,但其“數(shù)據(jù)饑餓”特性成為推廣應(yīng)用的關(guān)鍵瓶頸。與cnn依賴局部歸納偏置不同,transformer缺乏對圖像空間結(jié)構(gòu)的先驗假設(shè),需通過大規(guī)模標(biāo)注數(shù)據(jù)(通常百萬級以上)學(xué)習(xí)基礎(chǔ)模式,否則易陷入過擬合(僅記憶訓(xùn)練樣本的局部噪聲,無法泛化新數(shù)據(jù))。這種對大規(guī)模數(shù)據(jù)集的強(qiáng)依賴在實際應(yīng)用中引發(fā)多重挑戰(zhàn):一方面,高質(zhì)量人臉數(shù)據(jù)的采集與標(biāo)注成本高昂,且涉及敏感個人信息(如面部細(xì)節(jié)、使用場景),數(shù)據(jù)存儲與傳輸?shù)碾[私風(fēng)險顯著增加;另一方面,新興應(yīng)用場景(如特定行業(yè)的內(nèi)部人員識別、小范圍社區(qū)安防)往往僅能提供千級或萬級小規(guī)模數(shù)據(jù),難以支撐transformer的有效訓(xùn)練,限制了技術(shù)在垂直領(lǐng)域的落地。
4、此外,transformer的自注意力機(jī)制還存在“局部聚焦”傾向——模型易將計算資源集中于人臉高區(qū)分度區(qū)域,而忽略包含關(guān)鍵線索的低顯著性區(qū)域。在數(shù)據(jù)增強(qiáng)(如遮擋、顏色擾動)破壞高區(qū)分度區(qū)域時,這種局部聚焦特性會進(jìn)一步加劇模型性能下降。因此,如何在小規(guī)模數(shù)據(jù)集上訓(xùn)練出兼顧全局感知與抗擾動能力的transformer人臉識別模型,成為當(dāng)前技術(shù)攻關(guān)的核心方向。
5、降低transformer對大規(guī)模數(shù)據(jù)的依賴,不僅能直接減少企業(yè)在數(shù)據(jù)獲取、標(biāo)注和存儲上的成本投入,更能加速模型在小樣本場景(如新業(yè)務(wù)冷啟動、隱私敏感場景)的部署迭代,助力企業(yè)在技術(shù)應(yīng)用中占據(jù)先發(fā)優(yōu)勢。同時,減少數(shù)據(jù)規(guī)模也意味著降低個人信息的采集范圍,為技術(shù)的合規(guī)推廣提供更靈活的空間。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中基于transformer的人臉識別模型存在依賴大規(guī)模數(shù)據(jù)集易過擬合、自注意力機(jī)制局部聚焦導(dǎo)致忽略關(guān)鍵面部區(qū)域等缺陷,本發(fā)明提供一種基于熵調(diào)控的多通道監(jiān)督人臉識別方法。該方法通過多通道監(jiān)督與熵調(diào)控技術(shù)的協(xié)同設(shè)計,有效降低模型對大規(guī)模數(shù)據(jù)的依賴并提升小數(shù)據(jù)集下的識別魯棒性:一方面,采用差異化數(shù)據(jù)增強(qiáng)策略,生成保留關(guān)鍵結(jié)構(gòu)的第一類增強(qiáng)圖像與破壞結(jié)構(gòu)的第二類增強(qiáng)圖像,利用保留結(jié)構(gòu)的預(yù)測結(jié)果監(jiān)督破壞結(jié)構(gòu)的預(yù)測結(jié)果,緩解小數(shù)據(jù)集過擬合問題;另一方面,通過計算第二類增強(qiáng)圖像中各圖像塊的高斯上界信息熵,結(jié)合熵感知權(quán)重機(jī)制生成與信息熵負(fù)相關(guān)的自適應(yīng)權(quán)重,加權(quán)分類損失以引導(dǎo)模型聚焦信息稀疏的鼻部、唇部等易被忽略區(qū)域,增強(qiáng)全局感知能力。本發(fā)明在降低數(shù)據(jù)標(biāo)注成本、保護(hù)用戶隱私的同時,顯著提升了小樣本場景下transformer人臉識別模型的識別精度與穩(wěn)定性。
2、本發(fā)明具體采用以下技術(shù)方案:
3、一種基于熵調(diào)控的多通道監(jiān)督人臉識別方法,包括:
4、人臉識別模型構(gòu)建:
5、對訓(xùn)練圖像分別施加第一類數(shù)據(jù)增強(qiáng)與第二類數(shù)據(jù)增強(qiáng),生成兩類增強(qiáng)圖像集;其中第一類增強(qiáng)保留關(guān)鍵面部結(jié)構(gòu)特征,第二類增強(qiáng)引入更高程度的形變或遮擋;
6、將兩類增強(qiáng)圖像分別分割為固定大小的圖像塊,經(jīng)特征映射與位置編碼后輸入transformer編碼器,獲得對應(yīng)的第一預(yù)測結(jié)果與第二預(yù)測結(jié)果;
7、利用第一預(yù)測結(jié)果監(jiān)督第二預(yù)測結(jié)果,通過分類損失函數(shù)與一致性約束損失函數(shù)聯(lián)合優(yōu)化模型參數(shù);
8、計算第二類增強(qiáng)圖像中各圖像塊的信息熵,基于熵值聚合生成自適應(yīng)權(quán)重并加權(quán)所述分類損失函數(shù),以引導(dǎo)模型聚焦信息稀疏區(qū)域;
9、人臉識別應(yīng)用:
10、將待識別人臉圖像輸入訓(xùn)練完成的模型,輸出人臉識別結(jié)果。
11、進(jìn)一步地,所述第一類數(shù)據(jù)增強(qiáng)包括水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、旋轉(zhuǎn)或縮放;所述第二類數(shù)據(jù)增強(qiáng)包括顏色抖動、cutmix或cutout。
12、進(jìn)一步地,所述信息稀疏區(qū)域?qū)?yīng)人臉中易被忽略的鼻部、唇部或下巴特征。
13、進(jìn)一步地,所述自適應(yīng)權(quán)重的生成方式為:
14、計算各圖像塊的高斯上界信息熵;
15、利用熵感知權(quán)重機(jī)制聚合各圖像塊的信息熵。
16、進(jìn)一步地,所述一致性約束損失函數(shù)為均方誤差損失函數(shù)。
17、進(jìn)一步地,所述分類損失函數(shù)為arcface損失函數(shù)。
18、進(jìn)一步地,所述圖像塊的分割數(shù)量由圖像高度、寬度和塊大小決定;
19、所述特征映射是通過線性變換將圖像塊轉(zhuǎn)換為特征向量,所述位置編碼用于保留圖像塊的空間位置信息。
20、進(jìn)一步地,訓(xùn)練過程中最小化所述權(quán)重以促進(jìn)模型挖掘信息量少的圖像塊特征。
21、以及,一種計算機(jī)設(shè)備,其特征在于,包括處理器和存儲器;所述存儲器存儲有計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如上所述的基于熵調(diào)控的多通道監(jiān)督人臉識別方法。
22、一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上所述的基于熵調(diào)控的多通道監(jiān)督人臉識別方法。
23、相比于現(xiàn)有技術(shù),本發(fā)明及其優(yōu)選方案至少包括以下有益效果:
24、通過“多通道監(jiān)督機(jī)制”有效降低了transformer模型對大規(guī)模數(shù)據(jù)集的依賴。通過差異化數(shù)據(jù)增強(qiáng)策略(保留關(guān)鍵結(jié)構(gòu)的第一類增強(qiáng)與破壞結(jié)構(gòu)的第二類增強(qiáng)),利用保留結(jié)構(gòu)的預(yù)測結(jié)果監(jiān)督破壞結(jié)構(gòu)的預(yù)測結(jié)果,既緩解了小數(shù)據(jù)集下模型的過擬合問題,又減少了強(qiáng)數(shù)據(jù)增強(qiáng)對關(guān)鍵面部結(jié)構(gòu)的過度破壞,顯著降低了數(shù)據(jù)標(biāo)注、存儲及隱私保護(hù)的成本,為小樣本場景(如新業(yè)務(wù)冷啟動、隱私敏感領(lǐng)域)的模型部署提供了可行路徑。
25、通過“熵調(diào)控模塊”增強(qiáng)了模型的全局感知能力。通過計算第二類增強(qiáng)圖像中各圖像塊的高斯上界信息熵,結(jié)合熵感知權(quán)重機(jī)制生成與信息熵負(fù)相關(guān)的自適應(yīng)權(quán)重,加權(quán)分類損失以引導(dǎo)模型聚焦信息稀疏的鼻部、唇部、下巴等易被忽略區(qū)域,解決了transformer自注意力機(jī)制“局部聚焦”的缺陷,提升了模型在遮擋、顏色擾動等復(fù)雜場景下的識別魯棒性。
26、通過“特征處理與損失函數(shù)設(shè)計”優(yōu)化了模型訓(xùn)練效率。通過固定大小的圖像塊分割、線性投影及可學(xué)習(xí)位置嵌入,在壓縮特征維度的同時保留空間信息,降低了計算復(fù)雜度;結(jié)合arcface損失增強(qiáng)類間區(qū)分、一致性損失約束預(yù)測一致性,進(jìn)一步保障了模型在小數(shù)據(jù)集下的訓(xùn)練穩(wěn)定性與特征表達(dá)能力。