欧美成人免费小视频,亚洲精品午夜在线观看,国产精品一二三,欧美第6页,亚洲一级aⅴ无码毛片小说,国产精品x四虎在线,久久精品成人欧美大片

一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法和系統(tǒng)

文檔序號:42887241發(fā)布日期:2025-08-29 19:35閱讀:10來源:國知局

本發(fā)明屬于聲紋識別領(lǐng)域,特別是涉及一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法和系統(tǒng)。


背景技術(shù):

1、聲紋識別作為一種生物特征識別技術(shù),憑借非接觸性、便利性和低隱私侵犯性的特點(diǎn),在多個領(lǐng)域得到廣泛關(guān)注與應(yīng)用。在金融領(lǐng)域,它通過高效的身份認(rèn)證與實(shí)時驗(yàn)證,提升交易安全性、降低驗(yàn)證時間成本,增強(qiáng)金融機(jī)構(gòu)風(fēng)險防控能力并支持電話客服個性化服務(wù);電力系統(tǒng)行業(yè)中,借助提取電力設(shè)備運(yùn)行聲信號特征,實(shí)現(xiàn)實(shí)時監(jiān)測、故障診斷和外破預(yù)警;生態(tài)領(lǐng)域里,研究人員利用動物聲紋特征對動物種類進(jìn)行檢測分類,以追蹤生態(tài)系統(tǒng)中生物多樣性狀況及變化趨勢;此外,聲紋識別與語音分離技術(shù)和端側(cè)大模型驅(qū)動的語音識別及文本摘要系統(tǒng)深度融合,能在多人會議和采訪等復(fù)雜場景中優(yōu)化語音處理。隨著深度學(xué)習(xí)在聲紋識別等領(lǐng)域的發(fā)展,研究人員雖圍繞多尺度特征建模、注意力機(jī)制優(yōu)化和輕量化設(shè)計(jì)改進(jìn)了聲紋識別模型,但當(dāng)前技術(shù)仍面臨復(fù)雜場景特征解耦不足,傳統(tǒng)單模態(tài)聲學(xué)特征在跨信道/噪聲場景易受譜畸變干擾且時頻掩蔽策略難分離混疊特征與環(huán)境干擾因子;多尺度特征協(xié)同低效,融合方法未實(shí)現(xiàn)局部與全局特征深度耦合且難兼顧時頻分辨率與特征鑒別性;效率-精度權(quán)衡困境,高性能模型計(jì)算復(fù)雜度高難部署于邊緣設(shè)備,輕量化方案又導(dǎo)致識別準(zhǔn)確率與跨場景魯棒性下降這三方面核心挑戰(zhàn)。


技術(shù)實(shí)現(xiàn)思路

1、為了解決背景技術(shù)中存在的問題,本發(fā)明的一方面提供一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,包括:通過訓(xùn)練好的聲紋識別模型分別提取注冊語音信號和待驗(yàn)證語音信號的說話人嵌入向量,并計(jì)算兩者說話人嵌入向量的余弦相似度,若余弦相似度得分高于設(shè)定閾值則判定注冊語音信號和待驗(yàn)證語音信號為同一說話人,反之則判定注冊語音信號和待驗(yàn)證語音信號為不同說話人;其中,所述聲紋識別模型包括:數(shù)據(jù)預(yù)處理模塊、plp特征提取模型、fbank特征提取模型和特征增強(qiáng)模塊;所述數(shù)據(jù)預(yù)處理模塊用于對語音信號進(jìn)行預(yù)處理;所述plp特征提取模型用于對預(yù)處理后的語音信號進(jìn)行plp特征的提取,所述fbank特征提取模型用于對預(yù)處理后的語音信號進(jìn)行fbank特征的提取,并將提取的fbank特征與plp特征進(jìn)行拼接融合得到語音信號的融合特征;所述特征增強(qiáng)模塊用于對語音信號的融合特征進(jìn)行特征增強(qiáng)得到語音信號的說話人嵌入向量。

2、本發(fā)明的另一方面提供一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別系統(tǒng),所述系統(tǒng)包括存儲器和處理器;所述存儲器用于存儲應(yīng)用程序;所述處理器用于運(yùn)行所述應(yīng)用程序,執(zhí)行所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法。

3、一種計(jì)算機(jī)存儲介質(zhì),所述計(jì)算機(jī)存儲介質(zhì)上存儲有遠(yuǎn)程監(jiān)控程序,所述遠(yuǎn)程監(jiān)控程序被處理器執(zhí)行時實(shí)現(xiàn)所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法。

4、本發(fā)明至少具有以下有益效果

5、本發(fā)明充分結(jié)合fbank與plp兩類語音特征,在低層次實(shí)現(xiàn)信息互補(bǔ),以增強(qiáng)特征上下文(efc)模塊構(gòu)建跨尺度特征調(diào)節(jié)機(jī)制,逐層優(yōu)化時間維度上的語音表示能力。同時引入cbam注意力模塊融合通道與空間注意力,在特征層增強(qiáng)模型對關(guān)鍵說話人特征的響應(yīng)能力并抑制背景干擾。訓(xùn)練階段采用aam-softmax損失函數(shù)優(yōu)化嵌入空間,使說話人嵌入向量具更強(qiáng)類間區(qū)分性和類內(nèi)緊致性;通過歸一化嵌入向量的余弦相似度計(jì)算及閾值判定機(jī)制實(shí)現(xiàn)高效準(zhǔn)確身份判斷。該方法有效提升模型在嘈雜環(huán)境、跨場景條件下的識別魯棒性,兼顧性能精度與計(jì)算效率平衡,適用于多種終端設(shè)備部署與實(shí)際應(yīng)用場景,具有良好通用性與推廣價值。



技術(shù)特征:

1.一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,其特征在于,包括:通過訓(xùn)練好的聲紋識別模型分別提取注冊語音信號和待驗(yàn)證語音信號的說話人嵌入向量,并計(jì)算兩者說話人嵌入向量的余弦相似度,若余弦相似度得分高于設(shè)定閾值則判定注冊語音信號和待驗(yàn)證語音信號為同一說話人,反之則判定注冊語音信號和待驗(yàn)證語音信號為不同說話人;其中,所述聲紋識別模型包括:數(shù)據(jù)預(yù)處理模塊、plp特征提取模型、fbank特征提取模型和特征增強(qiáng)模塊;所述數(shù)據(jù)預(yù)處理模塊用于對語音信號進(jìn)行預(yù)處理;所述plp特征提取模型用于對預(yù)處理后的語音信號進(jìn)行plp特征的提取,所述fbank特征提取模型用于對預(yù)處理后的語音信號進(jìn)行fbank特征的提取,并將提取的fbank特征與plp特征進(jìn)行拼接融合得到語音信號的融合特征;所述特征增強(qiáng)模塊用于對語音信號的融合特征進(jìn)行特征增強(qiáng)得到語音信號的說話人嵌入向量。

2.根據(jù)權(quán)利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,其特征在于,所述對語音信號進(jìn)行預(yù)處理包括:對輸入的語音信號依次進(jìn)行預(yù)加重、分幀、加窗、去靜默段、加噪、fft變換和幅值平方處理得到預(yù)處理后的語音信號。

3.根據(jù)權(quán)利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,其特征在于,所述對預(yù)處理后的語音信號進(jìn)行fbank特征的提取包括:對預(yù)處理后的語音信號依次經(jīng)過mel濾波器和對數(shù)功率處理得到fbank特征;所述對對預(yù)處理后的語音信號進(jìn)行plp特征的提取包括:對預(yù)處理后的語音信號依次經(jīng)過bark濾波器、等響應(yīng)度預(yù)加重、強(qiáng)度-響度變換、逆傅里葉變換和線性預(yù)測得到plp特征。

4.根據(jù)權(quán)利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,其特征在于,所述特征增強(qiáng)模塊包括:利用efc?fusion?res2net?block模塊替代res2net網(wǎng)絡(luò)架構(gòu)后兩層res2net-block結(jié)構(gòu),即特征增強(qiáng)模塊由2個res2net-block模塊和2個efc?fusion?res2net?block模塊依次進(jìn)行級聯(lián);并

5.根據(jù)權(quán)利要求4所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,其特征在于,所述efc?fusion?res2net?block模塊通過1x1卷積對輸入特征處理后,按通道數(shù)拆分成s個子特征,每個子特征具有相同的空間大小,通道數(shù)是輸入特征的1/s;每個子特征表示為xi,其中,i∈{1,2,...,s};對于每個子特征xi進(jìn)行如下操作:

6.根據(jù)權(quán)利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,在聲紋識別模型訓(xùn)練時,將語音信號的說話人id作為標(biāo)簽,利用aam-softmax損失函數(shù)對聲紋識別模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的聲紋識別模型。

7.根據(jù)權(quán)利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法,所述計(jì)算兩者說話人嵌入向量的余弦相似度包括:

8.一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別系統(tǒng),其特征在于,所述系統(tǒng)包括存儲器和處理器;所述存儲器用于存儲應(yīng)用程序;所述處理器用于運(yùn)行所述應(yīng)用程序,執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法。

9.一種計(jì)算機(jī)存儲介質(zhì),其特征在于,所述計(jì)算機(jī)存儲介質(zhì)上存儲有遠(yuǎn)程監(jiān)控程序,所述遠(yuǎn)程監(jiān)控程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的一種基于雙特征跨尺度融合與通道-空間注意力機(jī)制的聲紋識別方法。


技術(shù)總結(jié)
本發(fā)明涉及一種基于雙特征跨尺度融合與通道?空間注意力機(jī)制的聲紋識別方法和系統(tǒng),包括通過訓(xùn)練好的聲紋識別模型分別提取注冊語音信號和待驗(yàn)證語音信號的說話人嵌入向量,并計(jì)算兩者說話人嵌入向量的余弦相似度,判定注冊語音信號和待驗(yàn)證語音信號是否為同一說話人;數(shù)據(jù)預(yù)處理模塊用于對語音信號進(jìn)行預(yù)處理;PLP特征提取模型用于對預(yù)處理后的語音信號進(jìn)行PLP特征的提取,F(xiàn)bank特征提取模型用于對預(yù)處理后的語音信號進(jìn)行Fbank特征的提取,并將提取的Fbank特征與PLP特征進(jìn)行拼接融合得到語音信號的融合特征;特征增強(qiáng)模塊用于對語音信號的融合特征進(jìn)行特征增強(qiáng)得到語音信號的說話人嵌入向量。本發(fā)明能夠提升聲紋識別在復(fù)雜場景下的魯棒性,增強(qiáng)識別精度。

技術(shù)研發(fā)人員:漆晶,蔣逸燊,陳奇,楊路
受保護(hù)的技術(shù)使用者:重慶郵電大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/8/28
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1