欧美成人免费小视频,亚洲精品午夜在线观看,国产精品一二三,欧美第6页,亚洲一级aⅴ无码毛片小说,国产精品x四虎在线,久久精品成人欧美大片

一種基于人工智能的語音識(shí)別方法及系統(tǒng)與流程

文檔序號(hào):42887169發(fā)布日期:2025-08-29 19:35閱讀:10來源:國知局

本發(fā)明涉及人工智能的,特別涉及一種基于人工智能的語音識(shí)別方法及系統(tǒng)。


背景技術(shù):

1、語音識(shí)別技術(shù)在過去幾十年中取得了顯著的進(jìn)展,這使得我們可以利用計(jì)算機(jī)處理和理解人類的語音。傳統(tǒng)的語音識(shí)別系統(tǒng)通常依賴于聲音波形的分析,然后將其轉(zhuǎn)換為文本。這種方法不僅復(fù)雜,而且在識(shí)別非標(biāo)準(zhǔn)口音或口音變化較大的語音時(shí),準(zhǔn)確率可能會(huì)大大降低。隨著人工智能技術(shù)的發(fā)展,尤其是深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的應(yīng)用,語音識(shí)別系統(tǒng)的準(zhǔn)確性和魯棒性得到了顯著提升。通過構(gòu)建復(fù)雜的聲音特征提取和模式識(shí)別模型,這些現(xiàn)代系統(tǒng)可以處理更多的數(shù)據(jù)量,學(xué)習(xí)到更多聲音細(xì)節(jié),從而識(shí)別出更廣泛的聲音,甚至在噪音環(huán)境中也能實(shí)現(xiàn)較好的識(shí)別效果。

2、傳統(tǒng)的基于規(guī)則的語音識(shí)別系統(tǒng)通常需要大量人工編寫規(guī)則和強(qiáng)大的計(jì)算資源,繁瑣且部署成本高。此外,隨著用戶需求變得多樣化,例如對于不同說話人的適應(yīng)性和對多種語言的支持等要求,傳統(tǒng)的系統(tǒng)難以滿足這些需求,容易出現(xiàn)誤識(shí)別或識(shí)別延遲的現(xiàn)象。相比之下,基于人工智能的語音識(shí)別系統(tǒng)能夠通過訓(xùn)練大量數(shù)據(jù)集來自動(dòng)優(yōu)化模型,因此在靈活性和適應(yīng)性方面有了顯著提高。這種系統(tǒng)不僅能在不同環(huán)境中和多種語言間進(jìn)行有效的語音識(shí)別,還能隨著使用數(shù)據(jù)量的增加,不斷學(xué)習(xí)和適應(yīng),提高識(shí)別的準(zhǔn)確性,大大降低了系統(tǒng)的維護(hù)成本和復(fù)雜度。

3、現(xiàn)有技術(shù)一,中國專利,申請?zhí)朿n202510017037.3公開了基于人工智能的語音識(shí)別評(píng)估方法。該方法包括:獲取用于待評(píng)測的語音數(shù)據(jù),對待評(píng)測的語音數(shù)據(jù)進(jìn)行分析得到語音流利度指數(shù)、語音清晰度指數(shù)和語音準(zhǔn)確度指數(shù),基于語音流利度指數(shù)、語音清晰度指數(shù)和語音準(zhǔn)確度指數(shù)計(jì)算得到待評(píng)測的語音數(shù)據(jù)的第一語音質(zhì)量指數(shù);將待評(píng)測的語音數(shù)據(jù)輸入到語音內(nèi)容識(shí)別模型中,輸出待評(píng)測的語音數(shù)據(jù)的預(yù)測文本,將預(yù)測文本與標(biāo)注文本進(jìn)行對比分析得到待評(píng)測的語音數(shù)據(jù)的第二語音質(zhì)量指數(shù);基于第一語音質(zhì)量指數(shù)和第二語音質(zhì)量指數(shù)得到待評(píng)測的語音數(shù)據(jù)對應(yīng)的語音識(shí)別評(píng)估結(jié)果。本發(fā)明能夠提高語音識(shí)別效果的評(píng)估效率與準(zhǔn)確性:

4、現(xiàn)有技術(shù)二,中國專利,申請?zhí)朿n201710339663.x公開了一種基于人工智能的語音識(shí)別方法及裝置,其中,方法包括:對麥克風(fēng)陣列進(jìn)行采集,獲取多路第一語音信號(hào);基于wpe算法去除每路第一語音信號(hào)中的混響信號(hào),得到每路第二語音信號(hào),并將每路第二語音信號(hào)通過mvdr波束形成器,獲取一路第三語音信號(hào);將第三語音信號(hào)分別輸入到自適應(yīng)阻塞矩陣模塊和自適應(yīng)干擾消除模塊中;在自適應(yīng)阻塞矩陣模塊中基于第三語音信號(hào)與每路第一語音信號(hào)進(jìn)行噪聲提取,得到每路的第一噪聲信號(hào);在自適應(yīng)干擾消除模塊中將每路的第一噪聲信號(hào)進(jìn)行濾波后疊加,得到一路的第二噪聲信號(hào),并將第三語音信號(hào)與第二噪聲信號(hào)相減,得到目標(biāo)語音信號(hào)。實(shí)現(xiàn)了對輸入信號(hào)進(jìn)行解混響、增強(qiáng)、去噪聲處理,提高了遠(yuǎn)場語音識(shí)別率。

5、目前現(xiàn)有技術(shù)一、現(xiàn)有技術(shù)二存在依賴于大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和評(píng)估,數(shù)據(jù)質(zhì)量不高或分布不一致可能導(dǎo)致性能下降,在實(shí)時(shí)處理中存在延遲,影響用戶體驗(yàn)。在需要快速響應(yīng)的應(yīng)用場景中,如實(shí)時(shí)會(huì)議轉(zhuǎn)錄,延遲可能成為一個(gè)關(guān)鍵問題。因而,本發(fā)明提供一種基于人工智能的語音識(shí)別方法及系統(tǒng)。


技術(shù)實(shí)現(xiàn)思路

1、為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:

2、本發(fā)明的一方面,提供一種基于人工智能的語音識(shí)別方法,包含以下步驟:

3、通過麥克風(fēng)陣列采集多路語音信號(hào);

4、對每路語音信號(hào)進(jìn)行降噪處理,去除背景噪聲,采用自適應(yīng)波束形成算法對語音信號(hào)進(jìn)行增強(qiáng),提取目標(biāo)語音信號(hào);

5、對預(yù)處理后的語音信號(hào)進(jìn)行短時(shí)傅里葉變換,提取語音頻譜特征,通過深度學(xué)習(xí)模型提取語音的高層語義特征;

6、將提取的語音特征輸入到基于注意力機(jī)制的語音識(shí)別模型中,生成目標(biāo)語音的文本轉(zhuǎn)錄,通過自適應(yīng)學(xué)習(xí)模塊動(dòng)態(tài)調(diào)整模型參數(shù),優(yōu)化識(shí)別結(jié)果;

7、根據(jù)用戶的實(shí)時(shí)反饋對識(shí)別結(jié)果進(jìn)行校正,將校正后的數(shù)據(jù)用于模型的在線更新,提高系統(tǒng)的魯棒性和適應(yīng)性。

8、一種可選的實(shí)施方式中,所述語音信號(hào)預(yù)處理步驟還包括:采用改進(jìn)的wpe算法對語音信號(hào)進(jìn)行解混響處理,去除混響信號(hào);通過多維聲源定位算法確定目標(biāo)語音的方向,進(jìn)一步優(yōu)化波束形成效果。

9、一種可選的實(shí)施方式中,所述對預(yù)處理后的語音信號(hào)進(jìn)行短時(shí)傅里葉變換,提取語音頻譜特征的步驟包括將語音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,分析信號(hào)在不同時(shí)間點(diǎn)的頻率成分,將語音信號(hào)劃分為多個(gè)重疊的短時(shí)間幀,對每個(gè)短時(shí)間幀進(jìn)行快速傅里葉變換,得到該幀的頻譜,將所有幀的頻譜按時(shí)間順序排列,形成二維頻譜圖,其中橫軸為時(shí)間,縱軸為頻率,圖中的顏色表示能量強(qiáng)度;

10、從頻譜圖中提取能夠反映語音特性的特征,便于后續(xù)處理,將頻譜圖轉(zhuǎn)換為梅爾頻率尺度,模擬人類聽覺系統(tǒng)對頻率的感知特性,通過線性預(yù)測編碼或lpc倒譜系數(shù)提取語音的頻譜包絡(luò)信息;

11、利用深度學(xué)習(xí)模型從語音頻譜特征中提取更抽象、更具語義信息的特征表示,通過多層卷積操作提取語音信號(hào)的局部特征和層次化特征,通過循環(huán)結(jié)構(gòu)捕捉語音信號(hào)的時(shí)間依賴性,提取長短期特征,通過注意力機(jī)制動(dòng)態(tài)聚焦于語音信號(hào)中的關(guān)鍵部分。

12、一種可選的實(shí)施方式中,所述將提取的語音特征輸入到基于注意力機(jī)制的語音識(shí)別模型中,生成目標(biāo)語音的文本轉(zhuǎn)錄的步驟包括確保輸入的語音特征符合模型的要求,便于模型處理,對提取的語音特征進(jìn)行歸一化處理,確保所有特征的分布一致,有助于模型的收斂,對輸入的特征序列進(jìn)行對齊處理,將語音特征編碼為模型可接受的格式;

13、將準(zhǔn)備好的語音特征輸入到基于注意力機(jī)制的語音識(shí)別模型中,將輸入的語音特征轉(zhuǎn)換為高級(jí)的表示形式,便于后續(xù)的文本生成,根據(jù)編碼器生成的特征表示,逐步生成目標(biāo)文本,根據(jù)解碼器的處理結(jié)果,生成目標(biāo)語音的文本轉(zhuǎn)錄,對生成的文本轉(zhuǎn)錄進(jìn)行優(yōu)化和調(diào)整,提高其準(zhǔn)確性和可讀性,通過不斷地優(yōu)化和迭代,提高模型的識(shí)別準(zhǔn)確率和魯棒性,確保語音識(shí)別系統(tǒng)實(shí)時(shí)響應(yīng)用戶的語音輸入,適用于實(shí)時(shí)應(yīng)用場景,實(shí)現(xiàn)對多種語言的語音識(shí)別,擴(kuò)大系統(tǒng)的應(yīng)用范圍,通過用戶反饋機(jī)制,動(dòng)態(tài)調(diào)整模型參數(shù),優(yōu)化識(shí)別結(jié)果,提供個(gè)性化的語音識(shí)別服務(wù)。

14、一種可選的實(shí)施方式中,所述基于注意力機(jī)制的語音識(shí)別模型通常包括編碼器和解碼器兩個(gè)部分,編碼器負(fù)責(zé)將輸入的語音特征轉(zhuǎn)換為高級(jí)的表示形式,解碼器則根據(jù)編碼器的輸出生成目標(biāo)文本;

15、在編碼器中,自注意力機(jī)制是一個(gè)關(guān)鍵部分,允許模型在處理每個(gè)輸入位置時(shí),關(guān)注到整個(gè)輸入序列中的其他位置的信息,通過這種方式,模型捕捉到語音信號(hào)中的上下文關(guān)系;

16、解碼器部分則引入了交叉注意力機(jī)制,使得解碼器在生成每個(gè)輸出位置時(shí),關(guān)注到編碼器輸出的特征表示中相關(guān)的信息;

17、注意力機(jī)制通過計(jì)算查詢、鍵和值之間的相似性來實(shí)現(xiàn),具體的計(jì)算公式可以表示為:

18、其中,q、k和v分別是查詢、鍵和值矩陣,dk是鍵的維度,用于縮放點(diǎn)積結(jié)果,防止數(shù)值過大。

19、一種可選的實(shí)施方式中,所述根據(jù)用戶的實(shí)時(shí)反饋對識(shí)別結(jié)果進(jìn)行校正的步驟包括從用戶處獲取語音識(shí)別結(jié)果的校正信息,在用戶界面中添加一個(gè)反饋按鈕或選項(xiàng),允許用戶對識(shí)別結(jié)果進(jìn)行校正,當(dāng)用戶提交校正信息時(shí),記錄原始語音數(shù)據(jù)、模型的初始識(shí)別結(jié)果以及用戶的校正文本,將校正數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中,以便后續(xù)處理和訓(xùn)練;

20、對收集到的反饋數(shù)據(jù)進(jìn)行清洗和格式化,確保數(shù)據(jù)質(zhì)量,選擇在線學(xué)習(xí)策略,確保模型利用反饋數(shù)據(jù)進(jìn)行更新,利用反饋數(shù)據(jù)對模型進(jìn)行更新,提高識(shí)別準(zhǔn)確率,驗(yàn)證模型更新后的性能,確保反饋數(shù)據(jù)的利用有效,將更新后的模型部署到生產(chǎn)環(huán)境,提供更優(yōu)質(zhì)的服務(wù),建立一個(gè)持續(xù)的反饋循環(huán),不斷優(yōu)化模型性能,通過反饋數(shù)據(jù),增強(qiáng)模型在不同場景和語言下的魯棒性和適應(yīng)性,優(yōu)化計(jì)算資源的使用,確保在線更新不影響系統(tǒng)的實(shí)時(shí)性,確保模型在更新后能夠長期穩(wěn)定運(yùn)行,適應(yīng)不斷變化的用戶需求。

21、一種可選的實(shí)施方式中,所述從語音信號(hào)中提取有用的特征,供模型處理,通過傅里葉變換和梅爾濾波器組提取語音的頻譜特征,使用深度學(xué)習(xí)模型、提取高級(jí)的語音特征,計(jì)算公式如下:

22、mfcc=dct(log(mel(fft(x))))

23、其中,x是語音信號(hào),fft是快速傅里葉變換,mel是梅爾濾波器組,dct是離散余弦變換;

24、使用反饋數(shù)據(jù)對模型進(jìn)行微調(diào),隨機(jī)梯度下降或adam優(yōu)化器,梯度下降更新公式如下:

25、

26、其中,θ是模型參數(shù),η是學(xué)習(xí)率,l是損失函數(shù);

27、在目標(biāo)檢測中,存在多個(gè)重疊的邊界框,使用非極大值抑制來選擇具有最高置信度的框,并抑制與之重疊且置信度較低的框;計(jì)算目標(biāo)檢測的準(zhǔn)確率和召回率,準(zhǔn)確率表示模型正確識(shí)別目標(biāo)的能力,召回率表示模型找到所有目標(biāo)的能力,其表達(dá)式如下所示:

28、

29、構(gòu)建混淆矩陣,展示真正例和假正例和真負(fù)例和假負(fù)例的數(shù)量,分析模型的性能;f1分?jǐn)?shù)是準(zhǔn)確率和召回率的調(diào)和平均數(shù),通過f1份數(shù)評(píng)估算法性能,其表達(dá)式如下所示:

30、

31、其中,precision為模型的準(zhǔn)確率;recall為模型的召回率;

32、將目標(biāo)檢測的結(jié)果可視化,通過在圖像上繪制邊界框來展示算法的表現(xiàn),根據(jù)性能評(píng)估的結(jié)果,調(diào)整模型的學(xué)習(xí)率和閾值超參數(shù)。

33、本發(fā)明的另一方面,提供一種基于人工智能的語音識(shí)別系統(tǒng),包括:

34、語音信號(hào)采集模塊:用于通過麥克風(fēng)陣列采集多路語音信號(hào);

35、語音信號(hào)預(yù)處理模塊:降噪子模塊,用于去除背景噪聲;波束形成子模塊,用于增強(qiáng)目標(biāo)語音信號(hào);

36、特征提取模塊:頻譜特征提取子模塊,用于提取語音的頻譜特征;深度特征提取子模塊,用于提取語音的高層語義特征;

37、語音識(shí)別模塊:基于注意力機(jī)制的語音識(shí)別子模塊,用于生成目標(biāo)語音的文本轉(zhuǎn)錄;自適應(yīng)學(xué)習(xí)子模塊,用于動(dòng)態(tài)調(diào)整模型參數(shù);

38、實(shí)時(shí)反饋與優(yōu)化模塊:用戶反饋接口,用于獲取用戶的校正信息;在線學(xué)習(xí)子模塊,用于對模型參數(shù)進(jìn)行動(dòng)態(tài)更新。

39、本發(fā)明的另一方面,提供一種電子設(shè)備,包括:

40、至少一個(gè)存儲(chǔ)器,非瞬時(shí)性地存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令;

41、至少一個(gè)處理器,配置為運(yùn)行所述計(jì)算機(jī)可執(zhí)行指令;

42、其中,所述計(jì)算機(jī)可執(zhí)行指令被所述處理器運(yùn)行時(shí)實(shí)現(xiàn)上述所述的一種基于人工智能的語音識(shí)別方法。

43、本發(fā)明的另一方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令被至少一個(gè)處理器執(zhí)行時(shí)實(shí)現(xiàn)上述所述的一種基于人工智能的語音識(shí)別方法。

44、本發(fā)明一種基于人工智能的語音識(shí)別方法通過麥克風(fēng)陣列采集多路語音信號(hào);對每路語音信號(hào)進(jìn)行降噪處理,去除背景噪聲,采用自適應(yīng)波束形成算法對語音信號(hào)進(jìn)行增強(qiáng),提取目標(biāo)語音信號(hào);對預(yù)處理后的語音信號(hào)進(jìn)行短時(shí)傅里葉變換,提取語音頻譜特征,通過深度學(xué)習(xí)模型提取語音的高層語義特征;將提取的語音特征輸入到基于注意力機(jī)制的語音識(shí)別模型中,生成目標(biāo)語音的文本轉(zhuǎn)錄,通過自適應(yīng)學(xué)習(xí)模塊動(dòng)態(tài)調(diào)整模型參數(shù),優(yōu)化識(shí)別結(jié)果;根據(jù)用戶的實(shí)時(shí)反饋對識(shí)別結(jié)果進(jìn)行校正,將校正后的數(shù)據(jù)用于模型的在線更新,提高系統(tǒng)的魯棒性和適應(yīng)性,具有通過高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和評(píng)估,在實(shí)時(shí)處理中降低延遲的效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1