基于深度卷積神經網(wǎng)絡的藏語語音識別研究
發(fā)布時間:2025-02-11 18:26
自動語音識別技術作為一項核心技術在呼叫中心、醫(yī)療服務和移動應用等領域得到了廣泛的應用。隨著國內外對語音識別技術研究的快速發(fā)展,漢語、英語等資源豐富語言的語音識別技術已經達到了很好的識別性能,然而,藏語由于其語料庫構建困難和語言本身的特殊性,語音識別技術發(fā)展緩慢,提升藏語語音識別系統(tǒng)的性能是當前語音識別技術領域的一個重要研究內容。本文主要研究卷積神經網(wǎng)絡在藏語語音識別中的應用,主要工作如下:1.特征提取。將語音信號轉化為語譜圖,盡可能保留語音信號中的信息,作為深度卷積神經網(wǎng)絡的特征輸入。2.聲學建模。將圖像識別中取得良好性能的卷積神經網(wǎng)絡引入到藏語語音識別中,從而更好地捕捉語譜圖中的局部信息。3.端到端語音識別。將卷積神經網(wǎng)絡與聯(lián)結時序分類方法結合,設計了端到端的藏語語音識別系統(tǒng)。4.分類器結構優(yōu)化。進一步增加卷積神經網(wǎng)絡的層數(shù),使用疊加卷積層的方法,提升網(wǎng)絡的特征提取能力。對上述模型在實驗室建立的藏語語料庫進行對比實驗,得出以下結論:1.將語音轉化為頻譜圖作為特征提取方法,可以更好地保留語音信號時域中有利于識別的信息。2.使用卷積神經網(wǎng)絡對語譜圖進行語音特征提取,提升了藏語語音識別性能。...
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4033675
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
圖2-2加窗分幀示意圖
青海師范大學碩士學位論文14模型。語音信號加重,可以有效地減少高頻段的波動性,增加高頻段的信噪比,從而減少其受到噪聲的干擾,減少語音信號的信息損失,保留更多的可以進行識別的信息。提升語音信號的高頻部分,通常是將語音信號輸入一階高通濾波器,通過響應函數(shù)對于語音波形進行變換。一階高通....
圖3-1神經元模型
基于深度卷積神經網(wǎng)絡的藏語語音識別研究17圖3-1神經元模型神經網(wǎng)絡的訓練方式就是調參,即將權值調整為最適合分類的最佳參數(shù),從而達到最好的識別性能。圖3-1中,1x,2x,3x為輸入,箭頭線稱為“連接”,作為傳輸數(shù)據(jù)的通道,1w,2w和3w分別為每一個“連接”上的一個權值,b為偏....
圖4-1語譜原始語音分幀加窗
基于深度卷積神經網(wǎng)絡的藏語語音識別研究234.2語譜圖特征提取語譜圖是語音信號的二維表示方式,使時域和頻域進行結合,清楚地表示出了語音信號的頻譜特征隨著時間的變化而產生的變化。語譜圖的提取過程如圖4-1所示:圖4-1語譜圖提取過程圖4-1中語譜圖橫軸表示時間變量,縱軸表示語音信號....
圖4-3疊加卷積層深度CNN模型
基于深度卷積神經網(wǎng)絡的藏語語音識別研究25小,本文設計了更深層的CNN進行藏語語音識別。本文采用的深度CNN基本架構如圖4-3所示:圖4-3疊加卷積層深度CNN模型與傳統(tǒng)CNN結構不同,深度CNN直接使用多卷積層對整句語音信號進行建模,并在每個卷積層后再疊加一層相同的卷積層,形成....
本文編號:4033675
本文鏈接:http://www.lk138.cn/wenyilunwen/yuyanyishu/4033675.html