基于卷積神經(jīng)網(wǎng)絡(luò)的說話人識別與聚類研究
發(fā)布時間:2025-06-18 23:47
說話人識別問題是通過語音特征來確定說話的人是誰。近年來,大多數(shù)學(xué)者仍然使用傳統(tǒng)的方法來提取語音特征,如梅爾頻率倒譜系數(shù),簡稱MFCC,但是由于真實環(huán)境比較復(fù)雜并且與實驗的環(huán)境相差很大,所以得到的結(jié)果差強人意。因此,我們應(yīng)尋求一種新的方法來提取語音特征并且達到較好的實際效果是非常有必要的。隨著人工智能技術(shù)不斷發(fā)展,利用深度學(xué)習(xí)的方法使人工智能技術(shù)快速的應(yīng)用到圖像、文本、以及語音識別等眾多領(lǐng)域,具體來講,漸漸形成了一種利用大數(shù)據(jù)獲取抽象特征并且這些抽象的特征都是自動提取的方法。其中,卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展使深度學(xué)習(xí)的研究達到一個新高度,通過卷積神經(jīng)網(wǎng)絡(luò)的特征提取來解決說話人識別問題,也受到廣泛關(guān)注。說話人識別方法有GMM-UBM模型,該模型在實際應(yīng)用中取得了不錯的成績,但是它仍然存在兩個主要的缺點:(1)模型采用的是EM算法進行迭代訓(xùn)練,該方法結(jié)構(gòu)復(fù)雜,訓(xùn)練時間較長,并且需要大量的內(nèi)存,泛化能力一般;(2)模型對數(shù)據(jù)的要求非常嚴格,因此需要相對應(yīng)的方法來生成指定的數(shù)據(jù)格式。本文針對說話人識別的問題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的說話人識別與聚類模型,該模型分為兩個部分,第一部分是使用聲音的頻譜圖作...
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外文獻綜述
1.3 深度學(xué)習(xí)與說話人識別
1.4 研究內(nèi)容及貢獻
1.5 本文組織結(jié)構(gòu)
第2章 相關(guān)研究
2.1 說話人識別原理
2.2 說話人特征提取
2.2.1 語音數(shù)據(jù)預(yù)處理
2.2.2 梅爾頻率倒譜系數(shù)
2.3 說話人識別模型
2.3.1 GMM-UBM說話人識別模型
2.3.2 HMM模型
2.3.3 高斯混合模型
2.3.4 EM模型
2.4 深度學(xué)習(xí)概述
2.4.1 卷積神經(jīng)網(wǎng)絡(luò)
2.4.2 受限玻耳茲曼機的網(wǎng)絡(luò)結(jié)構(gòu)
2.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第3章 說話人識別分析方法研究
3.1 說話人識別方法
3.2 說話人識別實驗
3.2.1 實驗平臺
3.2.2 實驗數(shù)據(jù)集
3.2.3 頻譜圖的獲取
3.2.4 說話人識別
3.3 實驗對比
3.3.1 GMM-UBM與CNN實驗對比
3.3.2 DNN與CNN實驗對比
3.4 本章小結(jié)
第4章 說話人聚類分析方法研究
4.1 說話人聚類方法介紹
4.1.1 Affinity Propagation介紹
4.1.2 PCA降維介紹
4.1.3 使用PCA以及Affinity Propagation分析
4.2 說話人聚類實驗
4.2.1 使用PCA降維可視化分析
4.2.2 使用AP聚類分析
4.3 本章小結(jié)
結(jié)論
參考文獻
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)成果
致謝
本文編號:4050524
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外文獻綜述
1.3 深度學(xué)習(xí)與說話人識別
1.4 研究內(nèi)容及貢獻
1.5 本文組織結(jié)構(gòu)
第2章 相關(guān)研究
2.1 說話人識別原理
2.2 說話人特征提取
2.2.1 語音數(shù)據(jù)預(yù)處理
2.2.2 梅爾頻率倒譜系數(shù)
2.3 說話人識別模型
2.3.1 GMM-UBM說話人識別模型
2.3.2 HMM模型
2.3.3 高斯混合模型
2.3.4 EM模型
2.4 深度學(xué)習(xí)概述
2.4.1 卷積神經(jīng)網(wǎng)絡(luò)
2.4.2 受限玻耳茲曼機的網(wǎng)絡(luò)結(jié)構(gòu)
2.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第3章 說話人識別分析方法研究
3.1 說話人識別方法
3.2 說話人識別實驗
3.2.1 實驗平臺
3.2.2 實驗數(shù)據(jù)集
3.2.3 頻譜圖的獲取
3.2.4 說話人識別
3.3 實驗對比
3.3.1 GMM-UBM與CNN實驗對比
3.3.2 DNN與CNN實驗對比
3.4 本章小結(jié)
第4章 說話人聚類分析方法研究
4.1 說話人聚類方法介紹
4.1.1 Affinity Propagation介紹
4.1.2 PCA降維介紹
4.1.3 使用PCA以及Affinity Propagation分析
4.2 說話人聚類實驗
4.2.1 使用PCA降維可視化分析
4.2.2 使用AP聚類分析
4.3 本章小結(jié)
結(jié)論
參考文獻
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)成果
致謝
本文編號:4050524
本文鏈接:http://www.lk138.cn/kejilunwen/wltx/4050524.html
最近更新
教材專著