基于混合卷積神經(jīng)網(wǎng)絡(luò)模型的音頻場景分類

發(fā)布時間：2025-04-01 04:38

　　音頻信號包含很多信息內(nèi)容,通過音頻信號處理技術(shù),人們可以更好感知和理解周圍的環(huán)境,因此該技術(shù)已經(jīng)被廣泛應(yīng)用于監(jiān)控、助聽器設(shè)備和智能終端等領(lǐng)域。音頻標(biāo)簽數(shù)據(jù)相比于圖像信息數(shù)據(jù)采集更簡單,占用內(nèi)存更小,記錄的音頻標(biāo)簽很容易表達(dá)出信息內(nèi)容。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,對于音頻場景分類算法的應(yīng)用研究越來越多。音頻場景分類是通過對音頻標(biāo)簽信息進(jìn)行分析,理解音頻語義特證,從而達(dá)到識別和理解周圍環(huán)境內(nèi)容的目的。音頻場景分類的系統(tǒng)設(shè)計包括特征提取和分類器模型構(gòu)建兩部分。采用的特征提取方式主要有梅爾聲譜圖和梅爾頻率倒譜系數(shù)。在相同卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和模型參數(shù)下,分別采用這兩種特征進(jìn)行提取和分類實驗。實驗結(jié)果顯示梅爾頻率倒譜系數(shù)可以更好展現(xiàn)不同類別音頻信號本質(zhì)特征的差異,并且每類音頻場景標(biāo)簽的精確率結(jié)果都比梅爾聲譜圖要高。卷積神經(jīng)網(wǎng)絡(luò)通過對音頻信號的圖像特征進(jìn)行非線性特征映射,通過有效訓(xùn)練來提高模型的性能。由于單一的卷積神經(jīng)網(wǎng)絡(luò)分類容易產(chǎn)生過擬合等問題,所以需要對系統(tǒng)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行優(yōu)化實驗,主要引進(jìn)了長短時記憶網(wǎng)絡(luò)和極度梯度提升算法。考慮到音頻信號具有時序性,在卷積神經(jīng)網(wǎng)絡(luò)提取抽象特征之后引入了長短時記憶網(wǎng)絡(luò)...

【文章頁數(shù)】：62 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖2.1音頻場景分類基本原理

內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-9-2音頻場景分類理論基礎(chǔ)本章2.1節(jié)主要介紹了音頻場景分類問題的基本流程，主要對音頻信號進(jìn)行預(yù)處理，預(yù)處理之后進(jìn)行特征提取，提取到的特征由神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和分類。2.2節(jié)介紹了音頻預(yù)處理的過程，預(yù)處理是對音頻信號進(jìn)行預(yù)加重、分幀和加窗操作。2.3....

圖2.2幀長和幀移

內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-11-圖2.2幀長和幀移2.2.3加窗通過分幀將音頻信號分成每一幀信號，每一幀信號兩端將丟失一些信息，音頻信息不再根據(jù)時間連續(xù)音頻信息內(nèi)容，分幀的操作越多，越容易丟失音頻信息，不能很好的表達(dá)音頻特性，通過引入窗函數(shù)與幀信號進(jìn)行相乘，使分幀之后的幀信號內(nèi)....

圖2.3梅爾聲譜圖提取過程

內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-12-就會降低。對于音頻場景分類加窗函數(shù)選取漢明窗，采用漢明窗的函數(shù)使頻譜來變得光滑，有利于表達(dá)音頻的特性。2.3特征提取音頻場景分類系統(tǒng)模型中，特征提取是重要的一步，決定了能不能準(zhǔn)確有效的提取出音頻信號的特性。不同的音頻信號提取的特征要有很大的音頻信....

圖3.1CNN網(wǎng)絡(luò)結(jié)構(gòu)

內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-19-3基于CNN的音頻場景分類本章3.1節(jié)主要介紹基于CNN的基本原理與學(xué)習(xí)過程，對卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析。3.2節(jié)主要進(jìn)行Mel聲譜圖和MFCC特征提取，得到城市音頻數(shù)據(jù)集的特征圖，在相同卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)下對這兩種特征提取方式進(jìn)行對比實驗，....

本文編號：4038931

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.lk138.cn/shoufeilunwen/xixikjs/4038931.html

上一篇：基于智能手機(jī)的光學(xué)相機(jī)通信系統(tǒng)設(shè)計與實現(xiàn)
下一篇：沒有了

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于混合卷積神經(jīng)網(wǎng)絡(luò)模型的音頻場景分類