基于深度學(xué)習(xí)的數(shù)字取證中文件碎片類型檢測(cè)算法研究
發(fā)布時(shí)間:2020-10-30 12:45
數(shù)字取證是信息安全領(lǐng)域的重要研究?jī)?nèi)容之一,并廣泛應(yīng)用于刑偵取證和司法取證等領(lǐng)域。在刑偵取證領(lǐng)域中,需要提取嫌疑人的各類圖片、音頻、文字等數(shù)字化的文件用于對(duì)嫌疑人的犯罪事實(shí)的判別。然而刑偵取證和司法取證過程中的數(shù)字信息往往是不完整或者被惡意損壞的,高效的雕復(fù)這些文件的重要前提就是正確地檢測(cè)文件碎片類型。提高文件碎片檢測(cè)準(zhǔn)確率,進(jìn)而就能提高文件雕復(fù)的速度,從而優(yōu)化數(shù)字取證的過程。然而,數(shù)字取證中文件碎片類型檢測(cè)算法的研究,存在兩個(gè)主要難點(diǎn)問題,其一是由于嫌疑人的惡意破壞或篡改,使得原始文件常常丟失文件元信息,使文件碎片類型檢測(cè)的準(zhǔn)確率降低;其二是壓縮或者復(fù)合的高熵文件類型具有高度相似的統(tǒng)計(jì)學(xué)特征,使類型檢測(cè)難度加大。本文針對(duì)上述兩個(gè)難點(diǎn)問題,提出了基于深度學(xué)習(xí)的數(shù)字取證中文件碎片類型檢測(cè)算法。傳統(tǒng)的機(jī)器學(xué)習(xí),通過人工提取N-Gram,香農(nóng)熵或漢明權(quán)重等特征來實(shí)現(xiàn)文件碎片類型檢測(cè)。由于這些方法在特征提取中更偏向于統(tǒng)計(jì)學(xué)特征,對(duì)結(jié)構(gòu)特征考慮較少,故其文件碎片類型檢測(cè)中的準(zhǔn)確率并不高。本文首先對(duì)公共數(shù)據(jù)集進(jìn)行去除文件元信息的預(yù)處理,使原始數(shù)據(jù)集的類型檢測(cè)更具有挑戰(zhàn)性,并復(fù)現(xiàn)了基于人工特征提取與支持向量機(jī)相結(jié)合的算法對(duì)文件碎片進(jìn)行類型檢測(cè)。隨后提出了一種基于文件碎片灰度圖像轉(zhuǎn)換和深度學(xué)習(xí)的新方法,將二進(jìn)制數(shù)據(jù)映射到圖像空間中為了提取更多的隱藏特征,從而提高分類的準(zhǔn)確性。受益于多層特征映射的優(yōu)越,我們的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可通過神經(jīng)元之間的非線性連接提取近十萬個(gè)特征。本文將提出的基于數(shù)字圖像灰度轉(zhuǎn)化和深度學(xué)習(xí)的文件碎片類型檢測(cè)算法在公共數(shù)據(jù)集Gov Docs上進(jìn)行了訓(xùn)練和測(cè)試,最終取得了良好的實(shí)驗(yàn)結(jié)果。
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.41;D918
【部分圖文】:
在本文的 2.4.1 小節(jié)中,就 N-gram 與 Unigram,Bigram 進(jìn)行過詳細(xì)介紹,故本章不進(jìn)行重復(fù)介紹。由于本文中 Unigram 含有82 = 256個(gè)特征,Bigram 含有162 = 655536 個(gè)特征,如果繼續(xù)加入 Trigram 會(huì)使特征向量過于稀疏,故本文提取 Unigram+Bigram 的特征向量作為支持向量機(jī)學(xué)習(xí)的特征值,如圖 3-2 所示,“FF”即為 Unigram,而“0B 0D”為 Bigram。
不同核函數(shù)不同數(shù)據(jù)集數(shù)量的準(zhǔn)確率
不同核函數(shù)不同數(shù)據(jù)集時(shí)間對(duì)比圖
【參考文獻(xiàn)】
本文編號(hào):2862494
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.41;D918
【部分圖文】:
在本文的 2.4.1 小節(jié)中,就 N-gram 與 Unigram,Bigram 進(jìn)行過詳細(xì)介紹,故本章不進(jìn)行重復(fù)介紹。由于本文中 Unigram 含有82 = 256個(gè)特征,Bigram 含有162 = 655536 個(gè)特征,如果繼續(xù)加入 Trigram 會(huì)使特征向量過于稀疏,故本文提取 Unigram+Bigram 的特征向量作為支持向量機(jī)學(xué)習(xí)的特征值,如圖 3-2 所示,“FF”即為 Unigram,而“0B 0D”為 Bigram。
不同核函數(shù)不同數(shù)據(jù)集數(shù)量的準(zhǔn)確率
不同核函數(shù)不同數(shù)據(jù)集時(shí)間對(duì)比圖
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 曹鼎;羅軍勇;;改進(jìn)的基于內(nèi)容的文件類型識(shí)別算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年12期
2 曹鼎;羅軍勇;尹美娟;;基于變長(zhǎng)元組的文件類型識(shí)別算法[J];計(jì)算機(jī)應(yīng)用;2011年07期
本文編號(hào):2862494
本文鏈接:http://www.lk138.cn/shekelunwen/gongan/2862494.html
最近更新
教材專著