可搜索壓縮算法的設計與實現及其在ClamAV中的應用
發(fā)布時間:2020-12-04 10:00
當前,由于互聯網技術的提高和網絡的飛速發(fā)展,數據信息出現了快速地增長。伴隨著數據量的增長,對海量數據的存儲、傳輸以及處理都出現了更高的要求。對大量的數據如何能夠在減少其空間占用的同時又能快速地對其進行檢索查找,成為了一個新的可以探索并且需要解決的問題。在本文中我們提出了一種方法,這種方法采用一種新的壓縮模式來對數據進行處理。與一般壓縮模式的處理方法不同的是,該壓縮模式在減少數據文件大小的同時,支持在壓縮文件中直接進行檢索查找等相關操作,從而達到了在減少數據存儲空間占用的同時對數據進行快速查找檢索的雙重目的。本文所提出的壓縮算法是采用基于壓縮字典的字符串替換方法,該方法對文本的處理是在字節(jié)流上進行處理,所以其適用于一切文件類型。其處理過程的主要思想是將文本中高頻出現的字節(jié)對(即連續(xù)的兩個字節(jié))與文本中低頻出現的單個字節(jié)進行交換。當文中我們選中的字節(jié)對出現的頻率高于文中我們選中的字節(jié)出現的頻率時,對文本進行壓縮,就會產生壓縮效果。對于自然文本,基本都會達到壓縮效果。另外,對用于進行壓縮的字節(jié)對和字節(jié),為避免壓縮和解壓過程出現二義性,需要對它們的選取加以限制,即所選取的任意兩個字節(jié)對之間不能...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:60 頁
【學位級別】:碩士
【部分圖文】:
本文的組織結構
圖 2.2 可查找壓縮模式的查找過程Manber 將該查找壓縮算法應用在了兩個查找程序中進行了實驗。實驗結下(作者的實驗運行在 DECstation 5000/240,Ultrix 上),單位為秒(s)
圖 4.1 ClamAV 系統(tǒng)結構圖C1amAV 反病毒系統(tǒng)的框架設計各部分分工明確,邏輯較為清晰,可從五面劃分:第一步,讀取病毒庫。系統(tǒng)通過調用 int c1_load()從指定路徑下讀取病。第二步,病毒引擎初始化。在病毒庫加載成功后,系統(tǒng)通過調用函數 i1_build()開始進行引擎加載及參數配置,其中涉及包括了對各算法數據結構始化。待各參數完成初始化后進行加載。用數字 0 來表明加載成功,其他說載不成功。第三步,初步檢查掃描。查毒系統(tǒng)通過調用 c1_scandesc()函數通過掃描傳入的文件特征和掃描參數調用對應的函數對文件進行初步的掃描。cli_scandesc()函數的執(zhí)行過程大致如下:系統(tǒng)先執(zhí)行精準模式匹配程序據輸入文件的類型對其進行查找,使用 BM 模式匹配算法調用函
本文編號:2897399
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:60 頁
【學位級別】:碩士
【部分圖文】:
本文的組織結構
圖 2.2 可查找壓縮模式的查找過程Manber 將該查找壓縮算法應用在了兩個查找程序中進行了實驗。實驗結下(作者的實驗運行在 DECstation 5000/240,Ultrix 上),單位為秒(s)
圖 4.1 ClamAV 系統(tǒng)結構圖C1amAV 反病毒系統(tǒng)的框架設計各部分分工明確,邏輯較為清晰,可從五面劃分:第一步,讀取病毒庫。系統(tǒng)通過調用 int c1_load()從指定路徑下讀取病。第二步,病毒引擎初始化。在病毒庫加載成功后,系統(tǒng)通過調用函數 i1_build()開始進行引擎加載及參數配置,其中涉及包括了對各算法數據結構始化。待各參數完成初始化后進行加載。用數字 0 來表明加載成功,其他說載不成功。第三步,初步檢查掃描。查毒系統(tǒng)通過調用 c1_scandesc()函數通過掃描傳入的文件特征和掃描參數調用對應的函數對文件進行初步的掃描。cli_scandesc()函數的執(zhí)行過程大致如下:系統(tǒng)先執(zhí)行精準模式匹配程序據輸入文件的類型對其進行查找,使用 BM 模式匹配算法調用函
本文編號:2897399
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/2897399.html