倒排索引壓縮算法研究綜述
發(fā)布時間:2024-06-07 04:52
不斷增長的互聯(lián)網網頁信息和成千上萬的用戶查詢請求給搜索引擎的索引更新和查詢訪問帶來了前所未有的實時性挑戰(zhàn).高效的索引壓縮算法能夠降低索引數(shù)據的存儲和傳輸開銷,加快處理器對索引數(shù)據的處理速度,因此能直接影響搜索引擎系統(tǒng)的查詢性能.首先,概述了倒排索引中倒排鏈表所包含的d-gap和freq整數(shù)序列的存儲結構,并依據壓縮碼字的對齊方式對倒排索引壓縮算法進行分類;其次,詳細闡述了當前流行的字對齊壓縮算法,并總結了Simple、Frame of Reference(FOR)、Optimized Chunk Splitting(OCS)等幾類典型的倒排索引壓縮算法;之后,綜述了倒排索引壓縮算法的SIM D并行化研究,即采用SIMD指令集中Shuffle數(shù)據置換和垂直布局存儲來加速算法對d-gap整數(shù)序列的并行處理性能.然后,針對壓縮倒排索引的隨機訪問問題,綜述了通常采用的自索引技術和原始序列壓縮算法兩種策略.最后,對倒排索引壓縮算法在搜索引擎系統(tǒng)中的應用進行了分析和總結并對未來倒排索引壓縮算法可能的研究方向進行了探討和展望.
【文章頁數(shù)】:9 頁
【文章目錄】:
1 引言
2 傳統(tǒng)倒排索引壓縮算法
3 機器字對齊壓縮算法
4 基于SIMD指令集的壓縮算法
5 壓縮倒排索引的隨機訪問策略
5.1 自索引采樣技術
5.2 局部隨機訪問技術
6 搜索引擎系統(tǒng)中的壓縮算法
7 總結與展望
本文編號:3990806
【文章頁數(shù)】:9 頁
【文章目錄】:
1 引言
2 傳統(tǒng)倒排索引壓縮算法
3 機器字對齊壓縮算法
4 基于SIMD指令集的壓縮算法
5 壓縮倒排索引的隨機訪問策略
5.1 自索引采樣技術
5.2 局部隨機訪問技術
6 搜索引擎系統(tǒng)中的壓縮算法
7 總結與展望
本文編號:3990806
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/3990806.html
教材專著