基于高效用模式和多分配圖劃分的推特突發(fā)事件檢測研究
發(fā)布時間:2025-07-02 04:47
推特(Twitter)突發(fā)事件檢測是從推文數(shù)據(jù)中檢測出突發(fā)事件相關信息的過程,該工作廣泛應用于新聞獲取、輿情分析、災難事件檢測等領域中。傳統(tǒng)的推特突發(fā)事件檢測方法存在兩個問題:首先,頻繁項集挖掘算法簡單地挖掘出所有出現(xiàn)頻數(shù)大于支持度的項集,而忽略了不同單詞具有不同權重的問題;其次,突發(fā)詞可以屬于多個事件,而傳統(tǒng)的單分配聚類算法只將一個突發(fā)詞分配給一個事件。本文對Twitter突發(fā)事件檢測相關問題展開了研究,主要工作如下:(1)面向事件檢測的時間信息抽取。時間信息是事件的重要要素之一,廣泛應用于事件檢測與跟蹤研究中。針對傳統(tǒng)的基于規(guī)則的識別方法召回率低且難以識別事件類中文時間表達式的缺點,提出一種規(guī)則與統(tǒng)計相結合的中文時間表達式識別方法。首先,將中文時間表達式分為7類,以時間基元為單位總結正則規(guī)則,以降低規(guī)則制定的復雜度;然后,利用正則規(guī)則識別中文時間表達式,自動標注訓練集,同時,人工標注出基于規(guī)則的方法無法識別的事件類中文時間表達式,利用標注完的訓練集訓練條件隨機場模型(CRF)。實驗結果表明該方法顯著降低了標注工作量,提高了識別的召回率,F1值達88.73%,比基于規(guī)則的識別提高了6....
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究內(nèi)容
1.3 論文結構
1.4 本章小結
第二章 相關工作
2.1 Twitter的特征
2.2 事件的定義及組成要素
2.3 中文時間表達式識別的研究現(xiàn)狀
2.4 Twitter突發(fā)事件檢測的研究現(xiàn)狀
2.4.1 基于突發(fā)詞的檢測方法
2.4.2 基于主題模型的檢測方法
2.4.3 基于文檔的檢測方法
2.5 Twitter突發(fā)事件檢測面臨的挑戰(zhàn)
2.6 本章小結
第三章 規(guī)則與統(tǒng)計相結合的中文時間表達式識別研究
3.1 引言
3.2 中文時間表達式分類及系統(tǒng)總體架構
3.2.1 中文時間表達式分類
3.2.2 系統(tǒng)總體架構
3.3 基于規(guī)則的識別方法
3.3.1 基于時間基元的正則規(guī)則
3.3.2 時間基元的合并
3.3.3 時間綴詞
3.4 基于統(tǒng)計的識別方法
3.4.1 條件隨機場算法
3.4.2 語義角色
3.4.3 特征提取與特征選擇
3.4.4 BIO標注
3.5 實驗結果與分析
3.5.1 數(shù)據(jù)集及實驗工具包
3.5.2 評價指標
3.5.3 實驗結果與分析
3.6 本章小結
第四章 基于高效用模式和多分配圖劃分的推特突發(fā)事件檢測研究
4.1 引言
4.2 高效用模式挖掘(HUPM)
4.2.1 相關定義
4.2.2 推文中單詞的外部效用值
4.2.3 效用值列表構造
4.2.4 最小效用閾值設定
4.2.5 高效用模式挖掘算法
4.3 多分配圖劃分算法
4.3.1 相關定義
4.3.2 多分配圖劃分算法
4.3.3 一種近似多分配圖聚類算法
4.3.4 聚類數(shù)量的選擇
4.4 算法流程
4.5 數(shù)據(jù)集與參數(shù)選擇
4.5.1 數(shù)據(jù)集
4.5.2 數(shù)據(jù)預處理
4.5.3 Twitter突發(fā)事件檢測的評價指標
4.6 實驗結果及分析
4.6.1 參數(shù)選擇
4.6.2 性能對比
4.6.3 時間性能
4.7 本章小結
第五章 總結與展望
5.1 總結
5.2 展望
參考文獻
攻讀學位期間的學術活動及成果情況
本文編號:4055261
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究內(nèi)容
1.3 論文結構
1.4 本章小結
第二章 相關工作
2.1 Twitter的特征
2.2 事件的定義及組成要素
2.3 中文時間表達式識別的研究現(xiàn)狀
2.4 Twitter突發(fā)事件檢測的研究現(xiàn)狀
2.4.1 基于突發(fā)詞的檢測方法
2.4.2 基于主題模型的檢測方法
2.4.3 基于文檔的檢測方法
2.5 Twitter突發(fā)事件檢測面臨的挑戰(zhàn)
2.6 本章小結
第三章 規(guī)則與統(tǒng)計相結合的中文時間表達式識別研究
3.1 引言
3.2 中文時間表達式分類及系統(tǒng)總體架構
3.2.1 中文時間表達式分類
3.2.2 系統(tǒng)總體架構
3.3 基于規(guī)則的識別方法
3.3.1 基于時間基元的正則規(guī)則
3.3.2 時間基元的合并
3.3.3 時間綴詞
3.4 基于統(tǒng)計的識別方法
3.4.1 條件隨機場算法
3.4.2 語義角色
3.4.3 特征提取與特征選擇
3.4.4 BIO標注
3.5 實驗結果與分析
3.5.1 數(shù)據(jù)集及實驗工具包
3.5.2 評價指標
3.5.3 實驗結果與分析
3.6 本章小結
第四章 基于高效用模式和多分配圖劃分的推特突發(fā)事件檢測研究
4.1 引言
4.2 高效用模式挖掘(HUPM)
4.2.1 相關定義
4.2.2 推文中單詞的外部效用值
4.2.3 效用值列表構造
4.2.4 最小效用閾值設定
4.2.5 高效用模式挖掘算法
4.3 多分配圖劃分算法
4.3.1 相關定義
4.3.2 多分配圖劃分算法
4.3.3 一種近似多分配圖聚類算法
4.3.4 聚類數(shù)量的選擇
4.4 算法流程
4.5 數(shù)據(jù)集與參數(shù)選擇
4.5.1 數(shù)據(jù)集
4.5.2 數(shù)據(jù)預處理
4.5.3 Twitter突發(fā)事件檢測的評價指標
4.6 實驗結果及分析
4.6.1 參數(shù)選擇
4.6.2 性能對比
4.6.3 時間性能
4.7 本章小結
第五章 總結與展望
5.1 總結
5.2 展望
參考文獻
攻讀學位期間的學術活動及成果情況
本文編號:4055261
本文鏈接:http://www.lk138.cn/kejilunwen/shengwushengchang/4055261.html
最近更新
教材專著