面向社交網(wǎng)絡(luò)的科技領(lǐng)域事件檢測(cè)系統(tǒng)的研究與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.1傳統(tǒng)隨機(jī)超平面劃分
詞庫(kù)中的詞需要具有較高的類(lèi)別區(qū)分能力。在LSH散列時(shí)使用詞庫(kù)很大程度上可以獲得一定的運(yùn)行效率提升,此提升的程度因不同領(lǐng)域詞庫(kù)的類(lèi)別區(qū)分能力差異而有所區(qū)別。楊雨詩(shī)等人介紹了一種分類(lèi)詞庫(kù)構(gòu)造方法[58],該方法使用基于TFIDF的主成分分析法,得到詞庫(kù)中每個(gè)詞的權(quán)值,篩選出領(lǐng)....
圖4.1熱點(diǎn)話(huà)題發(fā)現(xiàn)系統(tǒng)的主要功能模塊組成
圖4.1熱點(diǎn)話(huà)題發(fā)現(xiàn)系統(tǒng)的主要功能模塊組成(3)系統(tǒng)架構(gòu)本系統(tǒng)各模塊之間相互獨(dú)立,同時(shí)又緊密結(jié)合,圖4.2為各主要功能模塊間的信息交互圖。Twitter文本采集模塊與無(wú)關(guān)詞濾除模塊直接相連,交互的信息為采集到的原始Twitter文本。無(wú)關(guān)詞濾除模塊分別與高質(zhì)量領(lǐng)域....
圖4.2各主要功能模塊間的信息交互
圖4.2各主要功能模塊間的信息交互4.3相關(guān)技術(shù)介紹本節(jié)對(duì)后續(xù)模塊設(shè)計(jì)中需要用到的技術(shù)棧進(jìn)行簡(jiǎn)要介紹。(1)ScrapyScrapy是一個(gè)基于Python的網(wǎng)頁(yè)抓取框架[61],用于從網(wǎng)頁(yè)中提取結(jié)構(gòu)化數(shù)據(jù)。包含的模塊有爬取引擎(ScrapyEngine)、調(diào)度器(Sc....
圖5.1系統(tǒng)整體處理流程圖
第五章系統(tǒng)實(shí)現(xiàn)與測(cè)試第五章系統(tǒng)實(shí)現(xiàn)與測(cè)試上一章對(duì)系統(tǒng)的設(shè)計(jì)進(jìn)行了詳細(xì)介紹。本章將結(jié)合基于詞庫(kù)改進(jìn)的科技領(lǐng)域事件檢測(cè)算法的優(yōu)勢(shì)與科技領(lǐng)域事件檢測(cè)問(wèn)題的特點(diǎn),對(duì)科技領(lǐng)域熱點(diǎn)話(huà)題發(fā)現(xiàn)系統(tǒng)的實(shí)現(xiàn)進(jìn)行詳細(xì)論述。該系統(tǒng)具有的功能有Twitter數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、Twitter文....
本文編號(hào):4056905
本文鏈接:http://www.lk138.cn/kejilunwen/ruanjiangongchenglunwen/4056905.html