中文分詞模型詞典融入方法比較

發(fā)布時(shí)間：2025-04-18 02:16

　　基于統(tǒng)計(jì)的方法一般采用人工標(biāo)注的句子級(jí)的標(biāo)注語料進(jìn)行訓(xùn)練,但是這種方法往往忽略了已有的經(jīng)過多年積累的人工標(biāo)注的詞典信息。這些信息尤其是在面向跨領(lǐng)域時(shí),由于目標(biāo)領(lǐng)域句子級(jí)別的標(biāo)注資源稀少,從而顯得更加珍貴。因此,如何充分且有效地在基于統(tǒng)計(jì)的模型中利用詞典信息是一個(gè)非常值得關(guān)注的工作。最近已有部分工作對(duì)它進(jìn)行了研究,按照詞典信息融入方式大致可以分為兩類:一類是在基于字的序列標(biāo)注模型中融入詞典特征;另一類是在基于詞的柱搜索模型中融入特征。對(duì)這兩類方法進(jìn)行比較,并進(jìn)一步進(jìn)行結(jié)合。實(shí)驗(yàn)表明,這兩類方法結(jié)合之后,詞典信息可以得到更充分的利用,最終無論是在同領(lǐng)域測試和還是在跨領(lǐng)域測試上都取得了更優(yōu)的性能。

【文章頁數(shù)】：4 頁

【文章目錄】：
0 引言
1 相關(guān)工作
2 基于字的序列標(biāo)注模型
    2.1 CRF中文分詞模型
    2.2 詞典信息的融入
3 基于詞的柱搜索模型
    3.1 基本模型介紹
    3.2 詞典信息的融入
4 模型對(duì)比和結(jié)合
5 實(shí)驗(yàn)
    5.1 相同領(lǐng)域性能
    5.2 跨領(lǐng)域性能
    5.3 模型對(duì)比分析
6 結(jié)束語

本文編號(hào)：4040364

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/4040364.html

上一篇：基于過程管理視角的開放式創(chuàng)新關(guān)系治理研究
下一篇：混合共生生物搜索算法求解置換流水車間調(diào)度問題

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

中文分詞模型詞典融入方法比較