中文分詞模型詞典融入方法比較
發(fā)布時(shí)間:2025-04-18 02:16
基于統(tǒng)計(jì)的方法一般采用人工標(biāo)注的句子級(jí)的標(biāo)注語料進(jìn)行訓(xùn)練,但是這種方法往往忽略了已有的經(jīng)過多年積累的人工標(biāo)注的詞典信息。這些信息尤其是在面向跨領(lǐng)域時(shí),由于目標(biāo)領(lǐng)域句子級(jí)別的標(biāo)注資源稀少,從而顯得更加珍貴。因此,如何充分且有效地在基于統(tǒng)計(jì)的模型中利用詞典信息是一個(gè)非常值得關(guān)注的工作。最近已有部分工作對(duì)它進(jìn)行了研究,按照詞典信息融入方式大致可以分為兩類:一類是在基于字的序列標(biāo)注模型中融入詞典特征;另一類是在基于詞的柱搜索模型中融入特征。對(duì)這兩類方法進(jìn)行比較,并進(jìn)一步進(jìn)行結(jié)合。實(shí)驗(yàn)表明,這兩類方法結(jié)合之后,詞典信息可以得到更充分的利用,最終無論是在同領(lǐng)域測試和還是在跨領(lǐng)域測試上都取得了更優(yōu)的性能。
【文章頁數(shù)】:4 頁
【文章目錄】:
0 引言
1 相關(guān)工作
2 基于字的序列標(biāo)注模型
2.1 CRF中文分詞模型
2.2 詞典信息的融入
3 基于詞的柱搜索模型
3.1 基本模型介紹
3.2 詞典信息的融入
4 模型對(duì)比和結(jié)合
5 實(shí)驗(yàn)
5.1 相同領(lǐng)域性能
5.2 跨領(lǐng)域性能
5.3 模型對(duì)比分析
6 結(jié)束語
本文編號(hào):4040364
【文章頁數(shù)】:4 頁
【文章目錄】:
0 引言
1 相關(guān)工作
2 基于字的序列標(biāo)注模型
2.1 CRF中文分詞模型
2.2 詞典信息的融入
3 基于詞的柱搜索模型
3.1 基本模型介紹
3.2 詞典信息的融入
4 模型對(duì)比和結(jié)合
5 實(shí)驗(yàn)
5.1 相同領(lǐng)域性能
5.2 跨領(lǐng)域性能
5.3 模型對(duì)比分析
6 結(jié)束語
本文編號(hào):4040364
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/4040364.html
最近更新
教材專著