-
Notifications
You must be signed in to change notification settings - Fork 10.3k
FAQ
hankcs edited this page Dec 27, 2016
·
20 revisions
这里收录了一些常见问题,在盲目发issue之前,请善用CTRL+F来寻找你感兴趣的问题,其很有可能就在下面。
- 修改了任何词典都必须删除缓存才能生效,请仔细阅读文档!
- 基于统计模型的分词器不保证词典中的词语一定被切分出来。
- 参考上一个问题。
- 词语、词性、频次之间的分隔符为空格,所以词语本身不能含有空格,否则词语的某个部分会被视作词性,引发上一个问题。
HanLP只兼容文本格式的CRF++模型,只有文本才是世界通用的,这是最初的设计宗旨之一。请阅读《CRF++模型格式说明》以了解如何训练文本格式的CRF++模型。
- 请先学习“词典分词”与“统计模型分词”的区别(必须)!
- HanLP中有许多分词器,实现了几乎所有的分词算法 其中一些是前者,一些是后者,可以从继承关系区别
- 所以不要用“最大词”“最长词”之类的描述以偏概全,两大类分词器的原理完全不同。
- 如果你能区分“词典分词”与“统计模型分词”的话,那么你的问题就全明白了。否则,我只能简单地告诉你,词典分词是按最长词,统计分词可以调整模型来达到你的目的。
HanLP: Han Language Processing - Natural Language Processing for the next decade