FAQ

Jump to bottom

hankcs edited this page Dec 14, 2015 · 20 revisions

FAQ

常见问题

为什么修改了词典还是没有效果？

修改了任何词典都必须删除缓存才能生效，请仔细阅读文档！
基于统计模型的分词器不保证词典中的词语一定被切分出来。

为什么自定义词性“新词 SomeLabel 100”无法生效？

词性是enum类型，不是String，所以你需要往Nature enum类里面加自定义词性。enum类型的词性比String省内存，还可以方便地转成int参与矩阵运算，相对于损失的灵活度而言，无疑是值得的。

为什么加载我自己训练的CRF++模型失败了？

HanLP只兼容文本格式的CRF++模型，只有文本才是世界通用的，这是最初的设计宗旨之一。请阅读《CRF++模型格式说明》以了解如何训练文本格式的CRF++模型。

分词器是按最长词切分的吗？可以配置吗？

请先学习“词典分词”与“统计模型分词”的区别（必须）！
HanLP中有许多分词器，实现了几乎所有的分词算法其中一些是前者，一些是后者，可以从继承关系区别
所以不要用“最大词”“最长词”之类的描述以偏概全，两大类分词器的原理完全不同。
如果你能区分“词典分词”与“统计模型分词”的话，那么你的问题就全明白了。否则，我只能简单地告诉你，词典分词是按最长词，统计分词可以调整模型来达到你的目的。

HanLP: Han Language Processing - Natural Language Processing for the next decade