Skip to content
hankcs edited this page Mar 24, 2017 · 20 revisions

FAQ

这里收录了一些常见问题,在盲目发issue之前,请善用CTRL+F来寻找你感兴趣的问题,其很有可能就在下面。社区不再回复重复的提问,谢谢合作。


为什么修改了词典还是没有效果?

  • 修改了任何词典都必须删除缓存才能生效,请仔细阅读文档!
  • 请遵循首页文档HanLP词典格式,目前该格式规范暂不支持含有空格的词条。
  • 基于统计模型的分词器不保证词典中的词语一定被切分出来。

为什么自定义词典加载失败?

  • 参考上一个问题。
  • 词语、词性、频次之间的分隔符为空格,所以词语本身不能含有空格,否则词语的某个部分会被视作词性,引发上一个问题。

为什么加载我自己训练的CRF++模型失败了?

HanLP只兼容文本格式的CRF++模型,只有文本才是世界通用的,这是最初的设计宗旨之一。请阅读《CRF++模型格式说明》以了解如何训练文本格式的CRF++模型。

分词器是按最长词切分的吗?可以配置吗?

  1. 请先学习“词典分词”与“统计模型分词”的区别(必须)!
  2. HanLP中有许多分词器,实现了几乎所有的分词算法 image其中一些是前者,一些是后者,可以从继承关系区别
  3. 所以不要用“最大词”“最长词”之类的描述以偏概全,两大类分词器的原理完全不同。
  4. 如果你能区分“词典分词”与“统计模型分词”的话,那么你的问题就全明白了。否则,我只能简单地告诉你,词典分词是按最长词,统计分词可以调整模型来达到你的目的。

配置文件太麻烦了,我也不懂什么是classpath

  1. 这是Java程序员的基础
  2. https://github.com/hankcs/HanLP/issues/419

为什么某某分词器可以分出这个词而某某分词器不能?为什么不能按我的分词标准来?

  1. 分词标准取决于语料库标准,在开发分词器之前一切都确定了。
  2. HanLP附带了训练工具,欢迎按你的标准自备语料,然后用此工具训练。

有没有客服?QQ群?论坛?版主?

  1. 没有,所有人都是平等的。
  2. https://github.com/hankcs/HanLP/issues/445

Solr\ElasticSearch集成报错、自定义词典、停用词?

  1. 我只开发过Lucene插件。Solr\ElasticSearch理论上应该基于Lucene。
  2. 但其他插件作者可能有自己的实现,并没有调用HanLP的自定义词典、停用词功能。所以推荐不依赖插件,直接用Lucene或solr自带的filter实现停用词。
  3. 不过我可以提供额外帮助,只需你fork一份,用JUnit复现你的问题,提供友好的开发测试环境。

项目打包,如何把hanlp.properties打包进jar?

https://github.com/hankcs/HanLP/issues/448

自定义词典报错java.lang.NumberFormatException: For input string

https://github.com/hankcs/HanLP/issues/444

人名、地名、机构名识别错误

https://github.com/hankcs/HanLP/issues/407