中文纠错-使用拼音树及编辑距离(java版)
主要采用的技术及框架 (1)HanLP: 将汉字转为拼音,后期考虑句法分析,去掉无关成分来进行纠错,以减少匹配时间 (2)BKTree:保存词典,比较高效 (3)Lucene:模糊搜索的功能,结合同义词等(待优化)
关于中文纠错的一些想法 1.将行业专业词典写入txt文件(每行一个词语) (1)汉字比对:将词典加入BKTree,通过编辑距离,并设置阈值,来搜索到最接近的词典------(效果一般) (2)拼音比对:遍历词典,结合HanLP将汉字转为拼音,然后加入BKTree,通过编辑距离,并设置阈值,来搜索到最接近的词典 (效果还不错) (3) 结合Lucene的拼写检查来搜索最接近的词典 (效果还行)
备注: 先判断输入文本长度,小于一定的阈值(5),直接进行Tree树搜索 否则需要先进行分词,按2-gram或3-gram组合进行搜索,后期结合句法成分分析,按名词性短语或者主干成分进行搜索