代码中使用了LIS与TF-IDF两种模型结合的方式对文本进行分类处理 ,默认类别为五类,项目中的五个txt文件为五类文本的语料库,默认使用环境为windows,待处理文本的存放位置为D:/ZNdaolun/Sun/text/
FunctionNote:
- 语料库可自行更改,改变代码中对应路径即可.
- 程序运行后可根据设置的相似度阈值对文本进行分类,并打印对应的类别及相似度.
- 采用两种模型结合的方式对文本进行分类,可比较准确的区分类别不同的文本,采用200个文件进行测试准确度可达90%通过潜在语义分析可较准确的同词不同意的文本
- 代码采用的方式整体比较基础,对于语义极其相近但类别不同的文本还需进一步完善功能。
- 代码中使用的分词停用词表及gensim模块需要下载