categorization

文本分类

功能及使用

代码中使用了LIS与TF-IDF两种模型结合的方式对文本进行分类处理，默认类别为五类，项目中的五个txt文件为五类文本的语料库，默认使用环境为windows，待处理文本的存放位置为D:/ZNdaolun/Sun/text/

FunctionNote:

语料库可自行更改，改变代码中对应路径即可.

程序运行后可根据设置的相似度阈值对文本进行分类，并打印对应的类别及相似度.

采用两种模型结合的方式对文本进行分类，可比较准确的区分类别不同的文本，采用200个文件进行测试准确度可达90%通过潜在语义分析可较准确的同词不同意的文本

代码采用的方式整体比较基础，对于语义极其相近但类别不同的文本还需进一步完善功能。

代码中使用的分词停用词表及gensim模块需要下载

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

categorization

文本分类

功能及使用

Files

README.md

Latest commit

History

README.md

File metadata and controls

categorization

文本分类

功能及使用