Skip to content

Latest commit

 

History

History
17 lines (13 loc) · 1.03 KB

README.md

File metadata and controls

17 lines (13 loc) · 1.03 KB

categorization

文本分类

功能及使用


代码中使用了LIS与TF-IDF两种模型结合的方式对文本进行分类处理 ,默认类别为五类,项目中的五个txt文件为五类文本的语料库,默认使用环境为windows,待处理文本的存放位置为D:/ZNdaolun/Sun/text/

FunctionNote:

  • 语料库可自行更改,改变代码中对应路径即可.
  • 程序运行后可根据设置的相似度阈值对文本进行分类,并打印对应的类别及相似度.
  • 采用两种模型结合的方式对文本进行分类,可比较准确的区分类别不同的文本,采用200个文件进行测试准确度可达90%通过潜在语义分析可较准确的同词不同意的文本
  • 代码采用的方式整体比较基础,对于语义极其相近但类别不同的文本还需进一步完善功能。
  • 代码中使用的分词停用词表及gensim模块需要下载