categorization

文本分类

功能及使用

代码中使用了LIS与TF-IDF两种模型结合的方式对文本进行分类处理，默认类别为五类，项目中的五个txt文件为五类文本的语料库，默认使用环境为windows，待处理文本的存放位置为D:/ZNdaolun/Sun/text/

FunctionNote:

语料库可自行更改，改变代码中对应路径即可.

程序运行后可根据设置的相似度阈值对文本进行分类，并打印对应的类别及相似度.

采用两种模型结合的方式对文本进行分类，可比较准确的区分类别不同的文本，采用200个文件进行测试准确度可达90%通过潜在语义分析可较准确的同词不同意的文本

代码采用的方式整体比较基础，对于语义极其相近但类别不同的文本还需进一步完善功能。

代码中使用的分词停用词表及gensim模块需要下载

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
andiord.txt		andiord.txt
gao.txt		gao.txt
ios.txt		ios.txt
lee.txt		lee.txt
text_categorization.py		text_categorization.py
zhou.txt		zhou.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

categorization

文本分类

功能及使用

About

Releases

Packages

Languages

jryyufeng/categorization

Folders and files

Latest commit

History

Repository files navigation

categorization

文本分类

功能及使用

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages