Hou66650 / - Public

Notifications You must be signed in to change notification settings
Fork 0
Star 1

2024年数维杯数学建模，机器学习，深度学习，随机森林等训练可视化

Apache-2.0 license

1 star 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Appendix 1.csv		Appendix 1.csv
Appendix 2 .csv		Appendix 2 .csv
LICENSE		LICENSE
README.md		README.md
cleaner_test.py		cleaner_test.py
data_cleaner.py		data_cleaner.py
visuals.py		visuals.py
题目三用PHA解法.ipynb		题目三用PHA解法.ipynb

Repository files navigation

数维杯数学建模比赛

题目选择

在题目选择方面，我们选择了这次难度较大且数据量较大的D题其中，__数据预处理__部分涉及到以下几个方面：

判断把缺失数据删除还是填补缺失数据
涉及到统计每个字段数据的缺失数
1. 若删除缺失数据，最好将该列所有删除
2. 填补缺失数据
  1. 查看每个字段在问题背景下的具体含义，从而决定如何填补
  2. 具体来说，一般包括：
    - 把数值设置为0
    - 取众数
    - 取均值
不同数值类型的转换（这里涉及到百分数转小数）
一些集成数据的拆分与处理，类似于parkingspace-->10（1：2）类型
数据填补完成后涉及到数据的标准化和归一化
1. 对于数值型变量，常用的方法包括：
  - Min-Max Normalization
  - Z-score Normalization
  - Decimal Scaling
  - Log Transformation
  - tips：若数据符合偏正态分布，我们可以使用Log transformation,对数据进行处理，以使得他回到正态分布的情况
2. 对于非数值型数据，常用one-hot方式进行处理
相关性分析，从而筛选出和预测变量相关性较强的其他变量，将相关度设定阈值，可当作一个敏感性分析的方向

About

2024年数维杯数学建模，机器学习，深度学习，随机森林等训练可视化

Apache-2.0 license

Report repository

Releases

No releases published

Packages

No packages published

Languages