Skip to content
/ - Public

2024年数维杯数学建模,机器学习,深度学习,随机森林等训练可视化

License

Notifications You must be signed in to change notification settings

Hou66650/-

Repository files navigation

数维杯数学建模比赛

题目选择

在题目选择方面,我们选择了这次难度较大且数据量较大的D题 其中,__数据预处理__部分涉及到以下几个方面:

  1. 判断把缺失数据删除还是填补缺失数据
  2. 涉及到统计每个字段数据的缺失数
    1. 若删除缺失数据,最好将该列所有删除
    2. 填补缺失数据
      1. 查看每个字段在问题背景下的具体含义,从而决定如何填补
      2. 具体来说,一般包括:
        • 把数值设置为0
        • 取众数
        • 取均值
  3. 不同数值类型的转换(这里涉及到百分数转小数)
  4. 一些集成数据的拆分与处理,类似于parkingspace-->10(1:2)类型
  5. 数据填补完成后涉及到数据的标准化和归一化
    1. 对于数值型变量,常用的方法包括:
      • Min-Max Normalization
      • Z-score Normalization
      • Decimal Scaling
      • Log Transformation
      • tips:若数据符合偏正态分布,我们可以使用Log transformation,对数据进行处理,以使得他回到正态分布的情况
    2. 对于非数值型数据,常用one-hot方式进行处理
  6. 相关性分析,从而筛选出和预测变量相关性较强的其他变量,将相关度设定阈值,可当作一个敏感性分析的方向

About

2024年数维杯数学建模,机器学习,深度学习,随机森林等训练可视化

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published