在题目选择方面,我们选择了这次难度较大且数据量较大的D题 其中,__数据预处理__部分涉及到以下几个方面:
- 判断把缺失数据删除还是填补缺失数据
- 涉及到统计每个字段数据的缺失数
- 若删除缺失数据,最好将该列所有删除
- 填补缺失数据
- 查看每个字段在问题背景下的具体含义,从而决定如何填补
- 具体来说,一般包括:
- 把数值设置为0
- 取众数
- 取均值
- 不同数值类型的转换(这里涉及到百分数转小数)
- 一些集成数据的拆分与处理,类似于parkingspace-->10(1:2)类型
- 数据填补完成后涉及到数据的标准化和归一化
- 对于数值型变量,常用的方法包括:
- Min-Max Normalization
- Z-score Normalization
- Decimal Scaling
- Log Transformation
- tips:若数据符合偏正态分布,我们可以使用Log transformation,对数据进行处理,以使得他回到正态分布的情况
- 对于非数值型数据,常用one-hot方式进行处理
- 对于数值型变量,常用的方法包括:
- 相关性分析,从而筛选出和预测变量相关性较强的其他变量,将相关度设定阈值,可当作一个敏感性分析的方向