现实任务中常会遇到不完整样本,即样本的某些属性值缺失.例如由于诊测成本、隐私保护等因素,患者的医疗数据在某些属性上的取值(如HIV测试结果)未知;尤其是在属性数目较多的情况下,往往会有大量样本出现缺失值. 如果简单地放弃不完整样本,仅使用无缺失值的样本来进行学习,显然是对数据信息极大的浪费.例如,表4.4是表4.1中的西瓜数据集2.0出现缺失值的版本,如果放弃不完整样本,则仅有编号{4, 7, 14, 16}的4个样本能被使用.显然,有必要考虑利用有缺失属性值的训练样例来进行学习.
我们需解决两个问题:
- (1)如何在属性值缺失的情况下进行划分属性选择?
- (2)给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
待完善