Skip to content

Latest commit

 

History

History
52 lines (28 loc) · 3.87 KB

data-science.md

File metadata and controls

52 lines (28 loc) · 3.87 KB

数据科学 kaggle learn 基础

这个是一份笔记,简单记录了 kaggle learn 的数据科学基础课程。这个课程是 Kaggle 给每一个新注册的用户的免费上手教程,以决策树为例,介绍了数据科学的基础概念,包括数据的选取、模型的建立、模型的评估等等。

模型如何工作

决策树

决策树是简单的模型,是数据科学更好的模型的基础。

简化来看,决策树将一个问题分解成一系列的问题,每个问题都是一个二元的问题——是或者不是,然后就此进行下一步的预测。从数据中捕获模式的这一步骤称为拟合训练模型。用于拟合模型的数据称为训练数据。模型如何拟合的细节(例如如何分割数据)非常复杂,稍后探究。模型拟合后,可以将其应用于新数据来预测。

Improving Decision Trees

对于一个决策树,他应该要能正确反映关系,比如说房间越多房价越高——而不是低。同时,房价的决定因素很多,因此决策树可以有很多层,每个问题下会有一个新的问题,这样一层层地下去,构成一个树。

训练的过程就是,我们要找到一个树,使得这个树能够最好地拟合训练数据。不停选择与数据相适应、符合的对应关系,就像上文所述,房间越多房价越高还是越低,面积越大房价越高还是越低等等。最终在这个树的底部,我们会得到一个预测结果。这个被叫作 Leaf。

建立模型

选取数据

数据集里面有大量的变量,需要选取一些比较重要的,称为 Features。选取 Features 偶尔依靠直觉,也有一些相对科学的办法。

接下来根据选取的 Features,我们可以建立一个模型,这个模型可以是决策树。

构建模型的步骤:

  • Define:定义一个模型。在这里,我们使用决策树。
  • Fit:拟合模型。在这里,我们使用训练数据。
  • Predict:预测。在这里,我们使用测试数据。
  • Evaluate:评估模型的准确性。

定义和拟合模型的过程是在训练数据上进行的。预测和评估模型的过程是在测试数据上进行的。对于一个给定的数据集,通常随机选择一部分数据作为训练数据,另一部分数据作为测试数据。

对于模型的评估,我们可以使用 Mean Absolute Error(MAE,平均绝对误差)来评估模型的准确性。其实就是把预测值和真实值的差值取绝对值,然后求平均。

欠拟合和过拟合

欠拟合是指模型无法捕获数据中的关系。过拟合是指模型捕获了训练数据中的噪声,导致模型在新数据上的表现不佳。

可以通过调整决策树的深度来解决这个问题。决策树的深度越大,模型越复杂。如果模型欠拟合,可以增加决策树的深度。如果模型过拟合,可以减少决策树的深度。

这个道理可以简单理解为:如果对于基本问题分得太宽泛,或许无法体现实际情况的复杂性;但是也不应该分得太细,不然每个单类内数据量太小就有很大的偶然性,难以代表更普遍的规律。

当通过多次调节深度后,可以得到一个最优的深度,使得模型在训练数据和测试数据上的表现都很好;此时可以用这个最优深度的模型来训练全部的数据,得到最终的模型。

Random Forests

随机森林是一种集成学习方法,它通过训练多个决策树来提高模型的准确性。对于单个决策树,每每增加一层,都是对于上一层已经分好的数据再次分割,这样会使得数据被分得越来越细碎,最终导致过拟合。

随机森林使用大量的决策树,预测的结果是各个决策树的平均值。这一般都比单个决策树的预测结果更准确,而且随着继续建模,模型会越来越容易拟合数据。