scikit-learn

用Python构建和可视化决策树

 ̄綄美尐妖づ 提交于 2020-11-02 01:45:04
作者|Nikhil Adithyan 编译|VK 来源|Towards Data Science 决策树 决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图,其中每个节点根据某个特征变量将一组观测值拆分。 决策树的目标是将数据分成多个组,这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下,树将进行拆分,使每个组的均方误差最小。 决策树的一个重要特性是它们很容易被解释。你根本不需要熟悉机器学习技术就可以理解决策树在做什么。决策树图很容易解释。 利弊 决策树方法的优点是: 决策树能够生成可理解的规则。 决策树在不需要大量计算的情况下进行分类。 决策树能够处理连续变量和分类变量。 决策树提供了一个明确的指示,哪些字段是最重要的。 决策树方法的缺点是: 决策树不太适合于目标是预测连续属性值的估计任务。 决策树在类多、训练样本少的分类问题中容易出错。 决策树的训练在计算上可能很昂贵。生成决策树的过程在计算上非常昂贵。在每个节点上,每个候选拆分字段都必须进行排序,才能找到其最佳拆分。在某些算法中,使用字段组合,必须搜索最佳组合权重。剪枝算法也可能是昂贵的,因为许多候选子树必须形成和比较。 Python决策树 Python是一种通用编程语言,它为数据科学家提供了强大的机器学习包和工具。在本文中