scikit-learn

为什么要做特征归一化/标准化?

断了今生、忘了曾经 提交于 2020-10-25 09:42:20
目录 写在前面 常用feature scaling方法 计算方式上对比分析 feature scaling 需要还是不需要 什么时候需要feature scaling? 什么时候不需要Feature Scaling? 小结 参考 博客: blog.shinelee.me | 博客园 | CSDN 写在前面 Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是: 特征间的单位(尺度)可能不同 ,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是 \([1000, 10000]\) ,另一个特征的变化范围可能是 \([-0.1, 0.2]\) ,在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大的特征会起决定性作用,而尺度小的特征其作用可能会被忽略, 为了消除特征间单位和尺度差异的影响,以对每维特征同等看待,需要对特征进行归一化 。 原始特征下, 因尺度差异,其损失函数的等高线图可能是椭圆形 ,梯度方向垂直于等高线,下降会走zigzag路线,而不是指向local minimum。通过对特征进行zero-mean and unit-variance变换后

[scikit-learn 机器学习] 8. 非线性分类和决策树

懵懂的女人 提交于 2020-10-24 13:05:12
文章目录 1. 特征选择标准 2. 网页广告预测 2.1 数量处理 2.2 网格搜索模型参数 3. 决策树优缺点 本文为 scikit-learn机器学习(第2版) 学习笔记 相关知识:《统计学习方法》 决策树(Decision Tree,DT) 1. 特征选择标准 信息增益,得知特征X的信息而使得类Y的信息的不确定性减少的程度。 信息增益比,信息增益的占比,选择大的特征 基尼系数,表示经特征 A 分割后集合 D 的不确定性,选择基尼系数小的特征 2. 网页广告预测 import pandas as pd from sklearn . tree import DecisionTreeClassifier from sklearn . model_selection import train_test_split from sklearn . metrics import classification_report from sklearn . pipeline import Pipeline from sklearn . model_selection import GridSearchCV df = pd . read_csv ( './ad.data' , header = None ) df . head ( 10 ) 数据前3列为广告图片的宽高、长宽比