回归模型

ML_6机器学习重要概念补充

老子叫甜甜 提交于 2020-04-05 17:14:40
学习目标 sklearn中的Pipeline 偏差与方差 模型正则化之L1正则、L2正则 一、sklearn中的Pipeline 研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)。多项式回归是线性回归模型的一种,其回归函数关于回归系数是线性的。其中自变量x和因变量y之间的关系被建模为n次多项式。 如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。在一元回归分析中,如果变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。 由于任一函数都可以用多项式逼近,因此多项式回归有着广泛应用。 多项式回归的思路是:添加一个特征,即对于X中的每个数据进行平方。 import numpy as np import matplotlib.pyplot as plt x = np.random.uniform(-3, 3, size=100) X = x.reshape(-1, 1) y = 0.5 + x**2 + x + 2 + np.random.normal(0, 1, size=100) plt.scatter(x, y) plt.show() from sklearn.linear_model import LinearRegression lin

task5 模型融合 打卡

不想你离开。 提交于 2020-04-05 17:13:25
5.1 模型融合目标 对于多种调参完成的模型进行模型融合。 完成对于多种模型的融合,提交融合结果并打卡。 5.2 内容介绍 模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。 简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 stacking/blending: 构建多层模型,并利用预测结果再拟合预测。 boosting/bagging(在xgboost,Adaboost,GBDT中已经用到): 多树的提升方法 5.3 Stacking相关理论介绍 什么是 stacking 简单来说 stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。 将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题,我们可以使用投票法来选择输出最多的类。对于回归问题,我们可以将分类器输出的结果求平均值。 上面说的投票法和平均法都是很有效的结合策略,还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起,这个方法就是Stacking。 在stacking方法中,我们把个体学习器叫做初级学习器

4.机器学习之逻辑回归算法

时光总嘲笑我的痴心妄想 提交于 2020-03-21 18:05:57
理论上讲线性回归模型既可以用于回归,也可以用于分类。解决回归问题,可以用于连续目标值的预测。但是针对分类问题,该方法则有点不适应,因为线性回归的输出值是不确定范围的,无法很好的一一对应到我们的若干分类中。即便是一个二分类,线性回归+阈值的方式,已经很难完成一个鲁棒性很好的分类器了。为了更好的实现分类,逻辑回归诞生了。逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某件事情发生的可能性。 逻辑回归是假设数据服从Bernoulli分布的,因此LR也属于参数模型,他的目的也是寻找到最优参数。 logistic回归是一种广义线性回归(generalized linear model)。 【补充】在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。 首先回顾一下简单线性回归(只考虑一个输入变量,一个输出变量的线性回归)。 表示输入变量(自变量),第一部分例子中的X。 表示输出变量(因变量),第一部分例子中的Y。一对 表示一组训练样本。m个训练样本

最小二乘法

我的未来我决定 提交于 2020-03-14 15:40:43
在我们研究两个变量(x, y)之间的相互关系时,通常能够得到一系列成对的数据(x 1 , y 1 、x 2 , y 2 ... x m , y m );将这些数据描绘在x -y直角座标系中(如图1), 若发现这些点在一条直线附近,能够令这条直线方程如(式1-1)。 Y 计 = a 0 + a 1 X                    (式1-1) 当中:a 0 、a 1 是随意实数 为建立这直线方程就要确定a 0 和a 1 ,应用《最小二乘法原理》,将实測值Yi与利用(式1-1)计算值(Y 计 = a 0  + a 1  X)的离差(Y i  - Y 计 )的平方和`〔∑(Y i - Y 计 ) 2 〕最小为“优化判据”。 令: φ = ∑(Y i - Y 计 ) 2                (式1-2) 把(式1-1)代入(式1-2)中得: φ = ∑(Y i - a 0 - a 1 X i ) 2              (式1-3) 当∑(Yi-Y计)平方最小时,可用函数 φ 对a0、a1求偏导数,令这两个偏导数等于零。           (式1-4)          (式1-5)   亦即: m a 0 + (∑X i ) a 1 = ∑Yi               (式1-6) (∑X i ) a 0 + (∑X i 2 ) a 1 = ∑(X i ,

最小二乘法

*爱你&永不变心* 提交于 2020-03-14 15:40:29
在我们研究两个变量(x, y)之间的相互关系时,通常能够得到一系列成对的数据(x 1 , y 1 、x 2 , y 2 ... x m , y m );将这些数据描绘在x -y直角座标系中(如图1), 若发现这些点在一条直线附近,能够令这条直线方程如(式1-1)。 Y 计 = a 0 + a 1 X                    (式1-1) 当中:a 0 、a 1 是随意实数 为建立这直线方程就要确定a 0 和a 1 ,应用《最小二乘法原理》,将实測值Yi与利用(式1-1)计算值(Y 计 = a 0  + a 1  X)的离差(Y i  - Y 计 )的平方和`〔∑(Y i - Y 计 ) 2 〕最小为“优化判据”。 令: φ = ∑(Y i - Y 计 ) 2                (式1-2) 把(式1-1)代入(式1-2)中得: φ = ∑(Y i - a 0 - a 1 X i ) 2              (式1-3) 当∑(Yi-Y计)平方最小时,可用函数 φ 对a0、a1求偏导数,令这两个偏导数等于零。           (式1-4)          (式1-5)   亦即: m a 0 + (∑X i ) a 1 = ∑Yi               (式1-6) (∑X i ) a 0 + (∑X i 2 ) a 1 = ∑(X i ,

最小二乘法

蓝咒 提交于 2020-03-14 15:40:07
在我们研究两个变量(x, y)之间的相互关系时,通常能够得到一系列成对的数据(x 1 , y 1 、x 2 , y 2 ... x m , y m );将这些数据描绘在x -y直角座标系中(如图1), 若发现这些点在一条直线附近,能够令这条直线方程如(式1-1)。 Y 计 = a 0 + a 1 X                    (式1-1) 当中:a 0 、a 1 是随意实数 为建立这直线方程就要确定a 0 和a 1 ,应用《最小二乘法原理》,将实測值Yi与利用(式1-1)计算值(Y 计 = a 0  + a 1  X)的离差(Y i  - Y 计 )的平方和`〔∑(Y i - Y 计 ) 2 〕最小为“优化判据”。 令: φ = ∑(Y i - Y 计 ) 2                (式1-2) 把(式1-1)代入(式1-2)中得: φ = ∑(Y i - a 0 - a 1 X i ) 2              (式1-3) 当∑(Yi-Y计)平方最小时,可用函数 φ 对a0、a1求偏导数,令这两个偏导数等于零。           (式1-4)          (式1-5)   亦即: m a 0 + (∑X i ) a 1 = ∑Yi               (式1-6) (∑X i ) a 0 + (∑X i 2 ) a 1 = ∑(X i ,

机器学习之三:logistic回归(最优化)

混江龙づ霸主 提交于 2020-03-12 04:53:10
  一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用logistic回归。 logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。 logistic回归的假设函数如下,线性回归假设函数只是 。 logistic回归用来分类0/1问题,也就是预测结果属于0或者1的二值分类问题。这里假设了二值满足伯努利分布,也就是 当然假设它满足泊松分布、指数分布等等也可以,只是比较复杂,后面会提到线性回归的一般形式。 求最大似然估计,然后求导,得到迭代公式结果为 可以看到与线性回归类似,只是 换成了 ,而 实际上就是 经过g(z)映射过来的。 Logistic 回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1. 应用范围: ① 适用于流行病学资料的危险因素分析 ② 实验室中药物的剂量 - 反应关系 ③ 临床试验评价 ④ 疾病的预后因素分析 2. Logistic 回归的分类: ① 按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ② 按研究方法分: 条 件 Logistic 回归 非条件 Logistic 回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。 3.L ogistic

回归算法实例四:波士顿房屋租赁价格预测

霸气de小男生 提交于 2020-03-11 19:14:10
import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import pandas as pd import warnings import sklearn from sklearn.linear_model import LinearRegression, LassoCV, RidgeCV, ElasticNetCV from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import Pipeline from sklearn.linear_model.coordinate_descent import ConvergenceWarning from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.grid_search import GridSearchCV from sklearn import metrics def notEmpty(s): return s != '' # 加载数据 names = ['CRIM'

R语言-回归

烈酒焚心 提交于 2020-03-11 05:42:06
定义:   回归是统计学的核心,它其实是一个广义的概念,通常指那些用一个或多个预测变量来预测响应变量.既:从一堆数据中获取最优模型参数 1.线性回归   1.1简单线性回归   案例:女性预测身高和体重的关系   结论:身高和体重成正比关系 1 fit <- lm(weight ~ height,data = women) 2 summary(fit) 3 plot(women$height,women$weight,xlab = 'Height inches',ylab = 'Weight pounds') 4 abline(fit)   1.2添加多项式来提升预测精度    结论:模型的方差解释率提升到99.9%,表示二次项提高了模型的拟合度 1 fit2 <- lm(weight ~ height + I(height^2),data = women) 2 summary(fit2) 3 plot(women$height,women$weight,xlab = 'Height inches',ylab = 'Weight pounds') 4 lines(women$height,fitted(fit2))   1.3多元线性回归   案例探究:探究美国州的犯罪率和其他因素的关系,包括人口,文盲率,平均收入,天气   结论:谋杀率和人口,文盲率呈正相关,和天气,收入呈负相关

机器学习——回归模型

☆樱花仙子☆ 提交于 2020-03-03 12:02:35
一、线性回归 回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式,该公式就是所谓的回归方程(regression equation)。求回归方程中的回归系数的过程就是回归。 线性回归的几个特点: 1. 建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。 2. 可以根据系数给出每个变量的理解和解释 3. 对异常值很敏感。 # 代码表示:linear_model.LinearRegression() 二、岭回归 岭回归实质上就是在线性回归的基础上加了L2正则化项。 领回归的特点: 领回归的假设和最小平方回归相同,但是在最小平方回归的时候我们假设数据服从高斯分布使用的是极大似然估计(MLE),在领回归的时候由于添加了偏差因子,即w的先验信息,使用的是极大后验估计(MAP)来得到最终的参数 没有特征选择功能 # 代码表示:linear_model.Ridge(0.5) 三、LASSO回归 LASSO回归在线性回归的基础上加了L1正则化项。 L1正则化和L2正则化的区别: L1正则化会使得一些权重直接变为0,L2正则化只是将一些权重的值变的更小。L1跟拉普拉斯有关,L2跟高斯分布有关。 # 代码表示:linear_model.Lasso(0.1) 岭回归和Lasso回归之间的差异可以归结为L1正则和L2正则之间的差异: 内置的特征选择(Built