逻辑回归

感知机、logistic回归 损失函数对比探讨

天大地大妈咪最大 提交于 2020-01-11 05:15:10
感知机、logistic回归 损失函数对比探讨 感知机   假如数据集是线性可分的,感知机学习的目标是求得一个能够将正负样本完全分开的分隔超平面 \(wx+b=0\) 。其学习策略为,定义(经验)损失函数并将损失函数最小化。通常,定义损失函数的策略是:== 误分类点 到分隔超平面的总距离==。【李航,2.2节】 如果没有误分点,则损失函数值是0. 感知机学习算法若采用不用的初始值或选取不同的误分类点,得到的分隔超平面可不同。 logistic回归(对数几率回归):   逻辑回归和感知机一样,定义一个决策面(分隔面)来区分正负两类样本。但是其学习策略为:   定义: \(z=\theta x=ln \dfrac{p}{1-p}\) ,其中 \(z\in R\) , \(p=P(y=1\mid x ;\theta)\) , \(p\in (0,1)\) ,即样本点为1的概率。此时 \(z = \theta x=0\) 为分类决策面, \(p=g(z)=\dfrac{1}{1+e^{-z}}\) ,其实可发现:   当 \(\theta^TX\gt0\) ,则有 \(p\gt0.5\) ;若 \(\theta^TX\to+\infty\) ,则 \(p\to1\) ,即 y 为 1 类;   当 \(\theta^TX\lt0\) ,则有 \(p\lt0.5\) ;若 \(\theta

logistic回归算法进行分类的python实现

放肆的年华 提交于 2020-01-10 14:07:53
在分类问题中,比如判断邮件是否为垃圾邮件,判断肿瘤是否为阳性,目标变量是离散的,只有两种取值,通常会编码为0和1。这时候如果我们用线性回归去拟合一条直线:hθ(X) = θ+θ1X,若Y≥0.5则判断为1,否则为0。这样我们也可以构建出一个模型去进行分类,但是会存在很多的缺点,比如稳健性差、准确率低。而逻辑回归对于这样的问题会更加合适。 逻辑回归假设函数如下,它对θTX作了一个函数g变换,映射至0到1的范围之内,而函数g称为sigmoid function或者logistic function SIGMOID函数 s(z)=1/(1+e^-z) Z的范围实数域,而值域为0-1 。当我们输入特征,得到的hθ(x)其实是这个样本属于1这个分类的概率值 p=1/(1+exp(-wtX)) LN(P/1-P)=wTx logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。 下面基于logistic回归对乳腺癌分类进行研究 import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import pandas as pd import warnings import

用Python实现逻辑回归

北慕城南 提交于 2020-01-08 15:55:47
文章目录 使用的Python工具包 数据集介绍 数据的初步统计结果 虚拟变量并处理数据 进行逻辑回归 完整代码 最终结果 参考资料 使用的Python工具包 numpy pandas statsmodels pylab 数据集介绍 本次使用的数据来源于 http://www.ats.ucla.edu 。 研究目标是辨别不同因素对研究生录取的影响。 数据的第一列是admit,表示是否被录取,有两个值,0和1,其中0表示没有被录取,1表示被录取,显然,这又是一个二分类问题。 数据的第二列是学生的gre(美国研究生入学考试)成绩。 数据的第三列是学生的gpa(学分绩点)。 最后一列是学生的学校的排名。 数据的初步统计结果 admit gre gpa prestige count 400.000000 400.000000 400.000000 400.00000 mean 0.317500 587.700000 3.389900 2.48500 std 0.466087 115.516536 0.380567 0.94446 min 0.000000 220.000000 2.260000 1.00000 25% 0.000000 520.000000 3.130000 2.00000 50% 0.000000 580.000000 3.395000 2.00000 75% 1

哈罗出行数据挖掘实习生电面题 (一面二面)

感情迁移 提交于 2020-01-06 23:39:38
(一面) 1、先自我介绍一下自己的背景和接触的项目 ; 2、如果一个数据没有明显的相关性 还能放进去LSTM吗; 3、说一下过拟合解决办法; 4、说一下你最熟悉的一个模型; 5、说一下神经网络中怎么解决过拟合; 6、集成方法中的bagging和boosting的区别; 7、随机梯度下降和其他优化方法的区别; 8、口述逻辑回归公式;逻辑回归有什么优化方法吗;逻辑回归为啥用log 9如果你对你的SQL打分打多少分。有用户ID 和时间 怎么写语句找到时间差 ; 10、白噪声 然后就是实习时间 要求一周4天 我说10号前估计只能3天 后面可以天天来 (估计凉 (二面) 1、线性回归的系数和高斯分布的均值 方差有什么关系吗(求解答) 2、xgboost和GBDT区别 3、综合面 比如平时兴趣爱好 、10点上班7点下班 6点半给你个任务 你怎么办、我看你修了机器学习和数据挖掘 你能讲讲学了哪些模型吗 4、你是控制科学与工程的学生,你能说说你在这块和科班的有啥优缺点吗 5、x是常量 y是递增的 可以去拟合吗 来源: CSDN 作者: 南瓜风槐 链接: https://blog.csdn.net/qq_39785597/article/details/103847615

局部加权回归与逻辑回归

南笙酒味 提交于 2020-01-01 14:28:45
在上一节中主要介绍了监督学习中的线性回归(模型)、最小二乘法(策略)、梯度下降法(算法)及线性最小二乘法的标准方程(闭式解)。 这节主要介绍两个回归:局部加权回归与逻辑回归,其中穿插一些小的知识点:欠拟合与过拟合、感知机、牛顿方法等。大纲如图: 一、几个概念 1. 欠拟合与过拟合问题 之前所采用的线性回归方法面对上图中的散点会用一条直线去拟合,并不是所有散点都大致分布在直线相同的距离处,很显然效果并不是很好,这种现象叫做“ 欠拟合 ”。 当加入一个x二次方的项时(x=size,房屋的长,x的二次方可以理解为size的平方,即房屋面积),从上图可以看出,有更多的散点落在了曲线上,拟合效果有所改善。随着特征的增加,曲线的拟合效果看似也随之增强,但事实上并非如此。 当特征的个数增加到五个时,曲线已经可以非常完美的拟合所有的散点,但是这样会导致检验样本必须完全符合训练样本集,也大大增加了系统的复杂性,这种现象叫做“ 过拟合 ”。 2. 参数化与非参数学习算法 (1)参数学习算法(Parametric Learning Algorithm) 有固定数目的参数以用来数据拟合的算法,如线性回归。 在线性回归模型中,首先,θ是和特征数目相同的固定数目参数;其次,一旦训练出模型后,θ的值就是固定的,在之后的预测过程中,不需要再使用训练样本集。 (2)非参数学习算法(Non-parametric

逻辑回归模型

不打扰是莪最后的温柔 提交于 2019-12-30 12:02:19
逻辑回归模型 - zgw21cn - 博客园 逻辑回归模型 1. 逻辑 回 归 模型 1.1逻辑回归模型 考虑具有p个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使 取得最大的参数 的值。 对此函数求导,得到p+1个似然方程

机器学习:逻辑回归总结(上)

故事扮演 提交于 2019-12-27 17:51:16
首先逻辑回归是一种有监督的分类算法,名字中含有回归二字,是因为在多年前关于回归与分类的定义与现在有所不同,这一历史原因造成 逻辑回归可以视为广义的线性模型在因变量y服从二元分布时的一种特殊情况;在使用最小二乘法求解线性回归时,认为因变量y服从正态分布 为了能够得到最终的分类结果,我们引入sigmoid函数将利用回归模型得到的数值映射到(0,1)区间,其后通过比较映射结果与给定阈值的大小关系得到最终的分类结果。 可以将逻辑回归模型理解为:逻辑回归 = 回归模型 + 映射关系(sigmoid函数) 在逻辑回归模型中关于损失函数,是使用交叉熵(也称对数损失函数) sigmoid函数与其导数的关系 又因为参数θ的更新是采用梯度下降的方式,故得到如下公式(此处假设参数迭代次数为n): 来源: CSDN 作者: 阿水的性感人生 链接: https://blog.csdn.net/qq_24394635/article/details/103732860

逻辑回归 画正则化C曲线

依然范特西╮ 提交于 2019-12-26 16:44:48
通过正则化C曲线进行可视化调参, 选择合适的惩罚项 导库 from sklearn . linear_model import LogisticRegression as LR from sklearn . datasets import load_breast_cancer import numpy as np import matplotlib . pyplot as plt from sklearn . model_selection import train_test_split from sklearn . metrics import accuracy_score 导数据: sklearn的乳腺癌数据 data = load_breast_cancer ( ) 正则化 X = data . data y = data . target data . data . shape #查看行列数 lrl1 = LR ( penalty = "l1" , solver = "liblinear" , C = 0.5 , max_iter = 1000 ) lrl2 = LR ( penalty = "l2" , solver = "liblinear" , C = 0.5 , max_iter = 1000 ) #L1 和 L2 正则化 #逻辑回归的重要属性coef_

处理分类问题常用算法(二)-----算法岗面试题

笑着哭i 提交于 2019-12-25 12:56:51
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式,有哪些? 参考回答: 生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场 判别式:LR,SVM,神经网络,CRF,Boosting 详情:支持向量机 ● 核函数的种类和应用场景。 参考回答: 线性核、多项式核、高斯核。 特征维数高选择线性核 样本数量可观、特征少选择高斯核(非线性核) 样本数量非常多选择线性核(避免造成庞大的计算量) 详情:支持向量机 ● 分类算法列一下有多少种?应用场景。 参考回答: 单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。 ●

逻辑回归

断了今生、忘了曾经 提交于 2019-12-24 19:12:47
逻辑回归 标签(空格分隔): 逻辑回归 吴恩达 分类 1. 基本内容 此处讨论的是二分类问题,即预测值 \(y\in \{0,1\}\) ,其中, \(0\) 代表Negative Class, \(1\) 代表 Positive Class。 回归一般是预测连续值,分类是预测离散值,但是逻辑回归预测的是离散值,它其实是一个分类问题,称其“回归”是历史问题。 在逻辑回归中,假设函数 \(h_\theta(x)\) 满足 \(0 \le h_\theta(x) \le 1\) 。通常选取如下形式: \[h_\theta(x) = g(\theta^Tx)\] 其中: \[ g(z) = \frac{1}{1+e^{-z}}\] \(g(z)\) 的函数图像如下所示: \(g(z)\) 被称为 Sigmoid 函数或逻辑函数。 此处的假设函数 \(h\theta(x)\) 可以理解为:在参数 \(\theta\) 下,对输入 \(x\) , 预测值 \(y\) 取值为 \(1\) 的概率。形式化的表示如下: \[h_\theta(x) = P(y=1|x;\theta)\] 显然,有: \[P(y=1|x;\theta) + P(y=0|x;\theta) = 1\] 对于假设函数 \(h_\theta(x) = g(\theta^Tx)\) , 如果当 \(h_\theta(x)