regression | 易学教程

Creating new Functions with Linear Regression in R :

阅读更多关于 Creating new Functions with Linear Regression in R :

问题 I'm having a trouble when creating a function that calls the lm() function: regresionLineal <- function (vardep, varindep1, varindep2, DATA) { lm(vardep ~ varindep1 + varindep2, data = DATA) } Then I call it using data from a data frame I created previously ( DATOS )... regresionLineal(Estatura, Largo, Ancho, DATOS) Error in eval(expr, envir, enclos) : object 'Estatura' not found Called from: eval(expr, envir, enclos) Any help will be welcome... 回答1: You should do: regresionLineal <- function

Get confidence intervals for regression coefficients of “mlm” object returned by `lm()`

阅读更多关于 Get confidence intervals for regression coefficients of “mlm” object returned by `lm()`

问题 I'm running a multivariate regression with 2 outcome variables and 5 predictors. I would like to obtain the confidence intervals for all regression coefficients. Usually I use the function lm but it doesn't seem to work for a multivariate regression model (object mlm ). Here's a reproducible example. library(car) mod <- lm(cbind(income, prestige) ~ education + women, data=Prestige) confint(mod) # doesn't return anything. Any alternative way to do it? (I could just use the value of the

深度学习论文翻译解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

阅读更多关于深度学习论文翻译解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

论文标题：Rich feature hierarchies for accurate object detection and semantic segmentation 　　标题翻译：丰富的特征层次结构，可实现准确的目标检测和语义分割论文作者：Ross Girshick Jeff Donahue Trevor Darrell Jitendra Mali 论文地址： http://fcv2011.ulsan.ac.kr/files/announcement/513/r-cnn-cvpr.pdf RCNN的GitHub地址 : https://github.com/rbgirshick/rcnn 参考的RCNN翻译博客：https://blog.csdn.net/v1_vivian/article/details/78599229 声明：小编翻译论文仅为学习，如有侵权请联系小编删除博文，谢谢！小编是一个机器学习初学者，打算认真研究论文，但是英文水平有限，所以论文翻译中用到了Google，并自己逐句检查过，但还是会有显得晦涩的地方，如有语法/专业名词翻译错误，还请见谅，并欢迎及时指出。摘要　　过去几年，在权威数据集PASCAL上，物体检测的效果已经达到了一个稳定水平。效果最好的方法是融合了多种低维图像特征和高维上下文环境的复杂融合系统。在这篇论文里

Face++的AutoAssign（附源码）

阅读更多关于 Face++的AutoAssign（附源码）

首先，从idea上讲，AutoAssign将label assignment完全做成端到端地（或者实际上是dynamic soft的），并且仅使用了最小先验（仅正样本的candidate location在gt框内部），的确算的上是一篇重量级并很general的作品。其次，这也是一篇可以预见的paper，具体可以参见Jianfeng Wang（也就是本文二作）在知乎上的回答如何评价zhangshifeng最新的讨论anchor based/ free的论文? http://www. zhihu.com 在该回答中，Jianfeng犀利地指出ATSS虽然利用统计量“动态”分配了正负样本，但这实际上是一种伪动态，因为样本的分配方式在数据集和网络配置完成之后其实是固定的，并不会随着训练过程而产生更好地调整和变化。正如Jianfeng所说，“有很多个项目，模型本身是一模一样的，但因为数据resolution不同，ground-truth的size不同，每个项目拿过来都要重新调anchor或者调分层参数，不仅是研究员和工程师的精力成本，也是自动化的障碍，在学术上还是更好解scale问题的阻碍；这个事，能不能训练的时候自己就学了？”，于是就有了这篇AutoAssign。接下来我们深入地理解一下AutoAssign是怎么操作的。从理念上来讲，AutoAssign跳出了此前object

机器学习算法（一）——基于逻辑回归的分类预测（Demo实践）

阅读更多关于机器学习算法（一）——基于逻辑回归的分类预测（Demo实践）

机器学习算法（一）————基于逻辑回归的分类预测（Demo实践）逻辑回归的介绍和应用逻辑回归的介绍逻辑回归的应用算法实践库函数导入模型训练模型参数查看数据和模型可视化模型预测逻辑回归的介绍和应用逻辑回归的介绍逻辑回归（Logistic regression，简称LR）虽然其中带有"回归"两个字，但逻辑回归其实是一个分类模型，并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热，但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且，最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势: 优点：实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低；缺点：容易欠拟合，分类精度可能不高逻辑回归的应用逻辑回归模型广泛用于各个领域，包括机器学习，大多数医学领域和社会科学。例如，最初由Boyd 等人开发的创伤和损伤严重度评分（TRISS）被广泛用于预测受伤患者的死亡率，使用逻辑回归基于观察到的患者特征（年龄，性别，体重指数,各种血液检查的结果等）分析预测发生特定疾病（例如糖尿病，冠心病）的风险。逻辑回归模型也用于预测在给定的过程中，系统或产品的故障的可能性。还用于市场营销应用程序，例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性

初探多因子选股：基于Fama-Macbeth回归的因子分析框架（附Python3代码）

阅读更多关于初探多因子选股：基于Fama-Macbeth回归的因子分析框架（附Python3代码）

Fama-Macbeth回归及因子统计引言本文介绍的因子统计方法基于1973年Fama和Macbeth为验证CAPM模型而提出的Fama-Macbeth回归，该模型现如今被广泛用被广泛用于计量经济学的panel data分析，而在金融领域在用于多因子模型的回归检验，用于估计各类模型中的因子暴露和因子收益（风险溢价）。 Fama-Macbeth与传统的截面回归类似，本质上也与是一个两阶段回归，不同的是它用了巧妙的方法解决了截面相关性的问题，从而得出更加无偏，相合的估计。时间序列回归 Fama-Macbeth模型与传统截面回归相同，第一步都是做时间序列回归。在因子分析框架中，时间序列回归是为了获得个股在因子上的暴露。如果模型中的因子是 portfolio returns（即使用投资组合收益率作为因子，例如Fama-French三因子模型中的SMB，HML和市场因子），那么可以通过时间序列回归（time-series regression）来分析 E [ R i ] E[R_i] E [ R i ] 和 β i \beta_i β i 在截面上的关系。（本文举例的因子都是portfolio returns）令 f t f_t f t 为因子组合在t期的收益率， R i t R_{it} R i t 为个股 i i i 在t期的收益率，用 f t f_t f t

机器学习西瓜书 | 第一章绪论

阅读更多关于机器学习西瓜书 | 第一章绪论

绪论 1.1 引言机器学习 machine learning 是一种“学习算法”（learning algorithm） 1.2 基本术语数据集（data set）：记录的集合示例（instance）= 样本（sample）= 特征向量（feature vector）：记录，关于一个事件或对象的描述属性（attribute）= 特征（feature）：反映事件在某方面的表现或性质的事项属性值（attribute space）：属性的取值属性空间（attribute space）= 样本空间（sample space）= 输入空间：属性张成的空间样本维数（dimensionality）：样本属性/特征的个数学习（learning）= 训练（training）过程：从数据中学得模型的过程，通过执行某个学习算法来完成训练数据（training data）：训练过程中使用的数据训练样本（training sample）= 训练示例/训练例（training instance）：训练数据中的样本训练集（training set）：训练样本组成的集合假设（hypothesis）：学得模型对应的关于数据的潜在的规律真相/真实（ground-truth）：潜在规律本身，学习过程就是在找出或逼近真相学习器（learner）：学习算法在给定数据和参数空间上的实例化标记

特征工程之特征选择

阅读更多关于特征工程之特征选择

　　　　特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。 1. 特征的来源　　　　在做数据分析的时候，特征的来源一般有两块，一块是业务已经整理好各种特征数据，我们需要去找出适合我们问题需要的特征；另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。 2. 选择合适的特征　　　　我们首先看当业务已经整理好各种特征数据时，我们如何去找出适合我们问题需要的特征，此时特征数可能成百上千，哪些才是我们需要的呢？　　　　第一步是找到该领域懂业务的专家，让他们给一些建议。比如我们需要解决一个药品疗效的分类问题，那么先找到领域专家，向他们咨询哪些因素（特征）会对该药品的疗效产生影响，较大影响的和较小影响的都要。这些特征就是我们的特征的第一候选集。　　　　这个特征集合有时候也可能很大，在尝试降维之前，我们有必要用特征工程的方法去选择出较重要的特征结合，这些方法不会用到领域知识，而仅仅是统计学的方法。　　　　最简单的方法就是方差筛选。方差越大的特征，那么我们可以认为它是比较有用的。如果方差较小，比如小于1，那么这个特征可能对我们的算法作用没有那么大。最极端的，如果某个特征方差为0

XGBoost 重要参数(调参使用)

阅读更多关于 XGBoost 重要参数(调参使用)

XGBoost 重要参数(调参使用) 数据比赛Kaggle,天池中最常见的就是XGBoost和LightGBM。模型是在数据比赛中尤为重要的，但是实际上，在比赛的过程中，大部分朋友在模型上花的时间却是相对较少的，大家都倾向于将宝贵的时间留在特征提取与模型融合这些方面。在实战中，我们会先做一个baseline的demo，尽可能快尽可能多的挖掘出模型的潜力，以便后期将精力花在特征和模型融合上。这里就需要一些调参功底。本文从这两种模型的一共百余参数中选取重要的十余个进行探讨研究。并给大家展示快速轻量级的调参方式。当然，有更高一步要求的朋友，还是得戳 LightGBM 和 XGBoost 这两个官方文档链接。 XGBoost 的重要参数 XGBoost的参数一共分为三类：通用参数：宏观函数控制。 Booster参数：控制每一步的booster(tree/regression)。booster参数一般可以调控模型的效果和计算代价。我们所说的调参，很这是大程度上都是在调整booster参数。学习目标参数：控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归，做二分类还是多分类，这都是目标参数所提供的。完整参数请戳官方文档通用参数 booster ：我们有两种参数选择， gbtree 和 gblinear

牛人的Machine Learning 机器学习笔记目录

阅读更多关于牛人的Machine Learning 机器学习笔记目录

目录前言第一周：Welcome 1.1 What is Machine Learning? 1.2 Linear Regression with One Variable 第二周：Linear Regression with Multiple Variables 2.1 Multivariate Linear Regression 2.2 Computing Parameters Analytically 2.3 Octave/Matlab Tutorial 第三周：Logistic Regression 3.1 Logistic Regression 3.2 Regularization 第四周：Neural Networks: Representation 4.1 Neural Networks Representation 第五周：Neural Networks: Learning 5.1 Neural Networks Learning 5.2 Backpropagation in Practice 第六周：Advice for Applying Machine Learning 6.1 Advice for Applying Machine Learning 6.2 Machine Learning System Design 第七周：Support Vector

订阅 regression