regression | 易学教程

Dlib库landmark算法解析

阅读更多关于 Dlib库landmark算法解析

【今日推荐】：为什么一到面试就懵逼！>>> landmark是一种人脸部特征点提取的技术，Dlib库中为人脸68点标记，在《调用Dlib库进行人脸关键点标记》一文中有效果和标定点序号的示意图。今后可采用landmark中的点提取眼睛区域、嘴巴区域用于疲劳检测，提取鼻子等部分可用于3D姿态估计。 Dlib库使用《One Millisecond Face Alignment with an Ensemble of Regression Trees》CVPR2014中提及的算法：ERT（ensemble of regression trees）级联回归，即基于梯度提高学习的回归树方法。该算法使用级联回归因子，首先需要使用一系列标定好的人脸图片作为训练集，然后会生成一个模型。 the shape_predictor_trainer object to train a shape_predictor using a set of training images, each annotated with shapes you want to predict. To do this, the shape_predictor_trainer uses the state-of-the-art method. 使用基于特征选择的相关性方法把目标输出ri投影到一个随机方向w上，并且选择一对特征（u,v

人脸对齐--One Millisecond Face Alignment with an Ensemble of Regression Trees

阅读更多关于人脸对齐--One Millisecond Face Alignment with an Ensemble of Regression Trees

【今日推荐】：为什么一到面试就懵逼！>>> One Millisecond Face Alignment with an Ensemble of Regression Trees CVPR2014 http://www.csc.kth.se/~vahidk/face_ert.html https://github.com/suzuichi/OneMillisecondFaceAlignment 本文也是使用级联回归器来做人脸特征对齐的。速度快，效果不错，Dlib 实现了代码，可以测试站在巨人的肩膀上可以看得更远。这里我们借鉴了前人的两个思路： 1）The first revolves around the indexing of pixel intensities relative to the current estimate of the shape 这里我们使用了一个相对位置的像素差值作为特征，为什么如此选择了? 在图像中我们使用一个向量的形式来表示人脸的 shape，因为一些变化因素如： shape deformation and nuisance factors such as changes in illumination conditions，导致了这个基于向量表示形式的特征变化的幅度很大，基于这个特征来做精确的 shape estimation 就比较难

通俗讲解决策树：如何利用有效特征进行决策分类？

阅读更多关于通俗讲解决策树：如何利用有效特征进行决策分类？

决策树 (Decision Tree) 是一种有监督学习方法，通过特征和标签构造一棵决策树，学习特征之间的规则，以解决分类和回归问题。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。决策树由以下 3 种元素构成：根节点：包含样本全集内部节点：对应特征属性测试叶节点：决策结果 (标签) 决策树如何辨别好瓜和坏瓜？ (此图摘自周志华西瓜书，本人白板手绘版) 以上面的西瓜为例，我们要如何辨别一个瓜是好瓜。特点是：纹理清晰，根蒂稍蜷，触感青绿，恰好，你构建了一棵决策树，立马判断这是好瓜还是坏瓜？判断步骤如下：根据纹理清晰，已知是清晰，那么向左边走，看第一步接着，由纹理清晰到达第 2 层，由决策树图，我们可以看到，根蒂是稍蜷接着到第 3 层，色泽的特征的青绿，由此，我们可以得出结论，这是一个好瓜。根据上面的示例，我们可以很直观的得到一个实例的类别判断，只要告诉各个特征的具体值，决策树的判定过程就相当于从树中从根节点到某一个叶子节点的遍历。每一步如何遍历是由数据各个特征的具体特征属性决定。那么，基于上面的一棵树，我们又有如下疑问，为什么根节点是纹理，而不是根蒂或者别的特征呢？决策树又是基于什么标准来选择特征的？如果构建决策树？决策树学习的 3 个步骤基于上面的问题

Rolling regression with expanding window in R

阅读更多关于 Rolling regression with expanding window in R

问题 I would like to do a rolling linear regression, with expanding window, between two variables in a data frame, grouped by a third categorical column. For example, in the toy data frame below, I would like to extract coefficient of lm(y~x) grouped by z using all rows until the row of interest. Thus for row 2, data set for regression will be rows 1:2, for row 3 will be rows 1:3, for row 4 will be just row 4 as it is the first row with categorical variable z= b dframe<-data.frame(x=c(1:10),y=c(8

Rolling regression with expanding window in R

阅读更多关于 Rolling regression with expanding window in R

个性化排序算法实践(四)——GBDT+LR

阅读更多关于个性化排序算法实践(四)——GBDT+LR

本质上GBDT+LR是一种具有 stacking 思想的二分类器模型，所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。 GBDT+LR 使用最广泛的场景是CTR点击率预估，即预测当给用户推送的广告会不会被用户点击。点击率预估模型涉及的训练样本一般是上亿级别，样本量大，模型常采用速度较快的LR。但LR是线性模型，学习能力有限，此时特征工程尤其重要。现有的特征工程实验，主要集中在寻找到有区分度的特征、特征组合，折腾一圈未必会带来效果提升。GBDT算法的特点正好可以用来发掘有区分度的特征、特征组合，减少特征工程中人力成本。思想 GBDT+LR 由两部分组成，其中GBDT用来对训练集提取特征作为新的训练输入数据，LR作为新训练输入数据的分类器。 GBDT首先对原始训练数据做训练，得到一个二分类器，当然这里也需要利用网格搜索寻找最佳参数组合。与通常做法不同的是，当GBDT训练好做预测的时候，输出的并不是最终的二分类概率值，而是要把模型中的每棵树计算得到的预测概率值所属的叶子结点位置记为1，这样，就构造出了新的训练数据。设GBDT有两个弱分类器，分别以蓝色和红色部分表示，其中蓝色弱分类器叶子结点个数为3，红色弱分类器叶子结点个数为2

extracting standardized coefficients from lm in R

阅读更多关于 extracting standardized coefficients from lm in R

问题 My apologies for the dumb question...but I can't seem to find a simple solution I want to extract the standardized coefficients from a fitted linear model (in R) there must be a simple way or function that does that. can you tell me what is it? EDIT (following some of the comments below): I should have probably provided more contextual information about my question. I was teaching an introductory R workshop for a bunch of psychologists. For them, a linear model without the ability to get

Matlab Replication of OLS regression with clustered standard errors Stata-command [closed]

阅读更多关于 Matlab Replication of OLS regression with clustered standard errors Stata-command [closed]

问题 Closed . This question needs details or clarity. It is not currently accepting answers. Want to improve this question? Add details and clarify the problem by editing this post. Closed 7 days ago . A newbie question: I want to replicate the following Stata code in Matlab: reg logbid1 logmiles photos photos2 options logfdback negpct cont*, cluster(sellername_id) estimates store m1, title((1)) This represents an Hedonic regression with clustered standard errors (the clustervariable "sellername

Introduction to Advanced Machine Learning, 第二周，基于TensorFlow的MNIST实战(my1stNN)

阅读更多关于 Introduction to Advanced Machine Learning, 第二周，基于TensorFlow的MNIST实战(my1stNN)

这是HSE系列课程第一门，Introduction to Advanced Machine Learning. 第二周第二个编程作业，难易程度：中等。使用TensorFlow对MNIST数据集图片进行分类，是一个多类分类问题。本篇笔记对这个任务分成三个部分。 1. 实现一个二类分类问题 2. 实现一个多类分类问题，使用softmax回归，没有隐层。 3. 实现一个多类分类问题，使用softmax回归，有隐层。 from preprocessed_mnist import load_dataset X_train, y_train, X_val, y_val, X_test, y_test = load_dataset() print(X_train.shape, y_train.shape) import matplotlib.pyplot as plt %matplotlib inline plt.imshow(X_train[ 1 ], cmap= "Greys" ); (50000, 28, 28) (50000,) import tensorflow as tf s = tf.InteractiveSession() import numpy as np 1. 二类分类问题需要将28×28的二维图片转为一维，转换完的数组加上 ‘_flatten’ 后缀。

生成模型和判别模型(Generative model, Discriminative model)

阅读更多关于生成模型和判别模型(Generative model, Discriminative model)

生成模型和判别模型(Generative model, Discriminative model) 监督学习的任务是学习一个模型，对给定的输入预测相应的输出。这个模型一般形式为决策函数Y=f(X)或者条件概率分布P(Y|X)。有一种分类就把模型分为：Generative Modeling （生成模型）和Discriminative Modeling （判别模型）两种。生成模型是由训练数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型。常见的生成模型有PCA，Kmeans，Naive Bayesian和HMM。判别模型是由训练数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，模型关心的是对给定的输入X，应该预测什么样的输出Y，与GM的不同在于不需要先学习出联合分布P(X,Y)。典型的判别模型有 KNN、Logistic Regression，Linear Regression、Decision Tree、SVM、AdaBoost和条件随机场等。生成模型对数据集的分布有严格的假设，对于outliers会很敏感。而判别模型不关心数据集的分布，只需要学习得到分类的规则，对outliers相对不敏感。模型生成模型判别模型数据集大小小大数据分布有严格的要求不关心学习目标估计概率分类规则对于判别式模型来说求得P(Y

订阅 regression