regression

特征工程之特征选择

前提是你 提交于 2020-10-24 09:37:32
    特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。 1. 特征的来源     在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。 2. 选择合适的特征     我们首先看当业务已经整理好各种特征数据时,我们如何去找出适合我们问题需要的特征,此时特征数可能成百上千,哪些才是我们需要的呢?     第一步是找到该领域懂业务的专家,让他们给一些建议。比如我们需要解决一个药品疗效的分类问题,那么先找到领域专家,向他们咨询哪些因素(特征)会对该药品的疗效产生影响,较大影响的和较小影响的都要。这些特征就是我们的特征的第一候选集。     这个特征集合有时候也可能很大,在尝试降维之前,我们有必要用特征工程的方法去选择出较重要的特征结合,这些方法不会用到领域知识,而仅仅是统计学的方法。     最简单的方法就是方差筛选。方差越大的特征,那么我们可以认为它是比较有用的。如果方差较小,比如小于1,那么这个特征可能对我们的算法作用没有那么大。最极端的,如果某个特征方差为0

GitHub上的AutoML

人盡茶涼 提交于 2020-10-15 07:21:50
作者|Moez Ali 编译|VK 来源|Towards Data Science 你可能会想知道,GitHub是从什么时候开始涉足自动机器学习业务的。好吧,它其实没有,但你可以像有一样的使用它。在本教程中,我们将向你展示如何构建个性化的AutoML软件,并将其托管在GitHub上,以便其他人可以免费使用或付费订阅。 我们将使用pycaret2.0,一个开源的、少代码行数的Python机器学习库来开发一个简单的AutoML解决方案,并使用GitHub Action将其部署为Docker容器。 如果你以前没有听说过PyCaret,可以在这里阅读pycaret2.0的官方声明: https://towardsdatascience.com/announcing-pycaret-2-0-39c11014540e,或者查看这里的详细发行说明:https://github.com/pycaret/pycaret/releases/tag/2.0。 本教程的学习目标 了解什么是AutoML,以及如何使用pycaret2.0构建一个简单的AutoML软件。 了解什么是容器以及如何将AutoML解决方案部署为Docker容器。 什么是GitHub Action以及如何使用它们来托管AutoML软件。 什么是AutoML? AutoML是一个将耗时、迭代的机器学习任务自动化的过程

阅读笔记 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

廉价感情. 提交于 2020-10-10 09:50:45
CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis 模型结构 模型包括数据处理, 特征提取, 预测回归三个部分, 下面分别介绍 数据预处理 visual 每个视频取样32帧, 而且每一帧又分为**背景和脸部 **图片 ,以往的工作专注于面部特征, 但是作者认为其背景特征也是一种补充信息, 作者举了一个例子, 单看这个人的面部可能会觉得他很生气, 但是结合背景,可以知道这个人在进行演讲,不一定是生气。 audio 使用librosa 直接转换成 固定维度的向量, 少了补0 text 使用2015年提出的skip-thought vector 来表达文本, 可以查看这个解释https://zhuanlan.zhihu.com/p/100271181 特征提取 特征提取使用提出的一个CR-Net 结构:此结构ResNet-34维基础 ,在第一阶段,我们得到了具有交叉熵损失的分类特征。在第二阶段,利用softmax函数对分类特征进行权值生成,并得到这些特征的加权和。然后,我们使用它与MSE, L1和我们提出的贝尔损失进行回归 交叉熵损失使得专注于正确的分布, MSE 则是表示真实值和预测值的距离, CR-Net主要思想是

七种回归分析方法,个 个 经 典

与世无争的帅哥 提交于 2020-10-07 15:54:44
什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。 我们为什么使用回归分析? 如上所述,回归分析估计了两个或多个变量之间的关系。下面,让我们举一个简单的例子来理解它: 比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。 使用回归分析的好处良多。具体如下: 它表明自变量和因变量之间的显著关系; 它表明多个自变量对一个因变量的影响强度。 回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。 我们有多少种回归技术? 有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)

Mxnet (3): Softmax 回归(Softmax regression)

强颜欢笑 提交于 2020-10-01 03:31:42
有一种logistic回归的一般形式,叫做Softmax回归,用于处理多类型的分类问题。 0.Softmax操作 我们将在此处采用的主要方法是将模型的输出解释为概率。我们将优化参数以产生使观察到的数据的可能性最大化的概率。然后,为了生成预测,我们将设置一个阈值,例如,选择具有最大预测概率的标签。 正式地说,我们想要任何输出 y ^ j \hat{y}_j y ^ ​ j ​ 被解释为给定项目属于类别的概率 j 。然后我们可以选择具有最大输出值的类别作为我们的预测 argmax ⁡ j y j \operatorname{argmax}_j y_j a r g m a x j ​ y j ​ . 。例如,如果 y ^ 1 \hat{y}_1 y ^ ​ 1 ​ , y ^ 2 \hat{y}_2 y ^ ​ 2 ​ , 和 y ^ 3 \hat{y}_3 y ^ ​ 3 ​ 分别为0.1、0.8和0.1。然后预测是第二类。 您可能会倾向于建议我们解释日志 o 直接作为我们感兴趣的输出。然而,将线性层的输出直接解释为概率存在一些问题。一方面,没有什么约束这些数字的总和为1。另一方面,取决于输入,它们可以取负值。 为了将我们的输出解释为概率,我们必须保证(即使在新数据上)它们也将是非负的并且总和为1。此外,我们需要一个训练目标来鼓励模型忠实地估计概率。在分类器输出0.5的所有实例中

科学怪物!3D人体全身运动捕捉系统,港中文联合Facebook出品

空扰寡人 提交于 2020-10-01 02:04:59
     作者 | VVingerfly   编辑 | 陈大鑫   3D人体姿态和形状估计在最近几年是一个重要的研究热点,但大部分工作仅仅关注人体部分,忽略了手部动作,港中文联合Facebook AI研究院提出了一种从单张图片同时估计人体姿态和手部动作的新方法,展示效果好似科学怪物。      如下图左下和右下所示,易看出本文提出的方法姿态估计效果更好。       1    介绍   本文作者提出了一个3D人体全身运动捕捉系统 FrankMocap,能够从单目视频同时估计出3D人体和手部运动,在一块GeForce RTX 2080 GPU上能够达到 9.5 FPS。 作者提到 “FrankMocap” 是对现代普罗米修斯 (The Modern Prometheus)中科学怪人 (Frankenstein) 的怪物的致敬。   人们每天会拍大量的日常活动视频上传到网络,如果有一种基于普通摄像头的运动捕捉系统,能够捕捉视频中人体的运动,将在人机交互、人工智能、机器人等众多方向有所应用。   同时捕捉人体和人手的运动对这些应用同样重要,但人手只占身体的很小一部分,要想直接捕捉两者的运动是一个很难的问题。当前的大部分相关工作都只顾及图片中人体的3D姿态,忽略图片中人手的动作。有部分工作关注从单张图片同时估计人体的全身运动,但这些工作都是基于优化的方法,将参数化的人体模型拟合到图像信息

一文读懂因果推断的起源

会有一股神秘感。 提交于 2020-09-30 11:24:45
来源:翻译教学与研究 本文 约6800字 ,建议 阅读10分钟 本文为大家介绍了关于因果推断的起源。 编者按: 斯特劳森曾说,逻辑不是先验的,它与语言密不可分。这就是说,人类认知世界的工具——如数学推理,逻辑推理,理性,都是语言的产物。这意味着说,人类认知世界的能力是有局限性的,就像伽达默尔所说,语言就像是黑屋子中的手电筒,光柱照到哪里,我们就看到哪里。这是这篇文章让我联想到的东西。如果您对语言哲学感兴趣的话,这篇文章值得一读。 ——翻译教学与研究 北京大学数学科学学院耿直教授开设的《普通统计学》课程是本学期的通识核心课程之一。 今天为大家带来的是耿直教授所推荐的文章。该文章出自朱迪亚·珀尔著《为什么:关于因果关系的新科学》(中信出版集团股份有限公司 2019.7.1)中第二章选段,介绍了关于因果推断的起源。 因果推断的起源 朱迪亚·珀尔 但它(地球)仍在动。 ——出自伽利略(1564—1642) 弗朗西斯·高尔顿爵士在皇家学院展示他的“高尔顿板”(Galton board)或称“梅花机”(quincunx)。 他将这种类似弹珠台的仪器看作对基因特性(如身高)遗传的类比。弹球会堆积成一个上边缘为钟形曲线的图案,该曲线与人类身高的分布曲线非常相似。那么,为什么人类一代传一代,其身高分布并没有像弹球那样散开?这一难题引领他走向了“向均值回归”(regression to the

机器学习教程篇1 -- 线性回归(上)最小二乘法

孤街浪徒 提交于 2020-09-28 17:48:23
机器学习 -- 线性回归 一、最小二乘法 1、概念 2、内容讲解 (1)模型结构 (2)误差函数 (3)代码 (4)调用Scikit-learn库进行开发 “好好学习,天天向上” – 机器学习的第一个教程开始啦,后续会附上视频讲解 一、最小二乘法 1、概念 线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。主要解决的就是如何通过样本来获取最佳的拟合线。现在使用得比较广泛的就是梯度下降和最小二乘法,,它是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。在有监督学习问题中,线性回归是一种最简单的建模手段。这里首先讲解最小二乘法。 2、内容讲解 (1)模型结构 从线性回归模型开始讲起,由式子,最后是一条高维空间的直线(因为这里的x都是一次项的),最终的目的是求出a和b,也就是所有的x和b,为了让所有的点都在线上,就要不断调整w(系数,也即权重)。随着维度的增加,计算量也增加,用一组向量就可以表示所有的系数。注意这里W是列向量。 所以确定W和b就能求出y了。 (2)误差函数 理论值与预测值的差的平方最小。 (3)代码 1、导入数据,定义损失函数和拟合函数等。 import numpy as np import matplotlib . pyplot as plt points = np . genfromtxt ( 'data.csv' ,