过拟合

【机器学习】机器学习算法优缺点对比(汇总篇)

女生的网名这么多〃 提交于 2020-10-01 15:08:21
作者 | 杜博亚 来源 | 阿泽的学习笔记 「本文的目的,是务实、简洁地盘点一番当前机器学习算法」。文中内容结合了个人在查阅资料过程中收集到的前人总结,同时添加了部分自身总结,在这里,依据实际使用中的经验,将对此模型优缺点及选择详加讨论。 主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。 假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 天下没有免费的午餐 在机器学习领域,一个基本的定理就是“没有免费的午餐”。「换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)」。 举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。

科学怪物!3D人体全身运动捕捉系统,港中文联合Facebook出品

空扰寡人 提交于 2020-10-01 02:04:59
     作者 | VVingerfly   编辑 | 陈大鑫   3D人体姿态和形状估计在最近几年是一个重要的研究热点,但大部分工作仅仅关注人体部分,忽略了手部动作,港中文联合Facebook AI研究院提出了一种从单张图片同时估计人体姿态和手部动作的新方法,展示效果好似科学怪物。      如下图左下和右下所示,易看出本文提出的方法姿态估计效果更好。       1    介绍   本文作者提出了一个3D人体全身运动捕捉系统 FrankMocap,能够从单目视频同时估计出3D人体和手部运动,在一块GeForce RTX 2080 GPU上能够达到 9.5 FPS。 作者提到 “FrankMocap” 是对现代普罗米修斯 (The Modern Prometheus)中科学怪人 (Frankenstein) 的怪物的致敬。   人们每天会拍大量的日常活动视频上传到网络,如果有一种基于普通摄像头的运动捕捉系统,能够捕捉视频中人体的运动,将在人机交互、人工智能、机器人等众多方向有所应用。   同时捕捉人体和人手的运动对这些应用同样重要,但人手只占身体的很小一部分,要想直接捕捉两者的运动是一个很难的问题。当前的大部分相关工作都只顾及图片中人体的3D姿态,忽略图片中人手的动作。有部分工作关注从单张图片同时估计人体的全身运动,但这些工作都是基于优化的方法,将参数化的人体模型拟合到图像信息

对抗方法过滤数据中的 Bias

て烟熏妆下的殇ゞ 提交于 2020-09-30 13:41:18
标题: Adversarial Filters of Dataset Biases 来源 : ICML 2020,Allen Institute for Artificial Intelligence 原文链接: https:// arxiv.org/abs/2002.0410 8 Abstract 大型神经网络模型在语言和视觉基准测试上已经表现出人类的水平,然而在面对对抗性的或 out-of-distribution 样本时,模型的性能会大幅下降。由此引出一个问题:这些模型是否是通过过拟合虚假的数据集 bias 而学会了解决 dataset 而不是基础的 task 。文中研究了一种最近提出的方法, AFLITE ,它通过对抗过滤这样的数据偏差来减轻普遍高估的机器变现。作者还未 AFLITE 提供了一个理论性的理解,通过将其置于最优 bias 减少的广义框架中。文中提出了大量的支持证据,证明 AFLITE 广泛使用于减少可测量的数据集bias上,并且在过滤好的数据集上训练的模型对 out-of-distribution 的任务有更好的泛化能力。最终,过滤导致模型性能大幅下降(SNLI 从92%下降到62%),但人工的表现依旧很高。因此,本文的工作表明,经过过滤的数据集可以作为升级的 benchmarks,为鲁棒性泛化带来新的研究挑战。 Introduction 在很多受欢迎的AI

七夕,阿里云AI帮你算算你的撩妹战斗值

可紊 提交于 2020-09-30 06:05:09
"用姓名测试爱情,80%准确率! “ “俗话说,名如其人,缘分就是人生的后半生。” “心动不如行动,来一个属于自己的名字配对缘分测试吧!” 这些话你一定已经在很多微信号、电视节目,甚至奇奇怪怪的小网站上都看到过。 你一定也很好奇,名字缘分测试背后到底是不是有科学依据支撑。 今天,作为数据科学老司机的我,虽然不能直接帮你测试你和某个特定的人直接的缘分,但是我们可以借助哥伦比亚大学多年研究相亲找对象的心血,通过几个简单的特征来评估你的相亲战斗力指数。 具体模型的测试页面在 这里 ,只是正式开始实验之前,我们需要寻找一个简单好用方便上手的工具,这里我推荐一波阿里云的PAI-DSW探索者版,它对于个人开发者是免费的,还有免费GPU资源可以使用,实验的数据更会免费保存30天。 点击这里 只要登陆就可直接使用。今天,我们就会通过这个工具来探索人性的奥秘,走进两性关系的神秘空间,嘿嘿嘿。 整个实验的数据收集于一个从 2002年到2004年的线下快速相亲的实验 。这个实验中,参与者被要求参加多轮与异性进行的快速相亲,每轮相亲持续4分钟,在4分钟结束后,参与者双方会被询问是否愿意与他们的对象再见面。只有当双方都回答了“是”的时候,这次相亲才算是配对成功。 同时,参与者也会被要求通过以量化的方式从外观吸引力,真诚度,智商,风趣程度,事业心,兴趣爱好这六个方向来评估他们的相亲对象。

手残党福音:一键抠图、隔空移物,这篇CVPR华人论文帮你搞定

廉价感情. 提交于 2020-09-30 05:23:59
  机器之心报道    编辑:蛋酱、杜伟、小舟    世界上从来不缺少抠图工具,但始终缺少更完美的抠图工具(尤其是对于手残党来说)。      在传统年代,人们能想到最精准的抠图方法,大概是 Photoshop 之类的专业图像处理软件,显然这种处理方式会很繁琐。随着人工智能技术的发展,从业者开始尝试将最先进的机器学习技术融入到图像处理工作之中。这些开源算法最终变成了各种各样的在线抠图程序,最重要的是——它们的操作方法非常简单且完全免费。   比如「Remove.bg」,你只需要上传图片,网站就能识别其中的主体并去除背景,最终返回一张透明背景的 PNG 格式图片。尽管在前景与背景之间边界处理上存在瑕疵,但借助 AI 来抠图确实比自己动手要便捷,不是吗?      网站地址:https://www.remove.bg/   近日,一款名为「ObjectCut」的图像处理新工具进入了大家的视野。你甚至不需事先将图片下载到本地,只需要输入图片网址,即可得到一张去除背景后的图片。      https://objectcut.com/      使用教程演示。   项目作者表示,这一工具所使用方法基于 CVPR 2019 论文《BASNet: Boundary-Aware Salient Object Detection》,并使用了一些相关的公开数据集来进行训练,包括 ECSSD、SOD

4.集成学习之1.Bagging

巧了我就是萌 提交于 2020-09-29 11:23:35
基于bagging思想的套袋集成技术 套袋方法是由柳.布莱曼在1994年的技术报告中首先提出并证明了套袋方法可以提高不稳定模型的准确度的同时降低过拟合的程度(可降低方差)。 套袋方法的流程如下: 注意:套袋方法与投票方法的不同: 投票机制在训练每个分类器的时候都是用相同的全部样本,而Bagging方法则是使用全部样本的一个随机抽样,每个分类器都是使用不同的样本进行训练。其他都是跟投票方法一模一样! 对训练集随机采样 分别基于不同的样本集合训练n个弱分类器。 对每个弱分类器输出预测结果,并投票(如下图) 每个样本取投票数最多的那个预测为该样本最终分类预测。 我们使用葡萄酒数据集进行建模(数据处理): ## 我们使用葡萄酒数据集进行建模(数据处理) df_wine = pd . read_csv ( 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data' , header = None ) df_wine . columns = [ 'Class label' , 'Alcohol' , 'Malic acid' , 'Ash' , 'Alcalinity of ash' , 'Magnesium' , 'Total phenols' , 'Flavanoids' ,

百度飞桨AI识虫任务心得

半腔热情 提交于 2020-09-26 17:59:08
百度飞桨AI识虫任务心得 一 、赛题背景 二、比赛任务 三、心得体会 一 、赛题背景 目标检测是计算机视觉中的一个重要的应用方向,与之相关的应用也越来越多。百度飞桨与北京林业大学合作开发的AI识虫项目,是将AI与农业相结合的典型案例。本次比赛将使用林业病虫数据集,使用目标检测算法对图片中的虫子类别和位置进行预测。在《零基础实践深度学习课程》中,老师讲介绍如何使用YOLO-V3算法检测虫子,但老师所讲授的内容只包含最基本的功能。学员需要在此基础上对模型参数或者模型结构进行调整,以得到更好的评估结果。主要改进方案可以从以下四个方面进行:1、 使用其它模型如faster rcnn等;2、 使用数据增强,如对原图进行翻转、裁剪等操作; 3、 修改anchor参数的设置;4、 调整优化器、学习率策略、正则化系数等。 二、比赛任务 参赛者需要训练好目标检测模型,并且用训练好的模型在测试数据集上进行预测,每张图片的预测输出结果为图片中包含的虫子的 类别、位置、和置信度得分 。结果保存为json文件。参赛者需提供飞桨训练好的模型参数,可以在AI Studio Notebook中一键运行的预测代码,还有存放预测结果的json文本文件。 三、心得体会 通过最后一周的参赛,能够将最基本也是最常用的图像操作算法YOLO-V3用于实践案例中。在对数据集进行处理时,用到了一系列的图像增强技术,如调节亮度、缩放

Datawhale数据分析课程第二章

一世执手 提交于 2020-09-26 02:19:55
Datawhale数据分析课程第二章 准备工作 数据清洗及特征处理 相关定义 缺失值观察与处理 任务一:缺失值观察 (1) 请查看每个特征缺失值个数 (2) 请查看Age, Cabin, Embarked列的数据 以上方式都有多种方式,所以大家多多益善 任务二:对缺失值进行处理 (1)处理缺失值一般有几种思路 (2) 请尝试对Age列的数据的缺失值进行处理 (3) 请尝试使用不同的方法直接对整张表的缺失值进行处理 重复值观察与处理 任务一:请查看数据中的重复值 任务二:对重复值进行处理 (1)重复值有哪些处理方式呢? (2)处理我们数据的重复值 任务三:将前面清洗的数据保存为csv格式 特征观察与处理 任务一:对年龄进行分箱(离散化)处理 (1) 分箱操作是什么? (2) 将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示 (3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示 (4) 将连续变量Age按10% 30% 50 70% 90%五个年龄段,并用分类变量12345表示 (5) 将上面的获得的数据分别进行保存,保存为csv格式 任务二:对文本变量进行转换 (1) 查看文本变量名及种类 (2) 将文本变量Sex, Cabin ,Embarked用数值变量12345表示

蘑菇街首页推荐视频流——增量学习与wide&deepFM实践(工程+算法)

随声附和 提交于 2020-09-24 06:03:10
欢迎关注我的公众号: 『诗品算法』 禁止一切未经本人 @ 琦琦许可的转载 一、楔子 害,写个这么严肃的技术话题还需要楔子么?这不是让大家放松一下嘛!毕竟是我的处女作,还是要来个看似一本正经的开场白和自我介绍的。 大家好,我是混迹于奋斗X之都——杭州的互联网大龄脱发女程序员一枚,大家可以关注我的公众号: “诗品算法” 。我会尽量保持每个月甚至每周更新一次的频率,在此立证(更新慢你也不能打我,只能用唾沫星子淹死我了哈哈)。 下面进入正题,带你领略蘑菇街有(坎)趣(坷)的从0到1的增量学习历程。 二、背景 在online deep learning炒得尤其火热的今天,我们知道,实时性就是互联网的生命和活力所在。笔者前几天跟一个阿里的朋友吃饭,朋友说,ODL现在是他们组最容易出成果的方向,众人愕然,ODL?哪篇论文里的?随即一拍大腿,原来是deep online learning。。。 试想,如果你刷抖音时,平台捕获到了你最近偏好旅行的即时兴趣,随即在很短时间内给你推荐了旅行相关的内容,你是不是会持续嗑药般地滑动下去?从而产生了心理学中所谓的无限“心流”,但我并不推崇这种类似沉迷游戏般的"心流",这种带有引号的“心流”仅仅是感官的愉悦,与精神的满足与自我的成就感无关,与至高的纯粹的甘美的快乐无关,与灵魂真正的安宁与幸福更是无关,因这并不会让你获得实质性的进步。扯远了

阿里天池全国社保比赛心得

自闭症网瘾萝莉.ら 提交于 2020-08-19 22:30:43
最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛,终于结束,最终全国排名第7,总共是1336只队伍参加,还是很激动进了前10,今天想把一些体悟写一下,希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,根据给出的数据情况,最开始有两个思路,1.从就诊记录入手,找到可疑的就诊记录,然后拼接到人上 2.直接构造人的可疑程度的行为特征。两者都试过,最终选择了后者,因为题目给出的欺诈标签主要是人的欺诈标签,并没有给出某次就诊行为的欺诈标签。另外,此次的评测指标是F1值,这个非常重要,你要知道你最终排名都是看的这个值。下面我从三个方面讲一下这次比赛的心得。 一、特征 可能没参加比赛前很难理解 特征决定上限 的这个真理,特征特征才是最重要的! 一定要看特征重要度,要不断尝试,有些组合到一起反而降低,有些特征看着不重要,你把他去了 可是结果却会出现下降的情况,因为特征和特征之间是有关系的。 在重要特征做深入处理的收益远大于在次要特征中继续做。 汇总信息有些时候会丢失信息,比如我们最开始将医院数据进行了汇总,计算每个人去一级医院,二级医院,三级医院的个数,反而没有把所有医院的维度扩充好。 观察和了解你的数据很重要。观察数据发现患者同一天在同一个医院有药费,有治疗费分别出现不同的就诊id,包括挂号的费用也是不同的id