机器学习

机器学习中的类别不均衡问题

北慕城南 提交于 2021-02-07 06:36:38
<br/> ##基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样本较少那一类的高错分率,即较少一类的样本会有较大的比例会被预测成样本数量较多的那一类。 <br/> ##解决方法 1、欠采样,减少数量较多那一类样本的数量,使得正负样本比例均衡。 2、过采样,增加数量较少那一类样本的数量,使得正负样本比例均衡。 3、不处理样本,样本分类阈值移动。 <br/> ##欠采样 <br/> ###随机欠采样 随机欠采样是指随机从多数类样本中抽取一部分数据进行删除,随机欠采样有一个很大的缺点是未考虑样本的分布情况,而采样过程又具有很大的随机性,可能会误删多数类样本中一些重要的信息。 <br/> ###EasyEnsemble 和 BalanceCascade EasyEnsemble是通过多次从多数类样本有放回的随机抽取一部分样本生成多个子数据集,将每个子集与少数类数据联合起来进行训练生成多个模型,然后集合多个模型的结果进行判断。这种方法看起来和随机森林的原理很相似。

用算法改造过的植物肉,有兴趣试试么?

只谈情不闲聊 提交于 2021-02-07 04:37:56
By 超神经 内容概要: 一直以来人类都是以动物蛋白为主要能量来源,随着环境保护、可持续发展等观念的深化,不少企业开始探索动物蛋白的植物替代品。 关键词: 植物基食物 可持续发展 人造肉 本月初,麦当劳宣布, 将于 2021 年推出植物肉全新产品线 McPlant,新品品类将包括汉堡、鸡肉替代品以及早餐三明治。 事实上,麦当劳并不是尝试植物基产品的首家快餐店,McPlant 也并非麦当劳在植物肉汉堡上的首次试水。 植物肉:从理念到餐桌的饮食新宠 去年 9 月-2020 年初, 麦当劳就曾与美国植物肉生产商 Beyond Meat 合作, 在加拿大安大略省部分门店低调发售植物肉汉堡 P.L.T., 测试消费者对人造肉汉堡的接受程度。 今年 10 月 12 日,肯德基在国内北上广深杭武汉等 6 个城市的 210 家门店,限时限量试售植物基新品——植物肉汉堡和植物肉鸡块。 新品系列被称为「植世代」,共包括两款植物肉食品: 牛肉芝士汉堡(牛肉风味的植物蛋白制品)及黄金鸡块(鸡肉风味的植物蛋白制品)。 肯德基植世代系列包括两款新品:牛肉汉堡和鸡块 没有吃到肯德基和麦当劳的植物肉汉堡也没关系,我们收集了国内市场上部分仍在售的植物肉食品和植物奶饮品,并标注了参考售价,大家可以前往门店或在网店购买尝鲜。 在售的植物基食品/饮品(国内) 品牌 产品 参考售价 喜茶 未来肉 芝士堡 25 周黑鸭 素肉

小白学PyTorch | 11 MobileNet详解及PyTorch实现

╄→гoц情女王★ 提交于 2021-02-07 00:18:35
【机器学习炼丹术】的学习笔记分享 <<小白学PyTorch>> 小白学PyTorch | 10 pytorch常见运算详解 小白学PyTorch | 9 tensor数据结构与存储结构 小白学PyTorch | 8 实战之MNIST小试牛刀 小白学PyTorch | 7 最新版本torchvision.transforms常用API翻译与讲解 小白学PyTorch | 6 模型的构建访问遍历存储(附代码) 小白学PyTorch | 5 torchvision预训练模型与数据集全览 小白学PyTorch | 4 构建模型三要素与权重初始化 小白学PyTorch | 3 浅谈Dataset和Dataloader 小白学PyTorch | 2 浅谈训练集验证集和测试集 小白学PyTorch | 1 搭建一个超简单的网络 小白学PyTorch | 动态图与静态图的浅显理解 参考目录: 1 背景 2 深度可分离卷积 2.2 一般卷积计算量 2.2 深度可分离卷积计算量 2.3 网络结构 3 PyTorch实现 本来计划是想在今天讲EfficientNet PyTorch的,但是发现EfficientNet是依赖于SENet和MobileNet两个网络结构,所以本着本系列是给“小白”初学者学习的,所以这一课先讲解MobileNet,然后下一课讲解SENet

小白学PyTorch | 15 TF2实现一个简单的服装分类任务

爷,独闯天下 提交于 2021-02-06 21:36:42
【机器学习炼丹术】的学习笔记分享 <<小白学PyTorch>> 小白学PyTorch | 14 tensorboardX可视化教程 小白学PyTorch | 13 EfficientNet详解及PyTorch实现 小白学PyTorch | 12 SENet详解及PyTorch实现 小白学PyTorch | 11 MobileNet详解及PyTorch实现 小白学PyTorch | 10 pytorch常见运算详解 小白学PyTorch | 9 tensor数据结构与存储结构 小白学PyTorch | 8 实战之MNIST小试牛刀 小白学PyTorch | 7 最新版本torchvision.transforms常用API翻译与讲解 小白学PyTorch | 6 模型的构建访问遍历存储(附代码) 小白学PyTorch | 5 torchvision预训练模型与数据集全览 小白学PyTorch | 4 构建模型三要素与权重初始化 小白学PyTorch | 3 浅谈Dataset和Dataloader 小白学PyTorch | 2 浅谈训练集验证集和测试集 小白学PyTorch | 1 搭建一个超简单的网络 小白学PyTorch | 动态图与静态图的浅显理解 这个系列《小白学PyTorch》的所有代码和数据集放在了公众号【机器学习炼丹术】后台,回复【pytorch】获取(已经更新到最新

在B站上学编程,这几个视频你知道了么?

本小妞迷上赌 提交于 2021-02-06 15:57:26
点击上方“ 编程三分钟 ”,马上关注 ,每周不加班时更新 。 程序员书库(ID:OpenSourceTop) 视频来源:B站 说到B站,你第一反应是什么?追新番,发弹幕,还是看鬼畜视频?实际上,现在B站已经是一个无所不能的学习网站。 据了解,B站一共提供了物种视频排序的方式,每种能够返回前1000个视频,上面已经囊括了当下较火的编程语言课程,猿妹按照课程收藏量排序选出了以下编程视频,涉及多个编程语言,看看有没有你需要的: 1、小甲鱼零基础入门学习Python 779.5万播放 17.1万弹幕 B站收藏量最高的Python教程,一共97讲,此教程适合完全零基础的朋友学习,先掌握基础知识,其他部分根据各自方向来找其他教程来学,如Web,爬虫,数据分析,机器学习,深度学习 课程地址: https://www.bilibili.com/video/av4050443 2、C语言程序设计.浙江大学.翁恺 234.6万播放 5.3万弹幕 这门课程是中国大学慕课平台做的,由翁恺讲授,翁恺是浙江大学计算机学院教师,研究方向嵌入式操作系统及嵌入式系统应用,主要讲授各种程序设计语言等课程。 课程地址: https://www.bilibili.com/video/av15267247 3、Java零基础教程视频 361.7万播放 15.9万弹幕 本套Java视频教程适合绝对零基础的学员观看

双节棍「大师」鱼佬亲传武功秘籍:如何进行一场数据挖掘算法竞赛?

自作多情 提交于 2021-02-06 15:11:16
当我们掌握了一定的机器学习和数据挖掘基础理论后,参加一场数据算法竞赛可以接触真实的业务和数据,将理论知识过渡到工程应用,同时可以在竞赛过程中进行反复地思考,强化对理论知识的理解。 本次分享,我将以个人竞赛经历和圈内整体情况为背景和大家聊聊如何进行一场数据挖掘算法竞赛,以及赛前、赛中和赛后需要做哪些事情。最后还将进行一个案例分享,来看看我是如何进行一场比赛的。 注: 本文详细视频 晚7点 在阿里天池分享,链接可回看 https://tianchi.aliyun.com/course/live?liveId=41153 主题大纲 为什么要参加数据挖掘竞赛?能带来什么? 参加竞赛需要哪些基础知识和技能? 如何选择适合自己的竞赛? 竞赛中的几个主要模块议 竞赛过程中最重要的事情 好的竞赛总结比竞赛过程更重要 案例分享( 天池“全国城市计算AI挑战赛”) 为什么要参加数据挖掘竞赛? 从理论知识到从理论知识到工程应用;真实数据,增加项目经验 求职加分,企业看重;企业办赛,人才选拔 奖金的激励(丰厚) 交友,学习,PK高手 参加竞赛需要的基础知识和技能? 理论知识掌握:评价指标、数据分析、特征工程、常用模型 工具的掌握 语言的选择:Python 可视化工具:Matplotlib、Seaborn 数据处理工具:Pandas、NumPy 机器学习库:Sklearn、XGBoost、LightGBM

黑灰产攻击洪峰来袭,企业如何守住自己的钱袋子?

我与影子孤独终老i 提交于 2021-02-06 10:41:20
简介: 风控大考最佳实践 根据阿里云历史行业风险治理相关数据显示,未经风险管控的自然流量中,约三分之一比例属于疑似黑灰产的高风险行为;而在建立合理的风控指标监控体系并采取风险防控手段后,高风险用户比例下降至3%以内,下降比率超过90%。 有效的风险防控方案是保障各类营销、促活拉新等活动效果的必要手段。 随着春节临近,部分互联网行业迎来业务高峰,企业为了争夺用户流量将投入大量获客、营销资源,但同时也将面临风控大考。 由于各行业、企业的业务场景及逻辑多种多样,黑灰产需要借助工具才能实现团伙作案。阿里云安全团队梳理了近年来主流的被黑灰产使用的作案工具,并分析其作案原理及攻击手法,为企业提升防控精准度和防控效率提供参考。 云 手 机 云手机即一台运行在云端服务器的虚拟手机,具备云计算赋予的超大规模、弹性扩容、成本低等优势,经常被用于移动办公、AIoT、工业互联网等场景。然而,这些创新的技术工具也被黑灰产瞄上,用在了攻击套利方面。 传统风险治理主要通过设备指纹等技术手段进行风控管理,因此黑灰产需要购买多台真机才能完成作案。但借助云手机,黑灰产只需要一个云手机厂商账号就可以同时开启大量新机批量套利,作案成本大大降低。 此外,黑灰产可以将云手机虚拟成各类实体手机的品牌型号作案,企业风控人员如果对云手机没有足够的认知,很难将作弊类的云手机设备与正常云手机用户区分开,风险识别挑战增加。 常见套利场景

AAAI 2021最佳论文奖出炉,北航成最大赢家,还有这样一批华人学术新星!

*爱你&永不变心* 提交于 2021-02-06 10:20:02
第 35 届 AAAI 人工智能会议已于 2 月 2 日在线上召开。在刚刚举行的开幕式上,组委会颁发了今年的最佳论文奖和提名奖,分别有三篇论文获奖。其中来自北航的学者以一作身份分别获得了一篇最佳论文奖和一篇提名奖。此外,会议还宣布了「学术新星奖」,共有多名华人获得奖项。 机器之心报道,机器之心编辑部。 作为全球人工智能顶会之一,虽然受到疫情限制,但 AAAI 2021 的热度仍然不减,本届 9034 篇提交论文的数量又创下了历史新高(去年为 8800 篇)。其中,来自中国的 3319 篇论文数量几乎是美国(1822 篇)的两倍。在最终 7911 篇经过评审的论文中,共有 1692 篇被接收。今年的论文接收率为 21%,略高于去年(20.6%)。 AAAI 2021 大会主席为微众银行首席人工智能官杨强教授,杨强教授是 AAAI 大会历史上第二位大会主席,也是担任此职位的首位华人。 最佳论文奖:两篇华人一作 本次会议共有三篇论文获得最佳论文奖项,其中两篇获奖论文的第一作者为华人学者,他们分别是来自北京航空航天大学的 Haoyi Zhou 和来自达特茅斯学院的 Ruibo Liu。 AAAI 2021程序委员会 Cochair Mausam公布论文奖项。 最佳论文 1:Informer: Beyond Efficient Transformer for Long Sequence

Flink 消息聚合处理方案

风格不统一 提交于 2021-02-06 07:51:50
Flink 消息聚合处理方案 曹富强 / 张颖 Flink 中文社区 微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此需要一种有效的消息聚合处理方案。 在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。 基于 flatMap 的解决方案 这是我们能够想到最直观的解决方案,即在自定义的 flatMap 方法中对消息进行聚合,伪代码如下: 对应的作业拓扑和运行状态如下: 该方案的优点如下: 逻辑简单直观,各并发间负载均匀。 flatMap 可以和上游算子 chain 到一起,减少网络传输开销。 使用 operator state 完成 checkpoint,支持正常和改并发恢复。 与此同时,由于使用 operator state,因此所有数据都保存在 JVM 堆上,当数据量较大时有 GC/OOM 风险。 使用 Count Window 的解决方案 对于大规模 state 数据,Flink 推荐使用 RocksDB backend,并且只支持在 KeyedStream 上使用。与此同时,KeyedStream 支持通过 Count Window 来实现消息聚合,因此 Count

吴恩达机器学习笔记 —— 18 大规模机器学习

不羁的心 提交于 2021-02-06 03:50:39
本章讲了梯度下降的几种方式:batch梯度下降、mini-batch梯度下降、随机梯度下降。也讲解了如何利用mapreduce或者多cpu的思想加速模型的训练。 更多内容参考 机器学习&深度学习 有的时候数据量会影响算法的结果,如果样本数据量很大,使用梯度下降优化参数时,一次调整参数需要计算全量的样本,非常耗时。 如果训练集和验证集的误差像左边的图形这样,就可以证明随着数据量的增加,将会提高模型的准确度。而如果像右边的图,那么增加样本的数量就没有什么意义了。 因此可以考虑缩小m的使用量,可以使用随机梯度下降。随机梯度下降的过程是:随机打散所有的样本,然后从第一个样本开始计算误差值,优化参数;遍历所有的样本。这样虽然优化的方向比较散乱,但是最终还是会趋于最优解。 还有一种方式叫做小批量梯度下降,每次使用一小部分的数据进行验证。比批量梯度下降更快,但是比随机梯度下降更稳定。 针对损失函数和batch的数量,可以画出下面的图:图1的震荡曲线可以忽略,此时的震荡可能是由于局部最小值造成的;图2如果增加数量能使得曲线更平滑,那么可以考虑增加batch的数量。图3 可能是模型根本没有在学习,可以考虑修改一下其他的参数。图4可能是因为学习太高,可以使用更小的学习率。 在线学习就是随着数据的获取,增量的来当做每个batch进行训练。 如果数据的样本很大,其实也可以通过map