过拟合 | 易学教程

前列腺癌检测 AI 算法登上《柳叶刀》：分类性能超过人类专家，还能完成其他临床任务...

阅读更多关于前列腺癌检测 AI 算法登上《柳叶刀》：分类性能超过人类专家，还能完成其他临床任务...

来源：AI科技评论本文约 2200字，建议阅读 6分钟。本文为你介绍一种基于人工智能的算法，其用来处理常规临床应用任务，具体而言是辅助前列腺疾病诊断。近日，《柳叶刀-数字医疗》期刊刊登了一篇“用人工智能算法诊断前列腺癌”的论文，论文中，作者除了报告了一项盲法临床验证研究，还部署了一种基于人工智能的算法用来处理常规临床应用任务，具体而言是辅助前列腺疾病诊断。在算法性能测试中，该 AI 算法用内部数据得到的AUC是0.997，在UPMC外部验证数据集上，其AUC是0.991。换句话说，性能指标超过了一般的AI算法。论文地址： https://www.thelancet.com/journals/landig/article/PIIS2589-7500(20)30159-X/fulltext 这篇论文的作者是来自UPMC和匹兹堡大学的研究员，他们提出的算法的核心技术是多层卷积神经网络，专门为图像分类任务而设计。整个算法工作的流程有三个连续的步骤：组织检测、分类和病理图片级别分析。算法和临床应用一览具体而言，先使用数千个图块对梯度提升（Gradient Boosting）分类器进行训练，目的是为了区分图片中的组织区域和背景区域；然后用分离出的组织区域训练三个基于CNN的模型。这些模型接受了1,357,480张贴有标签图块的训练，这些图块是从549张图片的“手工标注

海华大赛第一名团队聊比赛经验和心得：AI在垃圾分类中的应用

阅读更多关于海华大赛第一名团队聊比赛经验和心得：AI在垃圾分类中的应用

摘要：为了探究垃圾的智能分类等问题，由中关村海华信息研究院、清华大学交叉信息研究院以及Biendata举办的2020海华AI垃圾分类大赛吸引了大量工程师以及高校学生的参与 01 赛题介绍随着我国经济的发展，城市化进程不断加速，生活垃圾对城市环境的威胁日益增加。如何高效、环保地解决处理生活垃圾迫在眉睫。因此垃圾的智能分类对于智能化分拣垃圾、提高垃圾分拣效率就显得十分重要。为了探究这一问题，由中关村海华信息研究院、清华大学交叉信息研究院以及Biendata举办的2020海华AI垃圾分类大赛吸引了大量工程师以及高校学生的参与。由华为NAIE平台提供的算力支持，也为比赛的顺利开展奠定了基础。该比赛旨在激发更广泛的科研探索热情，挖掘更有价值的算法优化和创新。 02 数据分析我们参与的是该比赛的专业赛道，因此有两种数据集可以使用。一种为单类数据集，共80,000张垃圾图像，每张图像中只有一个类别。此外，还提供了图中唯一对象的边框的信息。多类别数据集包含训练集中的2998张垃圾图像，验证集中的1000张垃圾图像，测试集中的1000张垃圾图像，每幅图像最多包含20个类别。不同于VOC、COCO、OID等常见的目标数据集，这些数据集具有不同的特点: 1. 对于205个类别，单类垃圾数据集的大小就足够了。然而，这个数据集中的垃圾图像与多类数据集中的垃圾图像有很大的不同，即使是同一类别的垃圾

SparseNN中的优化

阅读更多关于 SparseNN中的优化

作者|The AI LAB 编译|VK 来源|Medium 对SparseNN模型的过拟合进行研究，并探索了多种正则化方法，如嵌入向量的max-norm/constant-norm、稀疏特征id的dropout、参数的freezing、嵌入收缩等。然而，据我们所知，在单次训练中，没有显著的减少过拟合的效果。正则化全连接层和稀疏参数随机梯度下降优化器使用小批量样本来更新全连接层和稀疏参数。给定一个小批量的例子，通常所有的全连接层参数都会被更新(假设没有gate或dropout)，而只有一小部分稀疏参数会在正向传播中被激活，从而在反向传播中被更新。例如，假设一个稀疏特征对用户在过去一周内单击的广告id进行编码，虽然我们可能有数百万个惟一的广告id，但是在一个小型批处理中(通常是100个样本)出现的广告id的数量与基数相比非常有限。正则化稀疏参数与全连接层参数的不同之处在于，我们需要在运行时识别小型批处理中已激活的稀疏参数，然后仅对这些参数进行正则化。在正则化全连接层参数时需要注意的一点是，全连接层中的偏差通常不需要正则化。因此，需要识别这些偏差，并将它们自动排除在正则化之外。 L2正则化 J(W)是经验损失，||W_dense||²是全连接层稀疏参数(也称为L2正则化器)的L2范数的平方；||W_sparse||²也是如此。参数W_i的损失L的梯度被分解为经验损失J和所谓的

SparseNN中的优化

阅读更多关于 SparseNN中的优化

决策树和随机森林

阅读更多关于决策树和随机森林

作者|PRATEEK JOSHI 编译|VK 来源|Analytics Vidhya 决策树与随机森林的简单类比让我们从一个思维实验开始，它将说明决策树和随机森林模型之间的区别。假设银行必须为客户批准一笔小额贷款，而银行需要迅速做出决定。银行检查此人的信用记录和财务状况，发现他们还没有偿还旧贷款。因此，银行拒绝了申请。但问题是，对于银行庞大的金库来说，贷款数额非常小，他们本可以在非常低风险的情况下批准贷款。因此，银行失去了赚钱的机会。现在，又一个贷款申请将在几天内完成，但这一次银行提出了一个不同的策略——多个决策过程。有时它先检查信用记录，有时它先检查客户的财务状况和贷款金额。然后，银行结合这些多个决策过程的结果，决定向客户发放贷款。即使这一过程比前一个过程花费更多的时间，银行也可以利用这一方法获利。这是一个典型的例子，集体决策优于单一决策过程。现在，你知道这两个过程代表了什么吧？这些分别代表决策树和随机森林！我们将在这里详细探讨这个想法，深入探讨这两种方法之间的主要区别，并回答关键问题，你应该使用哪种算法？目录决策树简介随机森林简介随机森林与决策树的冲突为什么随机森林优于决策树？决策树与随机森林—你什么时候应该选择哪种算法？决策树简介决策树是一种有监督的机器学习算法，可用于分类和回归问题。决策树仅仅是为了达到特定结果而做出的一系列顺序决策

七月算法机器学习5 回归分析与工程应用

阅读更多关于七月算法机器学习5 回归分析与工程应用

目录主要内容线性回归思考一个简单的例子多个变量的情形损失函数（ loss function）梯度下降学习率回归与欠/过拟合 LR应用经验主要内容线性回归 1.定义与问题引入 2.损失函数 3.梯度下降 4.过拟合与正则化 n  逻辑回归 1.定义与问题引入 2.损失函数 3.梯度下降与正则化及示例 n  工程应用经验 1.优缺点和应用场景 2.样本处理 3.特征处理 4.算法调优线性回归思考一个简单的例子近似的是一条直线的关系多个变量的情形损失函数（ loss function）梯度下降线性回归的loss函数是凸函数学习率步长，与算法的效率有关只要方向对的，会走到山底回归与欠/过拟合左边是欠拟合，右边是过拟合为什么theta会很大？ y = x 是直线平方和立方项前的系数大则会突变 LR应用经验特征是知道的，对应的系数知道，通过特征前的系统就知道哪个特征重要基线版本很多都采用逻辑回归因为上面的优点关于样本处理如果随机取会有偏差上采样图像处理中常用，做旋转，镜像，重复等关于特征处理来源： oschina 链接： https://my.oschina.net/u/4390738/blog/4319980

【机器学习】正则化的线性回归 —— 岭回归与Lasso回归

阅读更多关于【机器学习】正则化的线性回归 —— 岭回归与Lasso回归

注：正则化是用来防止过拟合的方法。在最开始学习机器学习的课程时，只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数。但是一直也无法对其基本原理有一个透彻、直观的理解。直到最近再次接触到这个概念，经过一番苦思冥想后终于有了我自己的理解。 0. 正则化（Regularization ）前面使用多项式回归，如果多项式最高次项比较大，模型就容易出现过拟合。正则化是一种常见的防止过拟合的方法，一般原理是在代价函数后面加上一个对参数的约束项，这个约束项被叫做正则化项（regularizer）。在线性回归模型中，通常有两种不同的正则化项：加上所有参数（不包括$\theta_0$）的绝对值之和，即$l1$范数，此时叫做Lasso回归；加上所有参数（不包括$\theta_0$）的平方和，即$l2$范数的平方，此时叫做岭回归. 看过不少关于正则化原理的解释，但是都没有获得一个比较直观的理解。下面用代价函数的图像以及正则化项的图像来帮助解释正则化之所以起作用的原因。 0.1 代价函数的图像为了可视化，选择直线方程进行优化。假设一个直线方程以及代价函数如下： $\hat{h}_{\theta} = \theta_0 + \theta_1 x$，该方程只有一个特征$x$，两个参数$\theta_0$和$\theta_1$ $J(\theta) = \frac{1}{m} \sum_{i

完虐"机器人",36核CPU单机，南加大游戏AI在Doom中实现SOTA性能

阅读更多关于完虐"机器人",36核CPU单机，南加大游戏AI在Doom中实现SOTA性能

　　机器之心报道　　编辑：陈萍、杜伟　　训练游戏 AI 往往需要耗费巨量的计算，并且依赖配备数百个 CPU 和 GPU 的服务器。大的科技公司有能力和资金支撑，但学术实验室却「心有余而钱不足」。在本文中，南加州大学和英特尔实验室的研究者展示了在第一人称射击游戏《毁灭战士》中，使用单个高端工作站训练具备 SOTA 性能的游戏 AI，最多时用到了 36 核 CPU 和单个 RTX 2080 Ti GPU 的系统。　　　　我们都清楚，训练 SOTA 人工智能系统往往需要耗费大量的计算资源，这意味着资金雄厚的科技公司的发展进程会远远超过学术团队。但最近的一项研究提出了一种新方法，该方法有助于缩小这种差距，使得科学家可以在单个计算机上解决前沿的 AI 问题。　　OpenAI 2018 年的一份报告显示，用于训练游戏 AI 的处理能力正在快速地提升，每 3.4 个月翻一番。其中对数据需求量最大的一种方法是深度强化学习，通过在数百万个模拟中迭代，AI 在反复试错中进行学习。《星际争霸》和《Dota2》等电子游戏领域取得了令人瞩目的新进展，但都依赖封装了数百个 CPU 和 GPU 的服务器。　　针对这种情况，Cerebras System 开发的 Wafer Scale 引擎能够使用单个大芯片来替换这些处理器，这个芯片为训练 AI 进行了完美的优化。但是由于价格高达数百万

2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享

阅读更多关于 2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享

2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享 2020“东方国信杯”高校大数据开发大赛刚刚结束，我所在的队伍“三人运动团”最后取得了 3/453 这个还算不错的成绩。感谢两位大佬队友的一路相伴！！下面我将分享一下我们本次比赛的一点思路！写在前面：大家好！我是练习时长半年的在读本科生数据小白JerryX，各位数据挖掘大佬有什么问题和建议多多指教！！欢迎大家多多点赞，多多评论，多多批评指正！！目录 2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享 0 赛题背景 1 特征工程 2 模型策略 3 结论&展望 0 赛题背景随着信息化浪潮的发展，我们即将迎来5G时代的浪潮，而中国也是5G通信时代的引领者。去年十月，三大电信运营商共同宣布5G商用服务启动，发布相应的5G套餐，席卷全球的5G浪潮正式走进中国的千家万户。 5G使云服务进一步往边缘发展，越来越多的边缘算力将促进基于边缘计算的AI应用，更低的网络延时，也使得终端和云对AI计算的分工更为灵活。无人驾驶、智能家居、工业物联将快速发展。而对于通信运营商来说，如何基于一些用户侧的信息进行用户画像，再进一步对于潜在的5G使用者进行精准的推销也是非常有帮助的。而这个也正是本次东方国信杯的比赛目标。本次竞赛提供已经转向5G的用户以及尚未转向5G用户的各种数据，要求通过建模识别5G潜在用户

仅需少量视频观看数据，即可精准推断用户习惯：腾讯、谷歌、中科大团队提出迁移学习架构PeterRec

阅读更多关于仅需少量视频观看数据，即可精准推断用户习惯：腾讯、谷歌、中科大团队提出迁移学习架构PeterRec

仅从一个人的抖音、快手、腾讯视频的观看记录里，我们能发现什么？近日，腾讯看点研发团队、Google London 和中科大的研究工作首次证实，仅依靠用户视频新闻观看记录，就可以精确地推测出用户的各种个人信息信息，包括但不限于用户年龄段、性别、喜好、人生状况（例如单身/已婚/怀孕等）、职业、学历等信息，甚至是否有心理抑郁暴力倾向。目前，这篇论文已经被信息检索领域顶级国际会议 SIGIR 接受为长文章。机器之心发布，机器之心编辑部。推导迁移学习对计算机视觉和 NLP 领域产生了重大影响，但尚未在推荐系统广泛使用。虽然大量的研究根据建模的用户-物品交互序列生成推荐，但很少有研究尝试表征和迁移这些模型从而用于下游任务（数据样本通常非常有限）。在本文中，研究者深入研究了通过学习单一用户表征各种不同的下游任务，包括跨域推荐和用户画像预测。优化一个大型预训练网络并将其适配到下游任务是解决此类问题的有效方法。但是，微调通常要重新训练整个网络，并优化大量的模型参数，因此从参数量角度微调是非常低效的。为了克服这个问题，研究者开发了一种参数高效的迁移学习架构「PeterRec」。论文链接： https:// arxiv.org/pdf/2001.0425 3.pdf PeterRec 可以快速动态地配置成各种下游任务。具体来说，PeterRec 通过注入一些小型但是极具表达力的神经网络

订阅过拟合