机器学习

01-线性回归算法

久未见 提交于 2021-01-24 05:46:11
机器学习分类 :回归,分类 回归: 最终得到的是在一个区间上真正(实际)的值 分类: 最终得到的是个逻辑值0/1,是与不是,能与不能之类的答案 名词解释 : 拟合: 拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。拟合的曲线一般可以用函数表示,根据这个函数的不同有不同的拟合名字。 最小二乘法: 最小二乘法(又称最小平方法)是一种数学 优化 技术。它通过最小化误差的平方和寻找数据的最佳 函数 匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于 曲线拟合 。其他一些优化问题也可通过最小化能量或最大化熵用 最小二乘法 来表达 回归问题举例: 对问题进行数学化: X1,X2就是我们的两个特征值(年龄,工资),而Y是最终银行会借给我们多少钱。 需要解决的问题就是:找到一条来最好拟合我们数据的点。 最终得到的整合的h(x)主要是为了使数据看起来更加的整齐,也方便以后的矩阵运算。 误差分析 : 误差三个特性:独立,同分布,高斯分布 似然函数求解: eg: 简化运算:log(AB) = logA + logB 目标函数求解:求J(0)的最小值 注意:样本服从高斯分布且独立,其最大似然估计就可以用最小二乘形式表示。 X,Y为已知的数据,即可求得佘塔 评估方法: <wiz_tmp

机器学习算法 --- 线性回归

拜拜、爱过 提交于 2021-01-24 05:46:02
一、线性回归算法的简介    线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。   回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为 多元线性回归 分析。   本文主要介绍线性回归算法的演绎推导,关于线性回归的详细介绍请参阅 线性回归在百度百科中的介绍 。   线性回归算法是机器学习中的基础算法,所以对于想要学习机器学习的读者来说,最好完全理解该算法。 二、线性回归算法的演绎推导    假设,在银行中申请行用卡的额度与如下两个参数有关,即年龄和工资,有一申请人的资料如下图,那么知道一个人的年龄和工资该如何预测出他所能申请信用卡的额度呢?   对于一个线性关系,我们使用y=ax+b表示,但在这种关系中y只受一个x的影响,二者的关系可用一条直线近似表示,这种关系也叫一元线性回归。而在本例中,设额度为h,工资和年龄分别为x1和x2,则可以表示成下式, ,在这种关系中结果收到多个变量的影响,称为 多元线性回归 分析。   我们将上式中的θ和x分别表示成两个一维矩阵[θ0 θ1 θ2]和[x0 x1 x2],则可将上式化为

那些数学不好的程序员,最后都怎么样了?

孤街浪徒 提交于 2021-01-23 13:45:38
上大学前,我 一直觉得学数学是个挺轻松的事儿,只要能理解定理的推导逻辑,就一通百通了,考试前根本不用突击复习。 但上了大学我就被“教育”了,一是难度骤然提升,很多东西难以理解;二是那会儿过于放纵,没好好上课看书,东西自然学不透。想来,还要感谢那些名捕老师,为了熬到学分,总算没特别荒废。然而工作后,我就彻底将数学抛之脑后了,毕竟日常编程用不到太高深的数学知识。 比如,算法涉及大量数学基础和相关背景知识,图形处理相关的算法,大量的线性代数矩阵变换等等,Google 还曾用一道数学题作为投递简历的门槛,之前朋友圈就被这个招聘广告牌刷过屏。 其实,不止是 Google,随便翻翻招聘启事,你就会发现,很多大公司在招应届研发时,都会优先考虑数学专业的毕业生。 无论是数据结构与算法,还是程序设计,底层原理和思路都源自数学,在大数据和智能化的时代,学好数学更是门槛本身。 所以说,数学基础的好坏,会直接决定一个程序员的发展潜力。如果你真挺喜欢写程序,还想写点更难更好玩的程序,总有一天你要过数学这道坎儿。这一点,做算法和人工智能的朋友应该深有体会。 市面上的数学资料我看了不少,不是太难就是太抽象,能深入浅出的确实不多, 《程序员的数学基础课》 就是其中一个。跟着学下来,让我把算法和数学模型都串联起来,还理清了之前的一些盲点,有时间一定二三刷。 这门课非常适合 想扎实数学基础的程序员和准程序员

python数据分析——在python中实现线性回归

断了今生、忘了曾经 提交于 2021-01-23 13:20:15
线性回归 是基本的统计和机器学习技术之一。经济,计算机科学,社会科学等等学科中,无论是统计分析,或者是机器学习,还是科学计算,都有很大的机会需要用到线性模型。建议先学习它,然后再尝试更复杂的方法。 本文主要介绍 如何逐步在Python中实现线性回归。 而至于线性回归的数学推导、线性回归具体怎样工作,参数选择如何改进回归模型将在以后说明。 回归 回归分析是统计和机器学习中最重要的领域之一。有许多可用的回归方法。线性回归就是其中之一。而线性回归可能是最重要且使用最广泛的回归技术之一。这是最简单的回归方法之一。它的主要优点之一是线性回归得到的结果十分容易解释。那么回归主要有: 简单线性回归 多元线性回归 多项式回归 如何在python中实现线性回归 用到的packages NumPy NumPy 是Python的基础科学软件包,它允许在单维和多维数组上执行许多高性能操作。 scikit-learn scikit-learn 是在NumPy和其他一些软件包的基础上广泛使用的Python机器学习库。它提供了预处理数据,减少维数,实现回归,分类,聚类等的方法。 statsmodels 如果要实现线性回归并且需要功能超出scikit-learn的范围,则应考虑使用 statsmodels 可以用于估算统计模型,执行测试等。 scikit-learn的简单线性回归 1

岗位内推 | 阿里巴巴设备风控团队招聘高级数据挖掘工程师

空扰寡人 提交于 2021-01-23 13:18:17
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁。如果你需要我们帮助你发布实习或全职岗位,请添加微信号 「pwbot02」 。 阿里安全设备风控团队招人啦~ 团队站在黑灰产攻防技术前沿,服务于整个阿里数字经济体。是集团唯一一只专注于设备风控及设备指纹的团队。团队技术氛围浓厚、小伙伴专业靠谱,包括但不限于 frida-ios-dump 作者、GeekPwn 获奖选手、CTF 大佬。在这里,基于复杂业务场景的攻防对抗每天都在发生。数字技术正在构建前所未有的全新世界,身处变化的前沿,我们面对的是互联网企业中最为丰富的业态和风险。毫无疑问,这是对检验和提升自身能力最好的练兵场。 高级数据挖掘工程师 工作地点: 杭州 薪资: 提供业内有竞争力的薪资,具体视能力而定。 岗位描述: 1. 挖掘并分析设备行为序列,搭建异常检测模型; 2. 应用机器学习相关技术,挖掘异常数据; 3. 安全检测领域前沿技术跟踪,结合已有数据基础,进行原型系统的研发和验证。 岗位要求: 1. 良好的逻辑思考能力,可以从海量数据中挖掘出有价值的规律; 2. 熟悉至少一种常用深度学习框架(Tensorflow, PyTorch); 3. 熟悉异常检测常用算法及评价指标; 4. ASR、NLP 及时间序列信号分析相关领域经验优先; 5. 天池、Kaggle

那些数学不好的程序员,最后都怎么样了?

天涯浪子 提交于 2021-01-23 13:17:57
大黄说的,网上流传的对程序员的分级方式,小灰相信大家应该都看到过: 一流程序员靠数学;二流程序员靠算法; 三流程序员靠逻辑;四流程序员靠SDK; 五流程序员靠 Google 和百度;低端的看高端的就是黑魔法。 说是段子,更是程序员的真实写照。当然小灰知道,大部分普通程序员在开发过程中,用中学数学基础是足以应付的,好像不需要学习高端的数学。 但问题是,以目前的职场环境来说,只要你想再往上走一步、做任何一点带 有创新性的技术 ,最容易遇到的,往往就是数学问题。 比如, 算法 涉及大量数学基础和相关背景知识,图形处理相关的算法,大量的线性代数矩阵变换等等,Google 还曾用一道数学题作为投递简历的门槛,之前朋友圈就被这个招聘广告牌刷过屏。 其实,不止是 Google,小灰随便翻了翻招聘启事,发现,很多大公司在招应届研发时,都会优先考虑数学专业的毕业生。 无论是数据结构与算法,还是程序设计, 底层原理和思路都源自数学 ,在大数据和智能化的时代,学好数学更是门槛本身。 所以说,数学基础的好坏, 会直接决定一个程序员的发展潜力 。如果你像小灰一样,真的喜欢写程序,还想写点更难更好玩的程序,数学这道坎儿,早晚要过。这一点,做算法和人工智能的朋友应该深有体会。 市面上的数学资料,小灰看过不少,不是太难就是太抽象,能深入浅出的不多, 《程序员的数学基础课》 就是其中一个。最早小灰是被它的一个

如何防止我的模型过拟合?这篇文章给出了6大必备方法

好久不见. 提交于 2021-01-23 10:55:16
选自Medium 作者:Mahitha Singirikonda 机器之心编译 编辑:小舟 原文链接: https://mp.weixin.qq.com/s/RP9iFbyw-aNMKx-UAOe-aA ​ mp.weixin.qq.com 正如巴菲特所言:「近似的正确好过精确的错误。」 在机器学习中,过拟合(overfitting)会使模型的预测性能变差,通常发生在模型过于复杂的情况下,如参数过多等。本文对过拟合及其解决方法进行了归纳阐述。 在机器学习中,如果模型过于专注于特定的训练数据而错过了要点,那么该模型就被认为是过拟合。该模型提供的答案和正确答案相距甚远,即准确率降低。这类模型将无关数据中的噪声视为信号,对准确率造成负面影响。即使模型经过很好地训练使损失很小,也无济于事,它在新数据上的性能仍然很差。欠拟合是指模型未捕获数据的逻辑。因此,欠拟合模型具备较低的准确率和较高的损失。 如何确定模型是否过拟合? 构建模型时,数据会被分为 3 类:训练集、验证集和测试集。训练数据用来训练模型;验证集用于在每一步测试构建的模型;测试集用于最后评估模型。通常数据以 80:10:10 或 70:20:10 的比率分配。 在构建模型的过程中,在每个 epoch 中使用验证数据测试当前已构建的模型,得到模型的损失和准确率,以及每个 epoch 的验证损失和验证准确率。模型构建完成后

看懂2020年智能浪潮,我们从百度和谷歌的AI足迹出发

ぃ、小莉子 提交于 2021-01-23 09:35:56
来源: 脑极体 2020年已经过去,无论我们过得顺遂平安,还是过得无比艰难,我们应该都会记住这一年。 回顾2020年,在这个不同寻常的疫情之年,科技成为人类抗击疫情的关键,而人工智能技术投入抗疫战争之中,可以说是人类有史以来的第一次。而与此同时,AI技术已经在我们的生产生活、公共管理等方方面面得到深入应用。 人工智能应用场景的爆发,其背后是全球AI科技企业从后端走向前台,从实验室走向产业纵深的努力和实践。 最近,百度和谷歌不约而同都发发布了长文,来总结2020的AI发展。 谷歌首席AI科学家Jeff Dean在谷歌博客上刊出了Google Research: Looking Back at 2020, and Forward to 2021的万字长文,详细介绍了谷歌在2020年AI技术在多个领域取得的应用进展。 而更早一点时间,百度先后发布了长达万字的《百度AI的2020》和《百度研究院2021年十大科技趋势预测》,同样细数了百度过去一年里在AI技术业务体系和产业赋能体系中的各项成果,同时也对2021年的AI技术和应用领域做出清晰判断。 如果仔细对比谷歌和百度在AI技术和产业应用的实践,我们就会惊讶地发现,两家几乎同时以搜索引擎业务起家的公司已经将AI技术应用到自身产品体系的方方面面。 我们同时也看到,谷歌和百度正在构建一幅千行百业智能化的全球AI图景,不过两家巨头的不同之处在于

百万级文献分析,十万字深入解读:机器之心发布《全球AI技术发展趋势报告》

六月ゝ 毕业季﹏ 提交于 2021-01-23 09:34:36
2017 年,机器之心发布了《机器之心人工智能技术趋势报告》,系统介绍了人工智能领域(AI) 下不同的技术分支,并以定性分析的方法讨论了各分支技术当时所处的发展阶段、瓶颈以及未来发展方向,帮助AI产业从业者提供技术趋势参考,帮助AI技术应用方、初学者理解飞速发展中的 AI 领域内各项技术的概况和层出不穷的新鲜技术内涵。 在2017版报告发布至今的三年里,越来越多的 AI 技术实现了商业落地,但也有不少深度学习方法开始触碰到技术自身的天花板,亟需突破。在三年后的今天,机器之心在这个可能是 AI 技术发展的关键拐点发布《2020-2021 全球AI技术发展趋势报告》。 相比 2017 年版报告,2020-2021版报告在过往的定性分析方法之外增加了数据层面的挖掘、分析和探索,更加侧重对具体技术趋势的挖掘以及量化分析指标的形成。基于开源的论文与专利语料,结合机器之心自有的相关数据库,综合文献报告审阅与问卷访谈等形式,本报告分别从「顶会趋势(NeurIPS) 分析」、「专家问卷分析」以及「专业分析」三个不同角度呈现分析结果,辅助读者了解近年来 AI 领域的热门趋势技术。 你将从报告中获得什么? 人工智能技术发展七大趋势领域概览 一、(人类)自然语言技术 大规模预训练语言模型成为主流 语音识别技术应用普及度最高 问答系统、聊天机器人相关应用放缓 情感分析、文本分类增速不减 跨领域融合越来越多

对抗样本机器学习_cleverhans_FGSM/JSMA

删除回忆录丶 提交于 2021-01-23 01:18:46
对抗样本机器学习_Note1_机器学习 转载自: https://yq.aliyun.com/ziliao/292780   机器学习方法,如SVM,神经网络等,虽然在如图像分类等问题上已经outperform人类对同类问题的处理能力,但是也有其固有的缺陷,即我们的训练集喂的都是natural input,因此在正常情况下处理的比较好。然而如果我们想要对ML模型进行攻击的话,可以通过一定的手段生成对抗样本(adversarial examples),以图像为例,对抗样本在每个像素点只有微小的扰动(pertubations),因此对于人类的眼睛是无法分辨的,即生成前后我们人类还会将其归为同一类别。然而ML模型在面对这些对抗样本时会出现不鲁棒的特点,对它们会产生错分。对抗样本生成的基本思路是:在训练模型的过程中,我们把输入固定去调整参数,使得最后的结果能对应到相应的输入;而生成对抗样本时,我们将模型固定,通过调整输入,观察在哪个特征方向上只需要微小的扰动即可使得我们的模型给出我们想要的错分的分类结果。研究对抗样本机器学习的目的就是,希望我们的模型对于对抗样本更加robust。 上图可以说明对抗样本是如何工作的。Model decision boundary 是我们训练的模型的分类边界,这个边界可以较好的将两类样本分开,但是如果我们对标出来的两个Test point 做一个微小的扰动