机器学习

机器学习——条件随机场

混江龙づ霸主 提交于 2020-11-30 17:06:50
《统计学习方法》 李航著 第十一章 条件随机场 概率无向图模型 是由 无向图表示的联合概率分布 。无向图上的 结点之间的连接关系 表示了联合分布的随机变量集合之间的条件独立性,即 马尔可夫性 。因此, 概率无向图模型也称为马尔可夫随机场 。概率无向图模型或马尔可夫随机场的联合概率分布可以分解为无向图最大团上的正值函数的乘积的形式。 条件随机场 是给定输入随机变量X条件下,输出随机变量Y的 条件概率分布模型 , 其形式为参数化的对数线性模型。条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型,即马尔可夫随机场。条件随机场是 判别模型 。 线性链条件随机场 是定义在 观测序列 与 标记序列 上的 条件随机场 。线性链条件随机场 一般表示为给定观测序列条件下的标记序列的条件概率分布 ,由参数化的对数线性模型表示。模型包含特征及相应的权值,特征是定义在线性链的边与结点上的。线性链条件随机场的数学表达式是 线性链条件随机场的概率 计算 通常利用 前向-后向算法 。 条件随机场的 学习 方法通常是 极大似然估计方法或正则化的极大似然估计 ,即在给定训练数据下,通过极大化训练数据的对数似然函数以估计模型参数。具体的算法有 改进的迭代尺度算法 、 梯度下降法 、 拟牛顿法 等。 线性链条件随机场的一个重要 应用 是 标注 。 维特比算法

MindSpore手写数字识别初体验,深度学习也没那么神秘嘛

僤鯓⒐⒋嵵緔 提交于 2020-11-30 12:06:27
摘要 :想了解深度学习却又无从下手,不如从手写数字识别模型训练开始吧! 深度学习作为机器学习分支之一,应用日益广泛。语音识别、自动机器翻译、即时视觉翻译、刷脸支付、人脸考勤……不知不觉,深度学习已经渗入到我们生活中的每个角落,给生活带来极大便利。即便如此,依然有很多人觉得深度学习高深莫测、遥不可及,的确,它有深奥之处,非专业人士难以企及,但也有亲和力十足的一面,让没有基础的小白也能轻松上手,感受深度学习的魅力,接下来要介绍的手写数字识别模型训练正是如此。 手写数字识别初探 手写数字识别是计算机视觉中较为简单的任务,也是计算机视觉领域发展较早的方向之一,早期主要用于银行汇款、单号识别、邮政信件、包裹的手写、邮编识别等场景,目前手写数字识别已经达到了较高的准确率,得到大规模的推广与应用。虽然手写数字识别本身的领域比较狭窄,实用性有限,但是在它基础上发展起来的卷积神经网络等计算机视觉技术早已应用在更为复杂的任务中,因此,手写数字识别也成为计算机视觉领域衡量算法表现的一个基准任务。所以,通过这一实践场景来了解神经网络开发和训练,可谓再好不过了。如何使用深度学习框架MindSpore进行模型开发与训练?又如何在ModelArts平台训练一个可以用于识别手写数字的模型呢?让我们来一探究竟吧。 数据集的选择与准备 机器学习中的传统机器学习和深度学习都是数据驱动的研究领域

Python最好的就业方向与就业岗位技能要求,能赚多少钱?

我只是一个虾纸丫 提交于 2020-11-30 03:33:15
关于Python的就业方向,如果你还在学习还没开始找工作,这篇文章绝对会对你有所帮助。 目前信息化产业发展势头很好,互联网就成为了很多普通人想要涉及的行业,因为相比于传统行业,互联网行业涨薪幅度大,机会也多,所以就会大批的人想要转行来学习Python开发。如果你想入行Python,最好还是有老师带领学习,少走弯路,快速找到工作! ◆◆ Python就业方向 ◆◆ 1.爬虫。 感觉python就是天然为爬虫而生,我第一个项目就是爬某东的图片,简单快速,非常有成就感。 爬虫掌握熟练的话,包括简单的mysql语句、html和css简单的知识以及最厉害的scrapy爬虫框架,基本上就可以去尝试海投一下爬虫岗位。 2.数据分析。 我的目标就是转行数据分析师,所以在这里多啰嗦几句,学会了爬虫,便有了数据来源,运用这些数据以及相应的爬虫库和excel表格,就可以进行简单的数据分析,这是相对爬虫更高级的岗位。 3.web后端。 推荐诸位转行可以走这个方向,一是工作岗位多,相对好找工作,二是学成周期短,只需要把python基础知识吃透,Django框架和flask框架吃透,再补充一些html知识,然后做一些项目便可以投简历了。 4.机器学习。 这个方向就比较高端了,对于想转行的新手不建议触碰。 5、运维工程师 我们都知道,Python不仅能做人工智能、web开发,还在运维中有着举足轻重的作用。

机器学习经典算法之KNN

▼魔方 西西 提交于 2020-11-30 01:01:46
一、前言 KNN 的英文叫 K-Nearest Neighbor,应该算是数据挖掘算法中最简单的一种。 先用一个例子体会下。 /*请尊重作者劳动成果,转载请标明原文链接:*/ /* https://www.cnblogs.com/jpcflyer/p/11111817.html * / 假设,我们想对电影的类型进行分类,统计了电影中打斗次数、接吻次数,当然还有其他的指标也可以被统计到,如下表所示。 我们很容易理解《战狼》《红海行动》《碟中谍 6》是动作片,《前任 3》《春娇救志明》《泰坦尼克号》是爱情片,但是有没有一种方法让机器也可以掌握这个分类的规则,当有一部新电影的时候,也可以对它的类型自动分类呢? 我们可以把打斗次数看成 X 轴,接吻次数看成 Y 轴,然后在二维的坐标轴上,对这几部电影进行标记,如下图所示。对于未知的电影 A,坐标为 (x,y),我们需要看下离电影 A 最近的都有哪些电影,这些电影中的大多数属于哪个分类,那么电影 A 就属于哪个分类。实际操作中,我们还需要确定一个 K 值,也就是我们要观察离电影 A 最近的电影有多少个。 二、KNN 的工作原理 “近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步: 1. 计算待分类物体与其他物体之间的距离; 2. 统计距离最近的 K 个邻居; 3.对于 K 个最近的邻居,它们属于哪个分类最多

2019年美国大学生数学建模竞赛(MCM/ICM) E题解题思路

主宰稳场 提交于 2020-11-29 23:45:25
这也许是我大学生涯最后一次参加数学建模比赛了吧,这次我们选择的问题是E题,以下是我们解题时候的一些思路。很多不易体现的项目产生对环境造成影响的指标可以由一些等同类型的指标来代替,如土地、森林植被被破环,可以根据生产率变动方法和置换成本法进行核算,大气污染可以用疾病成本法等来体现。 题目(谷歌翻译版本) 经济理论经常忽视其决策对生物圈的影响,或者为其需求承担无限的资源或能力。这种观点存在缺陷,现在环境面临着后果。生物圈提供了许多自然过程来维持健康和可持续的人类生活环境,这被称为生态系统服务。例子包括将废物变成食物,水过滤,种植食物,授粉植物,以及将二氧化碳转化为氧气。然而,每当人类改变生态系统时,我们可能会限制或消除生态系统服务。当地小规模土地利用变化的影响,例如建设一些道路,下水道,桥梁,房屋或工厂,可能看起来微不足道。加入这些小型项目,大型项目,如建设或搬迁大型公司总部,在全国范围内建设管道,或扩大或改变水道以扩展商业用途。现在考虑一下这个地区,国家和世界上许多这些项目的影响。虽然这些活动可能看似单独对生物圈运作潜力的总体能力无关紧要,它们直接影响生物多样性并导致环境退化。传统上,大多数土地利用项目都没有考虑生态系统服务的影响或考虑到变化。减轻土地利用变化负面结果的经济成本:污染的河流,空气质量差,危险废物场所,处理不当的废水,气候变化等,往往不包括在计划中

对于推荐系统的一些思考

痞子三分冷 提交于 2020-11-29 03:40:14
本文从推荐系统入门的角度来探讨一些关于推荐系统我们应该关心的内容,或许可以为你的学习带来一些启发。 文章先介绍网站或商家希望通过应用推荐系统达成什么目标,再介绍衡量一个优秀的推荐系统从哪些方面,通过结合这两方面给寻找研究方向的同学一些启发(PS,因为前段时间学弟为了自己的科研方向一直很纠结,导师特意让我准备了一些分享。)也希望给想要从推荐系统入门的同学一些帮助。 推荐系统的目标 推荐系统我们都已经非常熟悉,现有的生活中推荐系统无处不在,无需我们去清晰的定义推荐系统做了什么工作。 但是值得思考的一个点是,推荐系统的目的是什么,为什么推荐系统会如此受欢迎? 最近在阅读机械工业出版社翻译的第二版《推荐系统》时,受到了一些启发,推荐系统的目的应该包含这几点: 增加物品销量 。 这个是显而易见的,我们身边所有的电商网站,基本上都应用了推荐系统来达到提高销量的目的。 只要对比于没有采用推荐系统的情况下,使用推荐系统销量有提高,就认为是提高了这项指标。 销售更多种类的物品 。 如何理解提高销售种类的这个概念呢,我们身边经常会有这样一种情况,我们最近有了购买手机的这个需求,浏览了一些手机,推荐内容被手机充满,浏览购物平台全是手机。 这就相当于我们 接触更多种类商品 的这个需求没有被满足。 所以对推荐系统而言,需要让用户有机会接触到更多种类的物品,可以满足用户多元化的需求

学会思考,而不只是编程

余生颓废 提交于 2020-11-28 14:32:28
中国人常说“授之以鱼不如授之以渔”。如果说教授编程是授之以鱼,那么教授计算机科学就是授之以渔。为什么说学习计算机科学比学会编程要重要得多?来听听Yevgeniy Brikman的解释。 现如今,似乎每个人都在学习编程:Bill Gates、Mark Zuckerberg和Chris Bosh这些名人在Code.org网站上告诉人们每个人都拥有编程的能力;CoderDojo项目在世界各地大张旗鼓;英国已经把编程作为小学官方课程。 不过,我认为这样有点误入歧途了。但请不要误会——我也确实认为代码能够让世界变得更美好——但编程本身并不是我们的目的。计算机和程序只是工具,它们是我们通向终点的桥梁。 我们真正的目标应该是教会人们如何思考。换句话说,我们应该教人们计算机科学,而不只是编程。在这篇文章里,我将会解释这两者之间的区别,以及为什么在这两者当中选择正确的一方对于迈向成功来说如此重要。 我们不妨先问自己一个问题:为什么我们要关心编程或计算机科学? 欢迎来到真实的世界 或许你正在使用Chrome或Firefox阅读这篇文章,这些浏览器可能运行在Windows或macOS上,而你可能正在使用笔记本或台式机。你今天可能花了一些时间阅读电子邮件、查看朋友圈的状态,或者在视频网站上看了一些视频。我们的生活在很大程度上依赖了计算机:我们的医疗记录保存在数据库里;我们的简历可能放在了LinkedIn上

【论文笔记】BlockFLA: Accountable Federated Learning via Hybrid Blockchain Architecture

元气小坏坏 提交于 2020-11-28 13:54:15
0. 关键词 混合区块链、超链、以太坊、机器学习、后门攻击、联邦学习、联邦平均 1. 摘要 隐藏训练数据使攻击者有机会向训练好的模型注入 后门攻击 。很多研究试图通过设计健壮的聚合函数来减轻后门攻击的威胁,作者从一个互补的角度来研究这个问题——目标使通过检测和惩罚攻击来阻止后门攻击。为此,作者开发了一个基于区块链的混合FL框架,该框架使用智能合约来自动检测并通过罚款来惩罚攻击者。文章设计的框架是通用的,任何聚合函数和任何攻击者检测算法都可以插入其中。作者进行了实验来证明框架的通信效率,并提供了实验结果来说明它可以通过作者设计的新的攻击者检测算法来成功地惩罚攻击者。 【没有设“防”,只进行“检测&惩罚”。让敌手“知难而退”?】 后门攻击希望在模型的训练过程中通过某种方式在模型中埋藏后门(backdoor),埋藏好的后门通过攻击者预先设定的触发器(trigger)激发。在后门未被激发时,被攻击的模型具有和正常模型类似的表现;而当模型中埋藏的后门被攻击者激活时,模型的输出变为攻击者预先指定的标签(target label)以达到恶意的目的。后门攻击可以发生在训练过程非完全受控的很多场景中,例如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型,因此对模型的安全性造成了巨大威胁。 本段引用摘自: https://zhuanlan.zhihu.com/p/160964591 2.

利用生物视觉机制提高神经网络的对抗鲁棒性 | NeurIPS 2020

倖福魔咒の 提交于 2020-11-28 08:39:52
作者:慕苏 红色石头的个人网站: 红色石头的个人博客-机器学习、深度学习之路 ​ www.redstonewill.com 【 简介 】 本文将两种生物视觉机制,分别是视网膜的非均匀采样机制和多种不同大小的感受野存在机制,应用到神经网络中,提高了神经网络的对抗鲁棒性。 论文地址: https:// arxiv.org/abs/2006.1642 7 【 引言 】 尽管卷积神经网络在视觉识别任务上取得了卓越的表现,但它们在一些任务上仍然落后于人类的视觉系统。比如,神经网络对于微小的对抗扰动十分脆弱,而人眼对于视觉刺激上的微小扰动则非常鲁棒。近年来,有大量工作表明人工神经网络在建模大脑的腹侧视觉流上具有适用性。因此,本文提出将两种生物视觉机制应用到神经网络中,以提高神经网络的对抗鲁棒性。此外,作者通过消融实验,进一步分析了每种机制中影响神经网络鲁棒性的关键因素。 【 模型介绍 】 1. 生物视觉机制 第一种机制是视网膜对视觉刺激的非均匀空间采样机制。视网膜小凹中心的视锥细胞密度最大,从中心向四周视锥细胞密度递减。上图左侧显示了5种视网膜注视点下,视网膜空间采样的分布和效果。 第二种机制是视觉皮层V1细胞存在不同尺度的感受野机制。上图右侧显示了5种不同的视觉皮层注视点下,周围不同空间尺度的感受野区域(红色矩形框)。 2. 基于生物视觉机制设计模型 基于上述两种生物视觉机制

特征工程之特征选择

扶醉桌前 提交于 2020-11-28 04:19:52
过滤法:filter 方差筛选: 方差越大的特征,那么我们可以认为它是比较有用的。 如果方差较小,比如小于1,那么这个特征可能对我们的算法作用没有那么大。最极端的,如果某个特征方差为0,即所有的样本该特征的取值都是一样的,那么它对我们的模型训练没有任何作用,可以直接舍弃。在实际应用中,我们会指定一个方差的阈值,当方差小于这个阈值的特征会被我们筛掉。 sklearn中的VarianceThreshold类可以很方便的完成这个工作 相关系数:这个主要用于输出连续值的监督学习算法中。我们分别计算所有训练集中各个特征与输出值之间的相关系数,设定一个阈值,选择相关系数较大的部分特征。 假设检验,比如卡方检验:卡方检验可以检验某个特征分布和输出值分布之间的相关性。在sklearn中,可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值,我们可以给定卡方值阈值, 选择卡方值较大的部分特征。   除了卡方检验,我们还可以使用F检验和t检验,它们都是使用假设检验的方法,只是使用的统计分布不是卡方分布,而是F分布和t分布而已。在sklearn中,有F检验的函数f_classif和f_regression,分别在分类和回归特征选择时使用。   4. 互信息:互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。在sklearn中,可以使用mutual_info