机器学习

异常检测(Anomaly Detection)综述

耗尽温柔 提交于 2020-12-31 03:33:47
作者丨阿尔法杨XDU@知乎 来源丨https://zhuanlan.zhihu.com/p/266513299 导读 异常检测是一个发现“少数派”的过程,本文将目前深度学习的异常检测的热门研究方向进行了分类,并列举了对应的文章,并推荐了值得一读的8篇新颖论文,帮助大家理解学习异常检测这一领域。 一、简介 异常检测一直是机器学习中一个非常重要的子分支,在各种人工智能落地应用例如计算机视觉、数据挖掘、NLP中,异常检测算法都是很热门的研究方向,特别是大数据时代,人工处理数据的速度已经远远赶不上机器了,所以更快地检测数据中的异常情况成为了我们当下非常重要的任务。在深度学习广泛的推广之前,传统的异常检测算法有很多,例如高斯拟合,半监督学习等等,而在深度学习大火之后,人们也开始研究将深度学习应用于各种异常任务中(也就是Deep Anomaly Detection,以下统称DAD),并取得了很大的成功,本文将把当下该方向热门的研究方向分类并列举了对应的文章,希望能帮助大家更好地理解此方向的研究。 二、异常检测的概念 异常检测,从定义而言就是一种识别不正常情况与挖掘非逻辑数据的技术,也叫outliers。例如在计算机视觉的应用中,有人在抖音发表一个视屏,在边骑车边打电话,那这就是个不符合规范的视屏,我们能否采用一些方式来将其检测出来,再例如在数据挖掘领域中,那异常检测的应用就更广泛了

为什么算法专家都建议学习C++?

早过忘川 提交于 2020-12-31 01:18:57
在TIOBE指数发布的编程语言排行榜中,C++一直都是名列前茅。并且自2002年至今,不管时代如何发展,C++的排名连续18年稳定在前五。 各大编程语言的历史排名(1988-2020) 这也意味着,尽管不断受到Java、Python等后来者的冲击,至今已经30多岁的C++仍具有不可替代的地位。作为软件工业的底层基础,它的应用无处不在: 服务器、嵌入式、物联网、移动互联网、信息安全、游戏引擎、人工智能…… 还有人说,C++是一门“ 万能 ”的编程语言。因为,但凡能用其他语言写的程序,都可以用C++来写。由于它的知识体系更接近系统底层,C++基础好的人学习新的语言时上手更快、学得更深入。 不过,尽管C++的优势和魅力都摆在那了,真正学习深耕这一门语言的人却并不多,每年市场上的C++ 人才缺口高达10万 ,并且这一数字还在逐年上升。 这主要是因为C++的学习难度在各大编程语言里面算中等偏上的,很多人一听到C++难就望而退步,学过一些基础的人也是浅尝辄止。 殊不知,C++的学习是很看重方法的。难点不在于各种各样的语法知识,而在于如何掌握语言实现背后的原理,例如 运行环境、操作系统、网络知识、算法数据思维 等。 针对不少人认为C++难学、学不会、学不懂的问题,开课吧的教研团队联合ACM金牌得主胡船长打造了一个 《C++难点突破训练营》 。 旨在帮助对C+

如何理解 Graph Convolutional Network(GCN)?

点点圈 提交于 2020-12-30 16:59:31
几年前如果熟练使用TensorFlow,同时掌握基本的AI算法就可以很容易找到一份高薪的工作,但现在不一样了,AI岗位的要求越来越高,对知识的深度也提出了更高的要求。 如果现在 一个面试官 让你从零推导SVM的Dual、从零实现CRF、推导LDA、设计一个QP问题、从零编写XLNet、编写GCN/GNN、改造SkipGram模型、用一天时间复现一篇顶级会议.... 这些要求一点都不过分。相反,连这些基本内容都有些吃力,就需要重新审视一下自己的核心技术壁垒了。 为了迎合时代的需求,我们去年推出了 《机器学习高端训练营》 班。这个训练营的目的很简单: 想培养更多高端的人才,帮助那些即将或者目前从事科研的朋友,同时帮助已从事AI行业的提高技术深度。 在本期训练营(第四期)中我们对内容做了大幅度的更新,一方面新增了对前沿主题的讲解如 图神经网络(GCN,GAT等) ,另外一方面对核心部分(如凸优化、强化学习)加大了对 理论层面上的深度 。 除此之外,也会包含 科 研方法论、元学习、解释性、Fair learning 等系列主题。 目前在全网上应该找不到类似体系化的课程。 课程仍然采用 全程直播 授课模式。 那什么样的人适合来参加高阶班呢? 从事AI行业多年,但技术上总感觉不够深入,感觉在技术上遇到了瓶颈; 停留在使用模型/工具上,很难基于业务场景来提出新的模型; 对于机器学习背后的优化理论

独家 | 如何手动优化神经网络模型(附链接)

我怕爱的太早我们不能终老 提交于 2020-12-30 16:57:37
翻译:陈丹 校对:车前子 本文 约5400字 ,建议阅读 15 分钟 本文是一个教授如何优化神经网络模型的基础教程,提供了具体的实战代码供读者学习和实践。 标签:神经网络优化 深度学习的神经网络是采用随机梯度下降优化算法对训练数据进行拟合。 利用误差反向传播算法对模型的权值进行更新。优化和权值更新算法的组合是经过仔细挑选的,是目前已知的最有效的拟合神经网络的方法。 然而,也可以使用交替优化算法将神经网络模型拟合到训练数据集。这是一个有用的练习,可以了解更多关于神经网络的是如何运转的,以及应用机器学习时优化的中心性。具有非常规模型结构和不可微分传递函数的神经网络,也可能需要它。 在本教程中,您将了解如何手动优化神经网络模型的权重。 完成本教程后,您将知道: 如何从头开始开发神经网络模型的正向推理通路。 如何优化二值分类感知器模型的权值。 如何利用随机爬山算法优化多层感知器模型的权值。 我们开始吧。 图源土地管理局,权利归其所有 教程概述 本教程分为三个部分:它们是: 优化神经网络 优化感知器模型 优化多层感知器 优化神经网络 深度学习或神经网络是一种灵活的机器学习。 它们是受大脑结构和功能的启发而来的,由节点和层次组成的模型。神经网络模型的工作原理是将给定的输入向量传播到一个或多个层,以产生可用于分类或回归预测建模的数值输出。 通过反复将模型暴露在输入和输出示例中

《概率机器人》PDF习题代码课件+《人工智能一种现代的方法第3版》PDF中英文+《凸优化》PDF习题题解分析

允我心安 提交于 2020-12-30 07:04:49
研究机器人时,使机器人能够应对环境、传感器、执行机构、内部模型、近似算法等所带来的不确定性是必须面对的问题。 概率机器人在slam领域被推荐,内容也很充实,对概率机器人学这一新兴领域进行了全面的介绍。概率机器人学依赖统计技术表示信息和进行决策,以容纳当今大多数机器人应用中必然存在的不确定性,是机器人学的一个分支。它依赖统计技术表示信息和制定决策。这样做,可以接纳在当今大多数机器人应用中引起的不确定性。本书主要专注于算法,对于每种算法,均提供了四项内容:伪码示例;完整的数学推导;实验结果;算法优缺点的详细讨论。 《概率机器人》PDF中英文F+代码+习题解答+课件,中文PDF,513页,文字可以复制;英文PDF,668页,文字可以复制;配套习题解答和代码;配套课件。 下载: https://pan.baidu.com/s/1qjJG7E-3KYmn8cXteT6i6Q 提取码: bkyq 《概率机器人》包括了基础知识、定位、地图构建、规划与控制四大部分。共17章,每章的后都提供了练习题和动手实践的项目。致力于用概率的方法明确地表示不确定性,并研究机器人感知和机器人规划与控制的不确定性,以降低机器人系统的不确定性,使机器人能 工作于应用环境中,完成定位、地图构建、规划与控制。 学习人工智能概论时,推荐看看《人工智能:一种现代的方法第三版》,最权威、最经典的人工智能教材

听说你一直在找的数据分析教程,终终终于免费啦!

六月ゝ 毕业季﹏ 提交于 2020-12-29 19:15:16
从各大招聘网站中可以看到,今年招聘信息少了很多,但 数据分析相关岗位有一定增加, 而 数据分析能力几乎 已 成为每个岗位的必备技能 。是 什么原因让企业如此重视“数据人才”? 伴随滴滴出行、智慧营销等的落地商用,部分企业尝到了数据带来的巨额红利,各大企业开始关注曾经“无用”的数据。 如今,企业每天会产生海量的数据,BAT日均数据更是达到了PB级别。 因此,企业需要大量专业人才来分析挖掘数据的价值,以提升企业利润。 所以市场上才会出现如此巨大的数据人才需求。可以说,数据分析将是每个从业者个人能力最重要的补充,也是BAT这类大公司急招人才的必备技能。 但是一提数据分析,很多人就觉得无从下手,知识点零散总是抓不住重点,学习起来相当吃力,常常毫无头绪,搞不清关键数据。 别急,这有一份由 开课吧 提供赞助,并由 廖雪峰 历时3个月 精心打磨的 《数据分析全套讲解》 学习视频 。本资料是最新升级版本,包含了 基础 和 进阶 两大部分内容, 可帮你 全面迅速提升数据分析技能,还能指导你用数据化思维工作,让分析有章可循。 这套 全新 的数据分析资料 原价值1980元 ,现在小编为大家争取到了 168个免费名额 ( 超额之后需要付费观看哦 ) 。 ( ps:篇幅原因只列出关键知识点,详细资料扫码领取 ) 一、基础篇-数据分析必备技能 本部分由浅入深系统化讲解,内容详尽

Python图像处理之小波去噪

流过昼夜 提交于 2020-12-29 14:04:42
在此前的文章【1】中,我们讨论了在Python中利用pywt包提供的API对图像做小波分解的基本方法。小波变换在图像处理中的一个具体应用就是平滑去噪。后续我们还会从原理上讨论如何利用小波变换来设计图像去噪算法。但在此之前,作为铺垫,本文将主要演示,利用Python中已有的API进行图像小波去噪的方法及效果。如果你对小波变换的基本原理还不是很清楚,请参考我已经出版的《图像处理中的数学修炼》(清华大学出版社)或《数字图像处理:原理与实践》(电子工业出版社)等书籍。在后续解释如何利用小波变换设计图像去噪算法时,这些基础知识将是必须的。 欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji ,鉴于目前网上盗贴、洗稿等现象严重,为保证公式、图表得以正确显示,强烈建议你从该地址上查看原版博文。本博客主要关注方向包括:数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、自然语言处理。 此前,在【2】中我们曾介绍过,Python图像处理常用的包有三个,(截止本文写作之时)其中已经内置了小波去噪函数的是scikit-image(或缩写成skimage)。小波去噪与傅里叶变换去噪、离散余弦变换等都是基于频域的去噪方法。JPEG图像编码中使用的就是基于离散余弦变换的有损压缩方式。参考《图像处理中的数学修炼(第2版)》中的第7章,在通常情况下

人工智能发展与模型定制化趋势

戏子无情 提交于 2020-12-29 07:46:03
  人工智能和机器学习概念目前在各种场合被频频提到,移动互联网时代后的未来被预测为人工智能时代,那么人工智能的前世今生是怎样的,到底会给我们的未来带来什么呢?为了弄清这个问题,我们可以简单回顾一下人工智能的发展历史。   其实,人工智能可以追溯到很久以前的年代。在图灵的时代,科学家就试图通过模拟人的意识和思维来处理人类才能完成的复杂任务,并提出图灵测试检测机器是否具有真正的“智慧”。随着计算机被发明,信息存储和处理问题被解决,人工智能有了落地的可能。1956年在达特茅斯会议上,人工智能的概念被明斯基明确提出,使用的正是由神经学家提出的神经网络数据模型, 并在此次完善了匹配的编程语言,将实现推向更具有现实意义的发展方向。   神经网络本质是神经元之间的作用与反馈,是人类思维的基础,模拟大脑是长时间以来人工智能的主要思路。两年后,计算机科学家罗森布拉特提出感知机的概念,即两层神经元组成的最简单的神经网络,并用来进行数据二分类。科学界迎来了人工智能的第一缕曙光,更多人开始关注并投身于此。然而人工智能并没有变得大热,明斯基在1969年在其著作中证明感知器只能处理线性分类问题,连简单的异或问题都无法正确分类。这个问题因而成为那一代人工智能领域学者绕不开的噩梦。人工智能学科随后一度作为最冷门的学科陷入了长达20年的停滞。   直到1986年,杰弗里·辛顿提出反向传播算法

ML——One-Sided-Label-Smoothing

梦想与她 提交于 2020-12-29 07:41:39
Hello, we will push the machine learning flashcard everyday! Please pay more attention to 数据科学实战! 本文分享自微信公众号 - 数据科学实战(dsaction)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4486485/blog/4605533

「Python爬虫系列讲解」2. Python基础知识大全初学

半世苍凉 提交于 2020-12-29 07:02:05
作者 :荣仔!最靓的仔! 专栏地址 : http://suo.im/5Rh1z1 注意:本文涉及到的知识点太多,建议初学者耐心看完! 本文目录 1 Python简介 1.1 Python的特点 Python是Guido Van Rossum在1989年开发的一种脚本解释语言,是ABC语言的一种继承。由于作者是Monty Python喜剧团的一名爱好者,故将其命名为Python(蟒蛇) Python 作为当下一种热门语言,具有以下 特点 : 语法清晰,代码友好,易读。 应用广泛,具有大量的第三方库(尤其是机器学习、人工智能相关库)支持。 Python可移植性强,易于操作各种存储数据的文本文件和数据库。 Python是一种面向对象语言,支持开源思想。 根据Tiobe编程语言最新排行榜(部分),其中Python排名第三,并且随着大数据、数据分析、深度学习、人工智能的迅速发展,Python收到的关注程度越来越高。 1.2 安装及第三方库导入过程 利用Python编程之前,首先需要安装Python软件:包括搭建Python环境、学会安装Python第三方库等。 搭建好Python环境之后是这个样子的(同时可以打印输出进行进一步的测试)。 当编写大段代码或自定义函数时,在command命令行中编写是不太现实的,因此可以进一步选择合适的编译器进行编译,我在这里用的是JetBrains