机器学习

程序员必备网站 Papers with Code 又新增了一大波资源!

你离开我真会死。 提交于 2020-12-21 14:26:31
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 来自机器之心 资源网站 Papers with Code 又有新举措。这次它向多个科学领域扩展,除了机器学习以外,还增加了物理学、数学、计算机科学、统计学和天文学的论文及代码,并且同样支持在 arXiv 页面上添加代码链接。 目前,Papers with Code 已包含将近四万篇机器学习领域论文、1879 项 ML 任务、3518 个相关评估基准和 3068 个 ML 领域数据集。 但是,Papers with Code 并没有满足于此。 刚刚,Papers with Code 宣布增加新的科学领域:物理学、数学、计算机科学、统计学和天文学,并且同样支持在 arXiv 页面上添加代码链接。 传送门:https://portal.paperswithcode.com/ 也就是说,Papers with Code 将不再只是机器学习资源网站,而是向着多学科资源平台一路狂奔。 目前,Papers with Code 拥有 4583 篇计算机科学论文、3098 篇物理学论文、1724 篇数学论文、1699 篇天文学论文、1277 篇统计学论文。 Papers with Code 表示,此举旨在提升这些领域的可访问性

126篇殿堂级深度学习论文分类整理 从入门到应用

北战南征 提交于 2020-12-21 08:04:58
如果你有非常大的决心从事深度学习,又不想在这一行打酱油,那么研读大牛论文将是不可避免的一步。而作为新人,你的第一个问题或许是:“ 论文那么多,从哪一篇读起?” 本文将试图解决这个问题——文章标题本来是:“从入门到绝望,无止境的深度学习论文”。请诸位备好道具,开启头悬梁锥刺股的学霸姿势。 开个玩笑。 但对非科班出身的开发者而言,读论文的确可以成为一件很痛苦的事。但好消息来了——为避免初学者陷入迷途苦海,昵称为 songrotek 的学霸在 GitHub 发布了他整理的深度学习路线图, 分门别类梳理了新入门者最需要学习的 DL 论文,又按重要程度给每篇论文打上星星。 截至目前,这份 DL 论文路线图已在 GitHub 收获了近万颗星星好评,人气极高。雷锋网感到非常有必要对大家进行介绍。 闲话少说,该路线图根据以下四项原则而组织: 从大纲到细节 从经典到前沿 从一般到具体领域 关注最新研究突破 作者注:有许多论文很新但非常值得一读。 1 深度学习历史和基础 1.0 书籍 █[0] Bengio, Yoshua, Ian J. Goodfellow, and Aaron Courville. "Deep learning ." An MIT Press book. (2015). [pdf] (Ian Goodfellow 等大牛所著的教科书,乃深度学习圣经

机器学习,数据科学家与Bullshiter

一个人想着一个人 提交于 2020-12-21 05:24:33
点击上方“ 机器学习与统计学 ”,选择“置顶”公众号 重磅干货,第一时间送达 图片: Damon Hall 作者:微调@zhihu 编辑:统计学家 https://zhuanlan.zhihu.com/p/38351961 最近接到了一个项目,任务是通过供应商信息及消费明细将交易归类。举个例子,我们现在有一条新的交易: 金额 | 供应商 | 商品描述 ¥2333 | ABC合作社 | 电脑 在理想情况下,我们希望准确地预测出四级分类:办公用品 ->IT用品->硬件->电脑。但根据客户介绍,在大部分情况下我们是没有商品描述的。因此输入信息就变成了只有供应商+消费金额,目标是在没有训练数据的情况下进行四级精准预测。 金额 | 供应商 ¥2333 | ABC合作社 这项目没什么特别的,很多互联网金融公司都在做。不巧的是,客户还提出了两个额外需求: 我们 没有任何数据供你们训练 ,只有现成的交易信息以及300个预先设置的类别(可以理解为一个多分类问题)。 大部分交易只有交易金额和采购商 ,而没有关于交易的内容描述。 不难看出,在有限数据下这个项目可以简化为计算“交易信息”与“类别”相似度问题。比如可以使用预训练的词库把每个交易描述转化为一个向量,并衡量该向量与300个不同分类所对应的向量的相似度。更复杂的情况下可以考虑引入交易金额,甚至通过爬虫从网上收集额供应商信息来整合。

如何从一个好的数据科学家成长为优秀的数据科学家

随声附和 提交于 2020-12-21 03:59:24
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Amadeus Magrabi 编译:ronghuaiyang 导读 让大家了解在这个逐渐发展的领域最有价值的技能。 数据科学就业市场正在迅速变化。能够建立机器学习模型曾经是只有少数杰出科学家才具备的一项精英技能。但是现在,任何具有基本编程经验的人都可以按照以下步骤来训练一个简单的 scikit-learn 或 keras 模型。招聘人员收到了大量的求职申请,因为围绕“本世纪最性感的工作”的炒作几乎没有减弱,而招聘工具正变得越来越容易使用。人们对数据科学家应该带来什么的期望已经发生了变化,企业开始认识到,训练机器学习模型只是数据科学成功的一小部分。 下面是让最好的数据科学家脱颖而出的四个最有价值的品质。 聚焦业务 对数据科学家来说,最常见的动机之一是对在数据中发现模式的自然好奇心。深入研究探索数据集的工作是令人兴奋的,用该领域的最新技术进行实验,系统地测试它们的效果,并发现一些新的东西。这种类型的科学动机是数据科学家应该具备的。但如果它是唯一的动力,那就成了问题。在这种情况下,它可能导致人们在一个孤立的泡沫中思考,迷失在统计细节中,而没有考虑他们工作的具体应用和公司的更大背景。 最好的数据科学家了解他们的工作如何与整个公司相适应,并具有交付业务价值的内在驱动力。当简单的解决方案足够好时

下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》

眉间皱痕 提交于 2020-12-20 07:14:09
前段时间,小伙伴多次在后台留言询问 Python爬虫教程 的问题。经过这两个多月以来的收集与整理,汇集了 多个高校以及公开课视频教程 ,包括 python爬虫的入门、进阶与实践,共9G左右 。爬虫作为机器学习语料库构建的主要方式,建议大家都了解学习一下,现在不用并不代表将来用不到, 建议将视频资源收藏或保存 。 《 9G 爬虫视频教程 》已经打包好,可以通过下述步骤来获取: 1.扫描下方二维码 2. 回复关键词: 爬虫教程 👆长按上方二维码 2 秒 回复「 爬虫教程 」即可获取资料 另外 ,还有一份图文并茂的机器学习笔记送给你: 520页《图解机器学习》 , 以浅显易懂的方式去讲解它,降低大家的学习门槛 。我为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。 既适合非专业人士了解有关机器学习的基础概念,又适合有专业背景的学生进一步学习。 《 图解机器学习 》PDF已经打包好,可以通过下述步骤来获取: 1.扫描下方二维码 2. 回复关键词: 机器学习 👆长按上方二维码 2 秒 回复「 机器学习 」即可获取资料 从结构来看,全部教程包含两部分: Part 1 介绍了基本概念,包括: 机器学习的流程 数据处理 建模 评估指标(如 MSE、ROC 曲线) 模型部署 过度拟合 正则化等 在 Part2,作者介绍了 常用的算法,包括: 线性回归 逻辑回归 神经网络 SVM

深入探讨:为什么要做特征归一化/标准化?

三世轮回 提交于 2020-12-19 18:07:18
点击上方“ 迈微AI研习社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 作者丨shine-lee 来源丨https://blog.csdn.net/blogshinelee/article/details/102875044 编辑丨迈微AI研习社 迈微导读 本文解读了一项数据预处理中的重要技术——特征归一化,提出并解答了5个相关问题,同时分析了相关方法和适用场景。 写在前面 Feature scaling ,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是: 特征间的单位(尺度)可能不同 ,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大的特征会起决定性作用,而尺度小的特征其作用可能会被忽略, 为了消除特征间单位和尺度差异的影响,以对每维特征同等看待,需要对特征进行归一化 。 原始特征下, 因尺度差异,其损失函数的等高线图可能是椭圆形 ,梯度方向垂直于等高线,下降会走zigzag路线,而不是指向local minimum。通过对特征进行zero-mean and

词袋模型和TF-IDF

空扰寡人 提交于 2020-12-19 15:33:09
作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 机器理解文本的挑战 “语言是一种极好的交流媒介” 你和我很快就会明白那句话。但机器根本无法处理原始形式的文本数据。他们需要我们将文本分解成一种易于机器阅读的数字格式(自然语言处理背后的理念!)。 这就引入“词袋”(BoW)和TF-IDF。BoW和TF-IDF都是帮助我们将文本句子转换为向量的技术。 在这篇文章中,我将讨论“词袋”和TF-IDF。我们将使用一个直观和一般的例子来详细理解每个概念。 示例 我将用一个流行的例子来解释本文中的Bag of Words(BoW)和TF-IDF。 我们都喜欢看电影(不同程度)。在我决定看一部电影之前,我总是先看它的影评。我知道你们很多人也这么做!所以,我在这里用这个例子。 以下是关于某部恐怖电影的评论示例: 点评一:This movie is very scary and long 点评二:This movie is not scary and is slow 点评三:This movie is spooky and good 你可以看到关于这部电影的一些对比评论,以及电影的长度和节奏。想象一下看一千篇这样的评论是多么枯燥。显然,我们可以从中汲取很多有趣的东西,并以此为基础来衡量电影的表现。 然而,正如我们在上面看到的,我们不能简单地把这些句子交给机器学习模型

阿里巴巴文娱NLP团队招聘

只谈情不闲聊 提交于 2020-12-19 15:06:41
团队简介 阿里巴巴文娱NLP团队大量招人(P6-P8),我们承接着文娱全部技术线的各类NLP需求,专注研发自然语言分析技术(分类、聚类、情感、问答、关系抽取、知识图谱),为各项顶层业务提供NLP技术支持(知识推断、意图识别、query改写、搜索相关性、全网搜索等)。 我们不断夯实技术进而驱动商业,目标是成为最有价值的商业自然语言处理团队,采用平台化策略服务好阿里内外的各种需求。 阿里巴巴文娱部门NLP算法团队支撑文娱集团整体业务线的NLP需求,专注研发自然语言分析技术(分类、聚类、情感、问答、关系抽取、知识图谱),为各项顶层业务提供NLP技术支撑(知识推断、意图识别、query改写、搜索相关性、全网搜索等)。在不断夯实技术进而驱动商业,成为最有价值的商业自然语言处理团队,采用平台化策略服务阿里内外的各种需求。 坐标 - 杭州 岗位职责 - 运用机器学习、深度学习技术,研发文本分析、知识图谱相关算法,并应用于个性化推荐&搜索; - 改进和研发文本理解、文本生成、主题发现、知识抽取等技术; - 跟踪业界与学界最新进展,并能够快速应用到实际业务中。 岗位要求 - 编程基础扎实,熟练使用至少一种常用编程语言,如 Python / C++ / Java,熟悉 Tensorflow、Keras、Caffe等深度学习工具。 - 熟悉机器学习的基础方法(分类、回归、排序、降维等

用算法改造过的植物肉,有兴趣试试么?

人盡茶涼 提交于 2020-12-19 14:44:35
来源 | HyperAI超神经 责编 | 晋兆雨 头图 | CSDN 下载自视觉中国 本月初,麦当劳宣布, 将于 2021 年推出植物肉全新产品线 McPlant,新品品类将包括汉堡、鸡肉替代品以及早餐三明治。 事实上,麦当劳并不是尝试植物基产品的首家快餐店,McPlant 也并非麦当劳在植物肉汉堡上的首次试水。 植物肉:从理念到餐桌的饮食新宠 去年 9 月-2020 年初, 麦当劳就曾与美国植物肉生产商 Beyond Meat 合作, 在加拿大安大略省部分门店低调发售植物肉汉堡 P.L.T., 测试消费者对人造肉汉堡的接受程度。 今年 10 月 12 日,肯德基在国内北上广深杭武汉等 6 个城市的 210 家门店,限时限量试售植物基新品——植物肉汉堡和植物肉鸡块。 新品系列被称为「植世代」,共包括两款植物肉食品: 牛肉芝士汉堡(牛肉风味的植物蛋白制品)及黄金鸡块(鸡肉风味的植物蛋白制品)。 肯德基植世代系列包括两款新品:牛肉汉堡和鸡块 没有吃到肯德基和麦当劳的植物肉汉堡也没关系,我们收集了国内市场上部分仍在售的植物肉食品和植物奶饮品,并标注了参考售价,大家可以前往门店或在网店购买尝鲜。 在售的植物基食品/饮品(国内) 品牌 产品 参考售价 喜茶 未来肉 芝士堡 25 周黑鸭 素肉 鸭脖 75/斤 星巴克 别样牛肉 三明治 35 星巴克 燕麦抹茶拿铁 (植物奶) 35 金华火腿

卷积神经网络

元气小坏坏 提交于 2020-12-19 10:36:06
先简单理解一下卷积这个东西。 (以下转自https://blog.csdn.net/bitcarmanlee/article/details/54729807 知乎是个好东西) 1.知乎上排名最高的解释 首先选取知乎上对卷积物理意义解答排名最靠前的回答。 不推荐用“反转/翻转/反褶/对称”等解释卷积。好好的信号为什么要翻转?导致学生难以理解卷积的物理意义。 这个其实非常简单的概念,国内的大多数教材却没有讲透。 直接看图,不信看不懂。以离散信号为例,连续信号同理。 已知x[0] = a, x[1] = b, x[2]=c 已知y[0] = i, y[1] = j, y[2]=k 下面通过演示求x[n] * y[n]的过程,揭示卷积的物理意义。 第一步,x[n]乘以y[0]并平移到位置0: 第二步,x[n]乘以y[1]并平移到位置1 第三步,x[n]乘以y[2]并平移到位置2: 最后,把上面三个图叠加,就得到了x[n] * y[n]: 简单吧?无非是平移(没有反褶!)、叠加。 从这里,可以看到卷积的重要的物理意义是:一个函数(如:单位响应)在另一个函数(如:输入信号)上的加权叠加。 重复一遍,这就是卷积的意义:加权叠加。 对于线性时不变系统,如果知道该系统的单位响应,那么将单位响应和输入信号求卷积,就相当于把输入信号的各个时间点的单位响应 加权叠加,就直接得到了输出信号。 通俗的说: