神经网络

机器学习:梯度下降

不羁的心 提交于 2020-10-26 23:18:33
作者|Renu Khandelwal 编译|VK 来源|Medium 什么是梯度下降? 梯度下降法是一种减少成本函数的迭代机器学习优化算法,使我们的模型能够做出准确的预测。 成本函数(C)或损失函数度量模型的实际输出和预测输出之间的差异。成本函数是一个凸函数。 为什么我们需要梯度下降? 在神经网络中,我们的目标是训练模型具有最优的权值(w)来进行更好的预测。 我们用梯度下降法得到最优权值。 如何找到最优的权值? 这可以用一个经典的登山问题来最好地解释。 在登山问题中,我们想要到达一座山的最低点,而我们的能见度为零。 我们不知道我们是在山顶上,还是在山的中间,还是非常接近底部。 我们最好的选择是检查我们附近的地形,并确定我们需要从哪里下降到底部。我们需要迭代地做这件事,直到没有更多的下降空间,也就是我们到达底部的时候。 我们将在稍后的文章中讨论,如果我们觉得已经到达了底部(局部最小值点),但是还有另一个山的最低点(全局最小值点),我们可以做什么。 梯度下降法帮助我们从数学上解决了同样的问题。 我们将一个神经网络的所有权值随机初始化为一个接近于0但不是0的值。 我们计算梯度,∂c/∂ω,它是成本相对于权重的偏导数。 α是学习率,有助于对梯度下降法调整权重 我们需要同时更新所有神经元的权重 学习速率 学习率控制着我们应该在多大程度上根据损失梯度调整权重。学习速率是随机初始化的。 值越低

DeepMind新突破!首次用深度学习从第一性原理计算分子能量

笑着哭i 提交于 2020-10-26 15:19:54
来源:AI科技评论 编译 | 青暮 DeepMind发表了一项新研究,展示了深度学习如何帮助解决现实系统中的量子力学基本方程问题,相关论文发表在物理学期刊《Physical Review Research》,代码也已经开源。 这种新的神经网络架构叫做Fermionic神经网络或FermiNet,该架构适合对大量电子集合体(化学键的基本组成部分)的量子态进行建模。 DeepMind表示,FermiNet是第一个利用深度学习来从第一性原理计算原子和分子能量的尝试,并拥有足够的精确度。 他们还计划将FermiNet用于蛋白质折叠、玻璃态动力学、晶格量子色动力学等研究项目,以将这一愿景变为现实。 论文地址:https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.033429 代码地址:https://github.com/deepmind/ferminet 1 FermiNet 量子力学拥有大量的计算工具,但是构建有效的表示仍然是个难题。 即使是最近似的方法,量子化学计算最多只能求解包含数万个电子的模型,而经典的(即非量子的)化学计算技术(例如分子动力学)可以处理数百万个原子。 经典系统的状态可以用很简单的方式描述,只需要知道每个粒子的位置和动量。而表示量子系统的状态则更具挑战性,因为电子的位置是不确定的

10行代码入门机器学习

空扰寡人 提交于 2020-10-26 14:25:55
最近在哔哩哔哩刷到一位up主,仅用了10行代码就实现了机器学习,真让我叹为观止。 看视频戳这里 以下是我的学习总结。 开始 小强会去看电影吗? 如花,小倩,小明和小强,他们是好基友,经常相约去看电影。但小强不是每次都去,以下是他们前四次相约去看电影的情况:(1 表示去看电影,0 表示没去看电影) 如花 小倩 小明 小强 1 0 1 1 1 1 0 1 0 0 1 0 0 1 0 0 假如第五次相约看电影,如花不去,小倩和小明要去,那么小强会去吗? 如花 小倩 小明 小强 1 0 1 1 1 1 0 1 0 0 1 0 0 1 0 0 0 1 1 ? 我们人脑对以上数据进行分析,很容易看出,如花去,小强就去,如花不去,小强就不去,很明显小强对如花有意思,所以得出结论, 小强不去 。 人脑思考分析的过程,怎么转换成让计算机思考呢? 上代码 from numpy import array, exp, random, dot X = array([[ 1 , 0 , 1 ],[ 1 , 1 , 0 ],[ 0 , 0 , 1 ],[ 0 , 1 , 0 ]]) y = array([[ 1 , 1 , 0 , 0 ]]).T random.seed( 1 ) weights = 2 * random.random(( 3 , 1 )) - 1 for _ in range( 10000 )

老码农的AI漫谈

|▌冷眼眸甩不掉的悲伤 提交于 2020-10-26 05:02:43
“ 不认识整体就不可能认识局部,同样,不认识局部也不可能认识整体。” ——布莱士·帕斯卡(Blaise Pascal) AI 切实地来到了人们的身边,从迷惑到振奋,从憧憬到期盼,从百家争鸣到百花齐放,从每个人到每个组织,都在或多或少地在寻找自己的定位。作为一个从业者,曾经试图从计算机的体系结构解读AI的构成(参见《 老码农眼中的简明AI 》),试图从溯源中看到AI的成长(参见 《人工智能简史》读后 ),试图从伦理学角度审视AI的约束(参见《 人工智能伦理学的一知半解 》)...... 但是,老码农仍然妄想对AI有一个整体性的全貌,然而能力所限,原以为的AI体系架构演变成了漫谈。下面是本次漫谈的目录: AI 的诞生与三次浪潮 AI 的含义解读 AI 的技术体系 AI 的应用领域 AI 对社会的影响 AI 的未来 “治学先治史”,时光回溯,看一看AI出现在历史长河中的位置吧。 1. AI 的诞生与三次浪潮 在共和国诞生的第二年(1950年),图灵发表了一篇划时代的论文,提出了著名的图灵测试( The Turing Test)—— 在测试者与被测试者(一个人和一台机器)隔开的情况下,通过一个装置(例如 显示器与键盘)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能

YOLO-v4目标检测实时手机实现,全自动实时移动端AI框架

ぃ、小莉子 提交于 2020-10-25 17:39:57
  机器之心发布    作者:马晓龙    如何助力深度神经网络在移动端「看得」更清,「跑得」更快?来自美国东北大学等机构的研究者提出一种新型全自动模式化稀疏度感知训练框架。   基于模式化稀疏度的剪枝方法能够使深度神经网络在图像识别任务中「看得」更清楚,同时减小了模型尺寸,使模型在移动端「跑得」更快,实现实时推理。   由美国东北大学王言治教授研究团队与美国威廉玛丽学院任彬教授研究团队共同提出,IBM、清华等共同研究的模式化稀疏度感知训练框架,不仅能够同时实现卷积核稀疏模式的全自动提取、模式化稀疏度的自动选择与模型训练,还证明了所提取的模式化稀疏度与理论最佳模式化稀疏度相匹配,并进一步设计了能够利用模型特点实现编译器优化的移动端推理框架,实现了大规模深度神经网络在手机移动端上的实时推理。目前,这篇文章已被 ECCV 2020 会议收录,该文章同时入选 ECCV 2020 demonstration track。   目前,这项技术已经广泛应用在多种类型的人工智能(AI)任务中,包括但不限于:Yolo-v4 目标检测、实时相机风格迁移、AI 实时换脸、相机超分辨率拍摄、视频实时上色等,并且成功落地。以上任务全部在手机端上实现。         读者可点击以下链接,观看手机端实现的更多 AI 任务展示:   官方网站:https://www.cocopie.ai/   B 站

华为 Mate 40 系⁠列 终于在2020年10月22日晚发布。

你。 提交于 2020-10-25 11:22:00
Mate 40 2020年10月22日晚,被受关注的华为 Mate 40 系列发布,共4款机型。 配置 多个版本的配置差别较大,请看下图。 主要信息 Mate 40 Mate 40 Pro Mate 40 Pro+ Mate 40 RS 售价 海外 899 欧元起 8GB+128GB 约合人民币7108元 1199 欧起 8GB+256GB 约合人民币9480元 1399 欧起 12GB+256GB 约合人民币11062元 2295 欧起 12GB+512GB 约合人民币18147元 国行 暂未正式发布 SoC 芯片 麒麟 9000E 麒麟 9000 (5nm制程,集成5G模块) 参数 相比 麒麟 9000 GPU少了两个核心 NPU上了一颗大核 CPU 8核:1x大核(3.13GHz) + 3x中核(2.54GHz) + 4x小核(2.05GHz) GPU 24核: 24xMali-G78 NPU:2x大核+ 1x微核(神经网络处理单元) 前置摄像头 1300万像素(f/2.4) 1300万像素(f/2.4) + 3D 深感摄像头 后摄 主摄 5000万像素 23mm,f/1.9 5000万像素 23mm,f/1.9,OIS 广角 1600万像素 17mm,f/2.2 2000万像素 18mm,f/1.8 2000万像素 14mm,f/2.4 2000万像素 18mm,f/1.8

Jürgen发文纪念10年前的研究,网友:转折点非AlexNet?

删除回忆录丶 提交于 2020-10-25 06:32:20
  机器之心报道    编辑:魔王    LSTM 之父、深度学习元老 Jürgen Schmidhuber 发文纪念 10 年前发表的研究。   Jürgen Schmidhuber 每次发博客都会引起一阵「腥风血雨」,这次似乎也不例外。   最近,这位机器学习大牛发布博客,纪念 10 年前发表在 Neural Computation 期刊上的一篇论文《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》,这篇文章主要介绍通过在 GPU 上执行梯度下降来训练深度多层感知机。      论文地址:https://www.catalyzex.com/paper/arxiv:1003.0358   在博客开头,Jürgen 这样评价该论文:   令人惊讶的是,这个简单但深层的监督式神经网络在机器学习基准数据集 MNIST 上的性能超过所有之前的方法。也就是说,在计算成本相当于今天 100 倍的 2010 年,我们提出的前馈神经网络和更早提出的循环神经网络就在当时的重要问题上打败了所有竞争算法。2010 年代,这一深度学习改革迅速从欧洲向美洲和亚洲扩展。   博客的具体内容如下:   仅仅在十年前,很多人认为深度神经网络在不进行无监督预训练的情况下无法学习。事实上,2007 年 Geoffrey

清华大学朱小燕教授新著作,《人工智能:知识图谱前沿技术》面世

瘦欲@ 提交于 2020-10-25 00:46:53
  机器之心报道    编辑:蛋酱   2020 年,人工智能技术进入更加广阔的落地期,你一定需要这本深入浅出的 “知识图谱” 书籍。      知识图谱( Knowledge Graph )以结构化的形式描述客观世界中概念、实体及其关系,将信息时代各式各样的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解的能力。知识图谱给互联网语义搜索带来了新的驱动力,同时也在自然语言处理的各种应用中显示了强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱、大数据、深度学习一起,成为信息时代人工智能发展的核心驱动力之一。   知识图谱技术是指知识图谱建立和应用的技术,是融合机器学习、认知计算、知识表示与推理、信息检索与抽取、自然语言处理、语义 Web 、数据挖掘等方向的交叉研究。知识图谱技术的核心内容包括知识抽取与构建,知识表示,知识推理,知识存储和查询,知识图谱应用等。   作为人工智能领域的重要方向之一,目前知识图谱技术已在医疗、教育、金融、证券投资、推荐等多个领域广泛应用,并发挥着重要价值。   在最新出版的《人工智能:知识图谱前沿技术》一书中,清华大学计算机系教授朱小燕等作者从知识和知识图谱的基本概念和模型出发,着重介绍了近代知识图谱相关技术的发展情况,特别是大规模数据、人工神经元网络,以及深度学习背景下有关知识表示、知识图谱构建

第10课:动手实战基于 CNN 的电影推荐系统

自古美人都是妖i 提交于 2020-10-24 22:55:28
本文从深度学习卷积神经网络入手,基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 什么是推荐系统呢? 什么是推荐系统呢?首先我们来看看几个常见的推荐场景。 如果你经常通过豆瓣电影评分来找电影,你会发现下图所示的推荐: 如果你喜欢购物,根据你的选择和购物行为,平台会给你推荐相似商品: 在互联网的很多场景下都可以看到推荐的影子。因为推荐可以帮助用户和商家满足不同的需求: 对用户而言:找到感兴趣的东西,帮助发现新鲜、有趣的事物。 对商家而言:提供个性化服务,提高信任度和粘性,增加营收。 常见的推荐系统主要包含两个方面的内容,基于用户的推荐系统(UserCF)和基于物品的推荐系统(ItemCF)。两者的区别在于,UserCF 给用户推荐那些和他有共同兴趣爱好的用户喜欢的商品,而 ItemCF 给用户推荐那些和他之前喜欢的商品类似的商品。这两种方式都会遭遇冷启动问题。 下面是 UserCF 和 ItemCF 的对比: 来源: oschina 链接: https://my.oschina.net/u/4330611/blog/4633737

Additive Attention

百般思念 提交于 2020-10-24 20:53:16
Introduced by Bhdanau et al. in Neural Machine Translation by Jointly Learning to Align and Translate. Additive Attention , also known as Bahdanau Attention , uses a one-hidden layer feed-forward network to calculate the attention alignment score: where Va and Wa are learned attention parameters. Here h refers to the hidden states for the encoder, and s is the hidden states for the decoder. The function above is thus a type of alignment score function. We can use a matrix of alignment scores to show the correlation between source and target words, as the Figure to the right shows. Within a