深度学习

“中国第一”百度飞桨35项重磅发布 引技术前沿助产业智能化升级

佐手、 提交于 2020-08-18 06:35:00
  “新基建”给中国“产业智能化”带来强劲的新引擎。飞桨作为智能时代的操作系统与技术底座,也再次迎来高光时刻。5月20日,由深度学习技术及应用国家工程实验室与百度联合主办的“WAVE SUMMIT 2020”深度学习开发者峰会以线上形式召开。本届峰会,飞桨公布最新全景图,带来多达35项全新发布和重磅升级,不仅进一步升级核心框架、完善从开发训练到部署的全流程工业级极致体验、深化企业端服务,更着眼未来,引领布局前沿技术,首发量子机器学习开发工具“量桨”,以及蓄力AI人才培养和开发者生态,发布青少年AI科普教育“晨曦计划”、“星辰计划”开发者探索基金等。      百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰在峰会上致辞讲到:“时代契机为飞桨的发展提供了最好的机遇,产业智能化浪潮兴起、AI基础设施建设加快推进,飞桨以更敏捷的脚步,秉承开源开放理念,坚持技术创新,与开发者共同成长和进步,一起发展深度学习和人工智能技术及产业生态,加速产业智能化进程。”    降门槛减周期,满足“大规模”产业智能化升级需求   截至目前,飞桨已经凝聚了194万开发者,服务8.4万家企业,创造了23.3万模型,是国内最领先、服务开发者规模最大、功能最完备的开源开放深度学习平台。多年来,飞桨作为引领中国深度学习技术发展的“头雁”,面对中国大规模产业智能化升级需求,持续降低技术开发门槛

【总奖金十万】观点问题如何练就“火眼金睛”?百度人工智能开源大赛火热报名中

丶灬走出姿态 提交于 2020-08-18 06:23:18
无数渠道来源的大量信息喷涌而来,如何准确辨识真假? 各路观点混杂,如何迅速抓住重点,进行是非观点判断? 随着5G时代的进一步提速,百度、知乎、微博、公众号、百家号等信息渠道的越来越丰富,人们在获取信息更方便和获取信息量激增的同时,也面临着信息质量良莠不齐、观点驳杂的情况,如何对信息进行是非观点极性判断成为了AI技术亟需解决的基础问题。 在此背景之下,百度将聚焦于预测答案段落摘要中所表述的是非观点极性,举办百度人工智能开源大赛。该赛事是在北京市政府、中关村科技园区管理委员会的指导下,百度联合中国人工智能产业发展联盟等单位依托2020AIIA人工智能开发者大会举办的专项赛事。 据大赛组委会介绍,本次大赛旨在为研究者和开发者提供学术和技术交流的平台,鼓励初创企业、企业开发者、高校科研人员及学生进一步提升机器阅读理解的研究水平,推动语言理解和人工智能领域技术和应用的发展。 8月10日,百度人工智能开源大赛正式启动,目前进入火热报名阶段。 以”是非观点极性判断”为主题的开发者大赛 面向观点型问题的机器阅读理解源于真实的应用场景:在智能搜索问答等产品中,针对用户输入的观点型问题,搜索引擎首先会检索相关候选文档,然后从候选文档中抽取出能够回答用户问题的答案段落摘要,最后给出答案段落摘要所包含的是非观点。 百度将在大赛全程提供技术支持, 飞桨 PaddlePaddle

深度学习在高德ETA应用的探索与实践

江枫思渺然 提交于 2020-08-18 04:55:31
1.导读 驾车导航是数字地图的核心用户场景,用户在进行导航规划时,高德地图会提供给用户3条路线选择,由用户根据自身情况来决定按照哪条路线行驶。 同时各路线的 ETA(estimated time of arrival,预估到达时间) 会直接显示给用户,这是用户关心的核心点之一。用户给定起点和终点后,我们的任务是预测起终点的ETA,ETA的准确率越高,给用户带来的出行体验越好。 2.基于深度学习模型的探索和实践 2.1模型选择 传统机器学习模型在ETA中,比较常用的有线性回归、RF(随机森林)、GBDT(梯度提升决策树)等回归预测类模型。线性模型表达能力较差,需要大量特征工程预先分析出有效的特征;RF通过样本随机和特征随机的方式引入更多的随机性,解决了决策树泛化能力弱的问题;GBDT是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到回归的算法。 传统机器学习模型相对简单易懂,也能达到不错的效果,但存在两个问题: 模型的表达能力跟选取的特征有关,需要人工事先分析出有效的特征。 没有考虑上游对下游路段的影响,产生了如丢失上下游关联信息、下游受上游影响导致的不确定性等问题。 第一个问题很好理解,深度学习模型能很好地弥补这方面。针对第二个问题,以历史速度信息选取存在的不确定性为例来说明一下,历史速度信息是一个区分周一到周日七个工作日、10分钟间隔的历史平均时间

万物皆可 Serverless 之使用云函数 SCF 快速部署验证码识别接口

試著忘記壹切 提交于 2020-08-18 04:55:15
验证码识别是搞爬虫实现自动化脚本避不开的一个问题。通常验证码识别程序要么部署在本地,要么部署在服务器端。如果部署在服务器端就需要自己去搭建配置网络环境并编写调用接口,这是一个极其繁琐耗时的过程。 本文来自 Serverless 社区用户「乂乂又又」供稿 但是现在我们通过腾讯云云函数 SCF,就可以快速将本地的验证码识别程序发布上线,极大地提高了开发效率。 效果展示 可以看到,识别效果还是蛮好的,甚至超过了肉眼识别率。 操作步骤 传统的验证码识别流程是 图像预处理(灰化,去噪,切割,二值化,去干扰线等) 验证码字符特征提取(SVM,CNN 等) 验证码识别 下面我就带大家一起来创建、编写并发布上线一个验证识别云函数 第一步:新建 python 云函数 参见系列文章 《万物皆可Serverless之使用 SCF+COS 快速开发全栈应用》 第二步:编写验证识别云函数 Life is short, show me the code. 这里我就以一个最简单的验证码识别程序为例,直接上代码 import io import os import time from PIL import Image as image import json #字符特征 chars = { '1': [1, 1, 1, 0, 1, ...], '2': [1, 0, 0, 1, 0, ...], '3': [0,

机器学习西瓜书 | 第一章 绪论

╄→尐↘猪︶ㄣ 提交于 2020-08-18 04:53:17
绪论 1.1 引言 机器学习 machine learning 是一种“学习算法”(learning algorithm) 1.2 基本术语 数据集(data set):记录的集合 示例(instance)= 样本(sample)= 特征向量(feature vector):记录,关于一个事件或对象的描述 属性(attribute)= 特征(feature):反映事件在某方面的表现或性质的事项 属性值(attribute space):属性的取值 属性空间(attribute space)= 样本空间(sample space)= 输入空间:属性张成的空间 样本维数(dimensionality):样本属性/特征的个数 学习(learning)= 训练(training)过程:从数据中学得模型的过程,通过执行某个学习算法来完成 训练数据(training data):训练过程中使用的数据 训练样本(training sample)= 训练示例/训练例(training instance):训练数据中的样本 训练集(training set):训练样本组成的集合 假设(hypothesis):学得模型对应的关于数据的潜在的规律 真相/真实(ground-truth):潜在规律本身,学习过程就是在找出或逼近真相 学习器(learner):学习算法在给定数据和参数空间上的实例化 标记

从赌博中的概率到AI中的概率

半城伤御伤魂 提交于 2020-08-18 04:20:10
不确定的世界 我们生活的这个世界里面普遍具有不确定性,除了很少一部分事件具有确定性,其它大部分事件都是不确定的。而这些不确定事件我们就需要概率来描述,目前概率论已经渗透进各个学科,可以说它是人类知识体系中非常重要的部分。概率论是科学的,科学理论也需要概率论去支撑。 关于概率 如果有人跟你说明天太阳从东边升起来,那么你会觉得这是确定的,因为在人类可以预见的未来都会是这样,这种事我们会说它的概率是100%。但如果有个卖保险的人向你推荐保险,对于有概率思维的你也许很快就会用各种理论去计算看哪款产品更优。从简单的掷骰子到复杂宏观的天气预测、股市经济预测,微观的量子力学等等都需要概率来描述。 概率下的游戏 概率论的最早起源可以追溯到公元前的埃及人,他们就已经跟现代人一样开始用骰子来玩游戏了。与现代人不一样的是,他们玩骰子是因为当时饥荒很严重而玩骰子,这样他们就能忘记饥饿了,而现代人是因为吃太饱闲得慌去玩骰子赌博。 到十七世纪欧洲贵族盛行赌博,通过使用各种随机游戏来进行赌博。其中有些人就开始对随机游戏进行思考,哪种情况的可能性较大呢?一直到1654年,费尔马和帕斯卡两位数学家对于“分赌注问题”的通信讨论被公认为是概率论诞生的标志,他们两与惠更斯被称为早期概率论的创立者。 可以说,概率论的起源是赌博和游戏,后面才开始跳出赌博游戏而发展的。 概率论后期发展 后面概率论的发展已经跟赌博关系不大

ZooTeam 前端周刊|第 82 期

别等时光非礼了梦想. 提交于 2020-08-18 04:10:33
ZooTeam 前端周刊|第 82 期 浏览更多往期小报,请访问: weekly.zoo.team Cherry-Pick | 一日一 Git - 掘金 Cherry-Pick 该 Git 命令能优雅的满足你将任一节点移植到指定分支的需求,还可以妙用于 CodeStream 。 React Router原理 - 简书 原文地址 blog.poetries.top/2018/12/20/… 一、React Router基础之history... React 学习之路由HashRouter和BrowserRouter - leahtao - 博客园 React 学习之路由HashRouter和BrowserRouter - leahtao - 博客园 前端走进机器学习生态,在 Node.js 中使用 Python 从今天开始,你就可以开始看着 Python 的文档,使用 JavaScript 来“学习和使用”机器学习和深度学习了! (77) 基于 qiankun 的微前端最佳实践(万字长文) - 从 0 到 1 篇 - 掘金 写在开头 微前端系列文章: 基于 qiankun 的微前端最佳实践(万字长文) - 从 0 到 1 篇 基于 qiankun 的微前端最佳实践(图文并茂) - 应用间通信篇 万字长文+图文并茂+全面解析微前端框架 qiankun 源码 - qiankun 篇...

特征工程系列之自动化特征提取器

↘锁芯ラ 提交于 2020-08-18 04:09:53
视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的,一些系统甚至在出生前就对刺激做出反应。另一方面,语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋,但是我们所有人都必须有意训练我们的大脑去理解和使用语言。 在过去五年中,深度学习模式的突破最终预示着期待已久的图像和语音分析的革命。进展的困难与从相应类型的数据中提取有意义特征的困难直接相关。机器学习模型需要语义上有意义的特征进行语义意义的预测。在文本分析中,特别是对于英语这样的语言,其中一个基本的语义单位(一个词)很容易提取,可以很快地取得进展。另一方面,图像和音频被记录为数字像素或波形。图像中的单个“原子”是像素。在音频数据中,它是波形强度的单一测量。它们包含的语义信息远少于数据文本。因此,在图像和音频上的特征提取和工程任务比文本更具挑战性。 在过去的二十年中,计算机视觉研究已经集中在人工标定上,用于提取良好的图像特征。在一段时间内,图像特征提取器,如 SIFT 和 HOG 是标准步骤。深度学习研究的最新发展已经扩展了传统机器学习模型的范围,将自动特征提取作为基础层。他们本质上取代手动定义的特征图像提取器与手动定义的模型,自动学习和提取特征。人工标定仍然存在,只是进一步深入到建模中去。 最简单的图像特征(为什么他们不好使)

学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读

匆匆过客 提交于 2020-08-18 04:09:09
  机器之心分析师网络    作者:周宇    编辑:H4O   本文对多个版本的胶囊网络进行了详细的介绍。   本文以综述的形式,尽可能详细的向读者介绍胶囊网络的诞生,发展过程与应用前景。本文的内容以 Hinton 的标志性文章为基础,结合近年来发表在顶会顶刊的文章为补充,力图详细的让读者们了解胶囊网络的各种版本,熟悉它在不同领域的革命性突破,以及它在目前所存在的不足。   深度学习和人工神经网络已经被证明在计算机视觉和自然语言处理等领域有很优异的表现,不过随着越来越多相关任务的提出,例如图像识别,物体检测,物体分割和语言翻译等,研究者们仍然需要更多有效的方法来解决其计算量和精度的问题。在已有的深度学习方法中,卷积神经网络 (Convolutional Neural Networks) 是应用最为广泛的一种模型。卷积神经网络通常简称为 CNN,一般的 CNN 模型由卷积层 (convolutional layer), 池化层(pooling layer) 和全连接层 (fully-connected layer) 叠加构成。   在卷积的过程中,卷积层中的卷积核依次与输入图像的像素做卷积运算来自动提取图像中的特征。卷积核的尺寸一般小于图像并且以一定的步长 (stride) 在图像上移动着得到特征图。步长设置的越大,特征图的尺寸就越小,但是过大的步长会损失部分图像中的特征。此外

SLAM +机器学习迎来了“感知时代”

六眼飞鱼酱① 提交于 2020-08-17 20:07:38
机器和深度学习的最新进展已改进了SLAM技术,从而导致地图的丰富性增加,语义场景理解提高了定位,地图质量和坚固性,更多信息尽在振工链。 最近的危机使人们越来越关注将自动机器人用于实际利益。我们已经看到机器人,运送食物和药品,甚至对患者进行评估。这些都是惊人的用例,它们清楚地说明了从现在起机器人将在我们的生活中发挥更大作用的方式。 然而,尽管具有所有优点,但是机器人自动绘制周围环境并成功定位自身的能力仍然十分有限。机器人在计划一致的环境中擅长做特定事情的能力越来越强。但是动态,未经训练的情况仍然是一个挑战。 我兴奋的是下一代SLAM(同步定位和地图绘制),它将使机器人设计人员能够创造出在各种情况下具有更强的自主操作能力的机器人。它正在开发中,并吸引了整个行业的投资和兴趣。 我们称其为“感知时代”,它将机器和深度学习的最新进展结合起来以增强SLAM。通过语义场景理解来增加地图的丰富度,可以改善定位,地图质量和坚固性。 简化地图 目前,大多数SLAM解决方案都从传感器获取原始数据,并使用概率算法来计算机器人的位置和地图。LIDAR是最常用的,但成本越来越低的相机为增强的地图提供了丰富的数据流。无论使用哪种传感器,数据都会创建由数百万个3维参考点组成的地图。这些使机器人可以计算其位置。 问题在于这些3D点云没有意义-它们只是机器人计算其位置的空间参考