深度学习

深度强化学习在时序数据压缩中的应用--ICDE 2020收录论文

元气小坏坏 提交于 2020-12-21 15:39:55
彼节者有间,而刀刃者无厚;以无厚入有间,恢恢乎其于游刃必有余地矣 ----- 庖丁解牛 前言:随着移动互联网、IoT、5G等的应用和普及,一步一步地我们走进了数字经济时代。随之而来的海量数据将是一种客观的存在,并发挥出越来越重要的作用。时序数据是海量数据中的一个重要组成部分,除了挖掘分析预测等,如何高效的压缩存储是一个基础且重要的课题。同时,我们也正处在人工智能时代,深度学习已经有了很多很好的应用,如何在更多更广的层面发挥作用?深度学习的本质是做决策,用它解决具体的问题时很重要的是找到契合点,合理建模,然后整理数据优化loss等最终较好地解决问题。在过去的一段时间,我们在用深度强化学习进行数据压缩上做了一些研究探索并取得了一些成绩,已经在ICDE 2020 research track发表(Two-level Data Compression using Machine Learning in Time Series Database)并做了口头汇报。在这里做一个整体粗略介绍,希望对其它的场景,至少是其它数据的压缩等,带来一点借鉴作用。 1. 背景描述 1.1 时序数据 时序数据顾名思义指的是和时间序列相关的数据,是日常随处可见的一种数据形式。下图罗列了三个示例 a)心电图,b)股票指数,c)具体股票交易数据。 关于时序数据库的工作内容,简略地,在用户的使用层面它需要响应海量的查询

机器学习,数据科学家与Bullshiter

一个人想着一个人 提交于 2020-12-21 05:24:33
点击上方“ 机器学习与统计学 ”,选择“置顶”公众号 重磅干货,第一时间送达 图片: Damon Hall 作者:微调@zhihu 编辑:统计学家 https://zhuanlan.zhihu.com/p/38351961 最近接到了一个项目,任务是通过供应商信息及消费明细将交易归类。举个例子,我们现在有一条新的交易: 金额 | 供应商 | 商品描述 ¥2333 | ABC合作社 | 电脑 在理想情况下,我们希望准确地预测出四级分类:办公用品 ->IT用品->硬件->电脑。但根据客户介绍,在大部分情况下我们是没有商品描述的。因此输入信息就变成了只有供应商+消费金额,目标是在没有训练数据的情况下进行四级精准预测。 金额 | 供应商 ¥2333 | ABC合作社 这项目没什么特别的,很多互联网金融公司都在做。不巧的是,客户还提出了两个额外需求: 我们 没有任何数据供你们训练 ,只有现成的交易信息以及300个预先设置的类别(可以理解为一个多分类问题)。 大部分交易只有交易金额和采购商 ,而没有关于交易的内容描述。 不难看出,在有限数据下这个项目可以简化为计算“交易信息”与“类别”相似度问题。比如可以使用预训练的词库把每个交易描述转化为一个向量,并衡量该向量与300个不同分类所对应的向量的相似度。更复杂的情况下可以考虑引入交易金额,甚至通过爬虫从网上收集额供应商信息来整合。

AlphaFold证明人工智能可以解决基本的科学问题

本秂侑毒 提交于 2020-12-20 12:32:33
来源:IEEE电气电子工程师 Gif: DeepMind Two examples of protein targets in the free modelling category. 任何人工智能的成功实施都依赖于以正确的方式提出正确的问题。这就是英国人工智能公司DeepMind(Alphabet的子公司)在利用其神经网络解决生物学的重大挑战之一蛋白质折叠(protein-folding)问题时所取得的成就。它的神经网络被称为AlphaFold,能够根据蛋白质的氨基酸序列以前所未有的准确度预测蛋白质的三维结构。 AlphaFold在蛋白质结构预测的第14个临界评估(14th Critical Assessment of protein Structure Prediction,CASP14)中的预测对于大多数蛋白质来说都精确到一个原子的宽度之内。竞争包括盲目地预测蛋白质的结构,这些蛋白质是最近才被实验确定的,还有一些尚待确定。 蛋白质被称为生命的组成部分,由20种不同的氨基酸以不同的组合和序列组成。蛋白质的生物学功能与其三维结构密切相关。因此,对最终折叠形状的了解对于理解特定蛋白质是如何工作的至关重要,例如它们如何与其他生物分子相互作用,如何控制或调整,等等。欧洲生物信息学研究所(European Bioinformatics Institute)荣誉主任Janet M.

阿里巴巴文娱NLP团队招聘

只谈情不闲聊 提交于 2020-12-19 15:06:41
团队简介 阿里巴巴文娱NLP团队大量招人(P6-P8),我们承接着文娱全部技术线的各类NLP需求,专注研发自然语言分析技术(分类、聚类、情感、问答、关系抽取、知识图谱),为各项顶层业务提供NLP技术支持(知识推断、意图识别、query改写、搜索相关性、全网搜索等)。 我们不断夯实技术进而驱动商业,目标是成为最有价值的商业自然语言处理团队,采用平台化策略服务好阿里内外的各种需求。 阿里巴巴文娱部门NLP算法团队支撑文娱集团整体业务线的NLP需求,专注研发自然语言分析技术(分类、聚类、情感、问答、关系抽取、知识图谱),为各项顶层业务提供NLP技术支撑(知识推断、意图识别、query改写、搜索相关性、全网搜索等)。在不断夯实技术进而驱动商业,成为最有价值的商业自然语言处理团队,采用平台化策略服务阿里内外的各种需求。 坐标 - 杭州 岗位职责 - 运用机器学习、深度学习技术,研发文本分析、知识图谱相关算法,并应用于个性化推荐&搜索; - 改进和研发文本理解、文本生成、主题发现、知识抽取等技术; - 跟踪业界与学界最新进展,并能够快速应用到实际业务中。 岗位要求 - 编程基础扎实,熟练使用至少一种常用编程语言,如 Python / C++ / Java,熟悉 Tensorflow、Keras、Caffe等深度学习工具。 - 熟悉机器学习的基础方法(分类、回归、排序、降维等

用算法改造过的植物肉,有兴趣试试么?

人盡茶涼 提交于 2020-12-19 14:44:35
来源 | HyperAI超神经 责编 | 晋兆雨 头图 | CSDN 下载自视觉中国 本月初,麦当劳宣布, 将于 2021 年推出植物肉全新产品线 McPlant,新品品类将包括汉堡、鸡肉替代品以及早餐三明治。 事实上,麦当劳并不是尝试植物基产品的首家快餐店,McPlant 也并非麦当劳在植物肉汉堡上的首次试水。 植物肉:从理念到餐桌的饮食新宠 去年 9 月-2020 年初, 麦当劳就曾与美国植物肉生产商 Beyond Meat 合作, 在加拿大安大略省部分门店低调发售植物肉汉堡 P.L.T., 测试消费者对人造肉汉堡的接受程度。 今年 10 月 12 日,肯德基在国内北上广深杭武汉等 6 个城市的 210 家门店,限时限量试售植物基新品——植物肉汉堡和植物肉鸡块。 新品系列被称为「植世代」,共包括两款植物肉食品: 牛肉芝士汉堡(牛肉风味的植物蛋白制品)及黄金鸡块(鸡肉风味的植物蛋白制品)。 肯德基植世代系列包括两款新品:牛肉汉堡和鸡块 没有吃到肯德基和麦当劳的植物肉汉堡也没关系,我们收集了国内市场上部分仍在售的植物肉食品和植物奶饮品,并标注了参考售价,大家可以前往门店或在网店购买尝鲜。 在售的植物基食品/饮品(国内) 品牌 产品 参考售价 喜茶 未来肉 芝士堡 25 周黑鸭 素肉 鸭脖 75/斤 星巴克 别样牛肉 三明治 35 星巴克 燕麦抹茶拿铁 (植物奶) 35 金华火腿

AI智慧工程 | MixLab人工智能

假如想象 提交于 2020-12-19 07:17:46
自动化施工监控 使用5G + IoT + AI 和计算机视觉技术来优化建筑安全性,生产率和合规性。 风险预测 使用视频数据,帮助建筑工地提前预测危险和风险,以防止受伤 定义危险区 使用最新的深度学习技术直接在平台上绘制出危险区域 数据显示,这套解决方案能为工地节约70%以上的监控人手,将行业的事故率从2-3%降至0.1%以下。 www.viact.ai 想要了解更多 智慧城市 请戳 “ 超越期望的AI CITY ?| Mixlab未来城市技术 ” 更多智能主题 👇 「 Mix+人工智能 」 专刊 每期由mixlab社区精选。收录人工智能的相关内容,包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等,MIX的主题包括:AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。 欢迎一起 探索未知世界 如果觉得文章不错~ 那就点一下 本文分享自微信公众号 - 无界社区mixlab(mix-lab)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4582735/blog/4687512

多任务上实现SOTA,UBC、谷歌联合Hinton等提出3D点云的无监督胶囊网络

我与影子孤独终老i 提交于 2020-12-18 13:02:15
这是一种为 3D 点云提出的无监督胶囊架构,并且在 3D 点云重构、配准和无监督分类方面优于 SOTA 方法。 机器之心报道,作者:杜伟、小舟。 理解对象是计算机视觉的核心问题之一。传统方法而言,理解对象任务可以依赖于大型带注释的数据集,而无监督方法已经消除了对标签的需求。近来,研究人员试图将这些方法扩展到 3D 点云问题上,但无监督 3D 学习领域却进展寥寥。 近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等来自英属哥伦比亚大学、谷歌研究院、多伦多大学的研究者提出了用于 3D 点云的无监督胶囊网络。Hinton 对此表示:在不受监督的情况下找到一个对象的自然组件以及这些组件的内在参照系是学习将解析图像转换为局部整体层级结构的重要一步。如果以点云开始,则可以做到。 具体而言,研究者通过排列等变(permutation-equivariant)的注意力计算对象的胶囊分解,并通过训练成对的随机旋转对象来自监督该过程。本研究的核心思想是将注意力掩模聚合为语义关键点,并使用它们来监督满足胶囊不变性或等方差的分解。这不仅可以训练语义上一致的分解,还能够学习以对象为中心的推理的规范化操作。在这种情况下,既不需要分类标签,也不需要手动对齐的训练数据集进行训练。 最后,通过以无监督的方式学习以对象为中心的表征,该方法在 3D 点云重构

微软提出Petridish,完美解决问题的神经网络?

♀尐吖头ヾ 提交于 2020-12-18 08:52:19
来源:www.lovehhy.net 神经架构搜索(NAS)是当前深度学习最热门的话题之一。 什么是NAS方法呢? 从概念上讲,NAS方法专注于为给定问题和数据集找到合适的神经网络体系结构。不妨将这个方法理解为使机器学习架构本身成为机器来学习问题。近年来,NAS技术的数量激增,并且正在更多主流的深度学习框架和平台得到应用。但是,第一代NAS模型在经历神经网络域名变更时遇到了许多困难。因此,寻找新的NAS技术极有可能会继续推动该领域的深层次创新。 来源:www.raincent.com 最近,微软研究院推出了Petridish,一种优化神经网络结构选择的NAS算法。 之所以开发NAS,是因为神经网络的设计过程相当消耗资源。在当前的深度学习生态系统中,借助于知名的,性能一流的网络,数据集可能与之前已被证实的网络所遇到的完全不同,几乎没什么保证。在许多情况下,NAS方法通常需要数百天才能找到好的架构,并且效果几乎很难比随机搜索好。机器学习中还有一个类似于NAS技术挑战的问题:特征选择。 就像NAS方法一样,特征选择算法需要为给定特定数据集的模型提取相关特征。显然,选择特征比神经网络体系结构要简单得多,但是特征选择技术的许多原理为Petridish团队提供了灵感。 获取经验的方式:NAS的简要历史 鉴于NAS方法最近的热度,许多人可能认为NAS是一门新兴学科。 毫无疑问,自2016年以来

从高校自主芯片生态建设做起,谈自主学习芯片设计的重要性

二次信任 提交于 2020-12-18 03:57:50
2020年7月30日上午的国务院学位委员会会议已投票通过集成电路专业将作为一级学科,并将从电子科学与技术一级学科中独立出来。拟设于新设的交叉学科门类下,将待国务院批准后,与交叉学科门类一起公布。上课时讲到芯片是“点石成金”的行业,如今正在一步步变成现实。另外,把自己学习和科研的方向与国家的迫切需要紧密联系起来,准没错!目前亟待解决的问题不少,简单总结来说,由于固有的学科分类,真正意义上的集成电路设计都依附于各个主流一级学科之下,注意,这里所说的集成电路设计是集成电路一级学科中最重要的一个方向。笔者认为,微电子跟集成电路设计是不一样的。并且,个人始终认为,做芯片的确是交叉学科,微电子专业毕业之后,还是应该学习其它专业的系统知识才能做出来芯片。 专业的事情还是需要专业的人去做 ,比如做CPU芯片还是需要具备计算机领域的知识,做通信芯片还是必须要有通信系统的知识储备才行。否则,仅知道芯片的设计方法而没有深入了解相关领域系统知识的芯片设计者,即便照葫芦画瓢做出来了芯片,也是一颗死芯片,根本不懂其中的内涵和更深层次的系统含义。这也许是设立集成电路一级学科最最重要的一个原因。可能今后相关学科都应该去学习芯片设计。原有学科划分已经不适应科技发展的需要了,人工智能,机器人,集成电路等都是横跨数个原有学科的交叉学科。从某种意义上讲,芯片化是学术研究除了文章之外的另外一种成果形式,可能以后相关学科评估

推荐系统中的注意力机制——阿里深度兴趣网络(DIN)

≡放荡痞女 提交于 2020-12-18 00:54:12
参考: https://zhuanlan.zhihu.com/p/51623339 https://arxiv.org/abs/1706.06978 注意力机制顾名思义,就是模型在预测的时候,对用户不同行为的注意力是不一样的,“相关”的行为历史看重一些,“不相关”的历史甚至可以忽略。那么这样的思想反应到模型中也是直观的。 如果按照之前的做法,我们会一碗水端平的考虑所有行为记录的影响,对应到模型中就是我们会用一个average pooling层把用户交互过的所有商品的embedding vector平均一下形成这个用户的user vector,机灵一点的工程师最多加一个time decay,让最近的行为产生的影响大一些,那就是在做average pooling的时候按时间调整一下权重。 上式中, 是用户的embedding向量, 是候选广告商品的embedding向量, 是用户u的第i次行为的embedding向量,因为这里用户的行为就是浏览商品或店铺,所以行为的embedding的向量就是那次浏览的商品或店铺的embedding向量。 因为加入了注意力机制, 从过去 的加和变成了 的加权和, 的权重 就由 与 的关系决定,也就是上式中的 ,不负责任的说,这个 的加入就是本文70%的价值所在。 那么 这个函数到底采用什么比较好呢?看完下面的架构图自然就清楚了。 => 如何生成注意力