Temporal

基于 Flink 的典型 ETL 场景实现

北慕城南 提交于 2020-10-10 14:07:36
简介: 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 作者:买蓉 · 美团点评高级技术专家 整理:赵阳(Flink 社区志愿者) 校对:苗浩冲(Flink 社区志愿者) 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 1.实时数仓的相关概述 1.1 实时数仓产生背景 我们先来回顾一下数据仓库的概念。 数据仓库的概念是于90年代由 Bill Inmon 提出, 当时的背景是传统的 OLTP 数据库无法很好的支持长周期分析决策场景,所以数据仓库概念的4个核心点,我们要结合着 OLTP 数据库当时的状态来对比理解。 面向主题的:数据仓库的数据组织方式与 OLTP 面向事务处理不同。因为数据仓库是面向分析决策的,所以数据经常按分析场景或者是分析对象等主题形式来组织。 集成的:对于数据仓库来说,经常需要去集合多个分散的、异构的数据源,做一些数据清洗等 ETL 处理,整合成一块数据仓库,OLTP 则不需要做类似的集成操作。 相对稳定的:OLTP 数据库一般都是面向业务的,它主要的作用是把当前的业务状态精准的反映出来,所以 OLTP 数据库需要支持大量的增、删、改的操作。但是对于数据仓库来说

能显著减低脱靶效应?Synthego正在开发下一代光控 CRISPR技术

╄→гoц情女王★ 提交于 2020-10-10 10:59:43
  10 月 7 日,Emmanuelle Charpentier 和 Jennifer A. Doudna 因开发精准基因编辑技术摘得 2020 年诺贝尔化学奖,这再次将基因编辑 CRISPR 置于聚光灯下。 同日,CRISPR 技术再迎重大进展,基因工程组公司 Synthego 宣布其开发出一种基础技术,能够通过光线精确控制在细胞内进行的 CRISPR 基因编辑。   官网显示,Synthego 成立于 2012 年,是一家总部位于加利福尼亚硅谷的基因组工程公司。该公司由 Paul Dabrowski 和 Michael Dabrowski 两兄弟共同创立,正式进军生物科学领域之前,他们曾就职于埃隆 · 马斯克创立的 SpaceX 公司。Synthego 正在通过机器学习,自动化和基因编辑为规模化的科学研究搭建平台。通过基因组工程推动药物发现和细胞以及基因疗法。 公司的主营业务包括利用 CRISPR 基因工程化改造细胞、提供合成化 RNA 解决方案以及提供生物信息学。      图 | Synthego 业务(来源:Synthego 官网)   2020 年 8 月,该公司刚完成 1 亿美元 D 轮融资,用于加速推动其 CRISPR 平台发展。公开资料显示,Synthego 共计完成四轮超 2.5 亿美元融资,投资方不乏 8VC、英特尔、Founders Fund

从自监督学习主流方法、最新工作进展,看未来前景研究方向

时间秒杀一切 提交于 2020-10-10 00:28:37
来源: 机器学习算法与自然语言处理 本文约 6000字 ,建议阅读 10分钟。 找到合适的辅助任务,对于自监督学习是最需要解决的问题。 本文作者来自东北大学,他通过整理自监督学习的一系列工作,把主流方法分成三大类,方便大家更全面的了解自监督学习的定义、方法、用途。 与此同时,文中也穿插着几大主流方法的最新工作进展,现在正在探索自监督学习未来前景研究方向的同学,也不妨借鉴一二,说不定能找到灵感哦~ 学习的范式 我们首先来回顾下机器学习中两种基本的学习范式,如图所示,一种是监督学习,一种是无监督学习。 监督学习与无监督学习[1] 监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播,通过不断的学习,最终可以获得识别新样本的能力。而无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。 无监督学习中被广泛采用的方式是自动编码器(autoencoder): 深度自编码器[6] 编码器将输入的样本映射到隐层向量,解码器将这个隐层向量映射回样本空间。我们期待网络的输入和输出可以保持一致(理想情况,无损重构),同时隐层向量的维度大大小于输入样本的维度,以此达到了降维的目的,利用学习到的隐层向量再进行聚类等任务时将更加的简单高效。 对于如何学习隐层向量的研究

基于 Flink 的典型 ETL 场景实现

余生颓废 提交于 2020-10-09 02:01:11
作者:买蓉 · 美团点评高级技术专家 整理:赵阳(Flink 社区志愿者) 校对:苗浩冲(Flink 社区志愿者) 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 1.实时数仓的相关概述 1.1 实时数仓产生背景 我们先来回顾一下数据仓库的概念。 数据仓库的概念是于90年代由 Bill Inmon 提出, 当时的背景是传统的 OLTP 数据库无法很好的支持长周期分析决策场景,所以数据仓库概念的4个核心点,我们要结合着 OLTP 数据库当时的状态来对比理解。 面向主题的:数据仓库的数据组织方式与 OLTP 面向事务处理不同。因为数据仓库是面向分析决策的,所以数据经常按分析场景或者是分析对象等主题形式来组织。 集成的:对于数据仓库来说,经常需要去集合多个分散的、异构的数据源,做一些数据清洗等 ETL 处理,整合成一块数据仓库,OLTP 则不需要做类似的集成操作。 相对稳定的:OLTP 数据库一般都是面向业务的,它主要的作用是把当前的业务状态精准的反映出来,所以 OLTP 数据库需要支持大量的增、删、改的操作。但是对于数据仓库来说,只要是入仓存下来的数据,一般使用场景都是查询,因此数据是相对稳定的。 反映历史变化:数据仓库是反映历史变化的数据集合,可以理解成它会将历史的一些数据的快照存下来。而对于

告别RNN,迎来TCN!股市预测任务是时候拥抱新技术了

寵の児 提交于 2020-10-06 09:09:47
   编辑:魔王、陈萍    本文介绍了 TCN 在股市趋势预测任务中的应用,表明在集成新闻事件和知识图谱后,TCN 的性能大幅超过 RNN。   本文主要介绍了以下几部分内容:   1. 金融时间序列(FTS)中的深度学习背景介绍;   2. 值得关注的 FTS 数据处理实践;   3. 时间卷积网络(TCN);   4. 时间卷积网络在 FTS 中的应用实例;   5. 基于 TCN 的知识驱动股市趋势预测与解释。    1. 背景介绍   金融时间序列(FTS)建模历史悠久,20 世纪 70 年代初它首次革新了算法交易。FTS 分析包括两类:基础分析和技术分析。但这两种分析方法都受到有效市场假说(EMH)的质疑。   自 1970 年提出以来,EMH 一直备受争议,它假设股价最终是不可预测的。但这并没有限制如下研究:通过使用线性、非线性和基于 ML 的模型进行 FTS 建模。   由于金融时间序列具有非平稳、非线性、高噪声的特点,因此传统的统计模型很难准确地预测它们。近年来,越来越多的研究开始尝试将深度学习应用于股市预测,虽然还远远不够完善。例如:    2013 年   Lin 等人在论文《An SVM-based approach for stock market trend prediction》中提出一种基于支持向量机的股票预测方法,建立两部分特征选择和预测模型

AirVis: Visual Analytics of Air Pollution Propagation

人盡茶涼 提交于 2020-10-06 07:36:47
论文传送门 视频 作者 浙江大学: Zikun Deng Di Weng Jiahui Chen Ren Liu Zhibin Wang Yingcai Wu 京东智慧城市研究院 Jie Bao Yu Zheng 摘要 空气污染已经成为世界上许多城市的一个严重的公共健康问题。为了找出空气污染的原因,必须在大的空间尺度上研究空气污染物的传播过程。然而,复杂和动态的风场导致污染物输送的高度不确定性。如果没有领域知识的整合,最先进的数据挖掘方法不能完全支持跨多个地区的这种不确定时空传播过程的广泛分析。这些自动化方法的局限性促使我们设计和开发 AirVis,这是一种新颖的可视分析系统,它可以帮助领域专家基于图形可视化有效地捕捉和解释空气污染的不确定传播模式。设计这样的系统提出了三个挑战:a)传播模式的提取;b)模式表示的可伸缩性;和 c)传播过程的分析。为了应对这些挑战,我们开发了一个新的模式挖掘框架来模拟污染物迁移,并从大规模大气数据中有效地提取频繁传播模式。此外,我们基于最小描述长度原则对提取的模式进行分层组织,并允许专家用户基于模式拓扑有效地探索和分析这些模式。我们通过使用真实数据集和领域专家的积极反馈进行的两个案例研究证明了我们方法的有效性。 Introduction 空气污染成为一个严重的公共问题 来源: Vehicle emission Incineration Factory

实时的激光雷达点云压缩

…衆ロ難τιáo~ 提交于 2020-10-06 06:10:17
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。 ● 论文摘要 实时压缩大量的激光雷达点云对于自动驾驶汽车等自动化机器至关重要。虽然目前大多数的工作都集中在压缩单个点云帧上,但是本文提出了一个新的系统,可以有效地压缩一系列点云。利用点云帧序列中的空间和时间冗余的思想。首先在点云序列中识别关键帧,然后通过迭代平面拟合对关键帧进行空间编码。然后我们利用连续点云在物理空间中有大量重叠的事实,因此空间编码的数据可以(重新)用于对时间流进行编码。利用空间编码数据进行时间编码,不仅提高了压缩率,而且避免了冗余计算,大大提高了压缩速度。实验表明,我们的压缩系统达到了40×90的压缩率,明显高于MPEG的LiDAR点云压缩标准,同时保持了较高的端到端应用精度。同时,我们的压缩系统的压缩速度与目前激光雷达的点云生成速率相匹配,并优于现有的压缩系统,实现了实时点云传输。 代码开源(有兴趣的可以测试后与我交流和分享): https://github.com/horizon-research/Real-Time-Spatio-Temporal-LiDAR-Point-Cloud-Compression ● 内容介绍 本文的压缩系统的思想是利用点云(空间)和点云(时间)之间的冗余。在空间上,现实世界中的许多曲面都是平面

2020 IJCAI 接受论文 list 分类排列(一)

风格不统一 提交于 2020-10-02 06:52:26
2020 IJCAI 接受论文 list 分类排列(一) 2020 IJCAI 接受论文 list 分类排列(二) 2020 IJCAI 接受论文 list 分类排列(三) 目录 Main track (Agent-based and Multi-agent Systems) Main track (AI Ethics) Main track (Computer Vision) Main track (Constraints and SAT) Main track (Data Mining) Main track (Heuristic Search and Game Playing) Main track (Humans and AI) Main track (Agent-based and Multi-agent Systems) A Deep Reinforcement Learning Approach to Concurrent Bilateral Negotiation Pallavi Bagga, Nicola Paoletti, Bedour Alrayes, Kostas Stathis A Multi-Objective Approach to Mitigate Negative Side Effects Sandhya Saisubramanian, Ece

2020 IJCAI 接受论文 list 分类排列(三)

隐身守侯 提交于 2020-10-02 05:51:55
2020 IJCAI 接受论文 list 分类排列(一) 2020 IJCAI 接受论文 list 分类排列(二) 2020 IJCAI 接受论文 list 分类排列(三) 目录 Main track (Machine Learning Applications) Main track (Multidisciplinary Topics and Applications) Main track (Natural Language Processing) Main track (Planning and Scheduling) Main track (Robotics) Main track (Uncertainty in AI) Special track on AI for CompSust and Human well-being Special Track on AI in FinTech Main track (Machine Learning Applications) A Label Attention Model for ICD Coding from Clinical Text Thanh Vu, Dat Quoc Nguyen, Anthony Nguyen Adversarial Mutual Information Learning for Network

解析KDTCN:知识图谱和深度学习模型联合实现股票预测

十年热恋 提交于 2020-10-01 02:55:48
背景概述 今天看了一篇论文我觉得挺有意思,一方面是讲的股票预测相关,另一方面是把深度学习和知识图谱相结合解决一个问题。通常知识图谱和深度学习很少有交集,一般是独立发展的两个人工智能领域解决问题的手段,两者如何一起解决问题呢?这个也引发了我的好奇心,因为一直对知识图谱这个领域念念不忘,在《机器学习实践应用》最后一章还要特意加入知识图谱的内容。 论文的名字叫:<Knowledge-Driven Stock Trend Prediction and Explanation via Temporal Convolutional Network>有兴趣的同学可以下载来自己也看一看。 股票预测的历史难题 KDTCN其实是KD和TCN的缩写,KD指的是Knowledge-Driven,也就是知识图谱。TCN是Temporal Convolutional Network,字面意思是临时卷积网络。其实在量化领域,已经有很多成熟的模型了,比如最早的Arima,到后来的RNN,再到LSTM,这些模型都是把股票预测看作是一组结构化的时间序列的时序预测问题。 KDTCN的出现,肯定是为了解决股票预测领域的一些痛点,我觉得有两点。其一是重大突发事件对股价的影响,如果单一把股票预测看成时间序列问题,一些突发问题的影响其实很难通过时序分析得到。比如喜闻乐见看到的,川普Twitter信息导致股价大跌: