大数据

分布式批量任务调度、自动化运维管理监控平台 Taskctl 免费使用

安稳与你 提交于 2021-01-15 18:04:47
前言 随着企业拥抱数字化程度的提高,数据是企业的发展关键。数据的需求来源于业务也服务于业务,数据的挖掘、探索、分析、个性化推荐、报表等等都依托于数据的输送、转换和写入。数据的调度就是作业的调度。批量作业调度是金融行业信息后台最为重要的技术形态。 金融行业每天会进行交易相关的结算、清算、结息、对账等生产活动。这些活动都是通过一个个相互耦合的作业来实现的。因此需要一个作业调度平台来管理这些大量的作业。 随着金融行业新系统建设以及旧系统的更新、扩展,运维部门接手运维的应用系统越来越多,每天凌晨有数十个系统需要执行日切任务,近百万的批量作业需要执行,工作量非常繁重,如果有任务出错,很难及时排除故障,导致工作效率很低,影响数据的准确性和及时性。而开源软件、系统自带任务计划、传统批量调度工具逐渐无法满足业务对批量作业调度的需求。企业需要功能更强、性能更佳的国产化产品。 批量调度现状及诉求 目前,由于金融行业内部缺乏一款专业批量产品支撑,缺乏一定的批量调度规范与标准,企业内部几十上百个系统的批量作业调度混乱,难以管理。 调度原始落后 时至今日仍然有一些系统使用人工调度或操作系统的Crontab方式调度实现作业运行的自动化。这种方式容易引起依赖关系错误对业务构成威胁,当上游作业结束时间晚于下游作业,则会影响到作业执行的及时性和准确性。耗费人力、 容易出错、难以监控已成为这类系统的致命性问题。

DTCC 2020 | 阿里云李飞飞:云原生分布式数据库与数据仓库系统点亮数据上云之路

女生的网名这么多〃 提交于 2021-01-15 13:00:43
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁、阿里云数据库产品事业部总裁、ACM杰出科学家李飞飞就《云原生分布式数据库与数据仓库系统点亮数据上云之路》进行了精彩分享。 云计算时代,云原生分布式数据库和数据仓库开始崛起,提供弹性扩展、高可用、分布式等特性。 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会 上, 阿里巴巴集团副总裁、阿里云数据库产品事业部总裁、ACM杰出科学家李飞飞 就《云原生分布式数据库与数据仓库系统点亮数据上云之路》进行了精彩分享。 阿里巴巴集团副总裁、阿里云数据库产品事业部总裁、ACM杰出科学家李飞飞 一、背景与趋势 1.背景 数据库的本质是全链路的对“数据”进行管理,包括了生产—处理—存储—消费等,在当下的数据化时代,数据是所有企业最核心的资产之一,所以数据库的价值一直在不断地提升,不断地在新领域发现新的价值。 2.业界趋势 趋势一:数据生产/处理 正在发生质变 关键词: 规模爆炸性增长、生产/处理实时化与智能化、数据加速上云 从Gartner、IDC及各个传统厂商分析中可以得到以下几个结论: 数据在爆炸性增长,非结构化数据的占比越来越高; 生产/处理实时化与智能化的需求越来越高,并追求离在线一体化; 数据库系统、大数据系统

数仓缓慢变化维SCD深度讲解

孤人 提交于 2021-01-15 12:52:18
维度缓慢变化维SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快,如果还不知道什么是事实表和维度表请看→数仓模型设计详细讲解)把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。 举例说明 例如:用根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。而期间,用户可能去修改用户数据,例如:将出生日期改成了 1992年。此时,用户维度表就发生了变化。当然这个变化相对事实表的变换要慢。但这个用户维度表的变化,就是缓慢变化维。 这个用户的数据不是一直不变,而是有可能发生变化。例如:用户修改了出生日期、或者用户修改了住址。 一、SCD问题的几种解决方案 以下为解决缓慢变化维问题的几种办法: 保留原始值 改写属性值 增加维度新行 增加维度新列 添加历史表 1.1 保留原始值 某一个属性值绝不会变化。事实表始终按照该原始值进行分组。例如:出生日期的数据,始终按照用户第一次填写的数据为准 1.2 改变属性值 对其相应需要重写维度行中的旧值,以当前值替换。因此其始终反映最近的情况。 当一个维度值的数据源发生变化,并且不需要在维度表中保留变化历史时,通常用新数据来覆盖旧数据。这样的处理使属性所反映的中是最新的赋值。 用户维度表 修改前:

7位图灵奖得主当选,新晋陈怡然、周昆、颜水成等多位华人,2020 ACM Fellow名单公布

扶醉桌前 提交于 2021-01-15 10:41:55
2020 年度的 ACM Fellow 名单已正式公布,共 95 人入选,其中包括陈怡然、周昆、颜水成、王义、吕晨阳等多位华人学者。 机器之心报道,机器之心编辑部。 ACM(Association for Computing Machinery, ACM)是美国计算机协会的简称,创立于 1947 年,是全世界计算机领域影响力最大的专业学术组织之一。 ACM Fellow 则是由该组织授予资深会员的荣誉,目的是表彰对于计算机相关领域有杰出贡献的学者,其审查过程十分严格,每年遴选一次。 2020 年,共有 95 人因其在人工智能、云计算、计算机图形学、计算生物学、数据科学、人机交互、软件工程、理论计算机科学和虚拟现实等领域中的号广泛和基础性贡献入选 ACM Fellow。他们的成就推动了技术、工业和个人生活等多个方面的显著进步和创新。 2020 ACM Fellow 来自全球各地的高等院校、企业及研究中心,包括澳大利亚、奥地利、加拿大、中国、德国、以色列、日本、荷兰、韩国、西班牙、美国、英国等国家和地区。所涉及的研究领域覆盖广泛,包括算法、网络、计算机架构、机器人学、分布式系统、软件开发、无限系统和网络科学等。 在 95 名入选者中,包括多位华人,如杜克大学教授陈怡然、浙大教授任奎等,更有多名图灵奖得主当选,可谓星光熠熠。 入选华人 姓名:陈怡然(Yiran Chen) 机构:杜克大学

作为一张成熟的“试纸”,应该学会直接检测基因突变

爷,独闯天下 提交于 2021-01-15 06:58:36
近日,亚利桑那州立大学团队在《 Cell 》杂志报告了 一种具有单核苷酸特异性RNA检测能力的核糖调节因子:SNIPRs,利用 SNIPRs 探针 可以在活细胞和纸基质的无细胞系统中实现超特异性的单核苷酸突变和RNA修饰检测功能。 当SNIPRs探针与基于纸张的无细胞系统相结合,可转化为快速、低成本、精确的基因点突变检测工具:一种可以直接检测基因突变的“试纸”。 SNIPRs探针实用性示意图 为什么要检测基因突变? 微小的遗传变异是生物学过程(例如进化和发病机制)的主要驱动力。单核苷酸水平的遗传差异可能对基因表达、蛋白折叠和RNA剪接产生广泛影响,并导致表型的变化, 例如BRCA1基因中的单核苷酸突变可能增加乳腺癌终生患病风险,艾滋病病毒的点突变可能导致一线治疗方案失败等 。除此之外,转录组的化学修饰也会影响RNA转录产物。 因此, 识别RNA分子内单核苷酸变化和化学修饰的分子探针是了解细胞生物学,挖掘细胞间变异性,检测疾病和指导治疗决策的宝贵工具。 然而,相关检测往往需要昂贵的专业设备,在没有相关条件的情况下,在活细胞中检测如此细微的序列和化学变化非常具有挑战性。 SNIPRs探针:功能验证 SNIPRs是具有单核苷酸特异性RNA检测能力的核糖调节因子,它能够在活的原核细胞和体外无细胞系统中将转录变异区分为单个碱基。 SNIPR功能示意图 在活细胞和体外验证实验中

面试遭遇 SparkSQL,慌了!

流过昼夜 提交于 2021-01-15 06:33:51
Spar kSQL 大数据人都不陌生 , 得益于 Spark 在 大数据开发、机器学习、数据科学等领域的独特优势,因易整合、统一数据访问、兼容Hive等性能被各大厂 纷纷 追捧, 在 众多 大数据组件 中快速出圈儿 。 同样地 Spar kSQL 也是令开发人最为头疼的问题。 不仅网上询问者众多,前几天一个正在换工作的朋友也向我询问: Spar kSQL 到底该如何学?说面试中频频遇到 S park SQL 相关问题,自己那点内容根本不够看的,而且 Spar kSQL 相关内容分享大多泛泛,“精品”很少,想要学习太难了。 因此,给大家分享一个超值福利公开课—— 《SparkSQL 底层实现原理》 。由廖雪峰团队中的实力专家授课, 带你深入浅出剖析 SparkSQL 底层执行原理及执行全链路过程,让你快速掌握 技术底层 原理实现 方法, 轻松应对工作、面试难题 ! 主题: 《SparkSQL 底层实现原理》 内容: SparkSQL 底层实现原理 、完整的执行过程剖析、SQL成为代码过程剖析、面试题讲解。具体如下: 1 . SparkSQL 底层架构和执行过程什么样的? 2. SparkS QL 执行全链路过程是什么样的? 3. 核心功能模块有哪些?如何运用? 4. 应聘时如何准备 SparkS QL 相关技术问题? …… 此次分享的主讲人,王老师, 开课吧明星讲师,7年

英特尔傲腾DC P4800X有哪些适用场景?

点点圈 提交于 2021-01-15 05:26:25
英特尔傲腾(Optane)既有消费级产品,也有企业级数据中心专用的产品,其实就是P4800X系列。 从官方介绍的数据来看,与3D NAND的DC P3700相比,DCP4800X在较低队列深度下的读写性能表现,读写响应时间,QoS等方面都有很大优势。 Optane的应用定位比较特殊:既能跟普通的3D NAND站在一个队伍,组成快存储和Cache方案。也能跟DRAM站在一块组成内存池,作为扩展内存。如下图所示: “Optane作用SSD” 我们先来看Optane用作变异版的SSD的场景。之所以说是变异版,是因为Optane的一些特性能秒杀NAND SSD,其中以稳定性和低延迟最令人印象深刻,这点非常企业级。 当用作快存储的时候,简单说就是加速。作为数据库,对性能最直接的要求就是TPM更高,多用户多线程下的高TPM是数据库的最基础的要求。英特尔用DC P3700和DC P4800X做了一个对比实验(除了硬盘以外,别的全一样),用Sysbench给出OLTP压力,做出的测试结果如下图。 横坐标是线程数,从单线程开始到64线程结束,左侧纵坐标是TPS(每秒的事务数),右侧纵坐标是延迟(时延)。随着线程数增长,TPS都在快速增长,当达到64线程的时候P4800X的TPS能达到16k以上,而P3700也有12kTPS,直观来看,差距是在不断拉大的,P4800X的优势不难发现。 这点展现出DC

工程师闲暇如何接私活?有哪些渠道?

不羁的心 提交于 2021-01-15 03:32:28
/ ******************************* 大家都知道接私活可以接外快,是这样的,但是现实很残酷。我以前做过非常多的私活。现在想来,做私活都是给别人做廉价劳动力。 从发包角度 :他们完全可以找外包公司做项目,但是为什么找个人做呢?无非是为了省钱,而且公司与个人对话优势(强势)比较多。 从接包角度 :如果闲余时间角度可以做一做,我以前一个人租房子的时候空余时间能保证,做做无妨。 *******************************/ 今天和大家分享几个可以接私活的网站(偏软件)。 ▍ 前 言 关于程序员接私活,社会各界说法不一。按照作者的观点来说如果你确实急用钱,价格又合适,那就去做。如果不怎么缺钱,那就接私活之前要好好考虑。私活的钱不好挣是一个方面,更重要的是如果你把做私活的时间花在提升自己上,产生的价值就要大得多。等你提升了自己,提升了固定薪水,远比拿的这点私活的钱划算。千万不要“捡了芝麻丢了西瓜”。 如果你主业上遇到了瓶颈,平时的时间比较充分,想有一些额外的收入,同时为了保持技术的熟练度,这种情况下,是可以考虑接一些私活的。对于那种投入时间巨大,回报很可怜的项目,千万不要接。 下面介绍一些常用的接私活平台。 ▍ 01 程序员客栈 程序员客栈 中国非常领先的自由工作平台,为中高端程序员、产品经理和设计师等等互联网相关人员提供稳定的线上工作机会

对incaseformat蠕虫事件一些思考

不羁的心 提交于 2021-01-15 02:29:19
安全分析与研究 专注于全球恶意软件的分析与研究 蠕虫事件的一些思考 昨天incaseformat蠕虫病毒在全国爆发,各大安全厂商相继发布公告,安全产业似乎又迎来了新的发展机会...... 全国的安全厂商都在报道这个蠕虫事件,估计有一个人会坐立不安,那就是这个病毒的作者,因为如果搞太大了,会不会被抓"进去"过年(开个玩笑)...... 其实这个病毒早在2009年就开发出来了,作者估计本来是想在愚人节的时候闹一下,也没想因为一个BUG,这款病毒在12年后会在全国爆发,引起这么大的动静,估计昨天作者看到了各大安全厂商的报道,才知道自己的“作品”受到了这么大的“欢迎”,也许这位作者已经成为了”某个安全厂商“的安全”砖”家,也许这位作者已经转行了,也许这位作者还在从事”黑产“活动,大家自由猜想吧,虽然这款病毒本身没有赢利,然后这也可以按破坏计算机信息系统罪来处置了,这次病毒的影响不亚于当年的”熊猫烧香“,而且两款病毒的技术含量也都很低,这款病毒相比”熊猫烧香“,可能技术含量更低一层了,”熊猫烧香“还多了几个感染、下载、自传播模块,这款病毒是型典的破坏型蠕虫病毒,其实这类病毒在十几年前非常流行,当时有很多U盘蠕虫病毒,十几年过去了,没想到这样的一款简单的蠕虫病毒又在全国有这么大的影响,这究竟是什么原因引起的呢? 笔者从05年开始研究病毒,到现在差不多十几年了,从PC时代(Windows

九个最容易出错的 Hive sql 详解及使用注意事项

时间秒杀一切 提交于 2021-01-14 14:13:36
阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。 文章首发于公众号: 五分钟学大数据 前言 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。 在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。 正文开始 1. decimal hive 除了支持 int,double,string等常用类型,也支持 decimal 类型,用于在数据库中存储精确的数值,常用在表示金额的字段上 注意事项: 如:decimal(11,2) 代表最多有11位数字,其中后2位是小数,整数部分是9位; 如果 整数部分超过9位,则这个字段就会变成null,如果整数部分不超过9位,则原字段显示 ; 如果 小数部分不足2位,则后面用0补齐两位,如果小数部分超过两位,则超出部分四舍五入 ; 也可直接写 decimal,后面不指定位数,默认是 decimal(10,0) 整数10位,没有小数 2. location 表创建的时候可以用 location 指定一个文件或者文件夹 create table stu( id int , name