Hadoop

Spark 3.0.0正式版发布,开发近两年新增了哪些特性?

喜夏-厌秋 提交于 2020-08-15 07:34:37
原计划在2019年年底发布的 Apache Spark 3.0.0 赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月! 这个版本的发布经历了两个预览版以及三次投票: 2019年11月06日第一次预览版,参见Preview release of Spark 3.0; 2019年12月23日第二次预览版,参见Preview release of Spark 3.0; 2020年03月21日 [VOTE] Apache Spark 3.0.0 RC1; 2020年05月18日 [VOTE] Apache Spark 3.0 RC2; 2020年06月06日 [vote] Apache Spark 3.0 RC3。 Apache Spark 3.0 增加了很多令人兴奋的新特性,包括: 动态分区修剪(Dynamic Partition Pruning); 自适应查询执行(Adaptive Query Execution); 加速器感知调度(Accelerator-aware Scheduling); 支持 Catalog 的数据源API(Data Source API with Catalog Supports); SparkR 中的向量化(Vectorization in

.net hbase client--终于浮出水面的轮子

时光怂恿深爱的人放手 提交于 2020-08-15 06:26:39
一、开篇 1.背景 在大数据时代,HBase 数据库是个绕不开的热门话题。 由于其使用 Java 作为主要开发语言,并且依赖大量的 Java 组件(如 Hadoop、zooKeep),使得其他技术栈想要有一个对应的 hbase 客户端变得有一定难度。在 .net 的世界中,一直缺乏能够直接访问 hbase 的客户端。 2.历程 Apache Thrift 作为社区内比较有名的支持多语言的 Api 服务,可以解决跨语言访问 HBase 数据库的痛点。在以往的文章中业也介绍过 C#如何使用 thrift 访问 hbase,但在真正的生产环境中,该方式的访问效率和原生 Java 客户端比起来真着实让人心灰意冷。此外,thrift 也要求服务端和客户端版本一致。 Protocol Buffers HBase 提供基于 Protocol 的数据访问,这以一种相对高效紧凑的数据交换规则。基于此,我们能够造出属于 .net 的 hbase 客户端。 这是一个造轮子的过程,中间虽有着许多难点就不再赘述。下面直接介绍该项目的使用。 二、HBaseNet 使用 1.HBase 数据库准备 作为项目使用演示,我们就不讨论如何搭建 HBase 集群了,一切以简单便捷为前提,直接使用别人构建好的 docker 镜像就可以轻松获取 HBase 数据库的使用。 在 dockerhub 中搜索 hbase

CSDN 创始人蒋涛:开源吞噬世界,得开发者得天下

走远了吗. 提交于 2020-08-15 05:56:55
整理 | 何苗、唐小引 出品 | CSDN(ID:CSDNnews) 7 月 15 日,由中国开源软件推进联盟(COPU)主办,赛迪传媒、《软件和集成电路》杂志社联合承办,CSDN 独家直播的 2020 第十五届“开源中国开源世界”高峰论坛 在线上盛大召开。 拥有三十余年编程经验的 CSDN 创始人&董事长、极客帮创投创始合伙人蒋涛一直密切关注中国开源生态,作为中国开源开发者社区的代表,曾先后与 GitHub 、 GitLab 创始人及高层持续对话,共同探讨开源及中国开源发展之路。在本次高峰论坛上,蒋涛发表《中国开发者开源生态报告》主题演讲,并表示:近三十年的科技创新,开源已成为技术应用和行业数字化发展的基石,开源的商业化也有了很大突破,获得众多 VC 青睐。从 CSDN 中国开发者开源生态数据报告来看,开发者极度依赖与关注开源,开源项目整体分布上,以企业及组织为主,采用 MIT 协议、JavaScript 语言最甚。 同时,在全球开源趋势下,以 AI 为主的国产开源工具正在崛起,国产开源 IoT 操作系统还有很大空间。中国正逐渐成为全球开源软件的主要使用者和核心贡献者,大力发展自主可控、有核心技术栈的中国开源生态,是中国信息化黄金十年的重要引擎。 基于此,蒋涛正式宣布,CSDN 作为国内专业的开发者社区,将全力打造独立的新开源平台 CODE.China,全面拥抱开源新时代

Sparrow:分布式低延迟调度

大城市里の小女人 提交于 2020-08-15 05:04:41
1.摘要 大型数据分析框架正在朝着缩短任务执行时间和提高并行度的方向发展来提供低延迟,任务调度器面临的主要挑战是在几百毫秒内完成高度并行的作业调度,这需要在合适的机器上每秒调度数百万个任务,同时提供毫秒级的延迟和高可用性。本文证明了去中心化、随机抽样方法可提供最佳性能,同时避免了中心化设计存在吞吐量和高可用的问题。本文在110台计算机集群上部署Sparrow,并证明Sparrow的性能与理想的调度程序的误差在12%以内。 2.介绍 当今的数据分析集群运行的时间越来越短,作业的任务越来越多。在对低延迟交互式数据处理的需求的刺激下,研究机构和同行业共同努力产生了一些框架(例如Dremel,Spark,Impala)可以在数千台机器上工作,或将数据存储在内存以秒级分析大量数据,如图1所示。预计这种趋势会继续推动开发针对次秒级响应时间的新一代框架响应时间进入100ms左右,这让新的强大的应用程序成为可能;例如,面向用户的服务在每个查询的基础上将能够运行复杂的并行计算,比如语言翻译和高度个性化的搜索。 图1:数据分析框架分析大量数据的延迟非常低 调度由简短的次秒级任务组成的作业极具挑战,这些作业不仅是因为低延迟框架出现的,也有将长时间运行的批处理作业分解为大量短时间任务的原因。当任务以几百毫秒的速度运行时,调度决策必须有很高的吞吐量:一个由10000个16核机器组成的集群并运行100毫秒任务

系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

回眸只為那壹抹淺笑 提交于 2020-08-15 03:24:14
本文目录CONTENTS ☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ] ☞ ETL之技术栈 [ 重工具 vs 开发语言 ] ☞ ETL加载策略 [ Merge、Delta、拉链 ] ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 ETL工具或类ETL的数据集成同步工具或语言,企业生产中工具也非常之多,主流的etl工具有Sqoop、DataX、Canal、flume、Logstash、kettle、DataStage、Informatica、Talend等,语言有强悍的SQL、Shell、Python、Java、Scala等。而数据源多为业务系统,埋点日志,离线文件,第三方数据等。 数据同步之道 01. sqoop Sqoop,SQL-to-Hadoop 即 “SQL到Hadoop和Hadoop到SQL”。 是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。主要用于在Hadoop与关系型数据库之间进行数据转移,可以将一个关系型数据库(MySQL ,Oracle等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中。

Java自带的性能监测工具之jhat

淺唱寂寞╮ 提交于 2020-08-14 22:51:21
原文:https://my.oschina.net/wangmengjun/blog/864838 本文继续介绍Java自带的性能监测工具,本文使用jhat (Java Heap Analyse Tool)工具来玩~ jhat (Java Heap Analyse Tool) 是用来分析java堆的命令,可可以将对中的对象以html的形式展示,包括对象的数量、大小等信息,并支持对象查询语言 (OQL)。 先使用jps -l查看有哪些进程~ [root@dev03 ~]# jps -l 10838 sun.tools.jps.Jps 13823 org.apache.hadoop.hdfs.server.namenode.NameNode 13588 org.apache.hadoop.yarn.server.nodemanager.NodeManager 21983 org.apache.catalina.startup.Bootstrap 13941 org.apache.hadoop.hdfs.server.datanode.DataNode 13318 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager 14097 org.apache.hadoop.hdfs.server.namenode

【Hadoop篇04】Hadoop配置日志聚集

风流意气都作罢 提交于 2020-08-14 15:55:50
​ 成长这一路就是懂得闭嘴努力,知道低调谦逊,学会强大自己,在每一个值得珍惜的日子里,拼命去成为自己想成为的人 Hadoop配置日志聚集 应用场景 为了让应用运行完成以后,将程序运行日志信息上传到HDFS系统上,有了日志之后就可以查看程序中的报错信息,从而调试程序 配置步骤 1.配置yarn-site.xml <!-- 日志聚集功能使能 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 日志保留时间设置7天 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> 2.重启集群 sbin/stop-yarn.sh sbin/stop-dfs.sh sbin/mr-jobhistory-daemon.sh stop historyserver sbin/start-dfs.sh sbin/start-yarn.sh sbin/mr-jobhistory-daemon.sh start historyserver 3.运行程序 上传数据到HDFS 赋给文件权限 运行程序 查看运行结果 4.查看日志 相关资料 本文配套

Java字节码角度分析a++ ——提升硬实力2

左心房为你撑大大i 提交于 2020-08-14 15:34:20
首先建议先看一下基于前面的字节码知识: Java字节码的一段旅行经历——提升硬实力1 在日常的项目开发中,经常遇到a++、++a、a--之类,下面我们开始从字节码的视角来分析a++。 java代码如下: /* 从字节码角度分析 a++ 相关题目 */ public class T03_ByteAnalyseAPlusPlus { public static void main(String[] args) { int a = 10; int b = a++ + ++a + a--; System.out.println(a); System.out.println(b); } } 使用javap -v xxx.class 来查看类文件全部指令信息:javap -v T03_ByteAnalyseAPlusPlus,如下: public static void main(java.lang.String[]); descriptor: ([Ljava/lang/String;)V flags: ACC_PUBLIC, ACC_STATIC Code: stack=2, locals=3, args_size=1 0: bipush 10 2: istore_1 3: iload_1 4: iinc 1, 1 7: iinc 1, 1 10: iload_1 11: iadd 12:

Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法

99封情书 提交于 2020-08-14 14:12:48
Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法 问题: 导入spark依赖包后,local模式下运行spark本地程序报错: Caused by: java.lang.IllegalStateException: Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on the class path, preempting StackOverflowError. See also http://www.slf4j.org/codes.html#log4jDelegationLoop for more details. 这个错运行spark程序比较常见,由于很多maven项目中都依赖了log4j的包,这里需要针对冲突的包执行exclude即可 第一层(exclusion 报错jar 包的log4j即可): 网上最常见的解决方法,也是报错日志官方给出的解决方案 假设我加入了spark core的依赖包: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.2.1</version> <

“数据湖”:概念、特征、架构与案例

折月煮酒 提交于 2020-08-14 14:08:55
写在前面: 最近,数据湖的概念非常热,许多前线的同学都在讨论数据湖应该怎么建?阿里云有没有成熟的数据湖解决方案?阿里云的数据湖解决方案到底有没有实际落地的案例?怎么理解数据湖?数据湖和大数据平台有什么不同?头部的云计算玩家都各自推出了什么样的数据湖解决方案?带着这些问题,我们尝试写了这样一篇文章,希望能抛砖引玉,引起大家一些思考和共鸣。感谢南靖同学为本文编写了5.1节的案例,感谢西壁的review。 本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程;7、总结。受限于个人水平,谬误在所难免,欢迎同学们一起探讨,批评指正,不吝赐教。 一、什么是数据湖 数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计数据湖的基本架构,对于数据湖的构建至关重要。关于什么是数据湖,有如下定义。 Wikipedia是这样定义的: A data lake is a system or repository of data stored in its natural/raw format,[1] usually object blobs or files. A data lake is usually