Hadoop

新书发布《数字化转型方法论》:聚7万+企业数字化转型精华,获100+大咖力

点点圈 提交于 2021-01-04 22:24:30
近日,由国云数据CEO马晓东所著的国内第一本从战略、技术、人才、管理四个维度全方位、立体化地阐述数字化转型方法论和落地路径的专业书籍《数字化转型方法论:落地路径与数据中台》上线当当、天猫、京东等各大电商平台。 ~重磅内容~ 这是一部从战略、技术、人才和管理4个维度全面阐述企业数字化转型方法论的著作,是国云数据服务7万余家企业的经验总结。 1.国云数据由原阿里数据团队共同创办,已经为7万余家企业提供数字化转型相关的服务,创始人兼CEO亲自执笔。 2.与现有的数字化转型相关图书只注重技术和实施不同,本书从战略、技术、人才、管理4个维度系统展开,覆盖数字化转型的各个环节和所有利益相关方。 3.独创MAX成熟度模型、数字化转型六图法等多个工具,真正能指导和帮助读者将数字化转型落地。 4.包含新零售、高校、银行等多个行业和机构的数字化转型综合案例,以及近10个行业的数字化转型解决方案架构图。 5.总结了大量数字化转型方面的误区和注意事项。 ~书籍概览~ 数字化转型是个系统工程,本书将整个工程分为了8个环节,全书围绕这8个环节循序渐进展开。 1第一部分 为何数字化转型(第1~2章) 介绍了数字化转型的5个推动因素、数字化颠覆传统行业的3种方式,以及数字化转型的意义。 2第二部分 何时数字化转型(第3~5章) 阐述了数字化转型加速的原因和切入的时间点,以及带来的新机遇。 3第三部分

How to flush Hadoop Distributed Cache?

孤街浪徒 提交于 2021-01-04 17:01:47
问题 I have added a set of jars to the Distributed Cache using the DistributedCache.addFileToClassPath(Path file, Configuration conf) method to make the dependencies available to a map reduce job across the cluster. Now I would like to remove all those jars from the cache to start clean and be sure I have the right jar versions there. I commented out the code that adds the files to the cache and also removed them from where I had copied them in hdfs. The problem is the jars still appear to be in

How to flush Hadoop Distributed Cache?

浪子不回头ぞ 提交于 2021-01-04 16:58:32
问题 I have added a set of jars to the Distributed Cache using the DistributedCache.addFileToClassPath(Path file, Configuration conf) method to make the dependencies available to a map reduce job across the cluster. Now I would like to remove all those jars from the cache to start clean and be sure I have the right jar versions there. I commented out the code that adds the files to the cache and also removed them from where I had copied them in hdfs. The problem is the jars still appear to be in

How to flush Hadoop Distributed Cache?

拥有回忆 提交于 2021-01-04 16:53:09
问题 I have added a set of jars to the Distributed Cache using the DistributedCache.addFileToClassPath(Path file, Configuration conf) method to make the dependencies available to a map reduce job across the cluster. Now I would like to remove all those jars from the cache to start clean and be sure I have the right jar versions there. I commented out the code that adds the files to the cache and also removed them from where I had copied them in hdfs. The problem is the jars still appear to be in

快速理解HBase和BigTable

ぐ巨炮叔叔 提交于 2021-01-04 08:44:57
有关系行数据库经验的人(比如我),在最初接触HBase这样的数据库时,对数据结构的理解容易遇到障碍。会不自觉的将HBase的行、列等概念映射成关系型数据库的行、列。为了加速理解HBase的一些概念,翻译了这篇文章《Understanding HBase and BigTable》(HBase官方文档推荐阅读文章)。 学习Hbase(Google BigTable的开源实现) 最困难 的是理解它的实际概念。 很不幸的是,这两个伟大的系统在其概念中包含了table和base两个词,这往往会导致一些人(比如我) 把它们跟 关系型数据库 的东西 搞混淆 。 本文旨在从概念的角度描述这些分布式数据存储系统。阅读之后,你应该能够更好地判断,什么时候要使用Hbase,什么时候该更好地使用“传统”数据库。 一切都在术语中 幸运的是,Google的BigTable论文清楚地解释了BigTable究竟是什么。这是“数据模型”部分的第一句话: 注意:请牢记上边这句话的每一个词 BigTable论文继续说明 Hadoop wiki的HbaseArchitecture页面假设: 尽管所有这些看起来都相当神秘,但是一旦你将它分解为单词,它就变得容易明确了。我喜欢按照这个顺序讨论它们: map,持久化(persistent),分布式(distributed),有序(sorted),多维

Hive Window Function ROW_NUMBER without Partition BY Clause on a large (50 GB) dataset is very slow. Is there a better way to optimize?

可紊 提交于 2021-01-04 07:25:26
问题 I have a HDFS file with 50 Million records and raw file size is 50 GB. I am trying to load this in a hive table and create unique id for all rows using the below, while loading. I am using Hive 1.1.0-cdh5.16.1. row_number() over(order by event_id, user_id, timestamp) as id While executing I see that in the reduce step, 40 reducers are assigned. Average time for 39 Reducers is about 2 mins whereas the last reducer takes about 25 mins which clearly makes me believe that most of the data is

Hive Window Function ROW_NUMBER without Partition BY Clause on a large (50 GB) dataset is very slow. Is there a better way to optimize?

£可爱£侵袭症+ 提交于 2021-01-04 07:24:06
问题 I have a HDFS file with 50 Million records and raw file size is 50 GB. I am trying to load this in a hive table and create unique id for all rows using the below, while loading. I am using Hive 1.1.0-cdh5.16.1. row_number() over(order by event_id, user_id, timestamp) as id While executing I see that in the reduce step, 40 reducers are assigned. Average time for 39 Reducers is about 2 mins whereas the last reducer takes about 25 mins which clearly makes me believe that most of the data is

Spark no such field METASTORE_CLIENT_FACTORY_CLASS

瘦欲@ 提交于 2021-01-04 07:02:45
问题 I am trying to query a hive table using spark in Java. My hive tables are in an EMR cluster 5.12. Spark version is 2.2.1 and Hive 2.3.2. When I ssh into the machine and I connect to the spark-shell I am able to query the hive tables with no issues. But when I try to query using a custom jar then I get the following exception: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': at org.apache.spark.sql.SparkSession$.org$apache$spark

Java程序员得分清的分布式、高并发与多线程

微笑、不失礼 提交于 2021-01-04 02:39:14
当提起这三个词的时候,是不是很多人都认为分布式=高并发=多线程? 当面试官问到高并发系统可以采用哪些手段来解决,或者被问到分布式系统如何解决一致性的问题,是不是一脸懵逼? 确实,在一开始接触的时候,不少人都会将三者混淆,误以为所谓的分布式高并发的系统就是能同时供海量用户访问,而采用多线程手段不就是可以提供系统的并发能力吗?实际上, 他们三个总是相伴而生,但侧重点又有不同。 Java程序员得分清的分布式、高并发与多线程 什么是分布式? Java程序员得分清的分布式、高并发与多线程 分布式更多的一个概念, 是为了解决单个物理服务器容量和性能瓶颈问题而采用的优化手段 。该领域需要解决的问题极多,在不同的技术层面上,又包括:分布式文件系统、分布式缓存、分布式数据库、分布式计算等,一些名词如Hadoop、zookeeper、MQ等都跟分布式有关。从理念上讲,分布式的实现有两种形式: Java程序员得分清的分布式、高并发与多线程 水平扩展: 当一台机器扛不住流量时,就通过添加机器的方式,将流量平分到所有服务器上,所有机器都可以提供相当的服务; 垂直拆分: 前端有多种查询需求时,一台机器扛不住,可以将不同的需求分发到不同的机器上,比如A机器处理余票查询的请求,B机器处理支付的请求。 Java程序员得分清的分布式、高并发与多线程 什么是高并发? Java程序员得分清的分布式、高并发与多线程

Hadoop集群初始化启动

社会主义新天地 提交于 2021-01-03 08:01:27
hadoop集群初始化启动 启动zookeeper ./zkServer.sh start 启动journalnode ./hadoop-daemon.sh start journalnode 格式化namenode hadoop namenode -format 将节点 1上的元数据拷贝到 2上 先启动1 上的namenode ./hadoop-daemon.sh start namenode 拷贝元数据,在 2节点上 hadoop namenode –bootstrapStandby 在任意节点上格式化 zk hdfs zkfc -formatZK 启动 zkfc(两台机器) ./hadoop-daemon.sh start zkfc 启动全部 ./starl-all.sh 来源: oschina 链接: https://my.oschina.net/u/4416343/blog/4253125