Hadoop | 易学教程

新书发布《数字化转型方法论》：聚7万+企业数字化转型精华，获100+大咖力

阅读更多关于新书发布《数字化转型方法论》：聚7万+企业数字化转型精华，获100+大咖力

近日，由国云数据CEO马晓东所著的国内第一本从战略、技术、人才、管理四个维度全方位、立体化地阐述数字化转型方法论和落地路径的专业书籍《数字化转型方法论：落地路径与数据中台》上线当当、天猫、京东等各大电商平台。 ~重磅内容~ 这是一部从战略、技术、人才和管理4个维度全面阐述企业数字化转型方法论的著作，是国云数据服务7万余家企业的经验总结。 1.国云数据由原阿里数据团队共同创办，已经为7万余家企业提供数字化转型相关的服务，创始人兼CEO亲自执笔。 2.与现有的数字化转型相关图书只注重技术和实施不同，本书从战略、技术、人才、管理4个维度系统展开，覆盖数字化转型的各个环节和所有利益相关方。 3.独创MAX成熟度模型、数字化转型六图法等多个工具，真正能指导和帮助读者将数字化转型落地。 4.包含新零售、高校、银行等多个行业和机构的数字化转型综合案例，以及近10个行业的数字化转型解决方案架构图。 5.总结了大量数字化转型方面的误区和注意事项。 ~书籍概览~ 数字化转型是个系统工程，本书将整个工程分为了8个环节，全书围绕这8个环节循序渐进展开。 1第一部分为何数字化转型（第1~2章）介绍了数字化转型的5个推动因素、数字化颠覆传统行业的3种方式，以及数字化转型的意义。 2第二部分何时数字化转型（第3~5章）阐述了数字化转型加速的原因和切入的时间点，以及带来的新机遇。 3第三部分

How to flush Hadoop Distributed Cache?

阅读更多关于 How to flush Hadoop Distributed Cache?

问题 I have added a set of jars to the Distributed Cache using the DistributedCache.addFileToClassPath(Path file, Configuration conf) method to make the dependencies available to a map reduce job across the cluster. Now I would like to remove all those jars from the cache to start clean and be sure I have the right jar versions there. I commented out the code that adds the files to the cache and also removed them from where I had copied them in hdfs. The problem is the jars still appear to be in

How to flush Hadoop Distributed Cache?

阅读更多关于 How to flush Hadoop Distributed Cache?

How to flush Hadoop Distributed Cache?

阅读更多关于 How to flush Hadoop Distributed Cache?

快速理解HBase和BigTable

阅读更多关于快速理解HBase和BigTable

有关系行数据库经验的人（比如我），在最初接触HBase这样的数据库时，对数据结构的理解容易遇到障碍。会不自觉的将HBase的行、列等概念映射成关系型数据库的行、列。为了加速理解HBase的一些概念，翻译了这篇文章《Understanding HBase and BigTable》（HBase官方文档推荐阅读文章）。学习Hbase（Google BigTable的开源实现）最困难的是理解它的实际概念。很不幸的是，这两个伟大的系统在其概念中包含了table和base两个词，这往往会导致一些人（比如我）把它们跟关系型数据库的东西搞混淆。本文旨在从概念的角度描述这些分布式数据存储系统。阅读之后，你应该能够更好地判断，什么时候要使用Hbase，什么时候该更好地使用“传统”数据库。一切都在术语中幸运的是，Google的BigTable论文清楚地解释了BigTable究竟是什么。这是“数据模型”部分的第一句话：注意：请牢记上边这句话的每一个词 BigTable论文继续说明 Hadoop wiki的HbaseArchitecture页面假设：尽管所有这些看起来都相当神秘，但是一旦你将它分解为单词，它就变得容易明确了。我喜欢按照这个顺序讨论它们： map，持久化（persistent），分布式（distributed），有序（sorted），多维

Hive Window Function ROW_NUMBER without Partition BY Clause on a large (50 GB) dataset is very slow. Is there a better way to optimize?

阅读更多关于 Hive Window Function ROW_NUMBER without Partition BY Clause on a large (50 GB) dataset is very slow. Is there a better way to optimize?

问题 I have a HDFS file with 50 Million records and raw file size is 50 GB. I am trying to load this in a hive table and create unique id for all rows using the below, while loading. I am using Hive 1.1.0-cdh5.16.1. row_number() over(order by event_id, user_id, timestamp) as id While executing I see that in the reduce step, 40 reducers are assigned. Average time for 39 Reducers is about 2 mins whereas the last reducer takes about 25 mins which clearly makes me believe that most of the data is

Hive Window Function ROW_NUMBER without Partition BY Clause on a large (50 GB) dataset is very slow. Is there a better way to optimize?

阅读更多关于 Hive Window Function ROW_NUMBER without Partition BY Clause on a large (50 GB) dataset is very slow. Is there a better way to optimize?

Spark no such field METASTORE_CLIENT_FACTORY_CLASS

阅读更多关于 Spark no such field METASTORE_CLIENT_FACTORY_CLASS

问题 I am trying to query a hive table using spark in Java. My hive tables are in an EMR cluster 5.12. Spark version is 2.2.1 and Hive 2.3.2. When I ssh into the machine and I connect to the spark-shell I am able to query the hive tables with no issues. But when I try to query using a custom jar then I get the following exception: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': at org.apache.spark.sql.SparkSession$.org$apache$spark

Java程序员得分清的分布式、高并发与多线程

阅读更多关于 Java程序员得分清的分布式、高并发与多线程

当提起这三个词的时候，是不是很多人都认为分布式=高并发=多线程？当面试官问到高并发系统可以采用哪些手段来解决，或者被问到分布式系统如何解决一致性的问题，是不是一脸懵逼？确实，在一开始接触的时候，不少人都会将三者混淆，误以为所谓的分布式高并发的系统就是能同时供海量用户访问，而采用多线程手段不就是可以提供系统的并发能力吗？实际上，他们三个总是相伴而生，但侧重点又有不同。 Java程序员得分清的分布式、高并发与多线程什么是分布式？ Java程序员得分清的分布式、高并发与多线程分布式更多的一个概念，是为了解决单个物理服务器容量和性能瓶颈问题而采用的优化手段。该领域需要解决的问题极多，在不同的技术层面上，又包括：分布式文件系统、分布式缓存、分布式数据库、分布式计算等，一些名词如Hadoop、zookeeper、MQ等都跟分布式有关。从理念上讲，分布式的实现有两种形式： Java程序员得分清的分布式、高并发与多线程水平扩展：当一台机器扛不住流量时，就通过添加机器的方式，将流量平分到所有服务器上，所有机器都可以提供相当的服务；垂直拆分：前端有多种查询需求时，一台机器扛不住，可以将不同的需求分发到不同的机器上，比如A机器处理余票查询的请求，B机器处理支付的请求。 Java程序员得分清的分布式、高并发与多线程什么是高并发？ Java程序员得分清的分布式、高并发与多线程

Hadoop集群初始化启动

阅读更多关于 Hadoop集群初始化启动

hadoop集群初始化启动启动zookeeper ./zkServer.sh start 启动journalnode ./hadoop-daemon.sh start journalnode 格式化namenode hadoop namenode -format 将节点 1上的元数据拷贝到 2上先启动1 上的namenode ./hadoop-daemon.sh start namenode 拷贝元数据，在 2节点上 hadoop namenode –bootstrapStandby 在任意节点上格式化 zk hdfs zkfc -formatZK 启动 zkfc（两台机器） ./hadoop-daemon.sh start zkfc 启动全部 ./starl-all.sh 来源： oschina 链接： https://my.oschina.net/u/4416343/blog/4253125

订阅 Hadoop