Hadoop | 易学教程

Hadoop HDFS is not distributing blocks of data evenly

阅读更多关于 Hadoop HDFS is not distributing blocks of data evenly

来源： https://stackoverflow.com/questions/28909817/hadoop-hdfs-is-not-distributing-blocks-of-data-evenly

爬取了拉勾大数据专家的简历，终于知道自己差在哪里了

阅读更多关于爬取了拉勾大数据专家的简历，终于知道自己差在哪里了

有个朋友，上个月准备从 Java 转做大数据，一个月过去了，一份面试都没约到，来问我怎么回事。我一看简历，期望年薪 40w，深度也不够，要大项目也没有。我们做大数据的，虽说是薪资高，但门槛也是高，这几年我陆陆续续面过不少人，对面人选人都算是有自己的心得，今天就挑一个年薪 40w 的大数据简历，看看人家凭什么！篇幅有限，我截取了一部分他的工作经历。不管你是已经入坑大数据，还是打算转行大数据，都会让你有一些新的启发。不管薪资多少，大数据的几个技术栈肯定得熟练掌握，这是基石不用说，这哥们算是比较全面的，像是Hadoop MR、 Spark、Storm、Flink等都能熟练使用，能做到这些，要个 20-30w 不成问题。那人家为啥值 40w 呢？仔细看他还做过项目leader，搞过项目架构，想必综合能力应该不错。果不其然，从简历上看，除了大数据开发，人家还拥有大数据分析、数据仓库架构设计、大数据平台构建、场景化方案定制等多方面的能力。此外，还有一个大大大大的加分项，人家是做过千亿级数据项目的，在我们这个圈子，有这样的经历实在是太难得了。为了进一步弄清楚行业需求现状，我分析了上百家大厂的大数据岗位要求，梳理出了一份大数据工程师的学习成长路线，给各位看官参考。总结一下：如果你也打算转行大数据，你得先掌握上面提到的技术栈，毕竟这是基本功，再就是建立你自己的知识体系

Hadoop【第一课】：虚拟机NAT模式下配置网络地址

阅读更多关于 Hadoop【第一课】：虚拟机NAT模式下配置网络地址

目录 1.查看网段（1）打开虚拟机的“虚拟网络编辑器” （2）选择NAT模式→NAT设置（3）在这里可以看到网段 2.配置静态IP地址（1）打开虚拟机，进入终端，进入root；（2）找到你的虚拟机的网络配置文件（3）修改配置文件（4）重启网络（5）测试是否配置成功 1.查看网段（1）打开虚拟机的“虚拟网络编辑器” （2）选择NAT模式→NAT设置（3）在这里可以看到网段在这里可以看到网段为192.168.184.0，所以可以将虚拟机的IP地址设置在此网段下。网关设置为如图所示。 2.配置静态IP地址（1）打开虚拟机，进入终端，进入root；（2）找到你的虚拟机的网络配置文件 ①进入如下文件夹目录下 # cd /etc/sysconfig/network-scripts/ ②查看该文件夹下的文件 # ls ③我的是：ifcfg-ens32 （3）修改配置文件 ①打开配置文件 # vi ifcfg-ens32 ②输入“i”，开始编辑，修改如下内容： BOOTPROTO="static" ONBOOT="yes" IPADDR=192.168.184.114 GATEWAY=192.168.184.2 NETMASK=255.255.255.0 DNS1=192.168.184.2 DNS2=114.114.114.114 ③修改完后，按Esc键，输入“:wq”

JIRA Apache

阅读更多关于 JIRA Apache

jira apache - 国内版 Bing https://cn.bing.com/search?q=jira+apache&qs=n&form=QBRE&sp=-1&pq=jira+apache&sc=0-11&sk=&cvid=9821CDD8C46B417EA556122AE4043541 Apache Arrow - ASF JIRA https://issues.apache.org/jira/projects/ARROW?selectedItem=com.atlassian.jira.jira-projects-plugin:report-page Spark - ASF JIRA https://jira.apache.org/jira/projects/SPARK?selectedItem=com.atlassian.jira.jira-projects-plugin:components-page Jira Component - Apache Camel https://camel.apache.org/components/latest/jira-component.html 登录 - Apache Software Foundation https://cwiki.apache.org/confluence/login.action?os

搭建Hive3.x并整合MySQL8.x存储元数据

阅读更多关于搭建Hive3.x并整合MySQL8.x存储元数据

Hive 简介 Hive 官方文档： https://cwiki.apache.org/confluence/display/Hive Hive 产生的背景：在使用MapReduce进行编程的时候，会发现实现一个简单的功能例如WordCount都需要编写不少的代码，可想而知如果实现一个复杂点的应用所需的开发和维护成本就会非常高，为了解决MapReduce编程的不便性，Hive才得以诞生。另外一点就是HDFS上的文件缺少Schema，没法通过SQL去对HDFS上的数据去进行查询，只能通过MapReduce去操作。因此以往可以通过SQL完成的数据统计就没法在HDFS上完成，这会导致上手门槛高。 Hive是什么：由Facebook开源，最初用于解决海量结构化的日志数据统计问题是一个构建在Hadoop之上的数据仓库，可以对已经在存储（HDFS）中的数据进行结构化的映射。并提供了一个命令行工具和JDBC驱动程序来连接并操作Hive Hive定义了一种类SQL查询语言：HQL（类似SQL但不完全相同），使用SQL方便了分布式存储中大型数据集的读取、写入和管理通常用于进行离线数据处理，早期底层采用MapReduce，现在底层支持多种不同的执行引擎支持多种不同的压缩格式（gzip、lzo、snappy、bzip2等）、存储格式（TextFile、SequenceFile、RCFile

Java 方式实现词云显示

阅读更多关于 Java 方式实现词云显示

先来看下词云效果图吧！实现词云图2种方式 word_cloud、stylecloud word_cloud ： http://amueller.github.io/word_cloud/ stylecloud ： https://github.com/minimaxir/stylecloud 1、需要先添加一下maven依赖 <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-core</artifactId> <version>1.27</version> </dependency> <dependency> <groupId>com.kennycason</groupId> <artifactId>kumo-tokenizers</artifactId> <version>1.27</version> </dependency> package com.lei.test; import com.kennycason.kumo.CollisionMode; import com.kennycason.kumo.WordCloud; import com.kennycason.kumo.WordFrequency; import com.kennycason.kumo.bg

Hadoop和Yarn的配置文件

阅读更多关于 Hadoop和Yarn的配置文件

集群参数配置原则重写配置、默认覆盖，否则默认生效。下面总结Haoop常用配置文件参数。常用配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml，配置于Hadoop和Yarn这两个实例中，Hadoop和Yarn两个组件一个是负责存储一个是资源管理框架，相当于计算和存储，有的公司计算节点和存储节点分离，有的没有，按照需求使用。 1. core-site.xml 是 NameNode 的核心配置文件，主要对 NameNode 的属性进行设置，也仅仅在 NameNode 节点生效。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://HadoopHhy</value> </property> <property> <name>ha.zookeeper.quorum</name> <value>zk1:2015,zk2:2015,zk3:2015</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/bigdata/hadoop/tmp</value> <final>true</final> </property>

每个大数据架构师都需要的6个基本技能

阅读更多关于每个大数据架构师都需要的6个基本技能

数据分为结构化和非结构化两种。尽管大数据为各种规模的组织提供了许多洞察和分析的机会，但处理起来非常困难，并且需要一系列的特定技能。大数据由大数据架构师处理，这是一个非常专业的职位。很多组织需要大数据架构师采用数据技术Hadoop分析数据来解决重大的问题。大数据架构师需要大规模处理数据库并分析数据，以便帮助组织做出正确的业务决策。具有这种才能的架构师需要成为一支强大团队的领导者。他应该具有指导团队成员工作并与不同的团队合作的能力。对于他们而言，与各种组织和供应商建立良好的合作关系也至关重要。从事大数据架构师工作所需的6种技能成为大数据架构师需要多年的学习培训，需要具有广泛的能力，而这些能力会随着领域的发展而增长。大数据架构师需要具备以下6种技能： (1) 数据分析的决策权，应具备采用大数据技术分析海量数据的能力。 (2) 应该了解机器学习技术，因为这是至关重要的知识。还要具有模式识别、处理数据的聚类以及文本挖掘等能力。 (3) 大数据架构师应该对编程语言和所有最新技术有浓厚的兴趣和经验。了解所有类型的JavaScript框架，如HTML5、RESTful服务、Spark、Python、Hive、Kafka和CSS都是必不可少的框架。 (4) 大数据架构师应具备必要的知识和经验，以处理最新的数据技术，例如Hadoop、MapReduce、HBase、oozie、Flume

巴菲特罕见出手科技股，Snowflake上市预示大数据分析“快消品“时代到来？

阅读更多关于巴菲特罕见出手科技股，Snowflake上市预示大数据分析“快消品“时代到来？

　　1956 年，福特公司上市，成为有史以来最大的 IPO。由于融资规模巨大，这次公开募股，几乎囊括了华尔街的每一家公司，其中就包括巴菲特的伯克希尔哈撒韦。　　64 年后的 2020 年 9 月，SNOWFLAKE 上市，成为有史以来软件行业最大的 IPO 案例。同时，巴菲特继参与福特 IPO 之后再次出手，投资 SNOWFLAKE，这对于常年回避科技股的巴菲特来说，极为罕见。　　虽然相隔 64 年，但由于巴菲特仅参与过这两次 IPO，于是，两件事被联系起来。某种意义上说，SNOWFLAKE 和当年的福特汽车颇有相似之处。　　因流水线生产获得巨大成功，福特汽车真正地将汽车变成了工人阶级也能够买得起的快消品，这是对当时 “美国制造业翻天覆地的改革与创新”。　　而 SNOWFLAKE，在数据分析领域做到了这一点。基于公有云和弹性计算，SNOWFLAKE 将数据分析工具变成了快消品。对下游企业用户来说，存储、处理和分析海量数据，成为了 “绑定一张企业信用卡，就能马上开始” 的快捷消费。　　　　图｜SNOWFLAKE 公司（来源：企业）　　国内新型分布式数据库公司 PingCAP 在海外与 SNOWFLAKE 有相似业务。在与 DeepTech 谈到 SNOWFLAKE 模式成功的意义时，PingCAP 的 CTO 黄东旭打了一个比方， “SNOWFLAKE 出现之前

Beeline连接hiveserver2报错 User: root is not allowed to impersonate root

阅读更多关于 Beeline连接hiveserver2报错 User: root is not allowed to impersonate root

Beeline连接hiveserver2报错报错信息 Error: Could not open client transport with JDBC Uri: jdbc:hive2://node-4:10000: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate root (state=08S01,code=0) 报这个错的关键地方是:User: root is not allowed to impersonate root 解决把hadoop/core-site.xml文件添加如下内容,然后分发到各个服务器 < property > < name > hadoop.proxyuser.root.hosts < /name > < value > * < /value > < /property > < property > < name > hadoop.proxyuser.root.groups < /name > < value >

订阅 Hadoop