hadoop开发环境搭建

大数据认知阶段——如何学习大数据相关技术

天涯浪子 提交于 2019-11-26 15:07:21
已经看了大数据相关知识一阵时间了,自己也是从新手开始的,所以看了大量的大数据如何入门的技术博客、帖子等,下面记录总结下自己学习的内容。 一、大数据学习前期知识储备 在学习大数据前,需要对云计算、虚拟化、Linux、JAVA这几个方面都需要了解,下面简单阐述下这几个方面的概念。 1.云计算 所谓的云计算,指的就是把你的软件和服务统一部署在数据中心,统一管理,从而实现高伸缩性。 云计算的部署方式 从部署方式来说,总共有两类云计算: 私有云:数据中心部署在企业内部,由企业自行管理。微软为大家提供了Dynamic Data Center Toolkit,来方便大家管理自己的数据中心。 公共云:数据中心由第三方的云计算供应商提供,供应商帮助企业管理基础设施(例如硬件,网络,等等)。企业将自己的软件及服务部属在供应商提供的数据中心,并且支付一定的租金。Windows Azure正是这样一个公共云平台。 云计算的运营方式 从运营方式来说,总共有三类云计算: 软件即服务(SaaS) :云计算运营商直接以服务的形式供应软件,供最终用户使用。有些服务还提供了SDK,从而使得第三方开发人员可以进行二次开发。在这种运营模式下,开发人员通常只能针对现有的产品开发插件,而无法充分挖掘平台和操作系统的特点,不过他们可以在现有产品的基础上添加新的功能,而不必从头开始实现。微软的Bing,Windows Live

Hadoop集群(五) Hive安装

有些话、适合烂在心里 提交于 2019-11-25 23:15:38
作为一个多年的DBA,hadoop家族中,最亲切的产品就是hive了。毕竟SQL的使用还是很熟悉的。再也不用担心编写Mapreducer的痛苦了。 首先还是简单介绍一下Hive吧 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。 下面开始Hive的安装, 安装hive的前提,是hdfs,yarn已经安装完成并启动。hdfs安装,可以参考 Hadoop集群(一) Zookeeper搭建 Hadoop集群(二) HDFS搭建 Hadoop集群(三) Hbase搭建 Hive软件的下载,我使用版本是hive-1.2.1,现在已经无法下载了。大家可以根据需要下载新版本。 http://hive.apache.org/downloads.html tar -xzvf apache-hive-1.2.1-bin.tar.gz 修改hive-site.xml数据库相关的配置,主要有下面几个。实际生产中,还有很多其他的参数需要配置

大数据分布式平台Hadoop2.7.7 + Spark2.2.2搭建

不羁的心 提交于 2019-11-25 23:06:17
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室

Java操作HDFS开发环境搭建以及HDFS的读写流程

本秂侑毒 提交于 2019-11-25 22:43:22
Java操作HDFS开发环境搭建 在之前我们已经介绍了如何在Linux上进行 HDFS伪分布式环境的搭建 ,也介绍了hdfs中一些常用的命令。但是要如何在代码层面进行操作呢?这是本节将要介绍的内容: 1.首先使用IDEA创建一个maven工程: maven默认是不支持cdh的仓库的,需要在pom.xml中配置cdh的仓库,如下: <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> 注意: 如果你maven的settings.xml文件中,将 mirrorOf 的值配置成了 * 的话,那么就需要将其修改为 *,!cloudera 或 central ,因为 * 表示覆盖所有仓库地址会导致maven无法从cloudera的仓库下载依赖包,而 *,!cloudera 表示不覆盖id为cloudera的仓库,关于这个问题可以自行了解一下。具体配置如下示例: <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content

Hadoop集成Spring的使用

拥有回忆 提交于 2019-11-25 21:08:15
Spring Hadoop简单概述 Spring Hadoop官网地址如下: https://projects.spring.io/spring-hadoop/ Spring Hadoop简化了Apache Hadoop,提供了一个统一的配置模型以及简单易用的API来使用HDFS、MapReduce、Pig以及Hive。还集成了其它Spring生态系统项目,如Spring Integration和Spring Batch.。 特点: 支持创建Hadoop应用,配置使用依赖注入和运行标准的java应用程序和使用Hadoop的命令行工具。 集成Spring Boot,可以简单地创建Spring应用程序去连接HDFS进行读写数据。 创建和配置,使用java的MapReduce,Streaming,Hive,Pig或HBase。 扩展Spring Batch支持创建基于Hadoop的工作流的任何类型的Hadoop Job或HDFS的操作。 脚本HDFS操作使用任何基于JVM的脚本语言。 基于SpringBoot轻松地创建自定义的基础应用,应用可以部署在YARN上。 支持DAO,可以使用模板或回调的方式操作Hbase 支持Hadoop安全验证 Spring Hadoop2.5的官方文档及API地址: https://docs.spring.io/spring-hadoop/docs/2.5

使用Ambari搭建Hadoop集群

与世无争的帅哥 提交于 2019-11-25 21:07:58
Hadoop 介绍 Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:MapReduce和HDFS。MapReduce提供了对数据的分布式计算,HDFS提供了海量数据的分布式存储。 在Hadoop家族中,收入了20多个用于计算、分析、存储、监控、管理等组件和工具,这些家族成员极大的丰富了Hadoop的各方面的功能。 Hadoop常见家族成员 下面简单的列举几个常见的组件: Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Apache Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 Apache HBase: 是一个高可靠性、高性能、面向列

Hadoop 入门

Deadly 提交于 2019-11-25 20:46:46
1 大数据概率 大数据是指在一定时间内无法用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息增长。 主要解决海量的存储和海量数据的分析计算问题。 1.1 大数据的特点 Volume(大量) Velocity(高速) Variety(多样) Value(低价值密度) 1.2 大数据应用场景 物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。 旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。 商品推荐:根据用户购买记录推荐商品。 保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。 金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。 房地产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。 人工智能:以大数据为依托。 2 从 Hadoop 框架讨论大数据生态 2.1 Hadoop 是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 2.2