Hive

PySpark笔记(I)

爱⌒轻易说出口 提交于 2020-10-27 01:52:23
PySpark笔记(I) Pyspark连接本地hive // 使用hivesupporter,选取master节点名 spark = SparkSession . builder . enableHiveSupport ( ) . master ( 'local' ) . appName ( 'task' ) . getOrCreate ( ) //本地节点,使用local(即localhost) spark . sql ( 'show tables' ) . show ( ) // //也可以这样 conf = ( SparkConf ( ) . setMaster ( "yarn" ) . setAppName ( "task0" ) ) sc = SparkContext ( conf = conf ) sqlContext = HiveContext ( sc ) df = spark . sql ( "select * from table_name" ) Pyspark一些基本操作 select df . select ( ) 可以选取相应的列 df = df [ 'xxx' , 'yyy' ] 同理 withColumn() 1)新增列 df_1 = df_1 . withColumn ( '列名称' , 内容 ) 2)更换列名 由于有些表是不带列名的

每个大数据架构师都需要的6个基本技能

柔情痞子 提交于 2020-10-26 23:14:17
数据分为结构化和非结构化两种。尽管大数据为各种规模的组织提供了许多洞察和分析的机会,但处理起来非常困难,并且需要一系列的特定技能。 大数据由大数据架构师处理,这是一个非常专业的职位。很多组织需要大数据架构师采用数据技术Hadoop分析数据来解决重大的问题。 大数据架构师需要大规模处理数据库并分析数据,以便帮助组织做出正确的业务决策。具有这种才能的架构师需要成为一支强大团队的领导者。他应该具有指导团队成员工作并与不同的团队合作的能力。对于他们而言,与各种组织和供应商建立良好的合作关系也至关重要。 从事大数据架构师工作所需的6种技能 成为大数据架构师需要多年的学习培训,需要具有广泛的能力,而这些能力会随着领域的发展而增长。大数据架构师需要具备以下6种技能: (1) 数据分析的决策权,应具备采用大数据技术分析海量数据的能力。 (2) 应该了解机器学习技术,因为这是至关重要的知识。还要具有模式识别、处理数据的聚类以及文本挖掘等能力。 (3) 大数据架构师应该对编程语言和所有最新技术有浓厚的兴趣和经验。了解所有类型的JavaScript框架,如HTML5、RESTful服务、Spark、Python、Hive、Kafka和CSS都是必不可少的框架。 (4) 大数据架构师应具备必要的知识和经验,以处理最新的数据技术,例如Hadoop、MapReduce、HBase、oozie、Flume

CDH常用端口汇总

走远了吗. 提交于 2020-10-26 05:06:34
参考文章: CDH常用端口汇总 Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 10020:historyserver端口 Zookeeper: 2181 : 客户端连接zookeeper的端口 2888 : zookeeper集群内通讯使用,Leader监听此端口 3888 : zookeeper端口 用于选举leader Hbase: 60010:Hbase的master的WEB UI端口 60030:Hbase的regionServer的WEB UI 管理端口 Hive: 9083 : metastore服务默认监听端口 10000:Hive 的JDBC端口 Spark: 7077 : spark 的master与worker进行通讯的端口 standalone集群提交Application的端口 8080 : master的WEB UI端口 资源调度 8081 : worker的WEB UI 端口 资源调度 4040 : Driver的WEB UI 端口 任务调度 18080:Spark History Server的WEB UI 端口 Kafka:

入门大数据---大数据调优汇总

旧时模样 提交于 2020-10-24 20:00:37
前言 不进行优化的代码就是耍流氓。 总体来说大数据优化主要分为三点,一是充分利用CPU,二是节省内存,三是减少网络传输。 一、Hive/MapReduce调优 1.1 本地模式 Hive默认采用集群模式进行计算,如果对于小数据量,可以设置为单台机器进行计算,这样可以大大缩减查询触发任务时间。 用户可以通过设置hive.exec.mode.local.auto 的值为true,来让Hive在适当的时候自动启动这个优化。 set hive.exec.mode.local.auto=true; //开启本地 mr //设置 local mr 的最大输入数据量,当输入数据量小于这个值时采用 local mr 的方式, 默认为 134217728,即 128M set hive.exec.mode.local.auto.inputbytes.max=50000000; //设置 local mr 的最大输入文件个数,当输入文件个数小于这个值时采用 local mr 的方 式,默认为 4 set hive.exec.mode.local.auto.input.files.max=10; 1.2 null值过滤OR随机分配null值 null值过滤 对于key值倾斜,有的时候是无效的null导致的,这个时候可以考虑过滤掉。 hive (default)> insert overwrite

认识Hive,以及Hive的数据定义与数据操作,hive的数据查询和hive函数

孤街浪徒 提交于 2020-10-24 17:19:08
认识Hive 为什么要出现hive 前面知识我们讲到mapreudce计算框架,各位需要通过java编码的形式来实现设计运算过程,这对各位的编程能力提出了更高的要求,难道没有门槛更低的方式来实现运算的设计吗?Hive出现的目的就是为了解决这个问题。 Hive的设计目的是为了让那些精通SQL技能而Java技能较弱的数据分析师能够利用Hadoop进行各种数据分析。 对于前面的WordCount例子,Java代码大概在80行左右,这对于经验丰富的Java开发工程师来说也不是易事,但如果用Hive的查询语言(即HiveQL)来完成的话,只有几行代码: 可以看出HiveQL的语法和SQL非常类似。在实际开发中,80%的操作都不会由MapReduce程序直接完成,而是由Hive来完成,所以Hive本身实践性非常强,并且使用频率非常高,只需要对SQL熟练即可 简单来说就是为了那些精通sql的人哈!! Hive显著地降低了使用Hadoop来做数据分析的学习成本,对于精通Java的人来说,Hive任然是首选,因为Hive稳定,代码精简并且易于维护。 常用的count、group by、order by、join等SQL操作都可以由Hive来完成,在某种意义上,Hive可以说是HiveQL(SQL)到Mapreduce的映射器,或者说是对Mapreduce任务的高度封装

Apache Kylin安装指南+入门案例(附图)

不打扰是莪最后的温柔 提交于 2020-10-24 08:33:40
Apache Kylin安装文档 Kylin安装 Kylin使用案例 1. Kylin安装 使用FTP工具上传apache-kylin-2.5.1-bin-hbase1x.tar.gz压缩包到node01的 opt/software 目录下 解压上一步上传的压缩包 opt/module 下 tar -zxvf apache-kylin-2.5.1-bin-hbase1x.tar.gz -C /opt/module 进入 opt/module 目录,更改apache-kylin-2.5.1-bin-hbase1x目录名字 mv pache-kylin-2.5.1-bin-hbase1x kylin-2.5.1 此时 opt/module 目录结构如下 进入到 kylin-2.5.1 目录,查看kylin的目录结构 进入 conf 目录,将 kylin.properties.template 改成 kylin.properties ,命令: mv kylin.properties.template kylin.properties 编辑 kylin.properties 文件,添加以下内容 # 下面的node01是你的主机名,我将kylin装在了第一个节点上,需要根据你的主机名更改 kylin.server.cluster-servers = node01:7070 kylin

生态 | Apache Hudi集成Alluxio实践

∥☆過路亽.° 提交于 2020-10-23 02:29:01
原文链接: https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。 对于用户应用程序和计算框架,Alluxio提供了快速存储,促进了作业之间的数据共享和局部性。当数据位于本地时,Alluxio可以以内存速度提供数据;当数据位于Alluxio时,Alluxio可以以计算集群网络的速度提供数据。第一次访问数据时,只从存储系统上读取一次数据。为了得到更好的性能,Alluxio推荐部署在计算集群上。 对于存储系统,Alluxio弥补了大数据应用与传统存储系统之间的差距,扩大了可用的数据工作负载集。当同时挂载多个数据源时,Alluxio可以作为任意数量的不同数据源的统一层。 Alluxio可以被分为三个部分:masters、workers以及clients。一个典型的设置由一个主服务器、多个备用服务器和多个worker组成。客户端用于通过Spark或MapReduce作业、Alluxio命令行等与Alluxio服务器通信。 2. 什么是Apache Hudi