Hive

Spark --Spark Streaming实战 WordCount他来啦!!! updateStateByKey reduceByKeyAndWindow

无人久伴 提交于 2020-04-18 19:42:44
WordCount 需求&准备 ● 图解 ●首先在linux服务器上安装nc工具 nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据 yum install -y nc ●启动一个服务端并开放9999端口,等一下往这个端口发数据 nc -lk 9999 ●发送数据 话不多说!!!上代码! package cn.itcast.streaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} object WordCount { def main(args: Array[String]): Unit = { //1.创建StreamingContext //spark.master should be set as local[n], n > 1 val conf = new SparkConf().setAppName("wc").setMaster("local[*]") val sc = new SparkContext(conf

【Spark】SparkSQL入门解析(二)

China☆狼群 提交于 2020-04-18 18:19:13
【一】SparkSQL数据源 【1】Spark SQL的DataFrame接口支持多种数据源的操作 一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表,把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询 【2】 Spark SQL的默认数据源为 Parquet格式 。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default,可修改默认数据源格式 val df = sqlContext.read.load ( "examples/src/main/resources/users.parquet" ) df.select ( "name" , "favorite_color" ) .write.save ( "namesAndFavColors.parquet" ) 【3】当数据源格式不是parquet格式文件时,需要手动指定数据源的格式。数据源格式需要指定全名(例如:org.apache.spark.sql.parquet),如果数据源格式为内置格式,则只需要指定简称定json, parquet, jdbc, orc, libsvm, csv, text来指定数据的格式 可以通过SparkSession提供的 read.load 方法用于通用加载数据,使用

如何入门Java行列 0基础学Java怎样效率更高

半城伤御伤魂 提交于 2020-04-18 15:52:45
  如何入门Java行列?0基础学Java怎样效率更高?Java是老牌编程语言,拥有扎实的群众基础和广阔的市场应用,从业人员薪资也普遍较高。很多人想要加入到Java开发行列,不过没有基础怎么学Java呢?以下是千锋小编整理的相关资料。   自Java语言诞生以来,一直都居于领导地位,无论是做网站还是应用于移动端,都是不可缺少的。Java程序员在各大招聘网站招聘职位众多,来自全国19911家公司的 23339名员工提供的数据显示,全国Java开发者的平均月工资为7838元。   很多0基础学习Java的同学想知道怎样学习效率更高?小编以为,学习Java需要一个系统的过程,而根据你未来的职位方向不同,学习也各有侧重。目前来说,Java就业方向包括Web开发、大数据开发、Android开发以及各种后端服务开发领域,但不论你选择哪一个,都要从最基础的知识点学习。   Java基础知识点多且杂,初学者在开始的时候需要认识什么是Java标识符、注释、Java关键字和什么是常量和变量等知识点;要重点掌握类、对象、属性、方法、封装、继承、多态等一些列概念;另外还需要做大量的实验,需要掌握一系列实验方法。   基础部分的课程完成后,要学习进阶知识点,比如你需要学习JavaWeb相关的知识(HTML、CSS和JavaScript)以及Java Servlet和MVC处理框架

Hive - create hive table from specific data of three csv files in hdfs

a 夏天 提交于 2020-04-18 05:48:27
问题 I have three .csv files, each in different hdfs directory. I now want to make a Hive internal table with data from those three files. I want four columns from first file, three columns from second file and two columns from third file. first file share an unique id column with second file and third file share another unique id column with third file. both unique ids are present in second file; using these ids I would like to left-outer-join to make table. file 1: '/directory_1/sub_directory_1

hive table created from parquet file not showing any data, even though data is there in parquet file

↘锁芯ラ 提交于 2020-04-18 05:36:14
问题 I have a parquet file location which has data. using HUE , i created a hive table as below create external table parq_test ( A int, B int, C int ) STORED AS PARQUET LOCATION '/data/parq_test'; when I say select * from parq_test; It is returning 0 rows. I tried this MSCK REPAIR TABLE parq_test; still no luck below i tried but it is not supporting in my HUE console ALTER TABLE parq_test RECOVER PARTITIONS; Infact i test in my notebook , there is data available in my parquet file. So what is

Looking to set a reusable variable in hive

倖福魔咒の 提交于 2020-04-18 05:33:52
问题 I'm looking to set a variable like below, called today_date , and then be able to reuse it as a variable throughout the query. The below throws an error. set today_date = date_format(date_sub(current_date, 1), 'YYYYMMdd') select account from table where data_date = today_date 回答1: First command should end with semicolon: set today_date=date_format(date_sub(current_date, 1), 'YYYYMMdd'); And variable should be used like this: select account from table where data_date=${hivevar:today_date}; set

FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. com/yammer/metrics/core/MetricsRegistry

妖精的绣舞 提交于 2020-04-17 22:12:08
问题 We facing some issue in beeline while we connecting via beeline to hbase table. We have two hiveserver2, one of the node we got this error like: INFO : Query ID = hive_20190719154444_babd2ce5-4d41-400b-9be5-313acaffc9bf INFO : Total jobs = 1 INFO : Launching Job 1 out of 1 INFO : Starting task [Stage-0:MAPRED] in serial mode INFO : Number of reduce tasks is set to 0 since there's no reduce operator ERROR : FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr

FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. com/yammer/metrics/core/MetricsRegistry

随声附和 提交于 2020-04-17 22:11:50
问题 We facing some issue in beeline while we connecting via beeline to hbase table. We have two hiveserver2, one of the node we got this error like: INFO : Query ID = hive_20190719154444_babd2ce5-4d41-400b-9be5-313acaffc9bf INFO : Total jobs = 1 INFO : Launching Job 1 out of 1 INFO : Starting task [Stage-0:MAPRED] in serial mode INFO : Number of reduce tasks is set to 0 since there's no reduce operator ERROR : FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr

大数据就业前景分析

不问归期 提交于 2020-04-16 16:53:42
【推荐阅读】微服务还能火多久?>>>   大数据就业前景分析,大数据广泛应用于电网运行、经营管理及优质服务等各大领域,并正在改变着各行各业,也引领了大数据人才的变革。大数据就业前景怎么样?这对于在就业迷途中的我们是一个很重要的信息。   随着大数据时代的到来,这次国家教育部也改革动真格了。   大军即将进入,全民开始行动了。2019年各大高校都已经开设大数据专业,真正的竞争压力马上就会来了,已经加入大数据行业的同学很幸运,一定要抓住一切可以抓住机会,全身心的投入。   人生不只是低头拉车,更要抬头看路。   1、大数据人才需求及现状分析   随着国家重视大数据,政府扶持大数据,大数据在企业中生根发芽,开花结果。未来三至五年,中国需要180万数据人才,但目前只有约30万人。      PS:各大招聘网站的岗位需求   前程无忧大数据岗位搜索,共29854个职位满足条件;智联招聘大数据岗位搜索,共27627个职位满足条件;猎聘网大数据岗位搜索,共1000+个职位满足条件;拉勾网大数据岗位搜索,共500+个职位满足条件。   高薪只要你敢想,敢付出,还害怕高薪的人不是自己吗?   2、人才缺口大,钱途可观   1)Java   Java以及基于Java的框架,被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架。如果你移动到过去的原型制作并需要建立大型系统,那么Java往往是你的最佳选择。

记一次私有云向阿里adb导数

◇◆丶佛笑我妖孽 提交于 2020-04-16 12:31:44
【推荐阅读】微服务还能火多久?>>> 1、背景 刚到新公司不久,领导安排了一个组件调研的数据支持工作。 简单说就是从私有云中的数据导出千万级数据量到adb中,为QuickBI调研提供支持。 adb是阿里提供的一个类似mysql的服务,整个任务可以抽象成:从分布式系统向关系型数据库同步数据,可以归类到ETL工作中。 2、问题 首次接触阿里云相关的组件,需要熟悉相关组件的使用。 leader提出了用sqoop进行处理,但是私有云中未安装。 同事提出历史方案,通过将数据上传到oss,利用adb中类似hive外部表的特性进行数据传输。 3、实施方案 因为有了大数据相关的经验,阿里云的相关组件,上手还是比较快的。 利用sqoop工具 由于是第一次安装sqoop,安装过程中对linux的操作更熟悉了一些,对私有云组件的安装情况有个快速的了解。 在使用sqoop中遇到几个问题: 集群客户端节点无法连接到adb --- 经排查是未将客户端ip添加到adb白名单引起的。处理方案:找运维添加白名单。 由于adb提供的服务地址不是ip地址,所以遇到了数据库url解析异常问题 处理方案:通过 ping 相应的域名获取到ip地址,替换原有url服务地址。 运行修改后的脚本,任务还是不能顺利执行,通过查找任务对应的堆栈信息,得到下面的信息: 超时!?那增加数据库的超时时间和socket超时时间。结果是好的