Hadoop

How to get lastaltertimestamp from Hive table?

烈酒焚心 提交于 2021-01-27 13:56:04
问题 Teradata has the concept of lastaltertimestamp , which is the last time an alter table command was executed on a table. lastaltertimestamp can be queried. Does Hive have a similar value that can be queried? The timestamp returned by hdfs dfs -ls /my/hive/file does not reflect alter table commands, so alter table must not modify the file backing Hive file. describe formatted does not provide a last-alter-timestamp either. Thanks 回答1: Hive stores metadata into a database, so files never get

Spark Streaming Exception: java.util.NoSuchElementException: None.get

我怕爱的太早我们不能终老 提交于 2021-01-27 06:33:10
问题 I am writing SparkStreaming data to HDFS by converting it to a dataframe: Code object KafkaSparkHdfs { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkKafka") sparkConf.set("spark.driver.allowMultipleContexts", "true"); val sc = new SparkContext(sparkConf) def main(args: Array[String]): Unit = { val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ val ssc = new StreamingContext(sparkConf, Seconds(20)) val kafkaParams = Map[String,

Hadoop Windows setup. Error while running WordCountJob: “No space available in any of the local directories”

半腔热情 提交于 2021-01-27 06:32:16
问题 I am following this video tutorial trying to set up hadoop on my machine. How to Install Hadoop on Windows 10 I've setup it successfuly: no errors while executing start-all.xml from sbin directory. But when I am trying to execute my WordCount.jar file there is an error ocurred: 2/23 11:42:59 INFO localizer.ResourceLocalizationService: Created localizer for container_1550911199370_0001_02_000001 19/02/23 11:42:59 INFO localizer.ResourceLocalizationService: Localizer failed org.apache.hadoop

搭建高可用的flink JobManager HA

你。 提交于 2021-01-26 08:49:08
  JobManager协调每个flink应用的部署,它负责执行定时任务和资源管理。   每一个Flink集群都有一个jobManager, 如果jobManager出现问题之后,将不能提交新的任务和运行新任务失败,这样会造成单点失败,所以需要构建高可用的JobMangager。   类似zookeeper一样,构建好了高可用的jobManager之后,如果其中一个出现问题之后,其他可用的jobManager将会接管任务,变为leader。不会造成flink的任务执行失败。可以在单机版和集群版构建jobManager。   下面开始构建一个单机版flink的JobManger高可用HA版。   首先需要设置SSH免密登录,因为启动的时候程序会通过远程登录访问并且启动程序。   执行命令,就可以免密登录自己的机器了。如果不进行免密登录的话,那么启动的hadoop的时候会报 "start port 22 connection refused"。 ssh-keygen - t rsa ssh -copy- id -i ~/. ssh /id_rsa.pub huangqingshi@localhost   接下来在官网上下载hadoop的binary文件,然后开始解压,我下载的版本为hadoop-3.1.3版本

Spark-01 spark简介

南楼画角 提交于 2021-01-26 08:08:21
前言:大牛说由spark入手比较合适 1.spark简介 spark是个计算框架,不存东西。MapReduce是Hadoop里面做计算的,也不存东西,出现比spark早,自从spark活跃起来后mc的很多程序就被重写为spark程序了。spark的api使用起来也比较简单。   spark起源于2009年加州大学伯克利分校的实验室,20年成为开源项目,2014年就变成了apache的顶级项目。这里用spark2.3. 2,spark与MapReduce(mc)的比较 2-1 优缺点比较   yarn、Mapreduce、hdfs是hadoop的三大组件,mapreduce计算框架有如下缺点:   a.可编程性差。有很多模板代码,每写一次都要重复模板代码。 b.缺乏通用的计算引擎。例如:现在设计一个大数据平台,需要它可以离线计算、流处理,机器学习。方案一:用hadoop做离线计算、storm流处理、tensorflow做机器学习;方案二:只用spark,因为spark这三种都有。那么我们很容易选择方案二。当然了,大公司可能都用,但是那是因为历史原因,以前只有mc,现在也暂时换不了全部的spark。 c.计算速度慢。一个问题,是基于磁盘计算快还是内存快?当然是内存,内存比磁盘快几十倍。mc计算过程会存磁盘,spark会优先使用内存进行计算,内存不足的情况下才会选用磁盘。 总之

20张图带你到HBase的世界遨游

[亡魂溺海] 提交于 2021-01-25 15:37:51
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 作者丨SoWhat1412 来源丨sowhat1412 1 HBase 浅析 1.1 HBase 是啥 HBase 是一款面向列存储,用于存储处理海量数据的 NoSQL 数据库。它的理论原型是 Google 的 BigTable 论文。你可以认为 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 HBase 的存储是基于 HDFS 的, HDFS 有着高容错性的特点,被设计用来部署在低廉的硬件上,基于 Hadoop 意味着 HBase 与生俱来的超强的 扩展性 和 吞吐量 。 HBase 采用的时 key/value 的存储方式,这意味着,即使随着数据量的增大,也几乎不会导致查询性能的下降。 HBase 又是一个 面向列 存储的数据库,当表的字段很多时,可以把其中几个字段独立出来放在一部分机器上,而另外几个字段放到另一部分机器上,充分分散了负载的压力。如此 复杂的存储结构和分布式的存储方式 ,带来的代价就是即便是 存储很少的数据,也不会很快 。 HBase 并不是足够快,只是数据量很大的时候慢的不明显。HBase主要用在以下两种情况: 单表数据量超过千万,而且并发量很大。 数据分析需求较弱,或者不需要那么实时灵活

Reuse tasks in airflow

允我心安 提交于 2021-01-24 10:58:06
问题 I'm trying out airflow for orchestrating some of my data pipelines. I'm having multiple tasks for each ingestion pipeline. The tasks are getting repeated across multiple ingestion pipelines. How can I reuse a task across DAGS in airflow? 回答1: Just like object is an instance of a class, an Airflow task is an instance of an Operator (strictly speaking, BaseOperator) So write a "re-usable" (aka generic) operator and use it 100s of times across your pipeline(s) simply by passing different params

Clickhouse 在58的实践之路

限于喜欢 提交于 2021-01-23 09:04:52
文章目录 1 Clickhouse简介 1.1 为什么选择Clickhouse 1.2 Clickhouse特性 2 Clickhouse建设 2.1 整体架构 2.1.1 数据接入层 2.1.2 数据存储层 2.1.3 数据服务层 2.1.4 数据应用层 3 Clickhouse运维管理平台 3.1 配置文件结构 3.2 元数据管理 3.3 自动化运维 3.4 监控与报警 4 Clickhouse应用 4.1 BI查询引擎 4.2 集群构建 4.3 问题及优化 5 实时数仓 5.1 分层架构 5.2 数据输入与输出 5.3 数据产品 6 常见问题 6.1 数据写入 6.2 JOIN操作 6.3 常用参数 7 总结与展望 在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具体案例说明Clickhouse的实践过程。 Clickhouse简介 为什么选择Clickhouse 目前企业用户行为日志每天百亿量级,虽然经过数仓的分层以及数据汇总层通用维度指标的预计算

处理kdevtmpfsi挖矿病毒

坚强是说给别人听的谎言 提交于 2021-01-22 18:02:12
发现CPU直接100% [root@hadoop002 tmp] # systemctl status 25177 ● session-5772.scope - Session 5772 of user root Loaded: loaded ( /run/systemd/system/session-5772 .scope; static; vendor preset: disabled) Drop - In : /run/systemd/system/session-5772 .scope.d └─ 50-After-systemd-logind\x2eservice.conf, 50-After-systemd-user-sessions\x2eservice.conf, 50-Description.conf, 50-SendSIGHUP.conf, 50-Slice.conf, 50- TasksMax.conf Active: active (abandoned) since Wed 2020-01-22 16:06:01 CST; 1h 21min ago CGroup: /user.slice/user-0.slice/session-5772 .scope ├─ 19331 /var/tmp/ kinsing └─ 25177 /tmp/ kdevtmpfsi

【spark】spark-2.4.4的安装与测试

爱⌒轻易说出口 提交于 2021-01-22 06:18:00
4.2.1 下载并安装spark 下载文件名:spark-2.4.4-bin-without-hadoop.tgz [hadoop@hadoop01 ~]$ tar -zxvf spark-2.4.4-bin-without-hadoop.tgz 4.2.2 配置linux环境变量 [hadoop@hadoop01 ~]$ gedit ~/.bash_profile [hadoop@hadoop01 ~]$ source ~/.bash_profile 新加入: #spark export SPARK_HOME=/home/hadoop/spark-2.4.4-bin-without-hadoop export PATH=$PATH:$SPARK_HOME/bin 4.2.3 配置spark-env.sh变量环境 [hadoop@hadoop01 conf]$ cp spark-env.sh.template spark-env.sh [hadoop@hadoop01 conf]$ gedit spark-env.sh 加入: export JAVA_HOME=/usr/java/jdk1.8.0_131 export SCALA_HOME=/home/hadoop/scala-2.13.1 export SPARK_MASTER_IP=192.168.1.100 export