Hadoop | 易学教程

How to get lastaltertimestamp from Hive table?

阅读更多关于 How to get lastaltertimestamp from Hive table?

问题 Teradata has the concept of lastaltertimestamp , which is the last time an alter table command was executed on a table. lastaltertimestamp can be queried. Does Hive have a similar value that can be queried? The timestamp returned by hdfs dfs -ls /my/hive/file does not reflect alter table commands, so alter table must not modify the file backing Hive file. describe formatted does not provide a last-alter-timestamp either. Thanks 回答1: Hive stores metadata into a database, so files never get

Spark Streaming Exception: java.util.NoSuchElementException: None.get

阅读更多关于 Spark Streaming Exception: java.util.NoSuchElementException: None.get

问题 I am writing SparkStreaming data to HDFS by converting it to a dataframe: Code object KafkaSparkHdfs { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkKafka") sparkConf.set("spark.driver.allowMultipleContexts", "true"); val sc = new SparkContext(sparkConf) def main(args: Array[String]): Unit = { val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ val ssc = new StreamingContext(sparkConf, Seconds(20)) val kafkaParams = Map[String,

Hadoop Windows setup. Error while running WordCountJob: “No space available in any of the local directories”

阅读更多关于 Hadoop Windows setup. Error while running WordCountJob: “No space available in any of the local directories”

问题 I am following this video tutorial trying to set up hadoop on my machine. How to Install Hadoop on Windows 10 I've setup it successfuly: no errors while executing start-all.xml from sbin directory. But when I am trying to execute my WordCount.jar file there is an error ocurred: 2/23 11:42:59 INFO localizer.ResourceLocalizationService: Created localizer for container_1550911199370_0001_02_000001 19/02/23 11:42:59 INFO localizer.ResourceLocalizationService: Localizer failed org.apache.hadoop

搭建高可用的flink JobManager HA

阅读更多关于搭建高可用的flink JobManager HA

　　JobManager协调每个flink应用的部署，它负责执行定时任务和资源管理。　　每一个Flink集群都有一个jobManager, 如果jobManager出现问题之后，将不能提交新的任务和运行新任务失败，这样会造成单点失败，所以需要构建高可用的JobMangager。　　类似zookeeper一样，构建好了高可用的jobManager之后，如果其中一个出现问题之后，其他可用的jobManager将会接管任务，变为leader。不会造成flink的任务执行失败。可以在单机版和集群版构建jobManager。　　下面开始构建一个单机版flink的JobManger高可用HA版。　　首先需要设置SSH免密登录，因为启动的时候程序会通过远程登录访问并且启动程序。　　执行命令，就可以免密登录自己的机器了。如果不进行免密登录的话，那么启动的hadoop的时候会报 "start port 22 connection refused"。 ssh-keygen - t rsa ssh -copy- id -i ~/. ssh /id_rsa.pub huangqingshi@localhost 　　接下来在官网上下载hadoop的binary文件，然后开始解压，我下载的版本为hadoop-3.1.3版本

Spark-01 spark简介

阅读更多关于 Spark-01 spark简介

前言：大牛说由spark入手比较合适 1.spark简介 spark是个计算框架，不存东西。MapReduce是Hadoop里面做计算的，也不存东西，出现比spark早，自从spark活跃起来后mc的很多程序就被重写为spark程序了。spark的api使用起来也比较简单。　　spark起源于2009年加州大学伯克利分校的实验室，20年成为开源项目，2014年就变成了apache的顶级项目。这里用spark2.3. 2,spark与MapReduce（mc）的比较 2-1 优缺点比较　　yarn、Mapreduce、hdfs是hadoop的三大组件，mapreduce计算框架有如下缺点：　　a.可编程性差。有很多模板代码，每写一次都要重复模板代码。 b.缺乏通用的计算引擎。例如：现在设计一个大数据平台，需要它可以离线计算、流处理，机器学习。方案一：用hadoop做离线计算、storm流处理、tensorflow做机器学习；方案二：只用spark，因为spark这三种都有。那么我们很容易选择方案二。当然了，大公司可能都用，但是那是因为历史原因，以前只有mc，现在也暂时换不了全部的spark。 c.计算速度慢。一个问题，是基于磁盘计算快还是内存快？当然是内存，内存比磁盘快几十倍。mc计算过程会存磁盘，spark会优先使用内存进行计算，内存不足的情况下才会选用磁盘。总之

20张图带你到HBase的世界遨游

阅读更多关于 20张图带你到HBase的世界遨游

Python实战社群 Java实战社群长按识别下方二维码，按需求添加扫码关注添加客服进Python社群▲ 扫码关注添加客服进Java社群 ▲ 作者丨SoWhat1412 来源丨sowhat1412 1 HBase 浅析 1.1 HBase 是啥 HBase 是一款面向列存储，用于存储处理海量数据的 NoSQL 数据库。它的理论原型是 Google 的 BigTable 论文。你可以认为 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 HBase 的存储是基于 HDFS 的， HDFS 有着高容错性的特点，被设计用来部署在低廉的硬件上，基于 Hadoop 意味着 HBase 与生俱来的超强的扩展性和吞吐量。 HBase 采用的时 key/value 的存储方式，这意味着，即使随着数据量的增大，也几乎不会导致查询性能的下降。 HBase 又是一个面向列存储的数据库，当表的字段很多时，可以把其中几个字段独立出来放在一部分机器上，而另外几个字段放到另一部分机器上，充分分散了负载的压力。如此复杂的存储结构和分布式的存储方式，带来的代价就是即便是存储很少的数据，也不会很快。 HBase 并不是足够快，只是数据量很大的时候慢的不明显。HBase主要用在以下两种情况：单表数据量超过千万，而且并发量很大。数据分析需求较弱，或者不需要那么实时灵活

Reuse tasks in airflow

阅读更多关于 Reuse tasks in airflow

问题 I'm trying out airflow for orchestrating some of my data pipelines. I'm having multiple tasks for each ingestion pipeline. The tasks are getting repeated across multiple ingestion pipelines. How can I reuse a task across DAGS in airflow? 回答1: Just like object is an instance of a class, an Airflow task is an instance of an Operator (strictly speaking, BaseOperator) So write a "re-usable" (aka generic) operator and use it 100s of times across your pipeline(s) simply by passing different params

Clickhouse 在58的实践之路

阅读更多关于 Clickhouse 在58的实践之路

文章目录 1 Clickhouse简介 1.1 为什么选择Clickhouse 1.2 Clickhouse特性 2 Clickhouse建设 2.1 整体架构 2.1.1 数据接入层 2.1.2 数据存储层 2.1.3 数据服务层 2.1.4 数据应用层 3 Clickhouse运维管理平台 3.1 配置文件结构 3.2 元数据管理 3.3 自动化运维 3.4 监控与报警 4 Clickhouse应用 4.1 BI查询引擎 4.2 集群构建 4.3 问题及优化 5 实时数仓 5.1 分层架构 5.2 数据输入与输出 5.3 数据产品 6 常见问题 6.1 数据写入 6.2 JOIN操作 6.3 常用参数 7 总结与展望在数据量日益增长的当下，传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能，提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本，并结合具体案例说明Clickhouse的实践过程。 Clickhouse简介为什么选择Clickhouse 目前企业用户行为日志每天百亿量级，虽然经过数仓的分层以及数据汇总层通用维度指标的预计算

处理kdevtmpfsi挖矿病毒

阅读更多关于处理kdevtmpfsi挖矿病毒

发现CPU直接100% [root@hadoop002 tmp] # systemctl status 25177 ● session-5772.scope - Session 5772 of user root Loaded: loaded ( /run/systemd/system/session-5772 .scope; static; vendor preset: disabled) Drop - In : /run/systemd/system/session-5772 .scope.d └─ 50-After-systemd-logind\x2eservice.conf, 50-After-systemd-user-sessions\x2eservice.conf, 50-Description.conf, 50-SendSIGHUP.conf, 50-Slice.conf, 50- TasksMax.conf Active: active (abandoned) since Wed 2020-01-22 16:06:01 CST; 1h 21min ago CGroup: /user.slice/user-0.slice/session-5772 .scope ├─ 19331 /var/tmp/ kinsing └─ 25177 /tmp/ kdevtmpfsi

【spark】spark-2.4.4的安装与测试

阅读更多关于【spark】spark-2.4.4的安装与测试

4.2.1 下载并安装spark 下载文件名：spark-2.4.4-bin-without-hadoop.tgz [hadoop@hadoop01 ~]$ tar -zxvf spark-2.4.4-bin-without-hadoop.tgz 4.2.2 配置linux环境变量 [hadoop@hadoop01 ~]$ gedit ~/.bash_profile [hadoop@hadoop01 ~]$ source ~/.bash_profile 新加入： #spark export SPARK_HOME=/home/hadoop/spark-2.4.4-bin-without-hadoop export PATH=$PATH:$SPARK_HOME/bin 4.2.3 配置spark-env.sh变量环境 [hadoop@hadoop01 conf]$ cp spark-env.sh.template spark-env.sh [hadoop@hadoop01 conf]$ gedit spark-env.sh 加入： export JAVA_HOME=/usr/java/jdk1.8.0_131 export SCALA_HOME=/home/hadoop/scala-2.13.1 export SPARK_MASTER_IP=192.168.1.100 export

订阅 Hadoop