partition

SQL Error: ORA-14006: invalid partition name

雨燕双飞 提交于 2019-11-29 05:20:19
I am trying to partition an existing table in Oracle 12C R1 using below SQL statement. ALTER TABLE TABLE_NAME MODIFY PARTITION BY RANGE (DATE_COLUMN_NAME) INTERVAL (NUMTOYMINTERVAL(1,'MONTH')) ( PARTITION part_01 VALUES LESS THAN (TO_DATE('01-SEP-2017', 'DD-MON-RRRR')) ) ONLINE; Getting error: Error report - SQL Error: ORA-14006: invalid partition name 14006. 00000 - "invalid partition name" *Cause: a partition name of the form <identifier> is expected but not present. *Action: enter an appropriate partition name. Partition needs to be done on the basis of data datatype column with the

spark笔记之Spark Streaming原理

半世苍凉 提交于 2019-11-29 04:32:16
2.1 Spark Streaming原理 Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 2.2 Spark Streaming计算流程 Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行缓存或者存储到外部设备。下图显示了Spark Streaming的整个流程。 SparkStreaming架构图 2.3 Spark Streaming容错性 对于流式计算来说,容错性至关重要。首先我们要明确一下Spark中RDD的容错机制。每一个RDD都是一个不可变的分布式可重算的数据集,其记录着确定性的操作继承关系(lineage)

4.kafka生产者---向Kafka中写入数据(转)

别说谁变了你拦得住时间么 提交于 2019-11-29 04:26:56
转: https://www.cnblogs.com/sodawoods-blogs/p/8969513.html (1)生产者概览 (1)不同的应用场景对消息有不同的需求,即是否允许消息 丢失 、 重复 、 延迟 以及 吞吐量 的要求 。 不同场景对Kafka生产者的API使用和配置会有直接的影响。 例子1:信用卡事务处理系统,不允许消息的重复和丢失,延迟最大500ms,对吞吐量要求较高。 例子2:保存网站的点击信息,允许少量的消息丢失和重复,延迟可以稍高(用户点击链接可以马上加载出页面即可),吞吐量取决于用户使用网站的频度。 (2)Kafka发送消息的主要步骤 消息格式:每个消息是一个ProducerRecord对象, 必须指定 消息所属的Topic和消息值Value,此外 还可以指定 消息所属的Partition以及消息的Key。 1:序列化ProducerRecord 2:如果ProducerRecord中指定了Partition,则Partitioner不做任何事情;否则,Partitioner根据消息的key得到一个Partition。这是生产者就知道向哪个Topic下的哪个Partition发送这条消息。 3:消息被添加到相应的batch中,独立的线程将这些batch发送到Broker上 4:broker收到消息会返回一个响应。如果消息成功写入Kafka

GPT,LVM概念以及shell脚本基础

隐身守侯 提交于 2019-11-29 03:34:01
GPT,LVM概念以及shell脚本基础 描述GPT是什么,应该怎么使用 1.GPT的全称是Globally Unique Identifier Partition Table,意即GUID分区表,GUID 分区表 (GPT) 是作为 Extensible Firmware Interface (EFI) 计划的一部分引入的。相对于以往 PC 普遍使用的主引导记录 (MBR) 分区方案,GPT 提供了更加灵活的磁盘分区机制。分区指物理或逻辑磁盘上彼此连接的存储空间,但提供功能时就像物理上分隔的磁盘一样。对于系统固件和已安装的操作系统来说,分区是可见的。操作系统启动之前,对分区的访问由系统固件控制,操作系统启动后则由操作系统控制。 2.具有以下优点: (1)支持2TB以上的大硬盘; (2)每个磁盘的分区个数几乎没有限制(Windows系统最多只允许划分128个分区); (3)分区大小几乎没有限制。又是一个“几乎”。因为它用64位的整数表示扇区号,即 = 18,446,744,073,709,551,616; (4)分区表自带备份。在磁盘的首尾部分分别保存了一份相同的分区表,其中一份被破坏后,可以通过另一份恢复; (5)循环冗余检验值针对关键数据结构而计算,提高了数据崩溃的检测几率; (6)虽然MBR提供1字节分区类型代码,但GPT使用一个16字节的全局唯一标识符(GUID

Hive SQL语法总结

浪尽此生 提交于 2019-11-29 02:41:54
Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,它架构在Hadoop之上,通过SQL来对数据进行操作。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的Hive SQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业。 下面总结一下Hive操作常用的一些SQL语法: "[ ]"括起来的代表我们可以写也可以不写的语句。 创建数据库 CREATE DARABASE name ; 显示查看操作命令 show tables ; -- 显示表 show databases; -- 显示数据库 show partitions table_name ; -- 显示表名为 table_name 的表的所有分区 show functions ; -- 显示所有函数 describe extended table_name col_name; -- 查看表中字段 DDL(Data Defination Language):数据库定义语言 创建表结构 CREATE [ EXTERNAL ] TABLE [ IF

Linux 挂在硬盘步骤

六眼飞鱼酱① 提交于 2019-11-29 00:54:05
硬盘分区及挂载操作步骤: 1. 查看未挂载的硬盘(名称为/dev/xvdb) # fdisk -l Disk /dev/xvdb doesn't contain a valid partition table 2. 创建分区 # fdisk /dev/xvdb ... 输入n Command (m for help):n 输入p Command action e extended p primary partition (1-4) p 输入1 Partition number (1-4): 1 回车 First cylinder (1-2610, default 1): Using default value 1 回车 Last cylinder, +cylinders or +size{K,M,G} (1-2610, default 2610): Using default value 2610 输入w Command (m for help): w The partition table has been altered! 3. 格式化分区 # mkfs.ext3 /dev/xvdb1 4. 建立挂载目录 # mkdir /data 5. 挂载分区 # mount /dev/xvdb1 /data 6. 设置开机自动挂载 vi /etc/fstab

Kafka简明教程

不想你离开。 提交于 2019-11-28 23:58:43
作者:柳树之 www.jianshu.com/p/7b77723d4f96 Kafka是啥?用Kafka官方的话来说就是: Kafka is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies. 大致的意思就是,这是一个实时数据处理系统,可以横向扩展、高可靠,而且还变态快,已经被很多公司使用。 那么什么是实时数据处理系统呢?顾名思义,实时数据处理系统就是数据一旦产生,就要能快速进行处理的系统。 对于实时数据处理,我们最常见的,就是消息中间件了,也叫MQ(Message Queue,消息队列),也有叫Message Broker的。 这篇文章,我将从消息中间件的角度,带大家看看Kafka的内部结构,看看它是如何做到横向扩展、高可靠的同时,还能变态快的。 为什么需要消息中间件 消息中间件的作用主要有两点: 解耦消息的生产和消费。 缓冲。 想象一个场景,你的一个创建订单的操作,在订单创建完成之后,需要触发一系列其他的操作,比如进行用户订单数据的统计、给用户发送短信、给用户发送邮件等等,就像这样:

How spark read a large file (petabyte) when file can not be fit in spark's main memory

﹥>﹥吖頭↗ 提交于 2019-11-28 21:41:18
What will happen for large files in these cases? 1) Spark gets a location from NameNode for data . Will Spark stop in this same time because data size is too long as per information from NameNode? 2) Spark do partition of data as per datanode block size but all data can not be stored into main memory. Here we are not using StorageLevel. So what will happen here? 3) Spark do partition the data, some data will store on main memory once this main memory store's data will process again spark will load other data from disc. First of all, Spark only starts reading in the data when an action (like

Kafka简介

喜欢而已 提交于 2019-11-28 21:40:04
Kafka简介 定义 Kafka是一个分布式流式处理平台,它提供三种角色:消息系统,存储系统,流式处理平台 组成 Kafka架构体系为实现消息模块包括了若干producer,broker和consumer,还有zookeeper集群来负责元数据的管理和控制器选举等操作。 生产者 发送过程 主线程创建消息 ProducerRecord 拦截器:对消息做一些定制化操作 序列化:序列化成字节数组,方便网络传输 分区器:如果未指定分区,可重新计算确定分区号 消息累加器:实现以分区为组缓存到 RecordAccumulator (内部维护一个Dequeue),方便批量发送,提高吞吐量 提交给Send线程 从 RecordAccumulator 获取缓存的消息,将 分区-消息列表 转换为 broker-消息列表 创建请求 ProduceRequest ,同时保存在 InFlightRequests (发出但未响应,可用来计数限制发送给broker数量大小,负载最小的称为 leastLoadedNode ) 提交给selector准备发送 KafkaProducer 提供发送功能(且是批量发送,有较高的吞吐量),它是线程安全的。消息发送只支持字节数组形式,producer需要构建消息,将序列化后的消息及一些基本信息包装成 ProducerRecord 类;如果没有指定发送的分区

kafka快速开始

点点圈 提交于 2019-11-28 20:11:42
文章目录 一、kafka介绍 1. kafka基本认识 1.1 kafka 4个核心API 2. 各版本变化说明 2.1 不同 Kafka 版本之间服务器和客户端的适配性 二、kafka入门 1. kafka基本术语概念 2. kafka消息设计 2.1 消息压缩 三、kafka connect 1. Kafka Connect的应用 2. Kafka Connect 组件的启动脚本 四、 Kafka Streams 1. 什么是流式计算 2. 关键概念 五、kafka环境搭建 六、kafka基本使用 1. kafka常用命令 2. 命令使用问题总结 1)报错:Error while fetching metadata with correlation id 2)消费消息报错zookeeper is not a recognized option 六、关于Kafka Consumer 1. push 还是 pull 2. Kafka重复消费原因 2.1 kafka重复消费解决方案 2.2 具体案例 七、关于Kafka 拦截器 1. 生产者拦截器 2. 消费者拦截器 八、常见问题整理 1. 消息丢失问题 2. kafka如何建立tcp连接 2.1 生产者代码是什么时候创建 TCP 连接的? 2.2 生产者何时关闭 TCP 连接? 2.3 消费者代码是什么时候创建 TCP 连接的? 2