partition

Oracle入门(十二F)之表分区

匿名 (未验证) 提交于 2019-12-03 00:22:01
转载自 一、分区表基础知识 (1) 表空间及分区表的概念 表空间:   是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间。 当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区。表进行分区后,逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件上),这样查询数据时,不至于每次都扫描整张表。 (2)表分区的具体作用 Oracle的表分区功能通过改善可管理性、性能和可用性,从而为各式应用程序带来了极大的好处。通常,分区可以使某些查询以及维护操作的性能大大提高。此外,分区还可以极大简化常见的管理任务,分区是构建千兆字节数据系统或超高可用性系统的关键工具。 分区功能能够将表、索引或索引组织表进一步细分为段,这些数据库对象的段叫做分区。每个分区有自己的名称,还可以选择自己的存储特性。从数据库管理员的角度来看,一个分区后的对象具有多个段,这些段既可进行集体管理,也可单独管理,这就使数据库管理员在管理分区后的对象时有相当大的灵活性。但是,从应用程序的角度来看,分区后的表与非分区表完全相同,使用 SQL DML 命令访问分区后的表时,无需任何修改。 什么时候使用分区表: 1、表的大小超过2GB。 2、表中包含历史数据,新的数据被增加都新的分区中。 1、改善查询性能

Kafka主要配置

匿名 (未验证) 提交于 2019-12-03 00:19:01
属性 默认值 描述 broker.id 必填参数,broker的唯一标识 log.dirs /tmp/kafka-logs Kafka数据存放的目录。可以指定多个目录,中间用逗号分隔,当新partition被创建的时会被存放到当前存放partition最少的目录。 port 9092 BrokerServer接受客户端连接的端口号 zookeeper.connect null Zookeeper的连接串,格式为:hostname1:port1,hostname2:port2,hostname3:port3。可以填一个或多个,为了提高可靠性,建议都填上。注意,此配置允许我们指定一个zookeeper路径来存放此kafka集群的所有数据,为了与其他应用集群区分开,建议在此配置中指定本集群存放目录,格式为:hostname1:port1,hostname2:port2,hostname3:port3/chroot/path 。需要注意的是,消费者的参数要和此参数一致。 message.max.bytes 1000000 服务器可以接收到的最大的消息大小。注意此参数要和consumer的maximum.message.size大小一致,否则会因为生产者生产的消息太大导致消费者无法消费。 num.io.threads 8 服务器用来执行读写请求的IO线程数

kafka常见问题

匿名 (未验证) 提交于 2019-12-03 00:17:01
consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。 原因 :消费者消费了数据并不从队列中移除,只是记录了offset偏移量。同一个consumergroup的所有consumer合起来消费一个topic,并且他们每次消费的时候都会保存一个offset参数在 zookeeper 的root上。如果此时某个consumer挂了或者新增一个consumer进程,将会触发 kafka 的负载均衡,暂时性的重启所有consumer,重新分配哪个consumer去消费哪个partition,然后再继续通过保存在 zookeeper 上的offset参数继续读取数据。注意:offset保存的是consumer 组消费的消息偏移。 要消费同一组数据 ,你可以 1 采用不同的group。 2 通过一些配置,就可以将线上产生的数据同步到镜像中去,然后再由特定的集群区处理大批量的数据。 Conosumer.properties配置文件中有两个重要参数 auto.commit.enable :如果为true

Kafka顺序消息的处理方法

匿名 (未验证) 提交于 2019-12-03 00:15:02
对于某一个Topic,Kafka会将该Topic的数据划分为多个Partition,每个Partition中的数据只会被相同Consumer Group中的某一个Consumer消费。 对于单个Partition而已,其中的数据是有序的,但是对于一个Topic,因为划分成了多个Partition,因此数据是无序的。 如果需要保证某Topic的数据是有序的,需要将该Topic的Partition数量设置为1,那么对于该Topic只会存在一个Partition,因此顺序是有序的。 但是这样会损失Kafka的吞吐量。 来源:博客园 作者: ybonfire 链接:https://www.cnblogs.com/ybonfire/p/11770127.html

kafka概念

匿名 (未验证) 提交于 2019-12-03 00:15:02
来源:《Apache Kafka 实战》胡夕 kafka: 消息引擎 + 流式处理平台kafka streams = 流式处理框架 kafka核心架构 : -生产者发送消息给kafka服务器。 -消费者从kafka服务器读取消息。 -kafka服务器依托ZooKeeper集群进行服务的协调管理。 kafka的消息是用二进制方式-字节数组ByteBuffer保存,且是结构化的消息。 kafka自己设计了一套二进制的消息传输协议。 最常见的两种消息引擎范型:消息队列模型和发布/订阅模型,kafka同时支持这两种消息引擎模型。 borker-kafka服务器 producer-生产者 consumer-消费者 partition-分区 replica-副本 topic-主题 publisher-发布者 subscriber-订阅者 消息 消息:由消息头部、key和value组成。 消息头部:包括CRC32校验码、版本号、属性(一位-压缩类型)、时间戳、键长度和消息体长度等信息。 -key:消息键,对消息做partition时使用,即决定消息被保存在某topic下的哪个partition。 -value:消息体,保存实际的消息数据。 -timestamp:消息发送时间戳,用于流式处理及其他依赖时间的处理语义。如果不指定则取当前时间。 topic主题、partition分区

Kafka基础

匿名 (未验证) 提交于 2019-12-03 00:14:01
常用命令总结: 创建主题: ./kafka-topics.sh --create --topic words --replication-factor 3 --partitions 3 --zookeeper cloud0001:2181 查看主题: ./kafka-topics.sh --list --zookeeper cloud0001:2181 消费者客户端消费信息: ./kafka-console-consumer.sh --bootstrap-server cloud0001:9092 --from-beginning --topic words 消息只能被消费组里面的一个消费者消费,如果被多个消费者消费,这些消费者必须在不同的消费组里面。 Kafka需要维持的元数据只有一个offset值,Consumer每消费一个消息,offset就会加1,消息的状态完全是由Consumer控制的,Consumer可以跟踪和重设这个offset值,这样的话Consumer就可以读取任意位置的消息。 replication-factor是以partition为单位的,只有一个partition的副本会被选举成leader作为读写用. Producer在发送消息后,会得到一个响应,出现了一个重要的参数:默认值好像是0,在Producer中配置。 acks = 0 :

kafka面试题

匿名 (未验证) 提交于 2019-12-03 00:13:02
1 什么是kafka Kafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。 2 为什么要使用 kafka,为什么要使用消息队列 缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,下游服务就可以按照自己的节奏进行慢慢处理。 解耦和扩展性:项目开始的时候,并不能确定具体需求。消息队列可以作为一个接口层,解耦重要的业务流程。只需要遵守约定,针对数据编程即可获取扩展能力。 冗余:可以采用一对多的方式,一个生产者发布消息,可以被多个订阅topic的服务消费到,供多个毫无关联的业务使用。 健壮性:消息队列可以堆积请求,所以消费端业务即使短时间死掉,也不会影响主要业务的正常进行。 异步通信:很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。 3.Kafka中的ISR、AR又代表什么?ISR的伸缩又指什么 ISR:In-Sync Replicas 副本同步队列 AR:Assigned Replicas 所有副本

Hive中的数据分区

匿名 (未验证) 提交于 2019-12-03 00:03:02
首先认识什么是分区 Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成更下的数据集。 1. 如何定义分区,创建分区 hive > create table test(name string,sex int) partitioned by (birth string, age string); Time taken: 0.044 seconds hive> alter table test add partition (birth='1980', age ='30'); Time taken: 0.079 seconds hive> alter table test add partition ( birth ='1981', age ='29'); Time taken: 0.052 seconds hive> alter table test add partition ( birth ='1982', age ='28'); Time taken: 0.056 seconds hive> show partitions test; birth=1980/ age =30 birth=1981/ age =29 birth=1982/ age =28 2. 如何删除分区 hive> alter table test drop partition (birth=

Hive的insert操作

匿名 (未验证) 提交于 2019-12-03 00:03:02
insert 语法格式为: 1. 基本的插入语法: insert overwrite table tablename [partition(partcol1=val1,partclo2=val2)] select_statement; insert into table tablename [partition(partcol1=val1,partclo2=val2)] select_statement; eg: insert overwrite table test_insert select * from test_table; insert into table test_insert select * from test_table; 注: overwrite重写,into追加。 2. 对多个表进行插入操作: from source_table insert overwrite table tablename1 [partition (partcol1=val1,partclo2=val2)] select_statement1 insert overwrite table tablename2 [partition (partcol1=val1,partclo2=val2)] select_statement2 eg: from test_table insert

CentOS 7 添加Swap分区

匿名 (未验证) 提交于 2019-12-02 23:55:01
Swap分区,即交换分区,系统在运行内存不够时,与Swap进行交换。 其实,Swap的调整对Linux服务器,特别是Web服务器的性能至关重要。通过调整Swap,有时可以越过系统性能瓶颈,节省系统升级费用 设置Swap分区有两种方式 添加磁盘作为交换分区 如果你是用的是虚拟机,例如VMware ,那么为你的虚拟机添加一块1G或者2G的磁盘,swap分区一般设置为内存的2倍,在添加好磁盘以后,对磁盘进行分区,执行以下操作 获取添加磁盘的名字,一般第一块磁盘是/dev/sda,第二块磁盘是/dev/sdb fdisk - l Disk / dev / sdb : 2147 MB , 2147483648 bytes , 4194304 sectors Units = sectors of 1 * 512 = 512 bytes Sector size ( logical / physical ): 512 bytes / 512 bytes I / O size ( minimum / optimal ): 512 bytes / 512 bytes 接下来是对磁盘操作,建立分区 fdisk / dev / sdb Welcome to fdisk ( util - linux 2.23 . 2 ). Changes will remain in memory only , until