partition | 易学教程

Oracle入门（十二F）之表分区

阅读更多关于 Oracle入门（十二F）之表分区

转载自一、分区表基础知识 (1) 表空间及分区表的概念表空间：　　是一个或多个数据文件的集合，所有的数据对象都存放在指定的表空间中，但主要存放的是表，所以称作表空间。当表中的数据量不断增大，查询数据的速度就会变慢，应用程序的性能就会下降，这时就应该考虑对表进行分区。表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据在物理上存放到多个表空间(物理文件上)，这样查询数据时，不至于每次都扫描整张表。 (2)表分区的具体作用 Oracle的表分区功能通过改善可管理性、性能和可用性，从而为各式应用程序带来了极大的好处。通常，分区可以使某些查询以及维护操作的性能大大提高。此外,分区还可以极大简化常见的管理任务，分区是构建千兆字节数据系统或超高可用性系统的关键工具。分区功能能够将表、索引或索引组织表进一步细分为段，这些数据库对象的段叫做分区。每个分区有自己的名称，还可以选择自己的存储特性。从数据库管理员的角度来看，一个分区后的对象具有多个段，这些段既可进行集体管理，也可单独管理，这就使数据库管理员在管理分区后的对象时有相当大的灵活性。但是，从应用程序的角度来看，分区后的表与非分区表完全相同，使用 SQL DML 命令访问分区后的表时，无需任何修改。什么时候使用分区表： 1、表的大小超过2GB。 2、表中包含历史数据，新的数据被增加都新的分区中。 1、改善查询性能

Kafka主要配置

阅读更多关于 Kafka主要配置

属性默认值描述 broker.id 必填参数，broker的唯一标识 log.dirs /tmp/kafka-logs Kafka数据存放的目录。可以指定多个目录，中间用逗号分隔，当新partition被创建的时会被存放到当前存放partition最少的目录。 port 9092 BrokerServer接受客户端连接的端口号 zookeeper.connect null Zookeeper的连接串，格式为：hostname1:port1,hostname2:port2,hostname3:port3。可以填一个或多个，为了提高可靠性，建议都填上。注意，此配置允许我们指定一个zookeeper路径来存放此kafka集群的所有数据，为了与其他应用集群区分开，建议在此配置中指定本集群存放目录，格式为：hostname1:port1,hostname2:port2,hostname3:port3/chroot/path 。需要注意的是，消费者的参数要和此参数一致。 message.max.bytes 1000000 服务器可以接收到的最大的消息大小。注意此参数要和consumer的maximum.message.size大小一致，否则会因为生产者生产的消息太大导致消费者无法消费。 num.io.threads 8 服务器用来执行读写请求的IO线程数

kafka常见问题

阅读更多关于 kafka常见问题

consumer是底层采用的是一个阻塞队列，只要一有producer生产数据，那consumer就会将数据消费。当然这里会产生一个很严重的问题，如果你重启一消费者程序，那你连一条数据都抓不到，但是log文件中明明可以看到所有数据都好好的存在。换句话说，一旦你消费过这些数据，那你就无法再次用同一个groupid消费同一组数据了。原因：消费者消费了数据并不从队列中移除，只是记录了offset偏移量。同一个consumergroup的所有consumer合起来消费一个topic，并且他们每次消费的时候都会保存一个offset参数在 zookeeper 的root上。如果此时某个consumer挂了或者新增一个consumer进程，将会触发 kafka 的负载均衡，暂时性的重启所有consumer，重新分配哪个consumer去消费哪个partition，然后再继续通过保存在 zookeeper 上的offset参数继续读取数据。注意:offset保存的是consumer 组消费的消息偏移。要消费同一组数据，你可以 1 采用不同的group。 2 通过一些配置，就可以将线上产生的数据同步到镜像中去，然后再由特定的集群区处理大批量的数据。 Conosumer.properties配置文件中有两个重要参数 auto.commit.enable ：如果为true

Kafka顺序消息的处理方法

阅读更多关于 Kafka顺序消息的处理方法

对于某一个Topic，Kafka会将该Topic的数据划分为多个Partition，每个Partition中的数据只会被相同Consumer Group中的某一个Consumer消费。对于单个Partition而已，其中的数据是有序的，但是对于一个Topic，因为划分成了多个Partition，因此数据是无序的。如果需要保证某Topic的数据是有序的，需要将该Topic的Partition数量设置为1，那么对于该Topic只会存在一个Partition，因此顺序是有序的。但是这样会损失Kafka的吞吐量。来源：博客园作者： ybonfire 链接：https://www.cnblogs.com/ybonfire/p/11770127.html

kafka概念

阅读更多关于 kafka概念

来源：《Apache Kafka 实战》胡夕 kafka: 消息引擎 + 流式处理平台kafka streams = 流式处理框架 kafka核心架构： -生产者发送消息给kafka服务器。 -消费者从kafka服务器读取消息。 -kafka服务器依托ZooKeeper集群进行服务的协调管理。 kafka的消息是用二进制方式-字节数组ByteBuffer保存，且是结构化的消息。 kafka自己设计了一套二进制的消息传输协议。最常见的两种消息引擎范型：消息队列模型和发布/订阅模型，kafka同时支持这两种消息引擎模型。 borker-kafka服务器 producer-生产者 consumer-消费者 partition-分区 replica-副本 topic-主题 publisher-发布者 subscriber-订阅者消息消息：由消息头部、key和value组成。消息头部：包括CRC32校验码、版本号、属性（一位-压缩类型）、时间戳、键长度和消息体长度等信息。 -key:消息键，对消息做partition时使用，即决定消息被保存在某topic下的哪个partition。 -value：消息体，保存实际的消息数据。 -timestamp：消息发送时间戳，用于流式处理及其他依赖时间的处理语义。如果不指定则取当前时间。 topic主题、partition分区

Kafka基础

阅读更多关于 Kafka基础

常用命令总结：创建主题： ./kafka-topics.sh --create --topic words --replication-factor 3 --partitions 3 --zookeeper cloud0001:2181 查看主题： ./kafka-topics.sh --list --zookeeper cloud0001:2181 消费者客户端消费信息： ./kafka-console-consumer.sh --bootstrap-server cloud0001:9092 --from-beginning --topic words 消息只能被消费组里面的一个消费者消费，如果被多个消费者消费，这些消费者必须在不同的消费组里面。 Kafka需要维持的元数据只有一个offset值，Consumer每消费一个消息，offset就会加1，消息的状态完全是由Consumer控制的，Consumer可以跟踪和重设这个offset值，这样的话Consumer就可以读取任意位置的消息。 replication-factor是以partition为单位的，只有一个partition的副本会被选举成leader作为读写用. Producer在发送消息后，会得到一个响应，出现了一个重要的参数：默认值好像是0，在Producer中配置。 acks = 0 :

kafka面试题

阅读更多关于 kafka面试题

1 什么是kafka Kafka是分布式发布-订阅消息系统，它最初是由LinkedIn公司开发的，之后成为Apache项目的一部分，Kafka是一个分布式，可划分的，冗余备份的持久性的日志服务，它主要用于处理流式数据。 2 为什么要使用 kafka，为什么要使用消息队列缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把消息暂存在kafka中，下游服务就可以按照自己的节奏进行慢慢处理。解耦和扩展性：项目开始的时候，并不能确定具体需求。消息队列可以作为一个接口层，解耦重要的业务流程。只需要遵守约定，针对数据编程即可获取扩展能力。冗余：可以采用一对多的方式，一个生产者发布消息，可以被多个订阅topic的服务消费到，供多个毫无关联的业务使用。健壮性：消息队列可以堆积请求，所以消费端业务即使短时间死掉，也不会影响主要业务的正常进行。异步通信：很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。 3.Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么 ISR:In-Sync Replicas 副本同步队列 AR:Assigned Replicas 所有副本

Hive中的数据分区

阅读更多关于 Hive中的数据分区

首先认识什么是分区 Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成更下的数据集。 1. 如何定义分区，创建分区 hive > create table test(name string,sex int) partitioned by (birth string, age string); Time taken: 0.044 seconds hive> alter table test add partition (birth='1980', age ='30'); Time taken: 0.079 seconds hive> alter table test add partition ( birth ='1981', age ='29'); Time taken: 0.052 seconds hive> alter table test add partition ( birth ='1982', age ='28'); Time taken: 0.056 seconds hive> show partitions test; birth=1980/ age =30 birth=1981/ age =29 birth=1982/ age =28 2. 如何删除分区 hive> alter table test drop partition (birth=

Hive的insert操作

阅读更多关于 Hive的insert操作

insert 语法格式为： 1. 基本的插入语法： insert overwrite table tablename [partition(partcol1=val1,partclo2=val2)] select_statement; insert into table tablename [partition(partcol1=val1,partclo2=val2)] select_statement; eg： insert overwrite table test_insert select * from test_table; insert into table test_insert select * from test_table; 注： overwrite重写，into追加。 2. 对多个表进行插入操作： from source_table insert overwrite table tablename1 [partition (partcol1=val1,partclo2=val2)] select_statement1 insert overwrite table tablename2 [partition (partcol1=val1,partclo2=val2)] select_statement2 eg: from test_table insert

CentOS 7 添加Swap分区

阅读更多关于 CentOS 7 添加Swap分区

Swap分区，即交换分区，系统在运行内存不够时，与Swap进行交换。其实，Swap的调整对Linux服务器，特别是Web服务器的性能至关重要。通过调整Swap，有时可以越过系统性能瓶颈，节省系统升级费用设置Swap分区有两种方式添加磁盘作为交换分区如果你是用的是虚拟机，例如VMware ，那么为你的虚拟机添加一块1G或者2G的磁盘，swap分区一般设置为内存的2倍，在添加好磁盘以后，对磁盘进行分区，执行以下操作获取添加磁盘的名字，一般第一块磁盘是/dev/sda，第二块磁盘是/dev/sdb fdisk - l Disk / dev / sdb : 2147 MB , 2147483648 bytes , 4194304 sectors Units = sectors of 1 * 512 = 512 bytes Sector size ( logical / physical ): 512 bytes / 512 bytes I / O size ( minimum / optimal ): 512 bytes / 512 bytes 接下来是对磁盘操作，建立分区 fdisk / dev / sdb Welcome to fdisk ( util - linux 2.23 . 2 ). Changes will remain in memory only , until

订阅 partition