partition | 易学教程

pta6-1 快速排序

阅读更多关于 pta6-1 快速排序

给一个无序表，使用快速排序算法对它进行排序。函数接口定义： int Partition(SqList &L,int low,int high); void QuickSort(SqList &L, int low, int high); 其中L是待排序表，low和high是排序的区间。裁判测试程序样例： # include <iostream> using namespace std ; # define MAXSIZE 50 typedef int KeyType ; typedef struct { KeyType key ; } ElemType ; typedef struct { ElemType r [ MAXSIZE + 1 ] ; int length ; } SqList ; void Create ( SqList & L ) { int i ; cin >> L . length ; for ( i = 1 ; i <= L . length ; i ++ ) cin >> L . r [ i ] . key ; } void Output ( SqList L ) { int i ; for ( i = 1 ; i <= L . length ; i ++ ) cout << L . r [ i ] . key << " " ; cout << endl

kafka partition（分区）与 group

阅读更多关于 kafka partition（分区）与 group

1、原理图 2、原理描述一个topic 可以配置几个partition，produce发送的消息分发到不同的partition中，consumer接受数据的时候是按照group来接受，kafka确保每个partition只能同一个group中的同一个consumer消费，如果想要重复消费，那么需要其他的组来消费。Zookeerper中保存这每个topic下的每个partition在每个group中消费的offset 新版kafka把这个offsert保存到了一个__consumer_offsert的topic下这个__consumer_offsert 有50个分区，通过将group的id哈希值%50的值来确定要保存到那一个分区. 这样也是为了考虑到zookeeper不擅长大量读写的原因。所以，如果要一个group用几个consumer来同时读取的话，需要多线程来读取，一个线程相当于一个consumer实例。当consumer的数量大于分区的数量的时候，有的consumer线程会读取不到数据。假设一个topic test 被groupA消费了，现在启动另外一个新的groupB来消费test，默认test-groupB的offset不是0，而是没有新建立，除非当test有数据的时候，groupB会收到该数据，该条数据也是第一条数据

lvm

阅读更多关于 lvm

改变分区类型 fdisk /dev/sdb 创建分区 t改变分区类型：物理卷（Physical Volume，PV）：指磁盘分区或从逻辑上与磁盘分区具有同样功能的设备（如RAID），是LVM的基本存储逻辑块，但和基本的物理存储介质（如分区、磁盘等）比较，却包含有与LVM相关的管理参数。准备物理卷 pvcreate /dev/sdb1 pvcreate /dev/sdb2 pvcreate /dev/sdb3 pvdisplay/pvs：列出当前的物理卷【用pvs列出】 pvremove /dev/sdb3：删除物理卷 vgcreate vg1 /dev/sdb1 /dev/sdb2 /dev/sdb3 vgdisplay/vgs：列出卷组 vgremove vg1删除物理卷创建逻辑卷： lvcreate： -L：指定逻辑卷的大小，单位为“kKmKgGtT”字节 -l：指定逻辑卷的大小（LE数） -n：后面跟逻辑卷名 -s：创建快照 lvcreate -L 200M -n lv1 vg1 列出逻辑卷 lvdisplay 格式化mkfs.xfs /dev/vg1/lv1，再挂载删除逻辑卷 lvremove /dev/vg1/lv1 重新设置卷大小 lvresize -L 300M /dev/vg1/lv1 e2fsck：用于检查使用 Linux ext2 档案系统的

Hive中数据的加载和导出

阅读更多关于 Hive中数据的加载和导出

关于 Hive DML 语法，你可以参考 apache 官方文档的说明: Hive Data Manipulation Language 。 apache的hive版本现在应该是 0.13.0，而我使用的 hadoop 版本是 CDH5.0.1，其对应的 hive 版本是 0.12.0。故只能参考apache官方文档来看 cdh5.0.1 实现了哪些特性。因为 hive 版本会持续升级，故本篇文章不一定会和最新版本保持一致。 1. 准备测试数据首先创建普通表： create table test(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 创建分区表： CREATE EXTERNAL TABLE test_p(id int,name string)partitioned by (date STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\,' LINES TERMINATED BY '\n'STORED AS TEXTFILE; 准备数据文件： [/tmp]# cat test.txt 1,a 2,b 3,c 4,d 2.加载数据语法如下： LOAD DATA [LOCAL] INPATH

Kafka知识点整理

阅读更多关于 Kafka知识点整理

一、为什么需要消息系统 1.解耦：　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。 2.冗余：　　消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。 3.扩展性：　　因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。 4.灵活性 & 峰值处理能力：　　在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。 5.可恢复性：　　系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。 6.顺序保证：　　在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。（Kafka 保证一个 Partition 内的消息的有序性） 7.缓冲：　　有助于控制和优化数据流经过系统的速度

Kafka 及 PyKafka 的使用

阅读更多关于 Kafka 及 PyKafka 的使用

1. Kafka 　　 1. 简介　　　　Kafka 是一种分布式的、分区的、多副本的基于发布／订阅的消息系统。它是通过 zookeeper 进行协调，常见可以用于 web/nginx 日志、访问日志、消息服务等。主要应用场景为：日志收集系统和消息系统。　　　　Kafka 的主要设计目标如下：　　　　　　1. 以时间复杂度为 O(1) 的方式提供持久化能力，即使对 TB 级别以上的数据也能保证常数时间的访问性能。　　　　　　2. 高吞吐率，即使在十分廉价的机器上也能实现单机支持每秒 100K 条消息的传输。　　　　　　3. 支持 Kafka Server (即 Kafka 集群的服务器)间的消息分区，及分布式消费，同时保证每个 partition 内的消息顺序传输。　　　　　　4. 同时支持离线数据处理和实时数据处理　　2. Kafka 架构　　　　如上图所示，一个 Kafka 集群由若干producer、若干consumer、若干broker，以及一个zookeeper集群所组成。Kafka通过zookeeper管理集群配置，选举leader，以及在consumer group发生变化时进行rebalance。producer使用push模式将消息发布到broker，consumer使用pull模式从broker订阅并消费消息。　　　　Kafka名词解释：　

大白话图解kafka

阅读更多关于大白话图解kafka

前言应大部分的小伙伴的要求，在Yarn之前先来一个kafka的小插曲，轻松愉快。一、Kafka基础消息系统的作用应该大部份小伙伴都清楚，用机油装箱举个例子所以消息系统就是如上图我们所说的仓库，能在中间过程作为缓存，并且实现解耦合的作用。引入一个场景，我们知道中国移动，中国联通，中国电信的日志处理，是交给外包去做大数据分析的，假设现在它们的日志都交给了你做的系统去做用户画像分析。按照刚刚前面提到的消息系统的作用，我们知道了消息系统其实就是一个模拟缓存，且仅仅是起到了缓存的作用而并不是真正的缓存，数据仍然是存储在磁盘上面而不是内存。 1.Topic 主题 kafka学习了数据库里面的设计，在里面设计了topic（主题），这个东西类似于关系型数据库的表此时我需要获取中国移动的数据，那就直接监听TopicA即可 2.Partition 分区 kafka还有一个概念叫Partition（分区），分区具体在服务器上面表现起初就是一个目录，一个主题下面有多个分区，这些分区会存储到不同的服务器上面，或者说，其实就是在不同的主机上建了不同的目录。这些分区主要的信息就存在了.log文件里面。跟数据库里面的分区差不多，是为了提高性能。至于为什么提高了性能，很简单，多个分区多个线程，多个线程并行处理肯定会比单线程好得多

kafka学习记录一（术语）

阅读更多关于 kafka学习记录一（术语）

kafka:消息引擎系统 Kafka 的标准定位是分布式流式处理平台（ Kafka 0.10.0.0 版本正式推出了 Kafka Streams ，即流式处理组件。自此 Kafka 正式成为了个流式处理框架，而不仅仅是消息引擎了。）消息引擎系统的两个重要因素：消息设计 + 传输协议设计消息设计：即结构化消息，如soap的xml格式，webservcie的json，kafka采用二进制；传输协议设计：主流的有AMQP，webservice,RPC中有阿里的dubbo，kafka自己设计了一套二进制消息传输协议；消息引擎范型：消息队列模型（queue\sender\receiver\p2p）、发布/订阅模型(pub/sub/topic) kafka的设计理念：吞吐量/延时（高并发性）；消息持久化（高可靠性）；负载均衡和故障转移（高可用性）；伸缩性；一、kafka的高吞吐量、低延时采用了追加写入消息的方式，即只能在日志文件末尾追加写入的新消息，且不允许修改已写入的消息，因此它属于典型的磁盘顺序访问型操作，在实际操作中可以很轻松的做到每秒写入几万甚至几十万条消息。如果我们监控一个经过良好调优的 Kafka 生产集群便可以发现，即使是那些有负载的 Kafka 服务器，其磁盘的读操作也很少，这是因为大部分的消息读取操作会直接命中页缓存。二、持久化：

Kafka（二）

阅读更多关于 Kafka（二）

Kafka工作流程分析写入方式 producer采用推（push）模式将消息发布到broker，每条消息都被追加（append）到分区（patition）中，属于顺序写磁盘（顺序写磁盘效率比随机写内存要高，保障kafka吞吐率）。分区（Partition） Kafka集群有多个消息代理服务器（broker-server）组成，发布到Kafka集群的每条消息都有一个类别，用主题（topic）来表示。通常，不同应用产生不同类型的数据，可以设置不同的主题。一个主题一般会有多个消息的订阅者，当生产者发布消息到某个主题时，订阅了这个主题的消费者都可以接收到生成者写入的新消息。 Kafka集群为每个主题维护了分布式的分区（partition）日志文件，物理意义上可以把主题（topic）看作进行了分区的日志文件（partition log）。主题的每个分区都是一个有序的、不可变的记录序列，新的消息会不断追加到日志中。分区中的每条消息都会按照时间顺序分配到一个单调递增的顺序编号，叫做偏移量（offset），这个偏移量能够唯一地定位当前分区中的每一条消息。消息发送时都被发送到一个topic，其本质就是一个目录，而topic是由一些Partition Logs(分区日志)组成，其组织结构如下图所示：下图中的topic有3个分区，每个分区的偏移量都从0开始，不同分区之间的偏移量都是独立的

Hive 窗口函数

阅读更多关于 Hive 窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析（在线分析处理）。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数. 在深入研究Over字句之前，一定要注意：在SQL处理中，窗口函数都是最后一步执行，而且仅位于Order by字句之前。数据准备我们准备一张order表,字段分别为name,orderdate,cost.数据内容如下: jack,2015-01-01,10 tony,2015-01-02,15 jack,2015-02-03,23 tony,2015-01-04,29 jack,2015-01-05,46 jack,2015-04-06,42 tony,2015-01-07,50 jack,2015-01-08,55 mart,2015-04-08,62 mart,2015-04-09,68 neil,2015-05-10,12 mart,2015-04-11,75 neil,2015-06-12,80 mart,2015-04-13,94

订阅 partition