数据库分区

kafka重点问题总结

旧街凉风 提交于 2020-02-11 14:32:44
这两天重点学习了下kafka消息队列,对其相关比较重要的问题进行总结。(以下内容均个人理解总结,不对的地方多多指正) 1. kafka组成 有哪些? Broker:kafka保存消息的中转站,集群中包含多个kafka服务节点,每个kafka服务节点就称为broker。 Topic:主题,用来存储不同类别的消息。 Partition:分区队列,一个Topic包个或多个Partition,在创建Topic时指定包含的Partition数量,kafka的有序性就是通过分区来实现,分区内是有序的。 Replication:副本,一个分区对应有多个副本,分布在不同的Broker上,副本的数量不会大于broker的数量,一个副本作为Leader,所有的读写请求都会通过Leader完成,Follower只负责备份数据所有Follower会自动的从Leader中复制数据,当Leader宕机后, 会从Follower中选出一个新的Leader继续提供服务,实现故障自动转移。 Message:消息,是通信的基本单位。 Producer:消息的生产者,向Kafka的一个topic发布消息,可以指定向某个分区发送消息。 Consumer:消息的消费者,订阅topic并消费其发布的消息。 Consumer Group:每个消费者都属于一个特定的Consumer Group,消费者组之间可以重复消费

第一章:Linux入门教程

陌路散爱 提交于 2020-02-01 19:16:03
Linux系统在全球都是比较受欢迎的,喜欢编程的更是对他爱不释手。好了不多bb,教程如下: io镜像都是通用,我在这儿用的是Red Hat。当然你们喜欢乌班图和centos也没啥问题,命令一样能敲。 Linux,在今天的广大电脑爱好者心中已经不再是那个遥不可及的新东西了,如果说几 年前的 Linux 是星星之火的话,如今 Linux 不仅在服务器领域的应用取得较大进展,而且在 桌面应用领域也有越来越多的人选择使用。Linux 的开放性和灵活性使它得以在实验室和其 它研究机构中被用于创新性技术变革的前沿,现在 Linux 已经真正地向广大的电脑爱好者们 敞开了大门。 只要你对 Linux 感兴趣,想要学习 Linux,那么本教程将带你走进 Linux 的世界。 第一章初识 Linux 在学习使用之前我们还是先来了解一下 Linux 吧。 Linux 是什么?按照 Linux 开发者的说法,Linux 是一个遵循 POSIX(标准操作系统界 面)标准的免费操作系统,具有 BSD 和 SYSV 的扩展特性(表明其在外表和性能上同常见的 UNIX 非常相象,但是所有系统核心代码已经全部被重新编写了)。它的版权所有者是芬兰 籍的 Linus B. Torvalds 先生。 1991 年 8 月这位来自芬兰赫尔辛基大学的年轻人 Linus Benedict Torvalds,对外发布

Zabbix数据库表分区

五迷三道 提交于 2020-02-01 03:40:46
zabbix的监控主机数量将近300,且运行了一年时间了,最近zabbix server服务监控历史数据等服务不断自身告警、查询性能也变得很低 关于历史数据的两个参数,在zabbix server的配置文件中 可以选择关闭housekeeper禁止自动定期清除历史记录数据,因为对于大数据的删除会直接影响zabbix的性能、或者调整相应参数 HousekeepingFrequency 取值范围:0-24 默认值:1 说明:housekeep执行频率,默认每小时回去删除一些过期数据。如果server重启,那么30分钟之后才执行一次,接下来,每隔一小时在执行一次。 MaxHousekeeperDelete 取值范围: 0-1000000 默认值:5000 housekeeping一次删除的数据不能大于MaxHousekeeperDelete 数据库优化 一、设置独立表空间(innodb_file_per_table=1) # 5.6版本以上自动开启 以上版本跳过这一段 1、清空history数据 [root@Zabbix-Server ~]# mysql -u zabbix -p MariaDB [(none)]> use zabbix; Reading table information for completion of table and column names You can

SQL Server 维护计划备份主分区

巧了我就是萌 提交于 2020-02-01 03:25:48
一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 方案(Solution) 实践(Practice) 部分T-SQL代码(SQL Codes) 参考文献(References) 二.背景(Contexts) 经过一段时间表分区的实践,我们先对表进行分区(形成表分区模板);表数据搬迁模板(迁移数据到新的分区表);分区管理自动化(自动化进行交换分区);详情请见: SQL Server 表分区实战系列(文章索引) 再进一步延伸,我们就需要对这些做了表分区的库进行备份了,之前写过一篇博文: SQL Server 备份和还原全攻略 ,这里描述了MSSQL的一些备份概念,今天这里虽然没有用到,但是像差异备份在备份比较大的情况下使用就会有很好的效果。 今天我们就来说说如何使用MSSQL的维护计划来备份表分区的。 假设这样一个 场景 :一个数据库现在已经几十G(如图1),但是占用主要空间的就是一两个表的数据(流水记录数据),其它的就是一些配置表,我们对这些配置表数据安全性要求比较高,而对流水数据比较低,那么我们有什么方案可以保证这个数据库的数据安全呢? (图1) 三.方案(Solution) 方案一:对于上面的场景,我们最简单、最合理的方案就是把这两个表PostSnapshot、PostLog分离出来作为一个新的数据库A

[Hive_8] Hive 设计优化

泄露秘密 提交于 2020-01-28 04:15:38
0. 说明   在 Hive 中,数据库是一个文件夹,表也是文件夹   partition,是一个字段,是文件   前提:在 Hive 进行 where 子句查询的时候,会将条件语句和全表进行比对, 搜索出所需的数据,性能极差,partition 就是为了避免全表扫描   bucket(桶表)   避免多级分区导致分区目录过多,以指定字段进行 hash 分桶   新型数据结构,以文件段的形式在分区表内部按照指定字段进行分隔   重要特性:优化 join 的速度 1. 分区   1.1 创建非分区表 user_nopar create table user_nopar (id int, name string, age int, province string, city string) row format delimited fields terminated by '\t';   1.2 加载数据 load data local inpath '/home/centos/files/user_nopar.txt' into table user_nopar;   1.3 创建分区表 user_par create table user_par(id int, name string, age int) partitioned by(province string, city

毕业设计的小知识点

假如想象 提交于 2020-01-28 02:43:11
参考b站up主 利用site:,只搜索IEEE中的论文 如何设置引用的格式 注意“参考文献”中的中文名字要用拼音 国内外学术期刊常识大科普 版权声明: 来源(首发):微信公众号《技能Tools》 国内期刊 :核心期刊;普刊;省级期刊与国家级期刊;A类、B类、C类期刊;C刊 国外期刊 :国外期刊概况;EI;Web of Science、SCI、ISI概况;SCI与SCIE;ESCI;Master Journal List(ISI期刊收录查询);ESI;ICR、影响因子;JCR期刊分区(中科院JCR分区、汤森路透JCR分区;合并、更名期刊的处理方式);期刊自引;CN与ISSN类刊物;OA期刊;通讯作者、第一作者、共同第一作者 核心期刊 :由一定的遴选体系筛选而产生的期刊,国内有七大核心期刊遴选体系: 北京大学图书馆“中文核心期刊”(中文核心) 南京大学“中文社会科学引文索引来源期刊”(C刊,CSSCI) 中科院信息研究所(中国科技核心期刊) 社科院文献信息中心(中国人文社会科学核心期刊) 中科院文献情报中心(CSCD,中国科学引文数据库) 中国人文社会科学学报学会(中国人文社科学报核心期刊) 万方(中国核心期刊遴选数据库) 双核心期刊:被两种遴选体系认定为核心,如北大、南大同时认定。 普刊 :普刊分为省级、国家级。 A类、B类、C类期刊

转载:一文看懂-Kafka消息队列

浪子不回头ぞ 提交于 2020-01-26 01:26:12
添加链接描述@ TOC 一、Kafka简介 1.1 什么是kafka kafka是一个分布式、高吞吐量、高扩展性的消息队列系统。kafka最初是由Linkedin公司开发的,后来在2010年贡献给了Apache基金会,成为了一个开源项目。主要应用在日志收集系统和消息系统,相信大家之前也听说过其他的消息队列中间件,比如RabbitMQ、AcitveMQ,其实kafka就是这么一个东西,也可以叫做KafkaMQ。总之,Kafka比其他消息队列要好一点,优点也比较多,稳定性和效率都比较高,大家都说好,那就是真的好。 1.2 Kafka中的相关概念 在理解Kafka的相关概念之前,我们先来看一张图,这张图基本上包括了Kafka所有的概念,对于我们理解Kafka十分有帮助。 上图中包含了2个Producer(生产者),一个Topic(主题),3个Partition(分区),3个Replica(副本),3个Broker(Kafka实例或节点),一个Consumer Group(消费者组),其中包含3个Consumer(消费者)。下面我们逐一介绍这些概念。 1.2.1 Producer(生产者) 生产者,顾名思义,就是生产东西的,也就是发送消息的,生产者每发送一个条消息必须有一个Topic(主题),也可以说是消息的类别,生产者源源不断的向kafka服务器发送消息。 1.2.2 Topic(主题)

资料搜集-JAVA系统的梳理知识14-Kafka

梦想的初衷 提交于 2020-01-25 07:34:19
> 本文由 JavaGuide 读者推荐,JavaGuide 对文章进行了整理排版!原文地址:https://www.wmyskxz.com/2019/07/17/kafka-ru-men-jiu-zhe-yi-pian/ , 作者:我没有三颗心脏。 # 一、Kafka 简介 ------ ## Kafka 创建背景 **Kafka** 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在它已被[多家不同类型的公司](https://cwiki.apache.org/confluence/display/KAFKA/Powered+By) 作为多种类型的数据管道和消息系统使用。 **活动流数据**是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件,然后周期性地对这些文件进行统计分析。**运营数据**指的是服务器的性能数据(CPU、IO 使用率、请求时间、服务日志等等数据)。运营数据的统计方法种类繁多。 近年来,活动和运营数据处理已经成为了网站软件产品特性中一个至关重要的组成部分

Kafka消费者APi

时光怂恿深爱的人放手 提交于 2020-01-25 02:04:52
Kafka客户端从集群中消费消息,并透明地处理kafka集群中出现故障服务器,透明地调节适应集群中变化的数据分区。也和服务器交互,平衡均衡消费者。 public class KafkaConsumer<K,V> extends Object implements Consumer<K,V> 消费者TCP长连接到broker来拉取消息。故障导致的消费者关闭失败,将会泄露这些连接,消费者不是线程安全的,可以查看更多关于 Multi-threaded(多线程) 处理的细节。 跨版本兼容性 该客户端可以与0.10.0或更新版本的broker集群进行通信。较早的版本可能不支持某些功能。例如, 0.10.0 broker不支持 offsetsForTimes ,因为此功能是在版本 0.10.1 中添加的。 如果你调用broker版本不可用的API时,将报 UnsupportedVersionException 异常。 偏移量和消费者的位置 kafka为分区中的每条消息保存一个 偏移量(offset) ,这个 偏移量 是该分区中一条消息的唯一标示符。也表示消费者在分区的位置。例如,一个位置是5的消费者(说明已经消费了0到4的消息),下一个接收消息的偏移量为5的消息。实际上有两个与消费者相关的“位置”概念: 消费者的位置给出了下一条记录的偏移量。它比消费者在该分区中看到的最大偏移量要大一个。

Mysql表分区几种方式

China☆狼群 提交于 2020-01-23 09:27:31
自5.1开始对分区(Partition)有支持,一张表最多1024个分区 查询分区数据: SELECT * from table PARTITION(p0) = 水平分区(根据列属性按行分)= 举个简单例子:一个包含十年发票记录的表可以被分区为十个不同的分区,每个分区包含的是其中一年的记录。 === 水平分区的几种模式:=== * Range(范围) – 这种模式允许DBA将数据划分不同范围。例如DBA可以将一个表通过年份划分成三个分区,80年代(1980's)的数据,90年代(1990's)的数据以及任何在2000年(包括2000年)后的数据。 * Hash(哈希) – 这中模式允许DBA通过对表的一个或多个列的Hash Key进行计算,最后通过这个Hash码不同数值对应的数据区域进行分区,。例如DBA可以建立一个对表主键进行分区的表。 * Key(键值) – 上面Hash模式的一种延伸,这里的Hash Key是MySQL系统产生的。 * List(预定义列表) – 这种模式允许系统通过DBA定义的列表的值所对应的行数据进行分割。例如:DBA建立了一个横跨三个分区的表,分别根据2004年2005年和2006年值所对应的数据。 * Composite(复合模式) - 很神秘吧,哈哈,其实是以上模式的组合使用而已,就不解释了。举例:在初始化已经进行了Range范围分区的表上