Kafka | 易学教程

11月最新出台！阿里内部PPT涵盖研发篇、算法篇、Java后端架构、spring、微服务、分布式等

阅读更多关于 11月最新出台！阿里内部PPT涵盖研发篇、算法篇、Java后端架构、spring、微服务、分布式等

我只截图不说话，PPT大全，氛围研发篇、算法篇、大数据、Java后端架构！除了大家熟悉的交易、支付场景外，支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈：覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。需要免费领取阿里全部资料的朋友麻烦帮忙转发一下文章+评论+收藏+关注我，然后加小猪理VX：wjj2632646 研发篇部分截图一览，感谢大佬们的分享算法篇部分截图一览，直接上目录机器算法大集合 PPT内容还有很多！涵盖阿里巴巴的全部技术栈！需要免费领取阿里全部资料的朋友麻烦帮忙转发一下文章+评论+收藏+关注我，然后加小猪理VX：wjj2632646 阿里巴巴开发手册1.4.0（终极版）编程规约异常日志单元测试安全规约 MySQL数据库工程结构 Java核心知识PDF JVM JAVA集合 JAVA多线程并发 JAVA基础 Spring 原理微服务 Netty与RPC 网络日志 Zookeeper Kafka Rabbi tMQ Hbase MongoDB Cassandra 设计模式负载均衡数据库一致性算法 JAVA算法数据结构加密算法分布式缓存 Hadoop Spark Storm YARN

TiDB 的现在和未来

阅读更多关于 TiDB 的现在和未来

本文根据黄东旭在 PingCAP D 轮融资线上发布会的演讲实录进行整理。 TiDB 的现在和未来大家好，我是黄东旭，是 PingCAP 的联合创始人和 CTO，这是 PingCAP 成立以来的第一次发布会，我想跟大家简单聊聊 TiDB 在产品和技术上的更新。考虑到线上的很多观众不一定是有很强的技术背景，我将尽我所能将技术的部分说得让大家都能够理解。在讲正题之前有一个小故事，我们做基础软件的产品经理去跟客户聊需求的时候，客户经常都会说：对于数据库，我的要求特别简单、特别基础、非常朴素，我不要求很多功能，安全稳定是必须的，最好能高可用，性能一定要好，如果数据量大了，能实现弹性伸缩就更好了；另外，最好别让我学太多新东西，用起来跟过去使用的产品差不多，这就是一款完美的数据库产品。就像大家在家里用自来水一样，我们对自来水的需求就是拧开水龙头水就能出来，但是背后自来水厂是怎么处理的大家不用知道，我们只需要根据实际情况使用冷水或者热水就好。但是从技术的角度来说，刚才类似冷热水这个非常朴素的基础需求，类比一下放到数据库的世界这就是一个图灵奖级别的基础需求，稍微解释一下图灵奖是计算机行业学术界最顶级的，相当于计算机界的诺贝尔奖。这里有两位行业泰斗级的人物，左边 Leslie Lamport 在 2013 年研究相关问题拿了图灵奖，右边这位跟我们挺有缘的，发型跟（我们的 CEO）刘奇同学挺像

面了美团我才知道大公司的面试有多恐怖，附上我的美团5面经历，终拿offer！

阅读更多关于面了美团我才知道大公司的面试有多恐怖，附上我的美团5面经历，终拿offer！

前言面了美团，越发让我觉得想进大厂还需要很长时间的积累，问的知识点并没有那么多那么宽，但是会比我看到的更深入一点更贴近使用场景一点，自己差的还很远，可能真的要以春招为目标了 1.自我介绍 2.简单说一下项目，项目的问题，难点 3.Mybatis的＄和#的区别 4.Mysql的存储引擎有哪些 5.Myisam和Inodb的区别 6.Innodb一定要有主键嘛，原因是什么 7.主键为什么建议使用自增主键，比如是字符串可以做主键嘛 8.Innodb的锁有哪些 9.解释一下间隙锁 10.间隙锁是共享锁还是排它锁 11.共享锁和排它锁对比 12.什么情况触发表锁和行锁和间隙锁（间隙锁没答对被追问了） 13.最左匹配原则，abc，顺序也是abc，什么情况索引肯定会失效，什么情况下整个索引都失效 14.spring mvc的执行流程 15.lock的底层实现原理（忘记了，很尴尬，很急但就是想不起来了） 16.jdk的线程池有哪些，怎么选择使用哪个线程池（只记得概念，怎么选择完全说不出来） 17.核心线程数和最大线程数的数量该设计为多大 18.设计模式了解哪些，工厂模式什么情况会用到 19.哪个框架在什么地方会用到这些模式 20.有用过redis，esmq嘛（后面告诉我我的知识范围宽度广度都需要提高，这些技术还需要去学习 😭😭) 21.jvm什么情况下触发young gc和full gc

Java后端面试题

阅读更多关于 Java后端面试题

标★号为重要知识点 id全局唯一且自增，如何实现？ Redis的 incr 和 increby 自增原子命令统一数据库的id发放美团Leaf Leaf——美团点评分布式ID生成系统（批发号段） Twitter的snowflake算法 UUID ★如何设计算法压缩一段URL？通过发号策略，给每一个过来的长地址，发一个号即可，小型系统直接用mysql的自增索引就搞定了。如果是大型应用，可以考虑各种分布式key-value系统做发号器。不停的自增就行了。第一个使用这个服务的人得到的短地址是 http://xx.xx/0 第二个是 http://xx.xx/1 第11个是 http://xx.xx/a 第依次往后，相当于实现了一个62进制的自增字段即可。常用的url压缩算法是短地址映射法。具体步骤是：将长网址用md5算法生成32位签名串，分为4段,，每段8个字符；对这4段循环处理，取每段的8个字符, 将他看成16进制字符串与0x3fffffff(30位1)的位与操作，超过30位的忽略处理；将每段得到的这30位又分成6段，每5位的数字作为字母表的索引取得特定字符，依次进行获得6位字符串；这样一个md5字符串可以获得4个6位串，取里面的任意一个就可作为这个长url的短url地址。 ★Dubbo负载均衡策略？随机、轮询、最少使用、一致性哈希（除了一致性哈希外，都有加权）

Scalability of Kafka Messaging using Consumer Groups

阅读更多关于 Scalability of Kafka Messaging using Consumer Groups

May 10, 2018 By Suhita Goswami No Comments Categories: Data Ingestion Flume Kafka Use Case Traditional messaging models fall into two categories: Shared Message Queues and Publish-Subscribe models. Both models have their own pros and cons. Neither could successfully handle big data ingestion at scale due to limitations in their design. Apache Kafka implements a publish-subscribe messaging model which provides fault tolerance, scalability to handle large volumes of streaming data for real-time analytics. It was developed at LinkedIn in 2010 to meet its growing data pipeline needs. Apache Kafka

互联网公司的面试官是如何360°无死角考察候选人的？

阅读更多关于互联网公司的面试官是如何360°无死角考察候选人的？

作者：石杉的架构笔记一、写在前面最近收到不少读者反馈，说自己在应聘一些中大型互联网公司的Java工程师岗位时遇到了不少困惑。这些同学说自己也做了精心准备，网上搜集了不少Java面试题，然而实际去互联网公司面试才发现，人家问的，和你准备的对不上号，这就很尴尬了。二、先来体验一个真实的面试连环炮好，闲话不多说，我们进入正题！本系列文章，我们将会从消息中间件、分布式缓存、分布式搜索、分布式架构、海量数据、NoSQL、高并发、高可用、高性能、数据库、JVM虚拟机等各方面聊一下面试中的高频技术问题。现在一些中大型互联网公司的面试官，在面试候选人时，一般都会采取连环炮的策略来深挖一个候选人的技术水平。举个例子，比如说看你简历上写了熟悉消息中间件（MQ技术）。那么可能我们就会有一个类似下面这样的连环炮式发问：说说你们公司线上生产环境用的是什么消息中间件？那你们线上系统是有哪些技术挑战，为什么必须要在系统里引入消息中间件？你们的消息中间件技术选型为什么是RabbitMQ？为什么不用RocketMQ或者是Kafka？技术选型的依据是什么？你们怎么保证消息中间件的高可用性？避免消息中间件故障后引发系统整体故障？使用消息中间件技术的时候，你们怎么保证投递出去的消息一定不会丢失？你们怎么保证投递出去的消息只有一条且仅仅一条，不会出现重复的数据？

Flink 1.11 与 Hive 批流一体数仓实践

阅读更多关于 Flink 1.11 与 Hive 批流一体数仓实践

导读：Flink 从 1.9.0 开始提供与 Hive 集成的功能，随着几个版本的迭代，在最新的 Flink 1.11 中，与 Hive 集成的功能进一步深化，并且开始尝试将流计算场景与Hive 进行整合。本文主要分享在 Flink 1.11 中对接 Hive 的新特性，以及如何利用 Flink 对 Hive 数仓进行实时化改造，从而实现批流一体的目标。主要内容包括： · Flink 与 Hive 集成的背景介绍 · Flink 1.11中的新特性 · 打造 Hive 批流一体数仓一、 Flink 与 Hive 集成背景为什么要做 Flink 和 Hive 集成的功能呢？最早的初衷是我们希望挖掘 Flink 在批处理方面的能力。众所周知，Flink 在流计算方面已经是成功的引擎了，使用的用户也非常多。在 Flink 的设计理念当中，批计算是流处理中的一个特例。也就意味着，如果 Flink 在流计算方面做好，其实它的架构也能很好的支持批计算的场景。在批计算的场景中，SQL 是一个很重要的切入点。因为做数据分析的同学，他们更习惯使用SQL 进行开发，而不是去写 DataStream 或者 DataSet 这样的程序。 Hadoop 生态圈的 SQL 引擎，Hive 是一个事实上的标准。大部分的用户环境中都会使用到了 Hive 的一些功能，来搭建数仓。一些比较新的 SQL 的引擎

滴滴实时数仓逐层剖解：实时与离线数据误差<0.5%

阅读更多关于滴滴实时数仓逐层剖解：实时与离线数据误差

作者介绍潘澄，资深软件开发工程师。负责实时数据仓库建设，多年数据相关工作经验，专注数据建模、数据仓库、实时数据技术等领域。朱峰，高级软件开发工程师。主要从事实时数据仓库建设，专注实时和离线数仓技术，对数仓建模、数据研发和数仓中间层建设有一定的积累。前言随着滴滴业务的高速发展，业务对于数据时效性的需求越来越高，而伴随着实时技术的不断发展和成熟，滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子，从引擎侧、平台侧和业务侧各个不同方面，来阐述滴滴所做的工作，分享在建设过程中的经验。一、实时数仓建设目的随着互联网的发展进入下半场，数据的时效性对企业的精细化运营越来越重要，商场如战场，在每天产生的海量数据中，如何能实时有效的挖掘出有价值的信息，对企业的决策运营策略调整有很大帮助。其次从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。 1 、解决传统数仓的问题从目前数仓建设的现状来看，实时数仓是一个容易让人产生混淆的概念，根据传统经验分析，数仓有一个重要的功能，即能够记录历史。通常，数仓都是希望从业务上线的第一天开始有数据，然后一直记录到现在。但实时流处理技术，又是强调当前处理状态的一个技术

震惊了，原来这才是Kafka的“真面目”！

阅读更多关于震惊了，原来这才是Kafka的“真面目”！

Kafka 是一个分布式消息队列，具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。 image.png Kafka 对外使用 Topic 的概念，生产者往 Topic 里写消息，消费者从中读消息。为了做到水平扩展，一个 Topic 实际是由多个 Partition 组成的，遇到瓶颈时，可以通过增加 Partition 的数量来进行横向扩容。单个 Parition 内是保证消息有序。每新写一条消息，Kafka 就是在对应的文件 append 写，所以性能非常高。 Kafka 的总体数据流是这样的： image.png 大概用法就是，Producers 往 Brokers 里面的指定 Topic 中写消息，Consumers 从 Brokers 里面拉取指定 Topic 的消息，然后进行业务处理。图中有两个 Topic，Topic0 有两个 Partition，Topic1 有一个 Partition，三副本备份。可以看到 Consumer Gourp1 中的 Consumer2 没有分到 Partition 处理，这是有可能出现的，下面会讲到。关于 Broker、Topics、Partitions 的一些元信息用 ZK 来存，监控和路由啥的也都会用到 ZK。生产

Flink SQL Client综合实战

阅读更多关于 Flink SQL Client综合实战

欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；在《Flink SQL Client初探》一文中，我们体验了Flink SQL Client的基本功能，今天来通过实战更深入学习和体验Flink SQL；实战内容本次实战主要是通过Flink SQL Client消费kafka的实时消息，再用各种SQL操作对数据进行查询统计，内容汇总如下： DDL创建Kafka表窗口统计；数据写入ElasticSearch 联表操作版本信息 Flink：1.10.0 Flink所在操作系统：CentOS Linux release 7.7.1908 JDK：1.8.0_211 Kafka：2.4.0（scala：2.12） Mysql：5.7.29 数据源准备本次实战用的数据，来源是阿里云天池公开数据集的一份淘宝用户行为数据集，获取方式请参考《准备数据集用于flink学习》获取到数据集文件后转成kafka消息发出，这样我们使用Flink SQL时就按照实时消费kafka消息的方式来操作，具体的操作方式请参考《将CSV的数据发送到kafka》上述操作完成后，一百零四万条淘宝用户行为数据就会通过kafka消息顺序发出

订阅 Kafka