一.Kafka概述

1.定义

Kafka最新定义：Kafka是一个开源的分布式事件流平台（Event Streaming Flatform），被数千家公司用于高性能==数据管道==、==流分析==、==数据集成==和==关键任务应用==。

2.消息队列

1）消息队列的应用场景

传统的消息队列的主要应用场景包括：缓存/消峰、解耦和异步通信。

2）消息队列的两种模式

3.Kafka基础架构

1）Producer

消息生产者，就是向Kafka broker发消息的客户端。

2）Consumer

消息消费者，向Kafka broker取消息的客户端。

3）Consumer Group（CG）

消费者组，由多个consumer组成。==消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费==；消费者组之间互不影响。所有的消费者都属于某个消费者组，即==消费者组是逻辑上的一个订阅者==。

4）Broker

==一台Kafka服务器就是一个broker==。一个集群由多个broker组成。==一个broker可以容纳多个topic==。

5）Topic

可以理解为一个队列，生产者和消费者面向的都是一个topic。

6）Partition

为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，==一个topic可以分为多个partition，每个partition是一个有序的队列==。

7）Replica

副本。==一个topic的每个分区都有若干个副本，一个Leader和若干个Follower==。

8）Leader

每个分区多个副本的“主”，==生产者发送数据的对象，以及消费者消费数据的对象都是Leader==。

9）Follower

每个分区多个副本中的“从”，==实时从Leader中同步数据，保持和Leader数据的同步==。Leader发生故障时，某个Follower会成为新的Leader。

二.Kafka生产者

1.生产者消息发送流程

1）发送原理

在消息发送的过程中，涉及到了两个线程——==main线程==和==Sender线程==。

在main线程中创建了一个双端队列RecordAccumulator。main线程将消息发送给RecordAccumulator；
Sender线程不断从RecordAccumulator中拉取消息发送到Kafka Broker。

2.异步发送API

1）带回调函数的异步发送

回调函数会在producer收到ack时调用，为异步调用，该方法有两个参数，分别是==元数据信息（RecordMetadata）==和==异常信息（Exception）==，如果Exception为null，说明消息发送成功，如果Exception不为null，说明消息发送失败。

==注意：消息发送失败会自动重试，不需要我们在回调函数中手动重试。==

3.同步发送API

4.生产者分区

1）分区好处

默认的分区器 DefaultPartitioner

5.生产经验

1）生产者如何提高吞吐量

批次写入
数据压缩
增大缓冲区

2）数据可靠性

3）数据去重

==注：开启参数enable.idempotence 默认为true，false关闭。==

4）数据有序

5）数据乱序

三.Kafka Broker

1.Kafka Broker工作流程

1）Zookeeper存储的Kafka信息

/kafka/brokers/ids 记录有哪些服务器。
/kafka/brokers/topics/xxx/partition/0/state 记录谁是Leader，有哪些服务器可用。
/kafka/controller 辅助选举Leader。
offset存储在kafka主题中。

2）Kafka Broker总体工作流程

2.Kafka副本

1）副本基本信息

（1）Kafka副本作用：提高数据可靠性。

（2）Kafka默认副本1个，生产环境一般配置为2个，保证数据可靠性；太多副本会增加磁盘存储空间，增加网络上数据传输，降低效率。

（3）Kafka中副本分为：Leader和Follower。Kafka生产者只会把数据发往Leader，然后Follower找Leader进行同步数据。

（4）Kafka分区中的所有副本统称为AR（Assigned Repllicas）。

==AR = ISR + OSR==

==ISR==，表示和Leader保持同步的Follower集合。如果Follower长时间未向Leader发送通信请求或同步数据，则该Follower将被踢出ISR。该时间阈值由replica.lag.time.max.ms参数设定，默认30s。Leader发生故障之后，就会从ISR中选举新的Leader。

==OSR==，表示Follower与Leader副本同步时，延迟过多的副本。