Перейти до основного вмісту

Основні поняття Apache Kafka

Producer - клієнт, який генерує (публікує) повідомлення в Kafka-топік. Може відправляти повідомлення в конкретну партицію (використовуючи ключ) або дозволяти Kafka автоматично вибирати партицію. Підтримує acknowledgments для підтвердження успішного запису.

Consumer - клієнт, який читає повідомлення з Kafka-топіка. Консюмери об'єднуються в групи споживачів (consumer groups), щоб розподіляти навантаження. Кожна партиція обробляється лише одним консюмером у межах групи.

Message - основна одиниця даних у Kafka. Складається з ключа (optional), значення (дані) та метаданих. Зберігається у партиції топіка.

Topic - логічна категорія або ім'я каналу, через який Kafka передає дані. Дані в Kafka організовані в топіки. Кожен топік може мати одну або більше партицій. Споживачі (consumers) читають дані із заданих топіків.

Partition - фізичний підрозділ топіка, який зберігає впорядковану послідовність повідомлень. Повідомлення у партиції мають унікальний offset (зміщення). Партиції розподіляються між брокерами для масштабованості.

Broker - сервер у кластері Kafka, який зберігає дані топіків і обробляє запити на читання та запис. Кожен брокер відповідає за одну або кілька партицій. Один із брокерів може виконувати роль контролера, який координує кластер.

Offset - унікальний номер, що визначає позицію повідомлення в партиції. Консюмери використовують offset для відстеження того, які повідомлення вже прочитані.

Consumer Group - Kafka гарантує, що кожна партиція буде оброблятися лише одним консюмером у межах групи. Дозволяє масштабувати обробку даних.

Cluster - група брокерів, що працюють разом. Забезпечує високу доступність і стійкість до відмов. Брокери використовують ZooKeeper або Kafka Raft (KRaft) для координації.

Replication - процес копіювання даних із партиції на інші брокери. Кожна партиція має лідерську репліку та одну чи більше резервних (follower replicas). Лідер обробляє всі операції читання та запису.

ZooKeeper - зовнішній сервіс, який координує брокери та слідкує за станом кластера. Використовується в старих версіях Kafka.

Kafka Raft (KRaft) - інтегрована система координації в Kafka, яка замінює ZooKeeper у нових версіях.

Producer Acknowledgment - механізм підтвердження від брокера, що повідомлення було успішно записано.

  • acks=0 - без підтвердження
  • acks=1 - лише лідер підтверджує запис
  • acks=all - підтверджують усі репліки

Retention Policy - політика зберігання повідомлень у Kafka.

Типи:

  • За часом. Повідомлення видаляються через заданий проміжок часу.
  • За розміром. Видаляються найстаріші повідомлення, коли досягається граничний розмір.

Rebalancing - процес перерозподілу партицій між консюмерами в разі змін у групі споживачів. Може виникати під час додавання або видалення консюмерів.

Stream Processing - обробка потокових даних у реальному часі за допомогою Kafka Streams або інших фреймворків, наприклад Apache Flink або Spark. Використовується для трансформації, фільтрації, агрегації даних тощо.

Коментарі

Популярні публікації

Встановлення безкоштовного SSL сертифікату від Let's Encrypt на Ubuntu-сервер

SSL-сертифікат - важливий компонент сучасного web-сайту. Let's Encrypy надає можливість отримати такий сертифікат абсолютно безкоштовно. Сертифікат реєструється на 3 місяці. Після цього його можна автоматично продовжити. Розглянемо випадок, коли домен вже зареєстрований і налаштований на відповідний сервер. На сервері встановлена операційна система Ubuntu. Apache Server Для початку не сервері має бути встановлений та запущений web-сервер. Наприклад, Apache. Якщо це не зроблено, то потрібного його встановити. Оновлюємо apt: sudo apt update Встановлення Apache: sudo apt install apache2 Корисними будуть команди Перевірити статус: sudo systemctl status apache2.service Старт: sudo systemctl start apache2.service Зупинка: sudo systemctl stop apache2.service Рестарт: sudo systemctl restart apache2.service Certbot Сертифікат найпростіше згенерувати за допомогою Certbot. Детальну інструкцію можна отримати на сайті https://certbot.eff.org/ Далі команди, які використовують...

Spring Boot Actuator

Actuator в Spring Boot - це бібліотека, яке надає різноманітну інформацію про стан вашого застосунку і його компонентів. Він дозволяє легко моніторити застосунок в режимі реального часу. Основні можливості actuator включають: Стан застосунку (/actuator/health): Цей ендпоінт повертає інформацію про стан застосунку. Це може бути корисно для моніторингу системи та виявлення будь-яких проблем. Інформація про стан містить загальну інформацію про стан. Інформація про середовище (/actuator/env): Цей ендпоінт надає доступ до інформації про середовище, в якому працює ваш застосунок. Ви можете отримати доступ до системних властивостей, змінних середовища, налаштувань ініціалізації та іншої важливої інформації. Метрики (/actuator/metrics): Цей ендпоінт надає статистику про різні показники застосунку, такі як кількість HTTP-запитів, використання пам'яті, кількість з'єднань з базою даних, час відповіді тощо. Ви можете використовувати ці метрики для аналізу продуктивності вашог...

Angular CLI

CLI (command-line interface) – інтерфейс командного рядка. Перед початком роботи має бути встановлений Node.js Встановлення: npm install -g @angular/cli Отримання допомоги: ng help Буде приблизно такий результат: add Adds support for an external library to your project. analytics Configures the gathering of Angular CLI usage metrics. See https://angular.io/cli/usage-analytics-gathering. build (b) Compiles an Angular app into an output directory named dist/ at the given output path. Must be executed from within a workspace directory. deploy Invokes the deploy builder for a specified project or for the default project in the workspace. config Retrieves or sets Angular configuration values in the angular.json file for the workspace. doc (d) Opens the official Angular documentation (angular.io) in a browser, and searches for a given keyword. e2e (e) Builds and serves an Angular app, then runs end-to-end tests. extract-i18n (i18n-extract, xi18n) Extracts i18n mes...

Встановлення Jenkins на Ubuntu

Встановлення Jenkins на Ubuntu 22.04 Оновлюємо список встановлених пакетів: sudo apt-get update На машині має бути встановлена одна із актуальних версій JDK. В даному прикладі використовується JDK 17. Як встановити та переключати версії Java на Ubuntu в попередній статті Підключаємо необхідний репозиторій. Для цього спершу додаємо GPG-ключ: curl -fsSL https://pkg.jenkins.io/debian-stable/jenkins.io-2023.key | sudo tee /usr/share/keyrings/jenkins-keyring.asc > /dev/null Додаємо репозиторій: echo deb [signed-by=/usr/share/keyrings/jenkins-keyring.asc] https://pkg.jenkins.io/debian-stable binary/ | sudo tee /etc/apt/sources.list.d/jenkins.list > /dev/null Для активації зроблених змін знову виконуємо команду sudo apt-get update Встановлюємо Jenkins: sudo apt install jenkins Запуск: sudo systemctl start jenkins Налаштування портів Jenkins використовує по замовчуванню порт 8080. Тому для роботи з Jenkins цей порт має бути відкритий. Перевіряємо статус ufw: sudo...

Робота SpringBoot 3 з базою даних Redis

Redis Redis (Remote Dictionary Server) — це in-memory база даних ключ-значення з відкритим вихідним кодом, що використовується для зберігання структурованих даних. Вона підтримує різні типи даних, такі як рядки, списки, множини, упорядковані множини з діапазонами, хеші, бітові масиви, потоки і т. д. Redis широко використовується для кешування, управління сесіями, систем обміну повідомленнями, черг задач та інших сценаріїв, що вимагають високої продуктивності і низької затримки. Redis з SpringBoot Розглянемо простий проєкт на SpringBoot, що використовує Redis, як базу даних. Створимо такий проєкт: Створимо entity Cat: import lombok.Data; import org.springframework.data.annotation.Id; import org.springframework.data.redis.core.RedisHash; @Data @RedisHash("cat") public class Cat { @Id private String id; private String name; private Integer age; public Cat(String name, Integer age) { this.name = name; this.age = age; } } Звер...