TRINO для инженеров данных

4-х дневный курс по работе с данными с помощью Trino, учитывая многообразие источников данных.

Trino — это массивно-параллельный распределенный колоночный SQL-движок для обработки больших данных из удаленных источников, прежде всего озер данных и КХД. Фокус на big data и аналитику определяет ключевые задачи оптимизатора Trino:

  • Эффективно работать с источниками данных. Например, стремиться по возможности уменьшить количество данных, передаваемых из источника.
  • Разумно планировать Join-ы.
  • Расставлять операторы Exchange для корректного и эффективного выполнения распределенных операций (Join, Aggregation, Window, и т.п.).

Цель курса - разобраться в программном продукте, понять его архитектуру и особенности, самостоятельно погонять запросы к данным, находящимся в разных источниках, научиться читать планы запросов и сопоставлять план с фактом в WEB UI.

Инструментальные средства: для практических занятий используются WEB интерфейс (Jupyter Lab).

Продолжительность: 16 ак. часов, 4 дня по 4 ак. часа (теория / практика).

Целевая аудитория

Инженеры данных, аналитики, BI аналитики и архитекторы.

Предварительная подготовка

  • знание SQL
  • желательно знание азов Python

Приобретаемые знания и навыки

В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективного использования Trino и работы с большими объемами данных, хранящимися в различных типах источников. Поймете архитектуру Trino, научитесь читать и оптимизировать запросы, мониторить процесс их исполнения с использованием WEB UI.

Программа курса

1. Встречаем Trino – 4 часа

  • История возникновения
  • Архитектура
  • Установка и настройка
  • Встроенные коннекторы

Практическое задание

Запуск запросов бенчмарка TPC-DS, используя встроенный коннектор

2. Connector Based архитектура – 4 часа

  • Федеративные запросы
  • Источники, коннекторы и каталоги – разделение функций
  • Наиболее популярные источники данных и особенности работы с ними

Практическое задание

Практика в федеративных запросах и работа с данными, хранящимися в разных источниках (S3, PostgreSQL)

3. Работа с потоковыми данными – 2 часа

  • Apache Kafka и работа с ней в Trino

4. Исполнение кода в Trino – 2 часа

  • Координатор, обработчики, stage, task…
  • Разбираемся и читаем планы запросов

Практическое задание

Работа с потоковыми данными из Apache Kafka

5. Оптимизация запросов – 2 часа

  • оптимизация запросов в Trino
  • как помочь Trino в оптимизации запросов

6. Мониторинг и другие практические аспекты использования Trino – 2 часа

  • системный каталог
  • лог файлы
  • Trino WEB UI

Практическое финальное задание

Собираем все воедино: решаем финальную задачу.

Оставить отзыв

Информация о курсе

3-6 февраля
16-19 июня

2520 BYN

с учетом НДС 20%

Вендор: Big Data School
Код курса: TRINO
Продолжительность: 4 дня / 16 ак. часов
Направление: Trino
Форма обучения:

под руководством инструктора

Записаться на курс

Название курса и комментарии*

Имя*

Фамилия*

Отчество*

Компания

Телефон*

Email*

Настоящим, в соответствии с ч.2.ст.18 Закона Республики Беларусь от 10.11.2008 N 455-З(ред. от 11.05.2016) "Об информации, информатизации и защите информации" и Законом Республики Беларусь от 7 мая 2021 г. № 99-З «О защите персональных данных», отправляя данную форму, вы подтверждаете свое согласие на сбор, обработку и хранение ООО «СофтЛайнБел» Ваших персональных данных. ООО «СофтЛайнБел» гарантирует конфиденциальность получаемой от Вас информации. Сбор, обработка и хранение персональных данных осуществляется в целях эффективного оказания услуг и исполнения договоров.

Отправляя данную форму я даю согласие на обработку моих персональных данных, а также подтверждаю, что я ознакомлен и согласен с условиями политики обработки персональных данных.