Город МОСКОВСКИЙ
00:35:44

DATALEARN | DE - 101 | МОДУЛЬ 4-5 ETL Подсистемы

Аватар
Data Learn
Просмотры:
55
Дата загрузки:
10.10.2024 17:57
Длительность:
00:35:44
Категория:
Обучение

Описание

Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории:
Data Extracting (получить данные из систем - E в ETL)
Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL)
Delivering Data for Presentation (обработка данных в DW - L в ETL)
Managing the ETL environment (yправление и мониторинг компонентов ETL)

Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27).

Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие.

В 4-ом модуле нашего курса вы узнаете про интеграцию и трансформацию данных - ETL и ELT. Это ключевой элемент в аналитическом решении, с помощью которого мы наполняем данными хранилище данных и автоматизируем загрузку и трансформацию данных. Мы рассмотрим примеры популярных on-premise batch решений. Узнаете в чем отличие ETL от ELT, для чего нужны такие решения, что значит batch и on-premise, как с помощью ETL/ELT можно создавать модели данных, на примере dimensional modeling, рассмотрим рынок ETL/ELT. Потренируюмся на классическом open-source ETL решении Pentaho DI и рассмотрим настольный инструмент от Tableau - Tableau Prep.

В этом модуле, мы не будем затрагивать облачные ETL/ELT инструменты и решения Big Data, для этого у нас будут отдельные модули.

Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
Записаться вы можете на нашем портале https://datalearn.ru/

Поддержать проект (а вдруг?): https://www.patreon.com/dmitryanoshin или https://paypal.me/dmitryanoshin

Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.

Книги по аналитике Дмитрия Аношина - https://www.amazon.com/Dmitry-Anoshin/e/B01A5PVT2M

Рекомендуемые видео