By Харенслак Бас , …
Бас Харенслак, Джулиан де Руйтер, 2022
Конвейеры обработки данных управляют потоком информации от сбора до анализа и визуализации. Apache Airflow предлагает единую платформу для проектирования, реализации и мониторинга таких конвейеров. Благодаря простому пользовательскому интерфейсу, модульной архитектуре и гибким сценариям на Python, Airflow оптимизирует задачи управления данными.
Эта книга научит создавать и поддерживать эффективные конвейеры обработки данных. Вы изучите распространенные модели использования, особенности ориентированных ациклических графов (ОАГ), лежащих в основе Airflow, и способы их настройки.
Bas Harenslak, Julian de Ruiter, 2022
Data processing pipelines manage the flow of information from initial collection through consolidation, cleaning, analysis, visualization, and more. Apache Airflow provides a unified platform for designing, implementing, monitoring, and maintaining these pipelines. Its user-friendly interface, plug-and-play capabilities, and flexible Python scripting streamline data management tasks.
This book will guide you in creating and maintaining effective data processing pipelines. You will learn common use case patterns, the features of Directed Acyclic Graphs (DAGs) that power Airflow, and how to customize them for your pipeline needs.