На долгий интересный проект требуется Data Engineer (Middle+ / Senior) (компания не указана)

DevOps Engineer

@datajobschannel 24.06.2026 15:14 Рекрутер: @SDoroshin

На долгий интересный проект требуется Data Engineer (Middle+ / Senior) Локация: Москва График: гибрид 3 дня в офисе, 2 дома Срок проекта до конца этого года с возможностью продления. Контекст проекта Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов. Грейд Middle+ / Senior Логика оценки: коммерческий опыт от 3 лет, но фокус на самостоятельность, понимание продакшн-цикла и глубину работы со стеком. - Явный признак Middle+: уверенная работа с Apache Spark на кластере (2–3+ нод) + опыт 4 года. - Явный признак Senior: самостоятельное проектирование слоёв lakehouse, оптимизация cost/performance, менторство, опыт переноса решений в закрытые контуры. MUST-HAVE (обязательно) Категория Требования Язык Python (уверенное владение, понимание ООП, типизации, работы с памятью) ETL/ELT Опыт построения пайплайнов в продакшн (от 1–2 лет активной поддержки) Обработка данных PySpark / pandas / аналоги; работа с большими объёмами Форматы Parquet, columnar storage (понимание partitioning, compression, schema evolution) Хранилища S3 или аналоги (MinIO, Yandex Object Storage, etc.) Архитектура Data Lake / Lakehouse, multi-layer: raw → processed → curated Data Quality Нормализация, дедупликация, формирование golden record / master data БД & SQL PostgreSQL, Greenplum, ClickHouse (или аналоги); продвинутый SQL (оконные функции, CTE, оптимизация запросов) Оркестрация Apache Airflow (или аналоги: Dagster, Prefect, Temporal) DevOps Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git Облака Yandex Cloud / AWS / GCP (любая из трёх, понимание IAM, сетей, compute/storage) XML lxml, ElementTree или аналоги; опыт парсинга/валидации сложных структур NICE-TO-HAVE (сильные плюсы) Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов) Trino / Presto (аналитические запросы поверх lakehouse) Табличные форматы: Apache Iceberg, Delta Lake, Hudi Опыт работы в закрытых контурах / on-premise / air-gapped средах Понимание Data Mesh / Data Fabric концепций Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests) ОСНОВНЫЕ ЗАДАЧИ Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы. Парсинг, валидация и трансформация XML-данных. Построение слоёв raw → processed → curated (Parquet + S3). Реализация нормализации, дедупликации и формирования "золотых" записей. Тюнинг производительности и обеспечение стабильности в продакшене. Подготовка решений к переносу в закрытый контур заказчика. Взаимодействие с аналитиками, архитектором, DevOps и командой За доп информацией писать @SDoroshin

Похожие вакансии

После первого сообщения

Не теряйте контекст по этой вакансии: сначала отправьте короткий отклик, затем через 3–5 дней сделайте follow-up, если ответа не было.