Senior DevOps Engineer (DWH/ML Platform) в IAM
QA Automation / SDET
Senior DevOps Engineer (DWH/ML Platform) Ищем DevOps-инженера, который не просто «держит прод», а строит масштабируемую платформу для работы с данными. Вам предстоит развивать инфраструктуру, на которой крутятся Trino, Spark и ML-модели, используя лучшие практики IaC и Kubernetes. Технологический стек Core Infra: AWS (EKS, VPC, IAM), Kubernetes, Terragrunt CI/CD: GitLab CI Compute & Query: Trino, Apache Spark Storage: S3 (Data Lake, Apache Iceberg), ClickHouse, ScyllaDB Orchestration: Apache Airflow (Kubernetes Executor) Observability: Prometheus, Grafana, ELK Deployment: Helm Чем предстоит заниматься Развитие Kubernetes-платформы (EKS) Написание и поддержка сложных Helm-чартов для stateful-приложений (Trino, ClickHouse, Solr, ScyllaDB). Управление ресурсами, автомасштабированием (HPA/VPA, Cluster Autoscaler, Karpenter). Настройка сетевых политик, Ingress, service mesh при необходимости. Infrastructure as Code Полное описание инфраструктуры через Terragrunt: EKS-кластеры, VPC, IAM, S3, RDS и др. Поддержка принципа DRY, управление стейтами в AWS S3. Структурирование кода для нескольких окружений (dev/stage/prod). CI/CD пайплайны Построение процессов доставки кода и данных через GitLab CI. Настройка GitLab Runners (в т.ч. на Kubernetes), кэширование артефактов. Автоматизация тестирования инфраструктуры, Helm-чартов и Terraform-модулей. Observability Настройка сбора метрик через Prometheus (ServiceMonitors, PodMonitors, Exporters). Визуализация в Grafana: дашборды для Data-компонентов и инфраструктуры. Настройка алертинга для критичных сценариев: лаг репликации, очередь задач Spark/Airflow, утилизация ресурсов. Централизованный сбор логов. Data Ops Поддержка кластеров Trino и Spark, обеспечение их взаимодействия с S3 (Iceberg) и базами данных (Solr, ScyllaDB). Настройка Airflow на Kubernetes Executor, помощь DE-команде с инфраструктурными вопросами. Участие в работе с инцидентами. ML Support Обеспечение стабильной работы сервисов ML (Solr, ScyllaDB, Redis) в продакшене. Поддержка инфраструктуры для MLflow, Feast, inference-сервисов. Что хотим видеть: Если вы не работали с инструментами ниже, нам, к сожалению, будет сложно: Kubernetes (Expert level): Вы не просто используете готовые манифесты, а понимаете внутренности EKS, умеете писать собственные Helm-чарты с нуля и дебажить сложные проблемы (OOMKilled, Pending pods, PVC issues, networking). IaC: Умение структурировать код для нескольких окружений (dev/stage/prod). GitLab CI: Глубокое понимание .gitlab-ci.yml, опыт настройки пайплайнов со сложной логикой. AWS: Понимание сетевого взаимодействия и управления правами (IAM Policies/Roles, IRSA). Опыт эксплуатации Big Data стека: например Trino (Presto), Spark, Airflow. Опыт работы с колоночными NoSQL (ScyllaDB/Cassandra). Опыт работы с поисковыми движками (Solr или Elasticsearch). Понимание процессов MLOps и опыт с ML-инфраструктурой (MLflow, Feast, KServe). Опыт с GitOps (ArgoCD, Flux). Опыт работы с Apache Iceberg и Data Lake архитектурой. @grenivetskiy