Site Reliability Engineer (SRE) в Aleria LLC
DevOps Engineer
**Site Reliability Engineer (SRE)** 🏢 Компания: Aleria LLC 💰 ЗП: 6 000$ (remote), 8 000$ (onsite) 🌍 Формат: Удалёнка (2 месяца испытательного, обязательный релок после 2 месяцев в Абу‑Даби) 🕒 Занятость: full-time **О компании:** Aleria — компания из Абу‑Даби, разрабатывающая AI‑продукты для клиентов в ОАЭ и по всему миру. Небольшая команда, быстрый рост. Работа на bare metal, без облака. **Задачи:** • Обеспечивать надёжность и доступность сервисов на bare metal с Kubernetes поверх железа • Строить и поддерживать observability (Prometheus, Grafana, Loki): метрики, дашборды, алерты, SLO/SLI • Реагировать на инциденты, проводить post‑mortem и устранять корневые причины • Тюнить PostgreSQL и другие БД под продакшен‑нагрузку, искать bottlenecks • Поддерживать CI/CD (GHES, ArgoCD), снижать время и риск деплоев • Работать с сетевой инфраструктурой: маршрутизация, сегментация, балансировка нагрузки и безопасность **Требования:** • Глубокий опыт работы с bare metal — без облачных абстракций • Понимание внутреннего устройства Kubernetes, а не только манифестов • Опыт устранения продакшен‑инцидентов под давлением, быстрое нахождение root cause • Тюнинг БД под нагрузкой (приоритет — PostgreSQL) • Опыт построения observability и систем алертинга с нуля • Опыт on‑prem и air‑gapped развёртываний; знание L2/L3, routing, firewall, VPN **Будет плюсом:** • Опыт с GPU‑кластерами для AI • Ceph, ZFS и другие распределённые хранилища • Опыт hardening/compliance для гос. заказчиков • Air‑gap CI/CD **Стек:** Kubernetes, Prometheus, Grafana, Loki, PostgreSQL, GHES, ArgoCD, Linux, L2/L3 networking, Ceph, ZFS, GPU **Условия:** • 2 месяца удалённо (испытательный период), далее релокация в Абу‑Даби — обязательна • Full‑time • On‑premise / air‑gapped поставки (~10%) • Работа на bare metal, без облачных абстракций 📩 [Откликнуться](https://t.me/aleria_infra)