вакансия удаленно россия в Data Scientist

Data Scientist / ML Engineer

@Machinelearning_Jobs 31.03.2026 15:09 Рекрутер: @fr_rec

#вакансия #удаленно #россия **Data Scientist (NLP|LLM)** в крупнейшую в России Digital Health платформу, объединяющая различные сервисы цифровой медицины. Компания рассматривает кандидатов только из России З/п: обсуждается индивидуально. Формат работы: **Офис, Гибрид(Москва,уютный офис в БЦ Симонов Плаза с видом на Москва-реку); Удаленка**. Уровень позиции: **Senior** 🔷**Задачи:** Проектировать и поддерживать полный цикл улучшения медицинских LLM: сбор, очистка, версионирование данных, обучение и дообучение (SFT, preference-tuning, DPO/ORPO, instruction tuning). Строить датасеты и контуры разметки: схемы и гайдлайны, контроль согласованности, генерация синтетических данных, self-training, анализ ошибок и bias. Разрабатывать LLM-based пайплайны и агентов для медицинских задач: RAG по клиническим рекомендациям и справочникам, tool-calling, маршрутизация, multi-step workflows, оркестрация (LangGraph и мультиагентные фреймворки), guardrails. Создавать и развивать систему оценивания: тест-наборы и бенчмарки, автоматические метрики и LLM-as-a-judge там, где уместно, экспертная валидация с врачами, red-teaming, регрессионные прогоны, A/B тестирование в проде. Проводить исследовательские итерации: формулировать гипотезы, ставить эксперименты, делать ablation-исследования, документировать результаты, готовить научные статьи и доводить материалы до публикации. 🔷Обязательные требования: 3+ лет в NLP/ML, уверенный Python: типизация, тестирование, профилирование, аккуратный продакшн-код. Практический опыт обучения и дообучения трансформеров: PyTorch + HuggingFace, понимание Accelerate, DeepSpeed или аналогов. Опыт построения data-pipelines и воспроизводимых экспериментов: датасеты, версии, конфиги, трекинг (MLflow или ClearML), умение делать корректные сравнения. Понимание LLM-систем: retrieval, tool-calling, агенты, деградации качества, галлюцинации, ограничения продакшна. Навыки оценки качества: метрики, бенчмарки, error analysis, ablations, работа с разметкой и экспертной валидацией. Опыт в медицине или биомеде: клинические тексты, ICD-10, клин. рекомендации, понимание доменных рисков. Опыт alignment: preference data, RLHF, DPO, safety eval, hallucination mitigation. Практика продакшн-инференса: vLLM, оптимизация стоимости и задержки, Docker, K8s, мониторинг, трассировка. Опыт с retrieval-стеком: hybrid search, rerankers, FAISS, Elastic, pgvector, продуманноеchunking, grounding. Отклики ждём @fr_rec

Похожие вакансии

После первого сообщения

Не теряйте контекст по этой вакансии: сначала отправьте короткий отклик, затем через 3–5 дней сделайте follow-up, если ответа не было.