DevOps HaaS Specialist - вакансия 73739598

Яндекс

Дата обновления: 11.02.2021

Город: Санкт-Петербург

Категория: IT / Компьютеры / Интернет

Тип занятости: Не имеет значения



Текст вакансии:


Мы ищем тех, кто готов заниматься развитием одного из самых крупных (десятки тысяч нод или железных серверов) геораспределенных metal as a service в нашей стране, нужного для обслуживания приватного облака Yandex. А конкретно — заниматься компонентой, ответственной за автоматизацию всех процессов, связанных с эксплуатацией нод Yandex (HaaS). В приватном облаке развернуто большинство сервисов Yandex, от поиска до MapReduce, — всем им необходимо предоставить работоспособные ноды. Для этого требуется уметь всё — начиная от ввода ноды в прод и заканчивая выводом нод на плановые работы. Что нужно делать:
Бороться с рутиной в HaaS помогает механизм сценариев. Приоритетная задача команды состоит в том, чтобы уменьшить количество ручных действий (а в идеале избавиться от ручных действий полностью) при проведении плановых работ. Для этого требуется разобраться в том, как правильно автоматизировать проведение работ с учетом всех особенностей эксплуатации ДЦ, сетевой инфраструктуры и клиентов HaaS, чтобы затем описать работы в коде. Среди клиентов — большинство крупных сервисов Yandex, поэтому можно будет познакомиться не только с устройством HaaS, но и со смежными сервисами (а заодно помочь их улучшить). Автопочинка не идеальна, хотя автоматика уже способна чинить десятки разных типов проблем. Если HaaS не справился с починкой сервера самостоятельно, потребуется участие человека, а сервер будет простаивать и ждать ремонта. Часть проблем автоматика не замечает (так называемые gray failures). Чтобы такого не происходило, нужно улучшать автоматику (от детектирования проблем до алгоритмов починки). Так мы не только повысим число доступных серверов, но и сократим время, которое тратят люди на починку серверов. Рутина — роботам. HaaS мы не только разрабатываем. С его помощью мы эксплуатируем весь железный парк приватного облака, и здесь есть точки роста. Например, нужно разработать и внедрить SLA на проводимые операции, научиться быстрее пользователей замечать проблемы смежных систем и сервисов, выработать безопасный и простой способ изменения в конфигурировании.
Нам нужны те, кто готов к таким вызовам и задачам и готов вместе с нами сделать HaaS лучше. Мы ждем, что вы:
знаете Python, Go или С++; работали с CI/CD-системами (Teamcity, Jenkins, Travis CI и т. д.); работали с системами управления конфигурациями (Ansible, Salt, Chef); умеете писать автотесты и работали с фреймворками автоматизированного тестирования (pytest, Google Test, go test); знаете Git или SVN; имеете опыт построения высоконагруженных сервисов; имеете хорошие коммуникативные навыки, можете обосновать предлагаемое решение и обсудить детали реализации; ответственны и аккуратны.
Будет плюсом, если вы:
имеете опыт администрирования Linux-серверов; знаете сетевые протоколы TCP/IP; имеете опыт работы с базами данных (MySQL, PostgreSQL, ClickHouse, MongoDB); имеете опыт работы с виртуализацией (LXC, LXD, Docker, Qemu-KVM и т. д.); имеете опыт работы с распределенными хранилищами данных.

Февраль 2021




Контактные данные:

Чтобы связаться с работодателем, вам необходимо войти на сайт.

Форма входа находится в меню справа. Если вы еще не регистрировались, вам необходимо зарегистрироваться в качестве соискателя.