Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.
Меня зовут Эдуард, я руковожу отделом DevOps и отвечаю за сопровождение проектов по SLA 24/7. Хочу разобрать частую боль команд поддержки. Пока сервис работает стабильно, кажется, что все все понимают одинаково. Но первый серьезный сбой быстро показывает обратное: бизнес, подрядчик и техкоманда по-разному смотрят на инцидент, сроки реакции и зоны ответственности.
Чтобы в такие моменты не спорить в чатах с менеджерами и не выяснять на ходу, кто прав и что делать дальше, правила работы нужно согласовывать заранее. Для этого и нужен SLA — общий регламент с понятными критериями, сроками и ответственностью сторон.
В статье разберу наш практический опыт сопровождения проектов по SLA 24/7: серверную доступность, стабильность ключевого функционала, мониторинг и отчетность. Покажу, как устроен процесс, какие условия критичны и почему детали вроде момента отсчета времени или правил работы с инцидентами напрямую влияют на прозрачность поддержки.
Зачем бизнесу измеримый SLA для технической поддержки
Представим, что компания заключила с подрядчиком договор на SLA 24/7. На бумаге все выглядит спокойно: поддержка подключена, сервис под наблюдением. Но первый серьезный инцидент часто показывает, что заказчик и подрядчик по-разному понимают, что именно происходит и кто за что отвечает.
Для бизнеса сайт работает, когда пользователь может зайти, оформить заказ, оплатить покупку и т.д. Для технической команды критерии стабильной работы уже — сервер отвечает, критичных ошибок в мониторинге нет.
Из-за этого возникает типичная ситуация. Клиент считает, что сервис недоступен, потому что не проходит оплата. Подрядчик отвечает, что сайт работает, а проблема на стороне внешнего платежного шлюза. Формально обе стороны правы, но если заранее не обговорить правила работы и критерии инцидентов, почти всегда будут споры.
В e-commerce такие случаи встречаются регулярно, поэтому SLA-поддержка нужна как рабочий регламент, в котором прописаны приоритет инцидента, сроки реакции, порядок эскалации и критерии восстановления сервиса. Такой подход закрывает три вопроса:
- Прозрачность. Бизнес понимает, за что платит и какой уровень поддержки получает: мониторинг, реагирование в рабочее время или полноценное сопровождение 24/7.
- Порядок в работе. Во время сбоя не нужно выяснять, кому писать и кто отвечает за следующий шаг. Есть роли, каналы связи и порядок эскалации.
- Основа для улучшений. Если фиксируются причины сбоев, время реакции и восстановления, можно устранять повторяющиеся проблемы, а не разбирать один и тот же инцидент каждый месяц.
SLI, SLO и SLA: три уровня одной цепочки
Чтобы бизнес и техническая команда говорили на одном языке, полезно разделять три уровня сервисных показателей. Эта схема пришла из SRE-практики и хорошо работает в поддержке:
SLI (Service Level Indicator) — конкретная метрика, которую можно измерить. Например: доля успешных проверок URL, процент пройденных автотестов, количество минут без превышения порога по времени отклика.
SLO (Service Level Objective) — целевое значение этой метрики на выбранный период. Например: доступность сайта за месяц не ниже согласованного уровня или успешное прохождение смок-тестов после релиза.
SLA (Service Level Agreement) — обязательства перед заказчиком, зафиксированные в договоренностях. Если согласованные показатели не выполнены, включаются предусмотренные меры: компенсации, пересмотр условий, особенности приемки отчета или оплаты.
Мы сначала согласовываем с заказчиком ключевые метрики (SLI), затем определяем реалистичный уровень сервиса и сроки реакции (SLO) с учетом стоимости и формата. Уже под эти условия оформляем финальный SLA технической поддержки.
SLA, инцидент, обращение: минимальный глоссарий
SLA в аутсорс-поддержке — это заранее согласованные правила уровня сервиса: состав работ, метрики, целевые показатели, исключения и формат отчетности.
Внутри такого процесса полезно сразу разделять несколько понятий.
- Инцидент — сбой, который влияет на работу сервиса. В SLA 24/7 это может быть недоступность сайта, проблемы с инфраструктурой или сбой ключевого пользовательского сценария, если в поддержку включен контроль функционала.
- Обращение клиента — любой запрос в чат, почту или портал поддержки. Это может быть инцидент, вопрос, консультация или задача на доработку. Сроки реакции зависят от типа обращения и его приоритета.
- Время реакции — период с момента фиксации проблемы до начала работы над ней.
- Время восстановления — время, которое требуется, чтобы вернуть сервис в рабочее состояние. Это может быть перезапуск, откат релиза, восстановление из резервной копии или исправление ошибки.
По нашему опыту, здесь часто начинается путаница. Заказчик может воспринимать любой запрос как часть поддержки по SLA, поэтому в один поток могут попадать и сбой сайта, и просьба заменить баннер на главной странице. Для команды поддержки это разные типы задач с разными правилами обработки. Поэтому мы считаем важным с самого начала объяснить разницу между инцидентом, обращением и задачей на развитие, а все запросы фиксировать в единой системе.
Еще одна частая причина споров — путаница между реакцией и устранением. Например, если по SLA технической поддержкиреакция составляет 15 минут, это значит, что команда подключилась к проблеме, начала диагностику и взяла задачу в работу. Это не означает, что сложный сбой исчезнет за те же 15 минут, и такие вещи лучше тоже проговаривать заранее.
Бывает и так, что клиент сообщает о проблеме раньше, чем срабатывает мониторинг, или алерт приходит с задержкой. В таких случаях мы рассматриваем это как один инцидент: объединяем сигналы в одну заявку и фиксируем хронологию событий. Если проблема оказывается на стороне пользователя, обращение переводим в информационный запрос.
Сроки: реакция и восстановление
В рабочем сопровождении SLA обычно нет одной цифры для всех ситуаций. Отдельно согласуют время реакции и отдельно время восстановления. Для разных типов инцидентов условия тоже различаются: падение сайта, ошибки оплаты и запрос на проверку настроек требуют разного приоритета и разного подхода. Чтобы дальше не путаться, эти два показателя лучше сразу разделять.
Реакция — это подтверждение инцидента, подключение специалистов и начало диагностики.
Восстановление — момент, когда сервис снова доступен пользователю и выполняет свою основную функцию. Если интернет-магазин снова принимает заказы, сервис восстановлен. Анализ причин, работа над защитой от повторения и внутренний разбор могут идти позже.
Эту разницу важно согласовать заранее. Иначе одна сторона ждет полного решения проблемы в срок реакции, а другая говорит только о начале работ.
Отдельный блок вопросов связан с резервными копиями и тяжелыми авариями. Здесь полезно заранее понимать, сколько времени реально займет восстановление сервиса и какая потеря данных допустима. Наличие бэкапов само по себе еще не означает, что восстановление пройдет быстро: этот сценарий нужно проверять заранее.
Кроме самих сроков, в условиях сопровождения стоит отдельно зафиксировать:
- с какого момента начинается отсчет времени;
- кто фиксирует инцидент;
- что считается восстановлением сервиса;
- как подтверждается устранение проблемы;
- какие случаи относятся к исключениям: плановые работы, сбои внешних сервисов, форс-мажор.
Чем раньше эти детали согласованы, тем спокойнее проходит работа во время реального инцидента.
Пример сроков реагирования
Сроки в SLA-поддержке обычно зависят от критичности обращения. Чем сильнее проблема влияет на работу бизнеса, тем выше приоритет и быстрее подключается команда.
Например, если сайт полностью недоступен и пользователи не могут оформить заказ, это аварийная ситуация. Если работает сайт, но сломана оплата или авторизация — критическая ошибка. Вопросы по настройке или консультации относятся к плановым обращениям. Разберем базовую схему:
| Класс обращения | Что происходит | Приоритет | Время реакции | Время на устранение |
| Аварийная ситуация | Сайт, приложение или ключевой сервис полностью недоступен | Максимальный | до 15 минут | до 4 часов |
| Критическая ошибка | Недоступен важный функционал: оплата, авторизация, оформление заказа, интеграции | Высокий | до 1 часа | до 24 часов |
| Запрос информации | Консультации, настройки, проверка работы сервиса, уточнения | Плановый | до 1 рабочего дня | до 3 рабочих дней |
На реальном проекте сроки уточняют с учетом инфраструктуры, режима поддержки и влияния сервиса на бизнес-процессы.
Регулярное обслуживание и работа с процессами
Чтобы SLA-сопровождение реально выполнялось, одного мониторинга мало. Если вспоминать о поддержке только после алерта, часть проблем уже успевает дорасти до инцидента.
Стабильная работа сервиса обычно держится на рутинных, но важных вещах: обновлениях, проверке резервных копий, тестах восстановления, контроле автотестов, закрытии уязвимостей, плановых проверках инфраструктуры. Это незаметная работа, но именно она часто спасает от ночных аварий и срочных созвонов.
Есть и вторая сторона вопроса — сами процессы. Любой проект меняется: выходят новые функции, подключаются внешние сервисы, растет нагрузка, меняются задачи бизнеса. Если правила поддержки остаются прежними, через какое-то время они начинают жить отдельно от реальности.
Поэтому SLA — это еще и регулярный разговор между заказчиком и командой. Что изменилось, где появились риски, какие сроки уже не подходят, что стоит пересмотреть.
По опыту, лучше всего работает простая связка: порядок в технике и порядок в договоренностях. Тогда поддержка действительно помогает бизнесу, а SLA не сводится к формальной таблице в договоре.
Ежемесячный отчет в SLA
Отчет по SLA помогает понять, из-за чего были простои, кто за них отвечает и какие меры были приняты. Важно различать зоны ответственности: наша, клиента, внешних сервисов. Следует заранее согласовать, что считается форс-мажором и по каким случаям требуются доказательства.Такой подход делает взаимодействие прозрачным и помогает избежать недопонимания. Но прозрачные отчеты — только часть системы. Не менее важно, кто именно отвечает за поддержку в момент инцидента и как организована работа команды.
Основная и резервная команда
В SLA 24/7 всегда есть основная команда поддержки, а на случай сложностей или отпусков — резервная. Все члены команды заранее знают свои задачи и проходят обучение: мы разбираем типичные ситуации, чтобы каждый мог быстро включиться при необходимости.
Внутренние правила и инструкции постоянно дорабатываем по ходу работы, опираясь на реальные примеры и опыт. Так мы остаемся на связи, быстро реагируем и не теряемся даже в неожиданных ситуациях.
Следующая важная часть SLA — сама организация поддержки.
Когда что-то ломается ночью или в выходной, важнее другое — кто подключается первым, кто подменяет коллег и как команда работает под нагрузкой.
Основные ошибки плохой организации SLA
Собрал основные ошибки, из-за которых SLA может работать против бизнеса:
| Ошибка | Что происходит | К чему приводит |
| Нет понятных зон ответственности | Во время сбоя стороны выясняют, кто должен подключаться: подрядчик, внутренняя команда или внешний сервис | Потеря времени и задержка восстановления |
| Нет порядка эскалации | Первая линия поддержки не справляется, а следующий шаг не определен | Инцидент зависает без движения |
| Метрики нельзя проверить | Показатели есть, но нет понятного источника данных и единого способа фиксации | Споры по отчетам и SLA |
| Нереалистичные сроки | В договор попадают цифры, которые невозможно выдерживать в реальной инфраструктуре | Регулярные нарушения SLA и конфликт ожиданий |
| Нет разбора после инцидента | Сервис восстановили, но причины не устранили | Повторяющиеся сбои |
| SLA не обновляется вместе с проектом | Проект вырос, появились новые интеграции и нагрузка, а регламент остался прежним | Поддержка перестает соответствовать реальности |
На старте все это обычно выглядит как мелочи — как будто, если случится проблема, команда просто быстро подключится и разберется на месте. Но во время серьёзного сбоя любая путаница сразу тормозит работу.
Кто отвечает за интеграцию, с какого момента пошел отсчет SLA — пока чаты горят, сервис лежит. На больших проектах такие задержки очень быстро становятся заметны бизнесу.
Мой взгляд изнутри
В общем, за годы работы я понял простую вещь: SLA не существует в отрыве от людей и процессов. Его нельзя один раз написать, подписать и считать, что система заработала сама собой.
Любой проект меняется. Вместе с этим должны меняться и правила поддержки. Иначе даже хороший регламент со временем перестает работать.
Поэтому для меня в сопровождении SLA — это в первую очередь договоренность между людьми. Когда заказчик, менеджеры и техническая команда одинаково понимают, что происходит во время инцидента, работа идет намного спокойнее и быстрее.
Внутри команды это тоже требует постоянной работы: разбирать реальные кейсы, уточнять зоны ответственности, обновлять инструкции, учиться на ошибках и улучшать порядок действий после каждого сложного случая.
Метрики важны, но сами по себе они мало что решают. Реальный результат обычно появляется там, где есть понятные процессы, сильная команда и нормальный рабочий диалог между всеми участниками.
А у вас SLA помогает тушить пожар или сначала подливает в него масла?



