27 февраля

Управление изменениями в облачной инфраструктуре: как уйти от ручных правок и сделать изменения управляемыми

Изображение: recraft

Облако изначально создавалось как гибкая среда, где виртуальная машина развертывается за считанные минуты, масштабирование выполняется одним действием, а управление сервисом доступно через API. Но в крупных компаниях через год-два после активной миграции приходит осознание, что скорость изменений выросла, а управляемость — нет.

Инфраструктура меняется постоянно. Кто-то увеличил ресурсы, кто-то вручную поправил настройки безопасности, кто-то добавил временное правило доступа «до завтра», которое осталось навсегда. Облако не прощает хаоса, оно его масштабирует.

Проблема не в технологиях, а в модели управления

В большинстве инцидентов в облачной инфраструктуре виноваты не отказы платформы, а неконтролируемые изменения. Ручные правки в конфигурациях, локальные временные решения и несогласованные обновления постепенно формируют инфраструктурный дрейф.

В какой-то момент ИТ-директор понимает, что текущее состояние среды отличается от проектного, но зафиксировать это сложно. Документация устарела, реальные настройки расходятся с эталонными, а влияние изменений на связанные сервисы неочевидно.

Облако при этом продолжает жить своей жизнью: масштабироваться, интегрироваться с новыми сервисами и обрастать зависимостями. Процесс управления приобретает реактивный характер, когда за инцидентом следует разбор.

Почему ручной контроль не масштабируется

Ручное управление еще может работать на этапе пилотов или в небольшой инфраструктуре. Но в среде с десятками проектов, несколькими облачными провайдерами и сотнями виртуальных ресурсов такой подход – источник риска.

Каждое изменение требует координации инфраструктурной команды, службы ИБ, DevOps, владельцев сервисов. Если изменения не формализованы и не воспроизводимы, они становятся уникальными случаями. А уникальные случаи плохо масштабируются.

Кроме того, ручные операции почти невозможно проверить ретроспективно. Вопрос “кто и зачем это изменил?” часто остается без точного ответа.

Инфраструктура как код: необходимый, но недостаточный шаг

Многие компании сделали важный шаг и перешли к принципу Infrastructure as Code. Использование Ansible, Terraform и других инструментов позволяет описывать инфраструктуру декларативно и воспроизводимо.

Однако сама по себе инфраструктура как код не гарантирует управляемость. Сценарии могут быть написаны, но не стандартизированы. Репозитории могут быть формально созданы, однако изменения по-прежнему выполняются руками. То есть код написан, но не встроен в процессы. Проблема чаще всего в отсутствии единой модели управления изменениями.

Что делает изменения управляемыми

Чтобы уйти от ручных правок, изменения должны стать частью формализованного процесса. Это означает несколько принципиальных вещей.

Во-первых, любые изменения должны выполняться через автоматизированные сценарии, а не напрямую в интерфейсе облака. Даже если это быстрее “в моменте”, ручной доступ необходимо сделать исключением.

Во-вторых, целевое состояние инфраструктуры должно быть определено и храниться централизованно. Если виртуальная машина должна иметь определенный набор настроек, то система должна уметь автоматически приводить ее к этому состоянию.

В-третьих, изменения должны быть воспроизводимыми. Возможность развернуть среду “с нуля” по тем же сценариям – лучший способ проверить, насколько управляемым является процесс.

Наконец, важно всегда видеть, кто инициировал то или иное изменение, в каком контуре оно применено и как повлияло на связанные сервисы.

Событийная модель и облако

Облачная инфраструктура по своей природе событийна. Масштабирование, создание новых ресурсов и изменения конфигураций постоянно генерируют те или иные события. А они, если остаются без автоматической реакции, накапливаются и превращаются в технический “долг”.

Современные подходы к управлению предполагают не только декларативное описание того, что есть, но и автоматический запуск корректирующих действий при отклонении от заданного состояния. Это позволяет сократить время реакции на инциденты и снизить зависимость от ручного вмешательства. Фактически речь идет о переходе от “инфраструктуры по запросу” к “инфраструктуре под контролем”.

Экономика управляемых изменений

Для бизнеса управление изменениями – вопрос денег. Неконтролируемые правки ведут к простоям, а они – к прямым потерям. Избыточные ресурсы, оставленные “на всякий случай”, увеличивают расходы на облако. Ручная координация изменений занимает время дорогих специалистов.

Когда изменения автоматизированы и стандартизированы, ускоряется ввод новых сервисов, уменьшаются количество инцидентов и потребность в постоянном ручном контроле. Это напрямую влияет на OPEX и предсказуемость бюджета.

Особенно заметен эффект в гибридных средах, где сочетаются публичные облака, частные кластеры и локальная инфраструктура. Без единой модели управления такие ландшафты быстро становятся непрозрачными.

От скорости к устойчивости

Облако дало компаниям скорость, а следующий этап развития – это устойчивость.

Контроль над изменениями не снижает гибкость, а, напротив, выступает ее обязательным условием. Когда каждое изменение проходит через автоматизированный и прозрачный процесс, инфраструктура перестает зависеть от конкретных людей, их памяти и становится системной.

В этом смысле инструменты вроде Ansible превращаются в основу автоматизации управления облачными ресурсами. Ключевую роль начинает играть выстраивание платформенного подхода, при котором автоматизация охватывает весь жизненный цикл изменений: от планирования до контроля фактического состояния.

Облачная инфраструктура должна быть средой не постоянных ручных правок, а управляемых изменений. И именно от этого сегодня зависит, будет ли облако источником конкурентного преимущества или постоянной операционной нагрузки.

Иван Хрулев, ведущий менеджер продукта Astra Automation (входит в «Группу Астра»)

Автор: Группа Астра

ГК «Астра» (ООО «РусБИТех-Астра») — один из лидеров российской IT-индустрии, ведущий производитель программного обеспечения, в том числе защищенных операционных систем и платформ виртуализации. Разработка флагманского продукта, ОС семейства Astra Linux, ведется с 2008 года. На сегодня в штате компании более 1000 высококвалифицированных разработчиков и специалистов технической поддержки.

Комментарии: