Раскрываем тайны целевых показателей восстановления

В современных организациях простои недопустимы: необходимо соответствовать требованиям и ожиданиям клиентов. Однако различные типы инцидентов могут нанести вашей компании финансовый ущерб и даже поставить под угрозу ее существование. Атаки программ-вымогателей, отключения электроэнергии, наводнения и просто человеческие ошибки — все эти события невозможно предсказать, поэтому нужно просто БЫТЬ К НИМ ГОТОВЫМИ.

Готовность означает, что необходимо разработать надежный план обеспечения непрерывности бизнес-процессов и послеаварийного восстановления (план BCDR). Этот план необходимо протестировать и убедиться, что его легко реализовать.

Два важных параметра, которые характеризуют план BCDR, — целевая точка восстановления (RPO) и целевое время восстановления (RTO). Для тех, кто еще не знаком с этими терминами, приведу их краткое определение:

  • RPO определяет, насколько далеко будет сделан откат во времени при восстановлении, то есть какие максимальные потери данных (в единицах времени) допустимы с момента создания последней действительной резервной копии до момента аварии.
  • RTO связан со временем простоя и показывает, сколько времени займет восстановление работы с момента аварии до тех пор, пока сервисы станут доступны пользователям
Demystifying Recovery Objectives

RPO и RTO называются очень похоже, но они нужны для разных целей. В идеальной ситуации оба эти показателя должны быть максимально близки к нулю. Однако в реальной жизни затраты на достижение нулевых RPO и RTO будут очень высоки и, возможно, не окупятся.

Давайте рассмотрим целевые показатели восстановления подробнее. RPO определяет, каковы допустимые потери данных, чтобы это не повлияло на работу компании. Например, для банковской системы, работающей в режиме реального времени, потеря данных за 1 час может стать катастрофой. Чтобы вам проще было понять, что такое RPO, представьте себе, что это момент, когда вы последний раз сохраняли документ, над которым работаете. Если произойдет сбой в работе системы и все сделанные изменения пропадут, какой объем проделанной работы вы готовы безболезненно потерять?

Что касается RTO, это промежуток времени, в течение которого необходимо восстановить работу приложений и систем после аварии. Начинать отсчет RTO нужно с момента аварии, а не с момента, когда ИТ-отдел приступает к ее устранению. Это более практичный подход, поскольку он учитывает именно ту точку, когда пользователи сталкиваются с проблемой.

Определение показателей RTO и RPO для приложений

Нужно понимать, что универсального плана обеспечения непрерывности бизнеса и универсальных значений показателей не существует. Компании в разных отраслях устроены и работают по-разному, их потребности различаются, следовательно, различаются и требования к целевым показателям восстановления. Однако в общем случае принято делить приложения и сервисы на уровни. После этого можно устанавливать целевые показатели времени восстановления и точки восстановления (RTPO) в соответствии с соглашениями о гарантированном уровне обслуживания (SLA), действующими в конкретной организации.

Классификация данных по уровню необходимой защиты позволяет определить, как эффективно хранить, защищать, восстанавливать и обновлять данные и информацию, а также обеспечивать к ним доступ в зависимости от их характеристик. Главное — проанализировать имеющиеся приложения и понять, какие из них в первую очередь важны для развития бизнеса и получения прибыли и поэтому должны работать бесперебойно. Этот процесс называется анализом воздействия на бизнес (BIA). Он имеет ключевое значение для подготовки надежного плана обеспечения непрерывности бизнеса, позволяя определить необходимые протоколы и действия для устранения последствий аварий.

Например, при создании плана обеспечения непрерывности бизнеса можно разделить приложения на три уровня:

  • 1 уровень: критически важные для бизнеса приложения, для которых показатели RTPO должны составлять менее 15 минут
  • 2 уровень: критически важные приложения, для которых показатели RTO составляют 2 часа, а показатели RPO — 4 часа
  • 3 уровень: некритичные приложения, для которых показатели RTO составляют 4 часа, а показатели RPO — 24 часа

Важно помнить, что распределение приложений по трем уровням будет различаться в разных отраслях, каждая организация самостоятельно определяет важность тех или иных приложений в зависимости от особенностей работы и требований.

Распределив приложения и сервисы по уровням и понимая, какие последствия ждут вас в случае тех или иных аварий, нужно найти решение, которое поможет защитить данные и работу компании. Veeam Availability Platform — комплексный набор инструментов, который позволяет достичь минимальных целевых показателей восстановления данных виртуальных, физических и облачных систем.

Обеспечение RTO и RPO на практике

Быстрое восстановление объектов приложений

Представитель отдела продаж удалил сообщение электронной почты, которое нужно срочно отправить заказчику. Microsoft Exchange относится к приложениям 2 уровня. Поскольку у ИТ-администратора запланированы задания резервного копирования в течение дня, компании нетрудно достичь показателя RPO, равного 1 часу. С помощью Veeam Explorer for Microsoft Exchange, который входит во все версии Veeam Backup & Replication, очень просто восстановить отдельное сообщение электронной почты за несколько минут и даже секунд. При этом вы экономите время и ресурсы, которые потребовались бы для остановки и восстановления целой ВМ, на которой работает сервер приложения!

Demystifying Recovery Objectives

Мгновенное восстановление виртуализованного сервера непосредственно из резервной копии

Представим себе банк, у которого есть некоторое количество банкоматов. Банкоматы очень важны для работы банка (2 уровень), их недоступность в течение нескольких часов повлияет на проводимые банком операции, но не остановит их полностью. С помощью Veeam Backup & Replication и функции мгновенного восстановления ВМ можно сразу же перезапустить виртуализованный сервер банкоматов из дедуплицированного и сжатого файла резервной копии Veeam. Это позволяет достичь показателя RTO, равного нескольким минутам! Более того, используя функции миграции гипервизора и Veeam Quick Migration, можно легко перенести работающую ВМ с резервной площадки в производственную, завершив процесс восстановления. 

Demystifying Recovery Objectives

Полное переключение на резервную площадку

Работы с электросетью привели к полному отключению питания и остановке работы одного из ваших дата-центров. В результате все критически важные приложения 1 уровня оказались недоступны. Допустим, вы делаете реплики всех критически важных ВМ на удаленную площадку каждые 10 минут, используя решение Veeam. Таким образом, вам несложно достичь требуемого показателя RPO в несколько минут. Что касается RTO, Veeam обеспечивает возможность быстрого восстановления в случае крупных аварий: переключение на реплику в один клик, упрощенное обратное переключение, автоматическое переназначение IP для восстановления сети на резервной площадке и полноценное послеаварийное восстановление с использованием облака.

Demystifying Recovery Objectives

Защита персональных компьютеров

Помимо виртуальной инфраструктуры, Veeam позволяет защитить и физические устройства, в том числе предлагает возможности резервного копирования и восстановления данных персональных компьютеров и ноутбуков. С помощью Veeam Agent for Microsoft Windows можно восстановить файлы с аварийного загрузочного диска на компьютер под управлением Windows или даже запустить образ ПК из резервной копии как виртуальную машину, чтобы обеспечить низкий RPO.

Demystifying Recovery Objectives

Кроме того, с помощью Veeam Agent for Linux можно защитить системы Linux как на локальной площадке, так и в публичном облаке.

Demystifying Recovery Objectives

Заключение

Никто не может предсказать, когда случится авария, но если она уже произошла, вы можете четко следовать плану обеспечения непрерывности бизнеса. Значения показателей RPO и RTO могут различаться в разных компаниях, но в любом случае они представляют собой компромисс между требованиями бизнеса к доступности данных и необходимыми инвестициями в ИТ. Их значения должны быть определены в ходе диалога между бизнес-подразделениями и ИТ-специалистами вашей компании. Однако не подлежит обсуждению необходимость надежного решения для обеспечения доступности данных виртуальных, физических и облачных систем, которое гарантирует непрерывность бизнес-процессов компании.


Подробнее:

НОВИНКА
V11A

Предотвращение потерь данных
Защита от программ-вымогателей

#1 Backup and Recovery

Добавить комментарий

Ваш e-mail не будет опубликован.