RAID-массивы. Компромиссы RAID-технологии. Производительность RAID-систем, страница 6

Следовательно, можно иметь самые надежные диски в мире и использовать несколько уровней RAID для защиты от отказа накопителя, но если использовать в системе ненадежные вспомогательные компоненты, реализовать надежную систему с высокой доступностью невозможно. Однако фактически ситуация еще хуже. Напомним, что RAID снижает надежность, но улучшает отказоустойчивость; однако большинство других компонентов системы не обладают отказоустойчивостью и отказ любого из них выводит из строя РС. Особенно важны компоненты, которые влияют на все накопители в системе и известны своей невысокой надежностью.

Для повышения надежности РС в целом системы с RAID-массивами обычно проектируются из высоконадежных компонентов. Поскольку многие проблемы РС связаны с питанием, во многих RAID-системах компьютеры оснащаются избыточными блоками питания.

А как быть с такими компонентами, как процессоры, материнские платы, системная память и др.? Конечно, они также являются критичными компонентами, но обеспечить их отказоустойчивость очень сложно. Если требуется защита от отказов всех компонентов системы, необходимо рассмотреть возможность установки избыточных компьютеров.

Доступность данных в RAID-системах

С надежностью и отказоустойчивостью связано еще одно понятие - доступность (availability), которое просто означает возможность доступа пользователей к данным. Для некоторых организаций расходы из-за потери доступа к данным даже на один час могут превысить стоимость всей RAID-системы. Доступность массива зависит от нескольких факторов:

·  Надежность аппаратных средств: Чем выше надежность аппаратных средств в массиве, тем меньше вероятность отказа и тем выше доступность данных. Надежность вспомогательного оборудования столь же важна, как и надежность накопителей в массиве.

·  Отказоустойчивость: RAID-массивы и реализации с высокой отказоустойчивостью обеспечивают лучшую доступность данных.

·  Горячая замена: RAID-массивы со средствами горячей замены накопителей устраняют необходимость выключения системы в случае аппаратного отказа.

·  Автоматическая перестройка: Если система работает круглосуточно, очень важна способность автоматической перестройки накопителя, чтобы массив продолжал работать.

·  Обслуживание: Если массив выходит из строя, доступность отсутствует до устранения отказа. Поэтому важное значение имеет быстрое обслуживание массива.

Если требуется высокая доступность, ее можно обеспечить дополнительными расходами. Имеются компании, которые разрабатывают специальные отказоустойчивые системы, которые могут выдержать почти все. Для применений, критичных к доступности, приходится использовать полностью избыточные системы, часто находящие в различных местах.

Резервирование и восстановление данных

В большинстве уровней RAID используется чередование, поэтому многие файлы "разбиты" на небольшие фрагменты и распределены по разным накопителям в массиве. При этом повышается производительность, но возникает реальный риск целостности данных. Если в массиве с чередованием выходит из строя накопитель, "некоторая часть" почти каждого файла в системе исчезает и практически невозможно узнать, что же исчезло. Отказоустойчивый массив с защитой по паритету устраняет этот риск, допуская отказ одного накопителя, но в уровне RAID 0 этого нет. Поскольку надежность аппаратных средств массива намного ниже надежности отдельных накопителей, вероятность катастрофического отказа в массиве RAID 0 оказывается выше, чем считают некоторые люди.

При использовании зеркалирования самого по себе или в комбинации с другим способом вероятность потери данных из-за аппаратного отказа значительно снижается, но все же не равна нулю. Имеется множество других проблем, которые могут привести к потере данных:

·  Неожиданные отказы жесткого диска: Одновременный отказ двух зеркальных накопителей маловероятен, особенно если они от одного производителя и из одной партии. Однако иногда из-за особенностей технологического процесса выпускаются партии накопителей с более высокой вероятностью отказа.

·  Отказы вспомогательных аппаратных средств: Могут отказать компоненты, от которых зависит работа всего массива, например блоки питания, материнские платы (например, из-за перегрева) или микросхемы памяти. При этом массив либо сразу перестает работать, либо иногда работает с постепенным искажением данных.

·  Физическое повреждение: Аппаратура может быть повреждена из-за природных катастроф, небрежности или саботажа. Такие повреждения могут повлиять на все или большинство накопителей в массиве.

·  Программные проблемы: В программах, даже операционных системах, имеются ошибки, которые могут вызвать потерю данных.

·  Вирусы: Вирус может уничтожить отдельные файлы или даже дисковые тома на системном уровне; в этом случае не помогает никакая форма RAID.

·  Ошибки персонала: Это одна из главных причин потери данных и RAID не защищает от случайного удаления файлов, форматирования, неправильной организации разделов и др.

Приведенный список не является исчерпывающим, но он подчеркивает, что даже живучая реализация RAID не заменяет необходимых процедур резервирования. Чем более важные данные хранятся в RAID-массиве, тем важнее хорошая система резервирования.

При обычных обстоятельствах отказ жесткого диска приводит к недоступности данных. Однако большинство отказов, особенно механических, не вызывают стирания данных на поверхностях дисков. С помощью специальных процедур можно считать большую часть и даже все данные с жесткого диска. Этот процесс называется восстановлением данных (data recovery).

RAID-массивы, особенно массивы с чередованием, значительно усложняют восстановление данных. В них данные не размещены относительно простым способом на одном жестком диске, а распределены по многим накопителям. Несмотря на эту сложность, все же в большинстве случаев можно восстановить данные; просто восстановление окажется дороже.