1.3. Отказоустойчивые вычислительные системы
1.3.1. Операции, необходимые для обеспечения отказоустойчивости вычислительной системы
Под отказоустойчивостью понимается свойство архитектуры ВС, которая позволяет ей продолжать вычислительный процесс, даже если в реальной системе, являющейся ее носителем, происходит отказ. Отказы могут быть программные и аппаратные.
Существует несколько подходов к обеспечению отказоустойчивости, однако все они предполагают наличие избыточных, аппаратных либо временных, либо и тех и других ресурсов.
Избыточность бывает двух типов:
-активная
-пассивная
В пассивных избыточных системах предоставляется доступ к запасным компонентам, которые не связаны с текущими вычислительным процессом, и должны быть активированы или модифицированы для принятия информации от отказавшего компонента.
Передача информации при данном подходе предоставляет из себя трудоемкий процесс, который как правило ведет к перебоям в работе системы. состояние на момент сбоя утрачивается и поэтому требуется повторное решение некоторых фрагментов задач. при этом увеличивается время ожидания результатов, что неприемлемо для системы реального времени.
Активно избыточные системы имеют в своем составе дополнительные модули, которые подключаются к основным в случае отказа, готовы продолжить вычислительный процесс. Через определенный промежуток времени промежуточные результаты запоминаются и могут быть использованы для ускорения восстановления вычислительного процесса.. Такое резервное сохранение промежуточных результатов называется контрольной точкой, и как правило, определяется на уровне алгоритма решения прикладной задачи.
Для обеспечения отказоустойчивости в системе должны быть предусмотрены следующие этапы:
1. Контроль состояния ВС. Задача этапа: определения факта присутствия одной или нескольких ошибок в системе
2. Диагностирование. В рамках данного этапа выявляется характер неисправности и определяются неисправные ресурсы.
3. локализация неисправных ресурсов
4. Реконфигурация. В рамках этого этапа в систему вносятся ряд изменений, которые позволяют дальнейшее решение задачи.
5. Восстановление вычислительного процесса.
6. Процесс диагностирование ВС может быть реализован как самодиагностирование, то есть объект диагностирования сам определяет свое состояние и находит неисправные компоненты.
Самодиагностирование может быть основано на двух принципах:
1. принцип расширяющихся областей
2. принцип распределенного ядра.
В первом случае в системе выделяется конкретная заведомо работоспособная часть, называется сосредоточенным ядром, и обладающая возможностью диагностировать некоторую другую часть системы.
На следующих этапах диагностирования в качестве среды диагностирования выступает ядро и уже проверенная часть системы.
Недостатки: неисправность ядра делает невозможность проведения диагностирования.
В ряде случаев ядро реализуется внешними, по отношению к системе, средствами.
В системах использующие принцип распределенного ядра, нет необходимости выделять заведомо исправную часть Вычислительные модули проводят взаимные проверки и делают предположения о исправности либо неисправности соседних модулей. Результат о исправности или неисправности любого модуля входящего в систему может быть получен только после проведения всего комплекса проверок.
Дл восстановления выч. процесса наиболее часто используется метод отказа-восстановления. Согласно этому методу с некоторым периодом в системе сохраняется вектор промежуточных результатов. Восстановление вычислительного процесса заключается в возврате к контрольной точке с последующим продолжением вычисления. Так как отказоустойчивая вычислительные системы обладают способностью постепенной деградации, она может находиться в трех состояниях:
1. отказоустойчивое
2. не отказоустойчивое, но работоспособное
3. неработоспособностью
Не отказоустойчивое состояние не видно для пользователя. Когда система находиться во 2м состоянии срабатывает оповещение.
Живучие ВС – отказоустойчивые ВС, в которых реализовано использование всех доступных исправных ресурсов.
1.3.2. Структуры отказоустойчивых систем (ОВС)
По структурной организации ОВС можно разделить на два типа:
Синдром – совокупность данных на основании которых определяется фактическое состоянии системы. Процесс определения состояния по синдрому называется дешифрацией синдрома.
Для системы централизованной дешифрации синдрома характерно наличие отдельного управляющего или обслуживающего модуля, задачами которого является
1. Организация параллельных диагностических исследований.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.