Отказоустойчивые вычислительные системы. Операции, необходимые для обеспечения отказоустойчивости вычислительной системы, страница 2

2.  Сбор диагностической информации

3.  Определение технического состояния на основании дешифрации синдрома

В системах с децентрализованной дешифрацией синдрома любой выч.модуль принимает решение о техническом состоянии системы.

Наличие управляющего модуля в системе  с централизованной дешифрацией синдрома позволяет иерархически наращивать структуру системы, при этом на любом уровне возможно применение методов защиты о отказов.

ГМ

 


ГМ                                  ГМ

 


                                                               

ГМ                                         ГМ

 


ВМ1….ВМn        ВМ1                 ВМ2        ВМ3

ВМ – вычислительный модуль

ГМ-главный модуль

Реализация взаимных тестов между выч. модулями

В процессе работы ВС, в которой организована отказоустойчивость, часть модулей тестируют друг друга. Тестирование одним модулем другого  - элементарная проверка. Известно несколько способов проведения элементарной проверки. Выбор конкретного способа определяется спецификой системы.

Одним из основных методов является таймерный контроль. В этом случае заранее четко определены промежутки времени, первый модуль ожидает сигнала от другого. Модуль ожидаемы сигнал – контролирующий. Модуль, который должен послать сигнал – контролируемый.  Решение об отказе контролируемого модуля принимается в том и только том случае, если ожидаемый сигнал не получен, но принят сигнал от таймера об окончание контролируемого интервала. Таймер, является составной частью контролирующего модуля, и так же может быть подвержен отказам. В частности отказом может быть отсутствие сигнала об истечении контролируемого интервала. В этом случае отказ таймеров маскирует отказ неисправного модуля.

Пример: проверка как на стороне клиент, сервер.

Такой метод проведения элементарной проверки мало эффективен, так как при его реализации контролируемый интервал не зависит от специфики задачи и может превышать время решения определенных фрагментов прикладной задачи.

Пример: при реализации http – прокси, соединение должно быть закрыто через определенный интервал времени. Они не учитывают специфику.

Другим вариантом решения проведения элементарных проверок является одновременное решение одного и того же фрагмента на паре выч. модулей с последующим сравнением результатов.

Преимущество второго метода состоит в том, что решение фрагмента прикладной задачи или элементарная проверка выполняется одновременно. Помимо этого в состав выч. устройства не требуется вводить дополнительное устройство (в частности таймер).

1.3.3. Организация отказоустойчивых систем с дублированием

В таких ВС множество всех вычислительных модулей

U ={ui}, i =1,n

разделено на два подмножества

В U1 входят основные модули системы в U2 дополнительные. Каждому основному модулю (ОМ) ставиться в соответствие дополнительный модуль (ДМ). Таким образом получается пара которая подключена к одним и тем же магистралям и получают одинаковые задачи для решения.

Принцип быстрой обнаружения неисправности реализуется с помощью методов сравнения и самоконтроля.

самоконтроль основывается на получении дополнительных резервов из основных. Это позволяет выч. модулю обнаружить собственную неисправность.

Данный метод не эффективен из за сложности корректного определения собственного состояния.

Метод сравнения основывается на независимом решении модулей

Ue Є U1

Uk Є U2

одного фрагмента задачи ωq

Полученные результаты feq) и fkq) сравниваются либо специальным устройством, называемым компаратор, либо отдаются вычислительным модулем, либо самими модулями Ue и Uk (децентрализованная организация).

Если совпадают, то модули считаются исправными, а результат верным. ОМ Ue передает результат другим модулям ВС для использования результатов в качестве исходных данных.