Отказоустойчивые вычислительные системы. Операции, необходимые для обеспечения отказоустойчивости вычислительной системы, страница 3

Если условия не выполняется, то один из модулей неисправен. Образованная этими модулями пара исключается из вычислительного процесса. Среди отказавших модулей присутствуют исправные, что является большим недостатком таких систем. Фрагмент ωq повторно решается на другой паре модулей.

Если ВС относиться к классу систем с дублированием и к ней можно применить процедуру ремонта, то вычислительные модули Ue и Uk восстанавливаются.(пример ремонта - перезагрузка)

Достоинства:

- минимальное время обнаружения неисправностей, которое обеспечивается постоянным контролем за решением каждого фрагмента задачи.

- минимальная трудоемкость процедуры определения состояния.

Недостатки:

- при появлении кратных неисправностей отказоустойчивость не гарантируется((когда оба из пары неисправны результат может совпадать)

-повышение требования к аппаратным ресурсам (если в ОМ есть n модулей, то для обеспечения отказоустойчивости требуется 2*n модулей)

1.3.4. Активная защита от отказов

Сущность метода активной защиты базируется на структурно временной избыточности. Когда в ВС можно выделить некоторое число дополнительных выч. модулей, которые в соответствии с определенной дисциплиной подключаться к  остальным выч. модулям на некоторые периоды времени и образуют пары, дублирующие вычислителя.

Модулям в такой ВС соответствуют такие объекты диагностирования, которые сами можно проверять другими модулями( в качеств модуля – микропроцессор ЭВМ, комплекс ЭВМ и т.д.), а такие модули как запоминающие устройства (ЗУ), модуль синхронизации самостоятельного значения не имеют.

Диагностирование проводиться на основание анализа синдрома. Для обеспечения активной защиты от отказов необходимо предусмотреть возможность перераспределения задач между локальными элементами.

При использования методов активной защиты в ВС делаются следующие допущения:

1.  Возможны только устойчиво отказовые ситуации, то есть синдромы отказов не меняются до моментов восстановления, либо замены модуля или реконфигурация системы, то есть исключение отказавших модулей.

2.   К моменту дешифрации синдрома известны  результаты всех элементарных проверок, проведенных за цикл диагностирования (предполагаем что имеем полную информацию о системе).

3.  Выполненные проверки обладают свойством полноты, то есть различные исправнее модули проверяющие один и тот же отказавший модуль, всегда классифицируют его как отказавший.

4.  любая пара вершин диагностического графа инцидентнане более чем двумя дугами {Ui;Uj};             (Ui,Uj),(Uj,Ui) – дуги

Данное допущении означает что любой модуль проводит проверку других модулей не более чем один раз за цикл диагностирования.

5.  Рассматриваются отказы только выч. модулей. Отказы линий связи не рассматриваются. Должна быть проведена диагностическая проверка.

            2                                    3

        

1 модуль

Диагностический граф выбирается как минимум соответствующими линиями связи.

2                               3

1                            4

Что бы 2 проверил 4, нужно что бы 3 был исправен.

Согласно идеи активной защиты, появление отказов выч. модуля, устанавливается одновременным анализом всех элементарных проверок, проведенных за цикл диагностирования.

Под циклом диагностирования  понимают период времени, за который однократно будут проверены все выч. модули.

1.3.5. Поиск одиночных отказов в системах со структурно-временной избыточностью

Если у нас имеется  задача W = {wi}, над которой проведена декомпозиция. Мы получим ряд фрагментов которые можно решать параллельно. В этом случае решение любого фрагмента можно рассматривать как нахождение функции fi(wi)

Соответственно результаты двух независимых решений одной и той же функции, в случае отсутствия отказов должны совпадать. Если они не совпадают, то мы фиксируем отказ.

Один из способов контроля заключается в специальной организации ВС, для решения потока независимых задач поступающих в определенной последовательности, либо с заданными периодами. При этом сделано предположение  что в системе не может находиться более одного отказавшего модуля, то есть кратные отказы не рассматриваются.