Построение отказоустойчивых вычислительных систем распределенной обработки информации и алгоритмы реконфигурации, страница 5

При построении отказоустойчивых систем РОИ будем основываться на следующих предположениях.

1)  Правильность построения системы. Это предположение предусматривает, что система алгоритмически построена правильно, т.е. в системе не существует сбоев, связанных с алгоритмом функционирования аппаратуры или с модулями применения .Неисправность модуля может иметь в результате других сбоев, в частности. Сбоев аппаратного оборудования;

2)  Появление ошибки. Модули сообщаются друг с другом путем обмена сообщения и сбой модуля не вызывает сбоя в другом модуле т.е. ошибки не распространяются через сообщения;

3)  Надежность системы связи. В данном случае предполагается, что при передаче сообщения не искажались и что система не становится разделенной. Сообщения передаются либо правильно , либо не передаются вовсе и система не становится разделенной. Сообщения передаются либо правильно, либо не передаются вовсе и система гарантирует максимальное время выдачи сообщения.

Допущения 1) и 2) предусматривают, что первой реакцией на появления сбоя является прерывание его работы. Устранение ошибок и гарантированное время выдачи сообщения предполагает, что сбой можно обнаружить простым механизмом блокировки.  Более того, устранение ошибки и надежная связь позволяет использовать восстановления на контрольных точках.

1.2  Отказоустойчивая система

Прикладная система состоит из ряда модулей, которые взаимодействуют для выполнения требуемых функций. Эти модули обеспечивают отказоустойчивость системы   и называется надежными модулями (Н - модули). Рассматриваемые модули аналогичны модулям задачи. Однако требование надежности приводит к особенностям их построения.

          Это требование обеспечивается с помощью “холодного” резерва, что характерно для системы первого типа, или введением “горячего” резерва, что более подходит для систем второго типа.   

          Для каждого н – модуля оговаривается тип услуг, обеспечивающих соответствующий тип надежности. Это определяет, как Н – модуль будет действительно  использован. Стандартными методами автоматически выполняются   необходимые изменения, чтобы обеспечить каждый тип обслуживания. Необходимо также предусмотреть дополнительное время прогона.

          При холодном резерве каждый н – модуль имеет одну дополнительную копию. При проектировании  определяется ряд процессоров, в которых эта к копия будет размещена. Вначале выполняются требуемые действия конфигурации для размещения и для начала работы копии на первой ЭВМ  множества. Во время работы ЭВМ, ведущая эту копию н – модуля. Может отказать. Когда такой сбой обнаруживается, новая копия Н – модуля может быть создана на другой ЭВМ  множества (Рис. 1.5). За обнаружение и реконфигурацию отвечают модули проверки состояния и управления реконфигурацией.

          Следует отметить, что информация о состоянии между двумя последовательными активациями копий Н – модуля не сохраняется, обеспечивается только временное хранение Н – модуля. Кроме того, необходим определенный интервал времени, чтобы система выполнила все действия, требуемые для получения нового экземпляра Н – модуля для прикладной системы, так как она должна быть создана и иметь порты  (т.е. множество логических соединений). Система гарантирует создание новой копии, однако восстановление состояния и  длительность взаимодействия с другими Н – модулями должны быть учтены при проектировании прикладной системы. Время восстановления может быть уменьшено за счет предварительного ( до сбоя ) создания холодного резерва. Так как ЭВМ может быть использована как потенциальное  место резервирования более сем одного Н – модуля, предварительное создание требует значительных ресурсов. При горячем резерве Н- модуль , обеспечивающий соответствующее обслуживание, представляется двумя идентичными копиями модуля и,  по крайней мере, требуется два процессора . При проектировании  определяется множество процессоров и система размещается так , чтобы в каждый момент времени они играют разную роль. Одна из них – активная – будет действительно обрабатывать сообщения и взаимодействовать  с другими М – модулями. Другая – пассивная не осуществляет обработку, а сохраняет копию информации, обрабатываемую активным компонентом. Эта информация передается на пассивный элемент в контрольных точках во время действия активного компонента. Обнаружения сбоя, выбор правила и передача состояния лежат на модуле управления горячего резерва, связанного с каждой копией н – модуля.