Информатика и выч. техника \ Архитектура вычислительных систем

Детальный проект конвейерного RISC процессора (Глава 4 "Основы конвейеризации"), страница 16

Время цикла блока управления является максимальным из времен, требуемых механизмом останова и автоматом

tcon = max{T_stall , T_auto}.

По сравнению с последовательной конструкцией автомат меньше. Максимальная частота управляющих сигналов и максимальный коэффициент объединения по входу состояний урезаны на 25%, сократив время T_autoна 24% (таблица 4.16). Однако время цикла всего блока управления слегка увеличилось из-за механизма останова.

Окружения памяти Время цикла T_Mмоделирует время чтения и записи окружений памяти IMenv и DMenv. Конвейеризация не влияет на время t_M , которое зависит от времен доступа к памяти d_Imemи d_Dmem:

t_m = max{T_IMenv,T_DMenv}.

Пути данных DP Время цикла T_DPявляется максимальным временем всех циклов в путях данных за исключением тех, которые проходят через блоки памяти. Оно включает этапы декодирования, выполнения и обратной записи:

T_DP = max{T_ID, T_EX, T_WB].

В течении декодирования, конструкция DLX обновляет окружение PC (T_PCenv), читает регистровые операнды (T_GPRr), извлекает константы и определяет адрес назначения. Таким образом,

Таблица 4.16 перечисляет все эти времена циклов для последовательной и конвейерной конструкции DLX. Конструкция DLX_πопределяет константу и адрес назначения уже в течении декодирования. Это сохраняет 4 вентиля задержки в циклах выполнения и обратной записи и улучшает общее время цикла на 6%.

Время цикла этапа ID является доминирующим в обновлении PC. В последовательной конструкции окружение ALU используется для увеличения PC и для вычисления адреса перехода. Так как окружение PCenv теперь имеет собственный сумматор и инкрементер, обновление происходит на 20% быстрее.

Итог 4.6

Конвейеризация имеет следующее воздействие на стоимость и время цикла ядра DLX с фиксированной точкой, исходя из предположения, что остальные опасности управления и данных могут быть решены программно:

• Пути данных становятся приблизительно на 12% дороже, но управление становится дешевле приблизительно на 30%. Так как управление составляет 5% от всей стоимости, конвейеризация увеличивает стоимость ядра примерно на 8%.

• Время цикла уменьшается на 6%.

Для анализа воздействия, которое конвейеризация имеет на качество ядра DLX с фиксированной точкой, мы должны количественно определить производительность двух конструкций. Для последовательной конструкции это было сделано в [MP95]. Для конвейерной конструкции производительность сильно зависит от того, как могут быть решены опасности данных и управления. Это анализируется в разделе 4.6.

4.4 Пересылка результата

В этом разделе мы опишем довольно простое расширение аппаратных средств машины DLX_π , которое позволит значительно ослабить гипотезу теоремы 4.5. На самом деле для новой машины мы покажем теорему 4.5 но со следующей гипотезой: Если команда I_i читает регистр GPR[r], тогда команды I_i_-1 , I_i_-2не являются операциями загрузки с адресатом GPR[r].

Теорема 4.7

Предположим, что для всех i>= 0 и r=/=0, команды I_i_-1 , I_i_-2 не являются операциями загрузки с адресатом GPR[r], где GPR[r] – исходный операнд команды I_i. Тогда для всех циклов Т и T', для всех этапов k и для всех команд I_i применимы следующие два требования, при

1. Для всех сигналов S на этапе k которые являются входами в регистр R € out(k) обновление происходит в конце цикла Т:

2. Для всех регистров и R € out(k) которые являются видимыми или обновленными в конце цикла Т:

4.4.1 Флаги правильности

Сперва мы введем три новых, вычисляемых заранее управляющих сигнала v[4 : 2] для подготовленной последовательной машины DLX_σ. Сигнал правильности v[j] показывает, что данные, которые будут записаны в файл регистров на этапе 4 (обратная запись), уже доступны в цепях этапа j. Для команды I_i, сигналы правильности определяются как

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Скачать файл