Детальный проект конвейерного RISC процессора (Глава 4 "Основы конвейеризации"), страница 15


Теперь сигнал записи Dmwпамяти данных имеет слегка большую накопленную задержку. Однако, проверка контроллера памяти данных DMC (страница 81) показывает, что сигнал Dmwвсе еще является не критичным ко времени и что накопленная задержка DMC остается неизменной.

Стоимость Аппаратного обеспечения

Для конструкций DLXπи DLXσ верхнеуровневые схемные решения путей данных DPодинаковы (рисунок 4.3), и имеют одну и туже формулу стоимости CDP.

Управления модуль CONвключает механизм останова, два контроллера памяти IMCи DMCи два управляющих автомата из раздела 4.2.3. Стоимость CCON(moore) уже включает стоимость буферизации сигналов Мура до этапа обратной записи. Стоимость управления и всего ядра DLXπ , таким образом, в сумме равна

CCON   =   СIMC + CDMC + Cstall + CCON (moore) + CCON (mealy)

CDLXp   =   CDP + CCON.


Таблица 4.15 Стоимость путей данных DLX и всех окружений для ядра последовательной DLX (1) и для конвейерной конструкции DLXπ(2). Последняя строка перечисляет стоимость DLXπотносительно последовательной конструкции.


EX

SH4L

GPR

IR

PC

DP

CON

DLX

1

4083

380

4096

301

416

10846

1105

11951

2

3315

380

4066 / 30

301

1906

12198

756

12954

0.81

1

4.58

1.12

0.68

1.08

Таблица 4.15 перечисляет стоимость ядра DLX и его окружений для последовательной конструкции (глава 3) и для конвейерной. Окружение выполнения последовательной конструкции состоит из окружений ALUenv и SHenv и 9 буферов, соединяющих их с шинами операндов и результата. В конструкции DLXπ шины более специализированы, так что EXenv требует только три буфера и два мультиплексора, и поэтому дешевле на 20%.

Для решения структурных опасностей (structural hazard) конструкция DLXπтребует расширенного окружения PC с сумматором и инкрементером условной суммы. Этим объясняется увеличение стоимости PCenv  на 358% и 12% увеличение стоимости всех путей данных.

Согласно предположению, что опасности данных и управления решаются программно, управление становится дешевле. Из-за вычисления заранее и буферизации управляющих сигналов, автомат генерирует 19 сигналов вместо 29. Вдобавок, схема выполнения оптимизирована обрезанием общей частоты vsumуправляющих сигналов наполовину. Например, константа извлекается только на этапе ID, а не в каждом состоянии этапа выполнения.

Время цикла

Для определения времени цикла конструкции DLX, мы различаем три типа путей: через управление, через систему памяти и через пути данных.

Управляющий блок CON Автомат блока управления генерирует управляющие сигналы Mealy и Мура. Сигналы Mealy управляют только этапом ID; они имеют накопленную задержку в 13 вентилей. Сигналы Мура вычисляются заранее и поэтому имеют нулевую задержку:

ACON (csID)    =   ACON (mealy) = 13

ACON(csEX)    =   ACON (csM) = ACON(csWB) = 0.


Таблица 4.16 Время цикла ядра DLX с фиксированной точкой для последовательной (1) и конвейерной конструкции (2). В конвейерной конструкции dmemозначает максимальное из двух времен доступа dDmemи dDmem ; dmstatозначает максимальное из двух времен состояния dIstat и dDstat.


ID

EX

WB

IF,M

control CON

GPRr

PC

ALU/SH

GPRw

memory

auto

stall

1

27

70

70

37

l6 + dmem

42

37 + dmstat

2

27

54

66

33

l6 + dmem

32

41+dmstat