Всеволод Сергеевич Бурцев Параллелизм вычислительных процессов и развитие архитектуры суперэвм м, 1997



бет6/16
Дата14.06.2016
өлшемі2.36 Mb.
#135091
1   2   3   4   5   6   7   8   9   ...   16

57

В.С.Бурцев. Выбор новой системы организации выполнения высокопараллельных вычислитель-ных процессов, примеры возможных архитектурных решений построения суперЭВМ

многопроцессорные комплексы были исследованы на моделях и дали неплохие результаты. Это позволяет говорить о том, что максимальная произвдительность многопроцессорных вычислительных комплексов, построенных на принципах новой нетрадиционной архитектуры суперЭВМ, может достигать на полупроводниковой базе 1012 оп/с (темп = 10 нс), а с использованием оптических принципов коммутации и ассоциативной памяти - 1013 - 1014 оп/с и более (темп = 1 нс).



5. Общие соображения по выбору архитектуры машины

При принятых нами концепциях о выделении векторных операций в специальное исполнительное устройство со своей памятью и распределении командной памяти по всем исполнительным устройствам, укрупненная структурная схема представляется достаточно просто (Рис.6).

Производительность такого вычислительного кольца будет зависеть от темпа работы блока исполнительных устройств и их загрузки.

Темп блока исполнительных устройств можно считать неограниченным, так как можно практически неограниченно увеличивать количество скалярных исполнительных устройств. При достаточно большом числе каналов Nk, безусловно, скорость продвижения по кольцу могут сдерживать коммутаторы К1 и К2 но, учитывая принципиальную возможность их параллельной работы, а также дополнительные возможности оптических принципов коммутации, эту проблему можно решить. Наиболее принципиальным блоком, ограничивающим скорость продвижения данных по кольцу, является ассоциативная память (АП). Как показано в [3], в одном модуле невозможно получить требуемого быстродействия.

При требуемом объеме памяти, разбиение на модули ассоциативной памяти существенно повышает ее пропускную способность, но, в отличие от блоков исполнительных устройств и коммутаторов, имеет принципиальные ограничения:


  • увеличение количества модулей при том же объеме памяти снижает объем каждого модуля и увеличивает вероятность его переполнения;

  • как бы хорошо не была выбрана функция распределения данных по модулям, будут иметь место случаи одновременного обращения к одному модулю с нескольких направлений.

Поэтому, при реальном проектировании структуры машины потока данных за базу пропускной способности машины необходимо взять возможности реализации ассоциативной памяти, а все остальные блоки вычислительного кольца проектировать так, чтобы не сдерживать работы АП при условии минимизации величины NC по всему кольцу.

В настоящее время АП общим объемом в 106-7 слов можно построить из 100 модулей, причем скорость работы каждого модуля будет не более 10 нс. Построить исполнительные устройства, работающие с темпом 10 нс, в настоящее время представляется возможным. Отсюда возникают требования к темпу работы коммутаторов - коммутация 100x100 каналов с темпом 10 нс. Реализовать такие требования по темпу работы коммутатора в одном модуле без использования оптических средств в настоящее время представляется



58

В.С.Бурцев. Выбор новой системы организации выполнения высокопараллельных вычислитель-ных процессов, примеры возможных архитектурных решений построения суперЭВМ

невозможным. Даже с использованием оптических средств коммутации, построить систему управления коммутаторами с требуемым быстродействием будет достаточно сложно и, возможно, придется использовать принцип "расслоения" работы коммутаторов.

При разбиении ассоциативной памяти на независимо работающие модули при выполнениии программ возникают ситуации "натыков", когда несколько исполнительных устройств обращаются одновременно к одному модулю АП. При этом возможна ситуация, когда вычислительный процесс не сможет идти дальше (так называемый "затыр"), если в кольце нет буфера объемом N слов. Этот буфер может стоять в любом месте кольца.

В потоковой модели вычислений нет переиспользования ячеек памяти, а с понятием общих данных связан процесс размножения данных. При выполнении процесса размножения в кольце рождается больше готовых пар, чем имеется станций обработки. Поэтому, для выполнения процесса размножения в общем случае также необходим буфер, причем емкость его должна быть большой (чтобы не накладывать ограничений на программирование). Этот буфер должен быть и быстродействующим. Поэтому, целесообразно иметь в кольцах небольшие быстродействующие буфера и общий буфер большого объема, связанный с буферами в кольцах.

Исходя из принципа минимизации NC, эти буфера целесообразно объединить в один. Так как токены, направляемые к одновходовым командам, не проходят через коммутатор ассоциативной памяти, а процесс обмена в системе буферов не должен быть привязан к номеру кольца, то такой буфер должен располагаться в кольце между выходом АП и входом ИУ.

Ранее указывалось, что в потоковой модели желательно соблюдать принцип "первый вошел - первый вышел". Если строго следовать этой идее, то в случае натыка по АП прием новых токенов на входные регистры коммутатора ассоциативной памяти должен быть заблокирован до окончания обработки всех поступивших ранее запросов. Так как мы не предусматриваем буфера между ИУ и АП, то при этом ИУ будут остановлены до окончания "разборки" натыка, а затем начнется последовательная обработка готовых пар, которые возникли в модуле АП при разборке натыка. Такая приостановка работы и последующий медленный разгон снижают производительность. Этого можно избежать, если на выходе АП поставить коммутатор-распределитель, который во время разборки натыка будет распределять возникающие готовые пары по всем ИУ. После завершения разборки натыка возникшие за это время готовые пары будут одновременно (параллельно) переданы на ИУ, чем достигается потеря всего лишь одного такта по сравнению с временем разборки натыка, когда не блокируется прием на входные регистры коммутатора АП.

При выполнении программ из-за натыков по модулям АП тормозятся, как правило, ИУ колец, в которых возникли токены, направленные коммутатором к одному модулю АП. При этом могут быть кольца, в которых ИУ в данный момент не заняты (в кольце готовых пар). Если отказаться от соблюдения принципа "первый вошел - первый вышел" в коммутаторе ассоциативной памяти, то для увеличения производительности необходимо в эти кольца передать готовые пары из колец, ИУ которых заняты, с помощью коммутатора- распределителя.

59

В.С.Бурцев. Выбор новой системы организации выполнения высокопараллельных вычислитель-ных процессов, примеры возможных архитектурных решений построения суперЭВМ

Коммутатор-распределитель должен учитывать занятость непосредственно ИУ, поэтому он должен стоять непосредственно перед ИУ.

Так как требование соблюдения принципа "первый вошел - первый вышел" не является жестким (т.е. может привести к успеху далеко не во всех возможных ситуациях), то рассматривается вариант архитектуры, в котором выходы модуля АП подключаются непосредственно ко входам коммутатора-распределителя, а его выходы к буферам готовых пар.

При разборке натыков блокируется прием токенов на все входы коммутатора АП



6. Описание работы одной из базовых схем

Рассмотрим несколько более подробно работу одного из вариантов базовой схемы (Рис.7).

Вычислительное кольцо состоит из следующих основных блоков: исполнительное устройство (ИУ1-n), коммутаторов ассоциативной памяти (КМАП), модулей ассоциативной памяти (МАП), распределенного буфера (БУУ и БАУ), устройства регулятора коммутатора (УКМР) и коммутаторов распределителей (КМРУУ и КМРАУ).

Рассмотрим функции работы каждого блока кольца.



Исполнительное устройство.

Учитывая специфику выполнения команд управления, очевидно будет рациональным иметь, наряду со стандартным арифметическим микропроцессором (AM), специализированный микропроцессор для выполнения управленческих операций (УУ). Каждое исполнительное устройство должно содержать память команд (ПК) с относительно большим временем записи и быстрым чтением команд. В каждую ПК должны быть записаны все команды выполняемой на машине задачи. На вход исполнительных устройств приходят пакеты готовых к выполнению операций (Рис.8а). Такой пакет состоит из "окраски" токена результата - разрядов индекса, разрядов итераций и разрядов активизации; номеров команды, куда необходимо направить результат, кода выполняемой операции (может отсутствовать), кода определяющего тип выполняемой команды и двух операндов.

В зависимости от типа выполняемой команды, данные поступают либо на входной регистр управления (вхУ), либо на входной регистр арифметической операции (вхА) (Рис.7).

С входных регистров данные передаются на УУ и АУ соответственно, если в пакете содержится код операции, то начинается выполнение операции, а одновременно с этим в ПК находятся коды операций следующих команд и адреса следующих команд.

Если придерживаться классической схемы потока данных, то вместе с кодом следующей команды в ПК хранится код операции, которая должна выполняться в настоящий момент. В этом случае, одновременно с кодом операции, должен храниться код типа команды, которая будет выполняться.

60

В.С.Бурцев. Выбор новой системы организации выполнения высокопараллельных вычислитель-ных процессов, примеры возможных архитектурных решений построения суперЭВМ



Рис.7. Принципиальная схема машины.



61

В.С.Бурцев. Выбор новой системы организации выполнения высокопараллельных вычислитель-ных процессов, примеры возможных архитектурных решений построения суперЭВМ

В случае классической последовательности, выполнение операции на ИУ должно начинаться со считывания команды из ПК для определения кода выполняемой операции (Рис.7).

По коду типа операции, которая должна выполняться следующей: двухвходовая или одновходовая, выдается результат либо на внешние два регистра Рвнеш1 Рвнеш2. либо на внутренние P1 и Р2. Токен каждого выходного операнда формируется из данных результата, кода следующей команды, "окраски", состоящей из индекса, итерации, активации, кода хеширования, следующей операции и типа следующей операции (Рис.8б).

Код хеширования вырабатывается в устройстве хеширования (ХК), как правило, в результате простого или циклического сложения младших разрядов кодов I, T, П и NK. По семи разрядам хеш-функции определяется номер модуля ассоциативной памяти, где необходимо искать пару для сформированного токена. В том случае, если следующая команда должна быть одновходовой, выходной токен формируется на внутренних выходных регистрах P1 и Р2. Токен, формируемый на этих регистрах, отличается от выходного токена только отсутствием кода хеш-функции. Токен с внутренних регистров передается, соответственно, либо на входные регистры вхУ, либо на регистр вхА.

Необходимо сформулировать условия, при которых ИУ готово к приему пакета из коммутатора КМР для выполнения операции.

Прием на любой из входных регистров возможен, если свободны выходные регистры (и внешние и внутренние) соответствующего микропроцессора и нет внутреннего запроса на выполнение операции. Таким образом, по каждому входу будут продолжаться вычисления до тех пор, пока не будет выполнена операция, требующая выхода на внешние регистры.

Такой принцип работы имеет определенные ограничения в части выполнения последовательности команд, имеющих один вход и два выхода. Как видно из структурной схемы ИУ, может быть выполнена последовательность не более чем из двух операций такого вида, так как третья операция не будет иметь места для размещения результата. Однако, это ограничение не столь существенно, если рассмотреть таблицу операций, приведенную на Рис.9.

Так, последовательность одновходовых команд 10-18, 28, 37, 38, 52 не имеет смысла. Остается команда 23, для которой целесообразно сделать специальное кольцо через внешние выходные регистры и коммутатор распределитель КМР, минуя ассоциативную память. В этом случае раздача параметра или константы во все указанные узлы графа будет выполняться почти одновременно всеми исполнительными устройствами.



Коммутатор ассоциативной памяти.

Токены (Рис.8в) из всех исполнительных модулей исполнительных устройств подаются на входы коммутатора, за исключением кодов хеш-функций. Последние подаются на соответствующие входы управления коммутатора АП (УКМАП). Функциональная схема основных коммутаторов (КМАП и КМР) идентична (Рис.10) и отличается только работой устройств управления. Каждый входной канал КВХ0Д1 при помощи элемента оптического транспаранта или аналогичным образом соединенных электронных вентилей, может быть соединен с выходным каналом КВЬ1Х2.



62

В.С.Бурцев. Выбор новой системы организации выполнения высокопараллельных вычислитель-ных процессов, примеры возможных архитектурных решений построения суперЭВМ



Код опер.

Тип

команды


Номер

след. команды



Индекс

Итерац.

Поколен. (активац.)

Операнд1

Операнд2

КОП

Тк

NКсл

1

Т

П

Д1

Д2







а)




Код опер.1

Код опер.2

Тип

следующей команды 1



Тип

следующей команды 2



Номер

следующей команды 1



Номер

следующей команды 2



КОП1

КОП2

Тк

Тк

NКсл

NКсл













Код

следующей

опер.1


Код

следующей опер.2



Тип

следующей команды 1



Тип

следующей команды 2



Номер следующей команды 1

Номер следующей команды 2

коп1сл

КОП2сл

Тк1

Тк2

1

2







б)




Код операции

Тип

след.


команды

Номер

след.


команды

Хеш-функция




Индекс

Итерац.

Поколен. (активац.)

Операнд

КОП

Тк

NK

ХФ




I




Т

П

Д1







в)




Код операции

Индекс




Итерац.




Поколен.




Номер команды

Колич. элементов

КОП

I




Т




П




NK

КЭ




команда - "фишка"




Номер БВР

Код опер.




Индекс

Итерац.

Поколен.

Номер команды

Колич. элементов

НБВР

КОП




I




Т

П




NK

КЭ




токен

-"фишка"




Номер БВР

Код опер.

Индекс




Итерац.

Поколен.

Номер команды




Колич. элементов

Данное

НБВР

КОП

I




Т




П

NK




КЭ

Д2




пакет-"фишка" г)




Код опер.

Тип

след.


операции

Индекс




Итерац.

Поколен.

Номер

след.


команды




Операнд1

Дескрипт.

вектор1


Операнд2

Дескрипт. вектор2



КОП

Тк

I




Т




П

NКсл




Д1

Д2





































д

)



































Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   16




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет