Всеволод Сергеевич Бурцев Параллелизм вычислительных процессов и развитие архитектуры суперэвм м, 1997



бет12/16
Дата14.06.2016
өлшемі2.36 Mb.
#135091
1   ...   8   9   10   11   12   13   14   15   16

107




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


и, в первую очередь, по энергетике, технологичности и физическим объемам реализации этих устройств.

Предельные параметры ассоциативной памяти (ее объем и производительность) всецело определяются соответствующими параметрами АПК. Основными параметрами ассоциативной АПК можно считать следующие: объем хранящихся в памяти ключей Q, количество разрядов ключа n, время поиска tп и темп обработки информации или производительность П, время записи ключа по физическому адресу t3

Для нормального функционирования скалярной части суперЭВМ новой архитектуры на первом этапе можно считать приемлемым объем памяти ключей Q = 106. Такая цифра может быть достаточной, при условии, что для векторного процессора за каждым ключом может содержаться от 102 до 104 слов в ПД.

Максимальная производительность такой АПК при заданной допустимой потребляемой мощности Рдоп, будет определяться следующим соотношением [7]:

Пmах= Рдоп η/ 2nWQ (1)

где W - минимальная энергия срабатывания фотоприемника, необходимая для различения нуля и единицы, η = η1η2, где η1 и η2 коэффициенты, учитывающие потери в лазере и оптической системе, соответственно.

При определении величины W необходимо исходить из требований надежности срабатывания фотоприемного устройства, выполняющего функции порогового инвертора света. Воздействующий на него моноимпульсный сигнал от одномодового лазера с характерной для такого излучения пуассоновской статистикой фотонов должен содержать, по крайней мере, несколько тысяч фотонов [8], что в видимой области спектра эквивалентно энергии 10 -15 Дж. Однако, в матрицах с большим числом фотоприемников их пороговая чувствительность определяется не столько статистическими свойствами светового сигнала, сколько факторами, связанными с неидентичностью и нестабильностью характеристик элементов, разбросом их параметров, кодозависимыми помехами как временного (предыстория), так и пространственного характера (паразитные связи между соседними элементами). Вследствие этого, как показывает опыт практических разработок, реализовать в матрицах с большим числом фотоприемников пороговую чувствительность, превышающую W=10-14 Дж, представляется весьма проблематичной задачей. Практически g не превышает 10-2 (η ≤ 10-1 и η ≤ 10-1 ). Задаваясь предельно допустимой мощностью устройства Рдоп = 104 Вт и минимальным требуемым объемом памяти Q = 106 ключей, n = 50 разрядам, получим предельную производительность АПК равную Пmах = 108 оп/с. Предельно допустимая мощность ограничена возможностью отвода тепла с поверхности устройства, которая в случае жидкостного охлаждения не превышает 20 Вт с квадратного сантиметра.

Из соотношения (1) следует, что увеличение объема памяти в несколько раз, во столько же раз снижает и максимально возможную производительность АПК. Поэтому дальнейшее повышение производительности системы может быть достигнуто только путем расслоения памяти на параллельно работающие модули. Причем, если зафиксировать допустимую мощность на всю

108




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


систему модулей, то увеличение производительности системы будет пропорционально количеству блоков при неизменной общей памяти Q. Если же зафиксировать предельную мощность на один модуль системы, то производительность системы будет квадратично возрастать в зависимости от количества модулей N. Таким образом, если схемотехнически решить задачу модульной организации АПК, то можно существенно расширить возможности АП в части ее производительности и объема.

Настоящий анализ проводился без учета технологических возможностей построения ассоциативной памяти ключей.

На Рис.4. приведена рабочая схема АП, функционирующей в полном соответствии со схемой Рис.2.



Рис.4. Рабочая схема АП.

В качестве светочувствительной PC используется среда, позволяющая осуществлять позитивную запись микрокадров (с просветлением участков, в которые записываются "I") уменьшенного изображения УТ, допускающая стирание и повторную запись микроизображений.

Два матричных фотоприемника предназначаются для считывания хранящейся в микрокадрах информации (МФП1 с числом элементов 2n, равным количеству светоклапанов в УТ) и фиксации физических адресов, ключевые слова которых совпали с аргументом поиска (МФП с числом светочувствительных элементов Q, равным количеству микроизображений). В зависимости от того, в каком режиме адресном или ассоциативном работает память, световые пучки, прошедшие через PC, направляются на соответствующий МФП. Для этой цели используется интерференционный поляризационно - чувствительный кубик (ПЧК) и установленный перед ним модулятор плоскости поляризации (МП).

В адресном режиме АП работает так же как, например, растровая фотоскопическая память. При считывании информации все светоклапанные ячейки управляемого транспаранта переводятся в режим пропускания света, освещается микрокадр, соответствующий заданному адресу, и его изображение, проецируемое растровыми линзами и коллективным объективом в плоскость размещения МФП2, регистрируется этим матричным фотоприемником. При ассоциативной обработке информации устройство работает как это было описано для общей схемы на Рис.2.

109




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


Рассмотрим конструкторско - технологические ограничения, возникающие при реализации ассоциативной памяти, функционирующей в соответствии с рабочей схемой, приведенной на Рис.4.

Объем информации АПК в битах (N) определяется площадью регистрирующей среды S и плотностью хранения в ней информации ρ и может быть оценен следующим соотношением:

N = ρ S = S(λχF/D)-2, (2)

где D и F- соответственно диаметр и фокусное расстояние объектива, в фокальной плоскости которого размещена PC; χ - константа порядка нескольких единиц, учитывающая выбранный критерий разрешения световых пятен (пикселов) и распределение интенсивности в поперечном сечении фокусируемого светового пучка. Если в качестве источника излучения применяется одномодовый лазер с гауссовым распределением интенсивности, то при χ = 2,9 в дифракционно ограниченных оптических системах с круговыми апертурными диафрагмами при оптимальном радиусе гауссова пучка можно получить концентрацию энергии в световых пятнах, превышающую 95%. Тем самым практически исключаются взаимные помехи между соседними пикселами в формируемом в поле PC изображении [10].

В качестве примера определим максимальный объем АПК со следующими параметрами оптической системы: F/D = 4, S = 102 см, λ = 0,85 мкм. На основании (2) найдем Nmax = 107 бит при диаметре пикселов 10 мкм. Для более светосильной оптики и большей площади PC величина Nmax может быть большей. Однако, поскольку с увеличением диаметра и светосилы объективов резко возрастают различного рода аберрации, снижающие плотность хранения информации q при побитовой форме ее регистрации, то получаемые из выражения (2) значения информационной емкости АПК будут в большей степени отличаться (в сторону завышения) от достижимых в реальных оптических системах. Поэтому в практических разработках величину Nmax = 107 бит при S = 106 бит/ см или Q = 105 ключей можно считать предельно возможной.

Теперь оценим предельную производительность модуля АПК при максимальном ее объеме. В нашем случае, учитывая возможность конвейерной организации работы АПК, ее производительность будет определяться временем tп , которое измеряется интервалом времени с момента завершения отображения кода аргумента поиска на УТ до получения результата ассоциативного опроса всех ячеек в модуле памяти ключей. Это время, в свою очередь, складывается из времени задержки оптического сигнала tо , возникающей на пути его распространения от плоскости УТ до входной плоскости МФП1 и времени срабатывания элементов tэ фиксации совпадений.

Для традиционной оптической схемы АПК, выполненной на основе проекционной оптики (Рис.4), величина to может быть оценена как

tо ≈ 3 F/c, (3)

где с - скорость света. При значениях параметров оптической системы, которые использовались для оценки Nmax (Q = 105 слов), величина tо = 1,5 нc, а при Q = 104 слов tо = 0,5 нс.



110




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


Время же tэ может быть определено следующим соотношением:

tэ = W1 / Р6 , (4)

где Рб - световая мощность, приходящаяся на один бит (пиксел) в матрице фотоприемников при поиске по ключу, W1 - минимальная световая энергия достаточная для регистрации факта несовпадения по одному биту поиска. Величина Рб - может быть определена двумя различными соотношениями: через световую мощность Рсл , которую необходимо выделять одному лазеру матрицы АС для адресации к одному слову

Р6 = Рсл η/2n, (5)

и через выделяемую тепловую мощность на единицу площади в матрице фотоприемников

Р6 = 2РТ / S, (6)

где η2 = ηм ηт ηс ηр коэффициент, учитывающий световые потери в оптической системе на участках между АС и PC (ηM), PC и МОП1р), в УТ (ηт) и эффективность модуляции опрашиваемого светового пучка регистрирующей среды ηс. В реальных оптических системах по оптимистическим оценкам коэффициент η2 не превышает 0,1.

Таким образом, величина tэ ограничивается с одной стороны реальными возможностями мощности матриц лазеров в соответствии с соотношением (5), а с другой стороны допустимым теплоотводом матрицы фотоприемников (соотношение (6)). При Рт = 5 Вт/см2, ρ = 106 бит/см2 и W1 = 10-14 Дж матрица фотоприемников не позволяет вести опрос чаще, чем через одну наносекунду.

При световой мощности одного лазера в матрице ПМЛ Рсл = 10 -2 Вт, η2=0,1, n = 50 ограничение со стороны лазеров имеет ту же величину. В этом случае электрическая мощность, потребляемая матрицей лазеров (устройством), с учетом потерь в лазере η1, определяется как

Р = Рсл Q / η1 (7)

и составляет 104 Вт.

Сокращение объема памяти до Q = 104 и увеличение времени до 10 нс приведет к потреблению 0,1 кВт электрической мощности на модуль АПК. В этом случае to уменьшится до 0,5 нс, a P = 10-3 Вт.

Теперь определим возможное время записи в АПК - t3. В режиме записи информации возможны две ситуации: одна из них - адрес ячеек памяти, по которому должны быть записаны признак и относящаяся к нему информация, известен, другая - адрес свободных ячеек не известен. Понятно, что во втором случае время записи t3 увеличится на величину времени выявления адреса свободных ячеек памяти, несколько большую, чем tэ.

Время цикла записи tэ при известном адресе ячеек определяется быстродействием используемой в АПК адресной системы оптической выборки (tОB), временем записи информации в УТ (tУT) и инерционностью переходных процессов в PC (tpc). Как правило, tОB + tУT < tpc , поэтому tэ tРC.

При использовании в качестве регистрационной среды реверсивных светочувствительных материалов или сэндвичевых структур на основе жидких кристаллов с пороговым изменением оптических свойств, характеризующихся



111




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


энергетической чувствительностью Еп, время записи парафазного словах числом разрядов n может быть оценено с помощью следующего соотношения:

tэ = 2n Еп /ρηм ηt Pсл (8)

Полагая, что в настоящее время вполне реальным можно считать Еп=10-5 Дж/см2 , а величину потерь в оптической системе (ηм, ηТ) не превышающей 0,5, определим tэ для интересующих нас параметров Рсл= 10-9 Вт, ρ = 106 бит/см2 и n = 50. Время записи в этом случае не будет превосходить 2 мкс.

Таким образом, создание светочувствительной PC с временами записи и стирания, находящимися в субмикросекундном диапазоне, является предметом поиска.

Однако, проблемы записи и стирания информации в сэндвичевых структурах с жидкокристаллическим слоем упрощаются в случае обеспечения режима групповой записи по 100 и более слов (с временем записи tз.гp). В этом случае стирание информации может происходить на фоне работы памяти за счет автономной электрической системы. Энергетика записи может быть существенно снижена за счет подвода электрической энергии извне; при этом за счет только групповой записи, например по Qгp = 100 чисел, среднее время записи tз.ср = tз.гр / Qгp может быть сокращено до 20 нс.

Подводя итог проведенного анализа, можно сделать следующие выводы:

а) необходимый объем памяти при удовлетворительном темпе ассоциативного поиска может быть достигнут только путем объединения нескольких модулей ассоциативной памяти в единую систему;

б) требуемый средний темп записи tз.cp может быть реализован только при групповой постраничной записи информации, а для достижения времени записи tЗ, равного tп, должны быть найдены специальные схемотехнические решения;

в) целесообразно модуль ассоциативной памяти разбить на два блока: ассоциативного поиска ключей (АПК) и хранения соответствующих этим ключам данных (ПД);

г) блок ассоциативного поиска целесообразно реализовать с использованием оптических принципов, а ПД на полупроводниковых интегральных схемах.

2. Возможные блок схемы построения ассоциативной памяти высокого быстродействия и большого объема

В настоящем разделе делается попытка построения АП с заданными параметрами с использованием имеющихся научно - технических достижений в оптике и электронике. Основные параметры АП: Qaпк > 106 ключей, Qзуд > 106 слов, nапк = 102 (парафазные 50-разрядные ключи), nзуд = 102, tп = tЗ = tЗ.cp = 1 нс (П ≥ 109 оп/с).

Чтобы обеспечить заданные параметры, ассоциативная память должна состоять из 100 модулей, отвечающих поставленным требованиям. При этом необходимо решить две независимые друг от друга задачи. Поскольку возможные параметры одного модуля такой памяти по состоянию на сегодняшний день, как следует из раздела 1, могут быть следующими: Qaпк = Qзyд = 104,

112




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


tп = 10 нс, tэ > 2 мкс, то для создания АП с заданными параметрами требуется обеспечить эквивалентное время записи информации в память ключей, не превышающее времени tп. Второй задачей является организация такого алгоритма работы модулей памяти, при котором переполнение одного или нескольких модулей не приводило бы к остановке корректного функционирования всей АП, а прекращение работы происходило бы только при переполнении всего объема памяти, равного Q = 106 слов.



2.1 Возможные решения первой задачи

Попробуем решить первую задачу внутри каждого модуля путем использования буферной ассоциативной памяти,, построенной на базе полупроводниковой схемотехники и обладающей на порядок меньшей емкостью, чем АПК, но требуемыми временами записи tЗ и поиска tп. Введение такого буфера позволяет накопленные в нем ключи в случае необходимости переписывать групповым способом в основную оптическую ассоциативную память ключей (ОАПК). Групповая запись может включать по 100 и более ключей, что дает возможность среднее время записи ключа t3.CР сделать равным времени поиска tп. Блок-схема такого модуля изображена на Рис.5. При реализации этой схемы предполагается использование промышленно выпускаемых интегральных схем.

В качестве ассоциативной полупроводниковой памяти (ПАПК) используем регистровую память со временем поиска по ключам 10 нс и суммарным объемом 500 1000 слов. Ключ и данные в ПАПК находятся в одном и том же регистре. Объем памяти ПАПК во многом зависит от времени записи страницы оптической ассоциативной памяти ключей ОАПК.

Обращение в ПАПК осуществляется посредством опроса ключей всех регистров памяти. В случае совпадения одного из ключей выдается соответствующее ему данное из того же регистра. Кроме того, запись и считывание в ПАПК могут происходить по указателям УК1, УК2 и УК3. Считывание данного сопровождается стиранием всей информации регистра, что осуществляется установкой "I" в поле меток. По указателю УК1 происходит запись искомого ключа и данного из входного регистра на свободное место, после чего указатель передвигается на следующее свободное место. По указателю УК происходит считывание регистров для формирования буфера записи (БЗ). Считывание осуществляется последовательным опросом поля меток регистров. При наличии в регистрах данных (метка в "0") данные считываются и последовательно заполняют регистры буфера записи. В том случае, если данное отсутствует (метка в "1"), указатель перемещается на следующий регистр, а метка устанавливается в "0". По заполнении буфера записи (100 слов) считывание прекращается и начинается групповая запись информации БЗ в памяти ключей ОАПК и данных в память данных через управление групповой записью. Запись производится на свободное место по адресу, получаемому из буфера свободных адресов.

После записи информации из буфера в поле ключей ОАПК происходит открытие этого поля для поиска и соответствующее уменьшение поля поиска в ПАПК с зоны между УК2 и УК3 до зоны между УК1 и УК2.

113




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


По УК3 происходит считывание ключей тех регистров, обращение к которым по поиску ключей произошло после их записи в БЗ - только они в пространстве между УК2 и УК3 имеют в поле меток "I". Эти ключи передаются в буфер ключей для стирания ненужных данных в ОАПК и в память данных. Считывание ключей по УК3 происходит с момента окончания записи информации из БЗ в ОАПК и память данных и заканчивается после того, как значение УК3 не будет равно значению УК2. После окончания этой операции может начаться считывание данных в БЗ по УК2 и так далее. Заполнение БЗ может быть приостановлено в том случае, если значение УК2 сравняется со значением УК), и продолжится, как только значение УК1 увеличится.



Рис.5. Модуль ассоциативной памяти.

Рассмотрим последовательность работы такого модуля АП. Ключ и данное для поиска по ключу поступают на входной регистр, после чего ключ передается в ПАПК для ассоциативного поиска в нем необходимого данного. В том случае, если ключ найден, данное Д1 через вентиль В1 и данное Д2 из ПАПК подаются на входной регистр и операция заканчивается.

В том случае, если ключ в ПАПК отсутствует, код ключа из входного регистра через вентиль В2 передается в ОАПК для поиска в нем необходимого данного, и если ключ найден, то данное Д2 из памяти данных поступает на выходной регистр, а данное Д1 через вентиль B1 выдается на выходной регистр. В том случае, если ключ в ОАПК не найден, данные входного регистра (К и Д1 ) через вентиль ВЗ по указателю УК1 записываются в ПАПК. Таким образом, модуль АП работает как обычная ассоциативная память с эквивалентным временем записи и считывания, не превышающим 10 нс (t3 ≈ tп = 10 нс).



114




В.С. Бурцев, В.Б. Федоров. Ассоциативная память на принципах оптической обработки ин-формации для суперЭВМ нового поколения


Приостановка работы модуля может произойти только в том случае, если указатель УК1 догонит указатель УК3. Как правило, этого не происходит, если выполняется условие:

Rtз.ср ≤ tз , (9)

где R - коэффициент разрежения записи в ОАПК, понимаемый как

R = Ппапк / (Ппапк + Поапк ), (10)

где Ппапк и Поапк среднее количество считываний из ПАПК и ОАПК при ассоциативном поиске данных.

Разрежение записей и соответствующее снижение требований к основным параметрам АПК: t3, tп и Q, происходит, например, за счет того, что некоторые данные находятся в ПАПК и нет необходимости их записывать в ОАПК.

Естественно, что чем больше объем памяти ПАПК при одном и том же объеме памяти ОАПК, тем коэффициент R будет меньше и соотношение (9) в части t3.CР выполнить будет легче. По статистическим данным многих задач, выполняемых на ЭВМ, работающих по фон неймановскому принципу, АП объемом в 1 К слов почти в сто раз сокращает количество обращений к основной оперативной памяти.

В суперЭВМ новой архитектуры, число записей, если не применять каких-либо оптимизаций, должно быть равно числу считываний, поэтому коэффициент R становится значительно меньшим. Однако, можно надеяться на то, что ПАПК сократит обращение к основной памяти в несколько раз вполне возможно.

Возникает, безусловно, вопрос формирования адресов записи на свободное место. Учитывая, что скорость выдачи свободных адресов более чем на два порядка ниже скорости работы модуля АП, функции формирования свободных адресов постраничной записи могут с успехом выполняться спецпроцессором, который, получая физические адреса записи и считывания в ЗУД, должен следить за ее состоянием.

Алгоритм работы такого спецпроцессора может быть следующим. По мере освобождения страницы он выдает адрес первого слова страницы в буфер свободных адресов УГЗ. Ввиду того, что считывание данных из АПК и памяти данных происходит пословно, возможно такое состояние, когда свободных мест в памяти много, в то время как нет ни одной свободной страницы. В этом случае спецпроцессор производит консолидацию свободных мест в памяти, определяет страницы с наименьшим количеством данных и производит считывание их в блок консолидации (БК). После заполнения БК, объем которого может быть равен одной странице, спецпроцессор выдает команду на запись этой страницы из БК в АПК и память данных.

Работы по записи данных из БЗ и БК, а также стирание ненужной информации по ключам, указанным в буфере стирания (БС), могут выполняться на фоне основной работы модуля памяти. Для того, чтобы модуль АП работал с эквивалентной производительностью П = l/tп, необходимо выдержать соотношение (9) и условие tп = t3 = t3п.сp. В зависимости от времени записи в ОАПК несомненно будет сокращаться электронная составляющая аппаратуры модуля АП. В настоящее время ведутся интенсивные работы в направлении сокращения времени t3.CР.




Достарыңызбен бөлісу:
1   ...   8   9   10   11   12   13   14   15   16




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет