Новосибирский государственный университет

Факультет информационных технологий

ICT SBRAS

Словарь терминов в коллекции "Вычислительные системы"

Cray X1

Cray X1 разрабатывалась корпорацией Cray Inc. Система Cray X1 относится к числу самых высокопроизводительных средств обработки информации первого десятилетия XXI в. Ее рассматривали как промежуточный этап в решении стратегической проблемы США (и, в частности, корпорации Cray) - достичь к 2010 г. скорости вычислений 1 PFLOPS, т.е. одного квадриллиона или 1015 операций с плавающей запятой в секунду. Данная проблема была поставлена в 1999 году в докладе Президентского консультационного комитета по информационным технологиям (President's Information Technology Advisory Committee). В США считается, что создание высокопроизводительных ВС осуществляется исключительно в интересах национальной безопасности.
Вычислительная система Cray X1 предназначается как для академических, так и прикладных исследований, для решения сверхтрудоемких (high-end) задач науки, техники, экономики и военной сферы. Разработка ВС Cray X1 получила поддержку от нескольких организаций правительства США, включая Агентство национальной безопасности (NSA - National Security Agency).


Особенности архитектуры Cray X1

Максимальная конфигурация ВС Cray X1 состоит из 4096 элементарных процессоров (или 49152 вычислителей, среди которых 32768 векторных конвейеров и 16384 скалярных блоков). Она имеет производительность 52,4 TFLOPS и память емкостью 16...64 Тбайт. Вес такой конфигурации ВС составляет примерно 230 т (при воздушном охлаждении) или 170 т (при жидком хладагенте). Цена 16-процессорной ВС (204,8 GFLOPS) составляет 16,4 млн долл.
Система Cray X1 была официально анонсирована в ноябре 2002 года. Первые поставки Cray X1 (в упрощенных конфигурациях, но допускающих модернизацию) произведены в конце 2002 - начале 2003 г. К числу первых организаций, которые приобрели конфигурации Cray X1, относятся: Научно-исследовательский центр высокопроизводительных вычислений армии США (AHPCRC - U.S. Army High Performance Computing Research Center), Испанский национальный институт метеорологии (Spain's National Institute of Meteorology), Оук-Риджская национальная лаборатория (ORNL - Oak Ridge National Laboratory) Отдела энергетики США (U.S. Department of Energy).
Вычислительная система Cray X1 - это MIMD-система с общей распределенной памятью (Distributed Shared Memory). В системе Cray X1 просматривается иерархия уровней ее функциональной структуры, организованной по принципу матрешки. Действительно, в вычислительный элемент фиксированного уровня вкладывается композиция элементов очередного нижнего уровня. Модель коллектива вычислителей реализована на всех иерархических уровнях функциональной структуры Cray X1.
В архитектуре Cray X1 нашли отражение множество достижений из различных классов ВС, включая как PVP- , так и МРР-системы . Данная ВС основывается на тороидальной топологии и имеет широкую полосу пропускания и низкую латентность (малые задержки при передаче информации между ресурсами). Cray X1 характеризуется высокой надежностью и живучестью, а также масштабируемостью. Диапазоны возможных конфигураций, производительности и емкости памяти Cray X1 соответственно равны: 8 ... 4096 процессоров, 102,4 GFLOPS ... 52,4 TFLOPS и 32 Гбайт ... 64 Тбайт.
В систему Cray X1 вложен новейший набор команд, активные исследования по которому велись в корпорации Cray в течение 10 лет. Считается, что архитектура ВС с этим набором команд будет отвечать достижениям в интегральной технологии, по крайней мере, в течение десятилетия. Набор команд Cray X1 весьма прост, в нем нет сложных и избыточных инструкций. Он рассчитан на использование очень больших регистровых файлов, поддерживает 64- и 32-разрядные вычисления, реализует новый механизм синхронизации, обеспечивающий масштабируемость ВС и др.

В результате Cray X1 обладает рядом преимуществ по сравнению с другими архитектурами суперкомпьютеров:

Таким образом, архитектура ВС Cray X1 позволяет формировать конфигурации, адекватные областям применения, параметрам решаемых суперсложных задач.
Система Cray X1 - это композиция множества мультипроцессорных вычислительных узлов, коммуникационной сети между узлами и средств ввода-вывода данных. Среда программирования Cray X1 поддерживается специальным сервером.


Вычислительный узел Cray X1

Вычислительная система Cray X1 может иметь в своем составе от 2 до 1024 однородных вычислительных узлов (ВУ). В каждом ВУ имеется четыре ЭП и распределенная общедоступная оперативная память. Взаимодействие между процессорами и оперативной памятью в узле осуществляется при помощи коммутатора ВУ (Crossbar). Следовательно, вычислительный узел по своей функциональной структуре является мультипроцессорной ВС.
Каждый ЭП представляет собой специально спроектированный конвейерный (или векторный) процессор, обладающий производительностью 12,8 GFLOPS (при обработке 64-разрядных операндов). Процессор поддерживает также арифметику над 32-разрядными данными.
Элементарный процессор относится к типу мультипотоковых процессоров (MSP), если придерживаться терминологии Cray Inc. Вообще такой процессор, по сути, является конвейерным (или векторным), но с той особенностью, что он состоит из множества небольших конвейеров, работающих параллельно. В вычислительной системе Cray X1 функциональная структура MSP усовершенствована, в процессоре дополнительно имеются схемы синхронизации и кэш-память.
В системе Cray X1 элементарный процессор состоит из четырех секций обработки информации (СОИ), четырех блоков кэш-памяти и коммутатора ЭП. Каждая из секций обработки включает в себя скалярный блок с кэш-памятью для данных (СБ & КЭШ) и пару векторных конвейеров (ВК). Скалярный блок имеет тактовую частоту 400 МГц и может выполнять две операции за такт. Быстродействие четырех скалярных блоков ЭП составляет 3,2 GIPS (3,2∙109 операций с фиксированной запятой в секунду).
Векторные конвейеры ЭП работают параллельно, синхронно и с тактовой частотой 800 МГц. Их суммарная производительность составляет 12,8 GFLOPS или 25,6 GFLOPS при обработке 64- или 32-разрядных данных. (В самом деле, на каждый из конвейеров поступает два вектора-операнда, следовательно, за один такт восемь конвейеров способны обработать 16 элементов векторов.)
Можно обнаружить сходство функциональных структур системы STAR-100 и секции обработки информации Cray X1. В той и другой структурах имеется по два векторных конвейера и один скалярный вычислитель со своей сверхоперативной памятью (называемой буферной памятью и КЭШ соответственно в STAR-100 и Cray X1).
Кэш-память ВУ обеспечивает когерентность между быстродействием при обработке информации и скоростью ввода данных из оперативной памяти, т.е. она играет роль сверхоперативной буферной памяти между секциями обработки информации и оперативной памятью. Кэш-память состоит из четырех блоков, ее суммарная емкость достигает 2 Мбайт.
Коммутатор ЭП (Crossbar) обеспечивает доступ каждой секции обработки информации к любому блоку кэш-памяти.
Полоса пропускания в направлении от кэш-памяти к секциям обработки информации равна 102,4 Гбайт/с, а наоборот - 51,2 Гбайт/с. Четыре канала между кэш-блоками и оперативной памятью обеспечивают обмен информацией со скоростью 76,8 Гбайт/с.
В составе ВУ имеется оперативная память, доступная каждому ЭП. Память ВУ формируется из Rambus DRAM-микросхем, производимых Samsung Electronics Co. Ltd. Rambus-чипы характеризуются значительными емкостью и пропускной способностью.
Память любого узла представляется множеством из 16 4-канальных МП; для максимизации ее пропускной способности используется 16 контроллеров.
Каждый элементарный процессор (при помощи своих четырех кэш-блоков) имеет доступ (через коммутатор ВУ) к каждому модулю ОП узла. При этом любой кэш-блок ЭП связан только со своей группой из четырех модулей памяти. Поскольку любая из четырех секций обработки информации связана через коммутатор со всеми блоками, то в пределах узла любая секция обработки информации имеет доступ к любому модулю памяти. Пропускная способность «канала» между ЭП и оперативной памятью в вычислительном узле составляет 34,1 Гбайт/с.
Оперативная память ВУ доступна для других ВУ системы; этот доступ реализуется при помощи специальных маршрутизаторов.
Итак, все модули памяти в системе Cray X1 физически распределены по ВУ (и, следовательно, по элементарным процессорам), но логически они доступны каждому ЭП, т.е. оперативная память ВС Cray X1 является и распределенной, и общей.
Следует отметить, что элементарный процессор является основным функциональным элементом Cray X1. Он конструктивно выполнен в виде многокристального модуля. Конструкция вычислительного узла Cray X1 оформлена в виде платы, содержащей четыре конструктивных модуля - процессора, схемы памяти и коммутатора.


Коммуникационная сеть Cray X1

Взаимодействие между вычислительными ресурсами (узлами и, следовательно, элементарными процессорами и памятью) в системе Cray X1 осуществляется через коммуникационную сеть. Архитектурные решения, заложенные в коммуникационную сеть, позволили достичь в сверхвысокопроизводительной системе Cray X1 высокой надежности и живучести, масштабируемости, большой пропускной способности и незначительной латентности (задержки) при передаче информации между ресурсами. Так, например, пропускная способность сети в 64-процессорной конфигурации Cray X1 (819,2 GFLOPS, 256 Гбайт) с жидкостным охлаждением составляет 400 Гбайт/с.
В системе Cray X1 для реализации коммуникационной сети применен модифицированный двумерный тор.
ВУ обладает двумя маршрутами для связи с другими ВУ в пределах ВС Cray X1. В узле имеется 16 пар отдельных маршрутов, по одной на каждый из 16 модулей памяти, что гарантирует живучесть и необходимую полосу пропускания связей между ВУ. Один из этих маршрутов используется для того, чтобы организовать в системе Cray X1 множество связных пар: «ВУ с нечетным номером - смежный ВУ с четным номером». Другой маршрут служит для подключения ВУ к маршрутизатору.
В качестве вершины двумерного тора используется композиция из четырех пар вычислительных узлов и двух маршрутизаторов, работающих на четыре внешних связи. Маршрутизаторы обеспечивают два параллельных канала связи данной вершины с соседними вершинами в 2D-торе.
Очевидно, что структура (граф) вершины в системе Cray X1 обладает диаметром, равным двум. (Диаметр графа - максимальное расстояние, определяемое на множестве кратчайших путей между вершинами всевозможных пар.) Это следует из того, что маршрутизатор не имеет задержки, сравнимой со временем обмена информацией между памятями различных ВУ. Значит, в вершине обмен информацией между любыми ВУ осуществляется с использованием максимум одного транзитного узла или, говоря иначе, он производится посредством двух пересылок (Hops): из данного ВУ - в транзитный, а затем в ВУ - приемник.
Двумерный тор Cray X1 представляет собой «бублик», на поверхности которого размещена двумерная структура, вершины которой связаны в двух направлениях: по окружности «бублика» и по окружности его сечения. Примерами таких структур могут служить трех- и четырехмерные гиперкубы (с числами вершин и ребер, равными 8 и 3 или 16 и 4). Не требуется особого воображения увидеть в этих гиперкубах двумерные торы.
Четырехмерный гиперкуб использован в конфигурации Cray X1, состоящей из 128 ВУ (512 ЭП). Ясно, что в этой конфигурации ВС сама вершина имеет, в свою очередь, свою структуру из восьми ВУ и двух маршрутизаторов, а ребра в гиперкубе отражают двойные каналы межвершинных связей.
Четырехмерный гиперкуб - это структура из трехмерного куба внутри такого же куба и с ребрами между соответствующими вершинами этих кубов. Четырехмерный куб Cray X1 характеризуется тем, что вершины (точнее, их маршрутизаторы) каждого трехмерного куба входят в двойные циклы. Следовательно, в четырехмерном кубе один из концентрических циклов представляет вычислительные узлы с нечетными номерами, а другой - ВУ с четными номерами. В четырехмерном гиперкубе Cray X1 имеют место также связи между соответствующими циклами с нечетными ВУ двух трехмерных кубов, а также между циклами с четными узлами этих же кубов. Связи между циклами с нечетными ВУ и с четными узлами организуются в пределах вершин.
Оценка задержек, которые существуют при передаче информации между вычислительными узлами в четырехмерном гиперкубе Cray X1. Максимальное расстояние (из кратчайших) между любыми двумя нечетными ВУ (или четными узлами) равно четырем, т.е. для обмена информацией между этими узлами потребуется максимум четыре пересылки. Максимальное расстояние (из кратчайших) между любыми нечетным и четным ВУ увеличивается на единицу. Здесь используется не три, а четыре транзитных узла (необходима пересылка между узлами внутри вершины).
Проблема масштабирования структуры ВС Cray X1. Корпорация Cray в конфигурациях системы Cray X1 не использует структуры в виде гиперкубов при числе ВУ, превышающем 128. Гиперкубы больших размерностей, чем четыре, потребовали бы включения в состав вершин дополнительных маршрутизаторов, что породило бы набор неоднородных вершин. Вместо этого Cray Inc. «растягивает» четырехмерный куб, превращая его в 2D-тоp с большей «окружностью», и тем самым увеличивает число вершин. Очевидно, что при таком способе масштабирования ВС величина «приращения» (или «сокращения») для количества вершин равна четырем. При этом следует заметить, что минимальное число вычислительных узлов в вершине равно двум. Следовательно, минимальная величина аппаратурного приращения ВС равна восьми ВУ (или 32 ЭМ).
Система Cray X1 имеет иерархическую структуру сети связей между вычислительными ресурсами. На каждом структурном уровне используется свой тип графа межресурсных связей и свой тип вычислительных ресурсов - элементов обработки информации. Такое структурное решение в системе Cray X1 позволило достичь оптимума по эффективности в условиях технических и технологических ограничений на рубеже между XX и XXI столетиями.

Структурный уровень Cray X1Вычислительный элемент структуры
Макроуровень - двумерный торВершина - четырехполюсник, отражающий композицию из восьми вычислительных узлов (ВУ) и двух маршрутизаторов (M1, M2). Элементы M1 и M2 формируют два двумерных канала
Структура вершины - граф, состоящий из четырех пар связных ВУ с четными и нечетными номерами и двух маршрутизаторов, каждый из которых соединен ребрами либо с четными, либо с нечетными узлами. Диаметр сети межузловых связей равен двумВычислительный узел - двухполюсник, представляющий композицию из четырех элементарных процессоров (ЭП), 16 модулей памяти (МП) и коммутатора ВУ.
Маршрутизатор - четырехполюсник по внешним связям, позволяет формировать двумерные структуры
Структура вычислительного узла - граф, дающий связность каждого из четырех ЭП с каждым из 16 модулей памятиЭлементарный процессор - четырехполюсник, соответствующий композиции из четырех секций обработки информации (СОИ), четырех блоков кэш-памяти и коммутатора ЭП.
Коммутатор ВУ обеспечивает связность между процессорами ЭП1-ЭП4 и модулями памяти (МП1-МП16)
Структура элементарного процессора - граф, создающий связность каждой из четырех СОИ с каждым из четырех блоков кэш-памятиСекция обработки информации - композиция из скалярного блока с кэш-памятью (СБ & КЭШ) и двух векторных конвейеров (ВК).
Коммутатор ЭП дает связность между СОИ1-СОИ4 и блоками КЭШ1-КЭШ4


Средства ввода-вывода Cray X1

Средства ввода-вывода информации ВС Cray X1 распределены по ее ВУ. Каждый ВУ располагает четырьмя каналами ввода-вывода (I/O System Port Channels). Пиковая пропускная способность одного канала ввода-вывода составляет 1,2 Гбайт/с.
Каналы ввода-вывода ВС Cray X1 служат для подключения дисков и других периферийных устройств. Предусмотрена возможность использования волоконно-оптических линий связи.
Поддержка различных сетевых протоколов (в частности, для гигабитной Ethernet) осуществляется специальным сервером CNS (Cray Network Server).


Конструкция системы Cray X1

Для формирования ВС Cray X1 используются корпуса двух вариантов, с воздушным и водяным охлаждением. В корпусе первого варианта размещается четыре вычислительных узла (16 элементарных процессоров), а второго варианта - 16 узлов (64 ЭП).


Программное обеспечение Cray X1

Архитектура сверхвысокопроизводительной ВС Cray X1 является объединением архитектур PVP- и МРР-систем . Поэтому в ОС UNICOS/mp собрано все лучшее из PVP UNICOS и МРР UNICOS/mk.
Среди средств программирования Cray X1 имеются языки высокого уровня (параллельные FORTRAN и С ), интерфейсы передачи сообщений (MPI ), интерактивный отладчик, средства для анализа производительности ВС и др.
В системе Cray X1 среда программирования поддерживается специальным сервером - CPES (Cray Programming Environment Server). В частности, компиляторы работают не на самой системе Cray X1, а на CPES.


Области применения системы Cray X1

Cray X1 - универсальная сверхвысоко производительная масштабируемая вычислительная система. Архитектура Cray X1 позволяет формировать конфигурации ВС, в которых достигается оптимум между быстродействием, емкостью памяти, надежностью и ценой и которые адекватны областям применения. Все разнообразие видов деятельности человека, связанных с трудоемкими вычислениями, и составляет прикладные области для Cray X1. Но главными областями для данной ВС все же являются наука, техника и экономика (как гражданской, так и военных сфер).

Литература

Дополнительная:

  1. Хорошевский В.Г. Архитектура вычислительных систем: Учеб. пособие. - 2-е изд., перераб. и доп. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2008. - 520 с.

Ключевые термины:  cray;   системы с массовой параллельной обработкой;


Контекстный поиск: Задайте образец для поиска:
    

|Список основных тем курса|
   
Федотова Ольга
[SBRAS]

НГУ
ФИТ НГУ
ИВТ СО РАН
© 2012-2024, Новосибирский государственный университет, Новосибирск
© 2004-2024, Институт вычислительных технологий СО РАН, Новосибирск
© 2004-2024, Федотов А.М.
    Дата последней модификации: 04.12.2013