QPACE2 - QPACE2
QPACE 2 (QCD Parallel Computing Engine) - это массивно параллельный и масштабируемый суперкомпьютер. Он был разработан для приложений в решеточная квантовая хромодинамика но также подходит для более широкого спектра применений.
Обзор
QPACE 2 является продолжением QPACE суперкомпьютер[1] и iDataCool проект водяного охлаждения.[2]Это совместная работа группы физики элементарных частиц в Регенсбургский университет и итальянская компания Евротек. Академический конструкторский коллектив состоял из около 10 младших и старших физиков. Подробности проекта описаны в.[3]
QPACE 2 использует Intel Ксеон Пхи процессоры (также известные как KNC), соединенные между собой комбинацией PCI Express (сокращенно PCIe) и FDR InfiniBand. Основные особенности прототипа QPACE 2, установленного в Регенсбургском университете:
- масштабируемость
- высокая плотность упаковки
- водяное охлаждение (чиллеры не нужны)
- высокая энергоэффективность
- экономичный дизайн
Прототип представляет собой установку с одной стойкой, состоящую из 64 узлов с 15 872 физическими ядрами в общей сложности и максимальной производительностью 310 Тфлоп / с. Развернут летом 2015 г.[4] и используется для моделирования решеточная квантовая хромодинамика. В ноябре 2015 года QPACE 2 занял 500-е место в рейтинге Топ500 список самых мощных суперкомпьютеров[5] и # 15 на Зеленый 500 список самых энергоэффективных суперкомпьютеров мира.[6]
QPACE 2 финансировался Немецкий исследовательский фонд (DFG) в рамках SFB / TRR-55 и Евротек.
Архитектура
Многие современные суперкомпьютеры представляют собой гибридные архитектуры, в которых используются карты ускорителей с интерфейсом PCIe для повышения производительности вычислений. Обычно серверные процессоры поддерживают только ограниченное количество ускорителей из-за ограниченного количества Дорожки PCIe (обычно 40 для Архитектура Intel Haswell ). Общий подход к интеграции нескольких карт ускорителей в хост-систему заключается в размещении нескольких серверных процессоров, обычно двух или четырех, как распределенная разделяемая память системы. Этот подход позволяет использовать большее количество ускорителей на вычислительный узел из-за большего количества линий PCIe. Однако у него также есть несколько недостатков:
- Серверные процессоры, их межсоединения (QPI для процессоров Intel) и микросхемы памяти значительно увеличивают занимаемую площадь хост-системой.
- Затраты на многопроцессорную архитектуру обычно высоки.
- Серверные процессоры вносят значительный вклад в общую характеристику мощности гибридных компьютерных архитектур и требуют соответствующей мощности охлаждения.
- Взаимодействие серверного процессора может препятствовать эффективной внутриузловой связи и накладывать ограничения на производительность межузловой связи через внешнюю сеть.
- Вычислительная производительность серверных процессоров обычно на порядок ниже, чем у карт ускорителей, поэтому их вклад в общую производительность может быть довольно небольшим.
- Архитектура набора команд и аппаратные ресурсы серверных процессоров и ускорителей существенно различаются. Следовательно, не всегда возможно разработать и выполнить код для обеих архитектур.
Архитектура QPACE 2 устраняет эти недостатки за счет конструкции узла, в котором один маломощный Intel Haswell E3 хост-процессор вмещает четыре Ксеон Пхи Карты ускорителя 7120X для вычислительной мощности и один двухпортовый FDR InfiniBand сетевая карта для внешней связи. Для этого компоненты внутри узла соединены коммутатором PCIe с 96 полосами.
Стойка QPACE 2 содержит 64 вычислительных узла (и, следовательно, 256 Ксеон Пхи ускорителей в целом). По 32 узла находятся на передней и задней стороне стойки. Подсистема питания состоит из 48 источников питания, суммарная пиковая мощность которых составляет 96 кВт. QPACE 2 полагается на решение для охлаждения теплой водой для достижения такой упаковки и удельной мощности.
Вычислительный узел
Узел QPACE 2 состоит из стандартного оборудования, соединенного между собой PCIe. В промежуточная плоскость проходит 96 полос Коммутатор PCIe (PEX8796 от Avago, ранее PLX Technology), имеет шесть 16-канальных разъемов PCIe Gen3 и обеспечивает питание всех разъемов. Один слот используется для Карта процессора, который представляет собой карту форм-фактора PCIe, содержащую один Intel Haswell E3-1230L v3 серверный процессор с памятью DDR3 16 ГБ, а также микроконтроллер для мониторинга и управления узлом. Четыре слота используются для Ксеон Пхи Карты 7120X с 16 ГБ GDDR5 каждая и один слот для двухпортового FDR InfiniBand сетевая карта (Connect-IB от Mellanox).
Объединительная плата и плата ЦП были разработаны для проекта QPACE 2, но могут быть повторно использованы для других проектов или продуктов.
Маломощный серверный ЦП Intel E3-1230L v3 энергоэффективен, но обладает меньшей вычислительной мощностью по сравнению с другими серверными процессорами, доступными примерно в 2015 году (и, в частности, более слабыми, чем большинство карт ускорителей). В ЦПУ не вносит значительного вклада в вычислительную мощность узла. Он просто запускает операционную систему и системные драйверы. Технически ЦП служит корневой комплекс для фабрики PCIe. Коммутатор PCIe расширяет ограниченное количество линий PCIe центрального процессора до 80, что позволяет подключать множество компонентов (4x Xeon Phi и 1x InfiniBand, каждый x16 PCIe) как Конечные точки PCIe. Эта архитектура также позволяет Xeon Phis осуществлять одноранговую связь через PCIe и напрямую обращаться к внешней сети без необходимости проходить через центральный процессор.
Каждый узел QPACE 2 состоит из 248 физических ядер (центральный процессор: 4, Xeon Phi: 61 каждое). Поддержка хост-процессора и ускорителей многопоточность. Количество логических ядер на узел - 984.
Конструкция узла не ограничивается компонентами, используемыми в QPACE 2. В принципе, любые карты, поддерживающие PCIe, например, ускорители, такие как GPU и другие сетевые технологии, кроме InfiniBand, могут использоваться при соблюдении форм-фактора и характеристик мощности.
Сети
Внутриузловая связь осуществляется через коммутатор PCIe без участия центрального процессора. Связь между узлами основана на FDR InfiniBand. Топология сети InfiniBand представляет собой двумерную гипер-перекладину. Это означает, что создается двухмерная сетка коммутаторов InfiniBand, и два порта InfiniBand узла подключены к одному коммутатору в каждом из измерений. Топология гипер-перекладины была впервые введена японским коллаборацией физиков элементарных частиц CP-PACS.[7]
Сеть InfiniBand также используется для ввода / вывода в Файловая система Lustre.
Карта ЦП обеспечивает два Гигабитный Ethernet интерфейсы, которые используются для управления узлами и для загрузки операционной системы.
Охлаждение
Узлы суперкомпьютера QPACE 2 охлаждаются водой с использованием инновационной концепции, основанной на рулонная облигация технологии.[8] Вода протекает через пластину, соединенную роликом из алюминия, которая термически связана с горячими компонентами через алюминиевые или медные промежуточные вставки и термопасту или материал термоинтерфейса. Таким образом охлаждаются все компоненты узла. Эффективность концепции охлаждения позволяет свободное охлаждение весь год.
В синтетических тестах измеренная потребляемая мощность узла составила до 1400 Вт. Для типичных вычислений в решеточной квантовой хромодинамике требуется около 1000 Вт.
Программное обеспечение
Бездисковые узлы работают по стандартному Linux распределение (CentOS 7 ), который загружается по сети Ethernet. Xeon Phis работают под управлением свободно доступного программного стека Intel Manycore Platform Software Stack (MPSS). Связь InfiniBand основана на OFED stack, который также находится в свободном доступе.
Смотрите также
Рекомендации
- ^ H. Baier et al., PoS LAT2009 (2009) 001, (arXiv:0911.2174 )
- ^ Н. Мейер и др., Конспект лекций по информатике 7905 (2013) 383, (arXiv:1309.4887 )
- ^ P. Arts et al., PoS LAT2014 (2014) 021, (arXiv:1502.04025 )
- ^ Пресс-релиз Евротек
- ^ Список Top500, ноябрь 2015 г., http://top500.org/system/178607
- ^ Список Green500, ноябрь 2015 г., http://green500.org/lists/green201511&green500from=1&green500to=100
- ^ Ю. Ивасаки, Nucl. Phys. Proc. Дополнение 34 (1994) 78, (arXiv:геп-лат / 9401030 )
- ^ Дж. Беддоус и М. Бибби, Принципы процессов производства металлов, Elsevier Science (1999).