Материалы по тегу: суперкомпьютер

23.07.2023 [14:57], Сергей Карасёв

ВМС США обзаведутся 17,7-Пфлопс суперкомпьютером Blueback с ускорителями AMD Instinct MI300A

Министерство обороны США (DoD) объявило о планах по развёртыванию новой суперкомпьютерной системы в рамках Программы модернизации высокопроизводительных вычислений (HPCMP). Комплекс получил название Blueback — в честь американской подводной лодки USS Blueback (SS-581).

Сообщается, что Blueback расположится в Центре суперкомпьютерных ресурсов в составе DoD (Navy DSRC), который находится в ведении Командования морской метеорологии и океанографии (CNMOC). Суперкомпьютер заменит три старых вычислительных комплекса в экосистеме HPCMP.

Основой Blueback послужит платформа HPE Cray EX4000. Архитектура включает процессоры AMD EPYC Genoa, 128 гибридных ускорителей AMD Instinct MI300A (APU) и 24 ускорителя NVIDIA L40, связанных между собой 200G-интерконнектом Cray Slingshot-11. В состав комплекса войдёт Lustre-хранилище Cray ClusterStor E1000 вместимостью 20 Пбайт, включая 2 Пбайт пространства на базе SSD NVMe. Объём системной памяти — 538 Тбайт. Общее количество вычислительных ядер будет достигать 256 512.

 Источник изображения: Jonathan Holloway / DoD

Источник изображения: Jonathan Holloway / DoD

Ожидается, что суперкомпьютер Blueback будет введён в эксплуатацию в 2024 году. Кстати, совсем недавно центр Navy DSRC получил НРС-систему Nautilus производительностью 8,2 Пфлопс. Она содержит 176 128 ядер и 382 Тбайт памяти.

Постоянный URL: http://servernews.kz/1090412
22.07.2023 [14:57], Сергей Карасёв

Tesla начала создание ИИ-суперкомпьютера Dojo стоимостью $1 млрд

Компания Tesla, по сообщению The Register, до конца 2024 года потратит более $1 млрд на создание мощного вычислительного комплекса Dojo, который поможет в разработке инновационных технологий для роботизированных автомобилей. В основу Dojo лягут специализированные чипы собственной разработки — Tesla D1. 25 таких ускорителей в виде массива 5 × 5 объединяются в рамках одного узла, который в Tesla называют «системой на пластине» (System On Wafer).

Как отмечает The Verge, компания Tesla намерена совместить в одном шасси шесть таких «систем на пластине», тогда как одна стойка будет включать два шасси. В такой конфигурации производительность на стойку превысит 100 Пфлопс (BF16/CFP8). Таким образом, система из десяти шкафов позволит преодолеть экзафлопсный барьер. Более того, уже к концу следующего года, по словам главы Tesla Илона Маска, производительность может быть доведена до 100 Эфлопс.

 Источник изображения: Tesla

Источник изображения: Tesla

В своём отчете за II квартал 2023 года Tesla обозначила «четыре основных технологических столпа», необходимых для решения проблемы автономности транспортных средств: это чрезвычайно большой набор реальных данных, обучение нейронных сетей, аппаратные компоненты и ПО. «Мы разрабатываем каждый из этих столпов собственными силами. В этом месяце мы делаем ещё один шаг к более быстрому и дешёвому обучению нейронной сети с началом производства нашего суперкомпьютера Dojo», — говорится в заявлении компании.

Постоянный URL: http://servernews.kz/1090398
21.07.2023 [15:35], Сергей Карасёв

NVIDIA, подвинься: Cerebras представила 4-Эфлопс ИИ-суперкомпьютер Condor Galaxy 1 и намерена построить ещё восемь таких же

Компания Cerebras Systems анонсировала суперкомпьютер Condor Galaxy 1 (CG-1), предназначенный для решения ресурсоёмких задач с применением ИИ. Это одна из первых действительно крупных машин на базе уникальных чипов Cerebras. В проекте стоимостью $100 млн приняла участие холдинговая группа G42 из ОАЭ, которая занимается технологиями ИИ и облачными вычислениями. G42 является основным заказчиком комплекса.

В текущем виде комплекс CG-1, расположенный в Санта-Кларе (Калифорния, США), объединяет 32 системы Cerebras CS-2 и обеспечивает производительность на уровне 2 Эфлопс (FP16). В IV квартале ткущего года будут добавлены ещё 32 системы Cerebras CS-2, что позволит довести быстродействие до 4 Эфлопс (FP16). Ожидаемый уровень энергопотребления составит порядка 1,5 МВт или более.

 Источник изображений: Cerebras (via ServeTheHome)

Источник изображений: Cerebras (via ServeTheHome)

В системах Cerebras CS-2 применяются гигантские чипы Wafer-Scale Engine 2 (WSE-2), насчитывающие 2,6 трлн транзисторов. Такие чипы имеют 850 тыс. тензорных ядер и несут на борту 40 Гбайт памяти SRAM. Системы выполнены в формате 15 RU и укомплектованы шестью блоками питания мощностью 4 кВт каждый. Задействована технология жидкостного охлаждения. Отдельно отмечается, что программный стек позволит без проблем и существенных модификаций кода работать с ИИ-моделями.

После ввода в строй второй очереди комплекс CG-1 суммарно получит 54,4 млн ИИ-ядер, 2,56 Тбайт SRAM и внутренний интерконнект со скоростью 388 Тбит/с. Их дополнят 72 704 ядра AMD EPYC Milan и 82 Тбайт памяти для хранения параметров. По словам создателей, мощностей суперкомпьютера хватит для обучения модели с 600 млрд параметров и на очередях длиной до 50 тыс. токенов. При этом производительность масштабируется практически линейно.

Cerebras и G42 будут предоставлять доступ к CG-1 по облачной схеме, что позволит заказчикам использовать ресурсы ИИ-суперкомпьютера без необходимости управлять моделями или распределять их по узлам и ускорителям. CG-1 — первый из трёх ИИ-суперкомпьютеров нового поколения. В I полугодии 2024 года будут построены комплексы CG-2 и CG-3, полностью аналогичные CG-1, которые будут объединены в распределённый ИИ-кластер. А к концу следующего года у Cerebras будет уже девять систем CG.

Для Cerebras это означает, что компания более не является стартапом, поскольку в её решения заказчики поверили и без участия в индустриальных тестах вроде MLPerf. Кроме того, теперь компания является не просто очередным производителем «железа», а предоставляет услуги, которые и помогут ей заработать в будущем.

Постоянный URL: http://servernews.kz/1090321
20.07.2023 [17:35], Алексей Степин

К2Тех развернула в Новосибирском университете 47-Тфлопс суперкомпьютер с российским интерконнектом «Ангара»

Компания K2Tex объявила о создании суперкомпьютерного вычислительного комплекса для центра Центра Национальной технологической инициативы (НТИ) по Новым функциональным материалам на базе Новосибирского государственного университета (НГУ).

 Источник здесь и далее: Новосибирский государственный университет

Источник здесь и далее: Новосибирский государственный университет

Новый кластер базируется на отечественных вычислительных узлах, и что немаловажно, объединён интерконнектом российской же разработки — речь идёт о решении «Ангара», созданном АО «НИЦЭВТ». В данном случае используется вариант с пропускной способностью 75 Гбит/с на линк с подключением через неблокирующий коммутатор и модуль синхронизации. С помощью этого же интерконнекта подключено и внешнее NFS-хранилище, состоящее из двух выделенных серверов с дисковой полкой, оснащённой 24 дисками SAS (2,4 Тбайт, 10k RPM). Ёмкость хранилища — не менее 40 Тбайт.

Сами вычислительные узлы построены на базе Intel Xeon Scalable Ice Lake-SP: каждый узел содержит по паре 28-ядерных процессоров, 256 Гбайт RAM и пару локальных 480-Гбайт SSD. Отдельный GPU-узел включает пару ускорителей NVIDIA A100 (80GB). Всего в системе 11 узлов, а общее количество доступных для вычислений процессорных ядер составляет 392. Заявленный пиковый уровень производительности достигает 47 Тфлопс (FP64).

 Источник здесь и далее: Новосибирский государственный университет

Также в системе задействована отечественная платформа виртуализации zVirt, развёрнутая на двух управляющих узлах кластера. На основе zVirt реализованы средства автоматического развёртывания, подсистема входа пользователей, сервис планировщика заданий, средства аутентификации и мониторинга.

Новый кластер потребовался для решения стратегических задач, в том числе для разработки новых материалов с заданными свойствами, в частности, композиционных электрохимических покрытий, перспективных магнитных материалов и огнеупорных материалов. Также новый суперкомпьютер будет использоваться в ключевых проектах, связанных с ИИ и машинным обучением. Сюда входит, например, разработка цифровых паспортов для материалов и создание цифровых двойников технологических процессов.

Постоянный URL: http://servernews.kz/1090291
18.07.2023 [22:45], Сергей Карасёв

Суперкомпьютер в стойке: GigaIO SuperNODE позволяет объединить 32 ускорителя AMD Instinct MI210

Компания GigaIO анонсировала HPC-систему SuperNODE, предназначенную для решения ресурсоёмких задач в области генеративного ИИ. SuperNODE позволяет связать воедино до 32 ускорителей посредством компонуемой платформы GigaIO FabreX. Архитектура FabreX на базе PCI Express, по словам создателей, намного лучше InfiniBand и NVIDIA NVLink по уровню задержки и позволяет объединять различные компоненты — GPU, FPGA, пулы памяти и пр.

SuperNODE даёт возможность более эффективно использовать ресурсы, нежели в случае традиционного подхода с ускорителями в составе нескольких серверов. В частности для SuperNODE доступны конфигурации с 32 ускорителями AMD Instinct MI210 или 24 ускорителями NVIDIA A100 с хранилищем ёмкостью до 1 Пбайт. При этом платформа компактна, энергоэффективна (до 7 кВт) и не требует дополнительной настройки перед работой.

 Источник изображений: GigaIO

Источник изображений: GigaIO

Поскольку приложения с большими языковыми моделями требуют огромных вычислительных мощностей, технологии, которые сокращают количество необходимых обменов данными между узлом и ускорителем, имеют решающее значение для обеспечения необходимой скорости выполнения операций при снижении общих затрат на формирование инфраструктуры. Что немаловажно, платформ, по словам разработчиков, демонстрирует хорошую масштабируемость производительности при увеличении числа ускорителей.

«Система SuperNODE, созданная GigaIO и работающая на ускорителях AMD Instinct, обеспечивает привлекательную совокупную стоимость владения как для традиционных рабочих нагрузок HPC, так и для задач генеративного ИИ», — сказал Эндрю Дикманн (Andrew Dieckmann), корпоративный вице-президент и генеральный менеджер по дата-центрам AMD. Стоит отметить, что у AMD нет прямого аналога NVIDIA NVLink, так что для объединение ускорителей в большие пулы с высокой скоростью подключения возможно как раз с использованием SuperNODE.

Постоянный URL: http://servernews.kz/1090155
13.07.2023 [23:49], Алексей Степин

Младший напарник El Capitan: кластер Tuolumne будет использоваться для открытых исследований

Ливерморская национальная лаборатория (LLNL) вовсю ведёт монтаж суперкомпьютера El Capitan, мощность которого превзойдёт 2 Эфлопс. Дебютирует новая система в середине следующего года. Однако это не единственный суперкомпьютер LLNL. Помимо тестовых кластеров rzVernal, Tioga и Tenay, в строй будет введён и суперкопмьютер Tuolumne производительностью более 200 Пфлопс.

El Capitan получит уникальные серверные APU AMD Instinct MI300A, содержащие 24 ядра Zen 4 и массив ускорителей с архитектурой CDNA3, дополненный собственным стеком памяти HBM3 объёмом 128 Гбайт. El Capitan будет использоваться в том числе для секретных и закрытых проектов, но, как сообщают зарубежные источники, кластер Tuolumne на базе той же аппаратной платформы HPE станет открытой платформой, практически самой мощной в своём классе.

Сообщается о том, что производительность Tuolumne составит около 15 % от таковой у El Capitan, то есть от 200 до 300 Пфлопс. Хотя это не позволяет отнести Tuolumne к экза-классу, такие цифры позволяют претендовать на вхождении в первую пятёрку рейтинга TOP500.

 Тестовые стойки в ЦОД LLNL

Тестовые стойки в ЦОД LLNL

Впервые имя Tuolumne было упомянуто в 2021 году, когда речь шла о системе раннего доступа RZNevada, целью которой была тестирование и отработка аппаратного и программного стеков El Capitan. Также известно, что система охлаждения и питания в главном ЦОД LLNL была модернизирована, в результате чего её мощность выросла с 85 до 100 МВт, и часть этих мощностей достанется Tuolumne. Правда, когда суперкомпьютер будет введён в строй, не говорится.

Постоянный URL: http://servernews.kz/1089931
13.07.2023 [14:41], Сергей Карасёв

SoftBank построит суперкомпьютер для генеративного ИИ на суперчипах GH200 Grace Hopper

Японская холдинговая компания SoftBank, работающая в области телекоммуникаций, маркетинга и финансов, сообщила о намерении создать специализированный вычислительный комплекс для поддержания приложений генеративного ИИ. В проект будет инвестировано приблизительно ¥20 млрд — около $140 млн.

Предполагается, что после ввода в эксплуатацию система станет самым высокопроизводительным японским суперкомпьютером для задач генеративного ИИ. Говорится, что в составе комплекса будут применяться ускорители NVIDIA. Весной 2023 года сообщалось, что SoftBank и NVIDIA создадут платформу для генеративного ИИ и сервисов 5G/6G. Тогда отмечалось, что основой серверов послужит суперчип GH200 Grace Hopper. SoftBank изучает возможность внедрения приложений 5G для автономного вождения, ИИ-производств, дополненной и виртуальной реальности, компьютерного зрения и цифровых двойников.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Как теперь стало известно, после введения в эксплуатацию нового суперкомпьютера SoftBank увеличит количество параметров своей большой языковой модели (LLM) с 1 млрд до 60 млрд. Для сравнения: у GPT-3 — 175 млрд параметров.

В июне Масаёси Сон (Masayoshi Son), председатель и главный исполнительный директор SoftBank, объявил о стратегии увеличения инвестиций в разработку ИИ и связанных с этим приложений. Ожидается, что генеративный ИИ SoftBank будет коммерциализирован в течение двух лет.

Постоянный URL: http://servernews.kz/1089883
10.07.2023 [15:11], Владимир Мироненко

До последней капли: Inno4scale профинансирует разработку эффективных алгоритмов для европейских экзафлопсных суперкомпьютеров

Совместное предприятие European High Performance Computing (EuroHPC JU) объявило о запуске нового исследовательского проекта Inno4scale с целью разработки инновационных алгоритмов, которые позволят в полной мере использовать потенциал экзафлопсных и постэкзафлопсных HPC-систем.

Консорциум Inno4scale включает Барселонский суперкомпьютерный центр (BSC), SCAPOS, Центр высокопроизводительных вычислений Штутгартского университета (HLRS) и ассоциацию PRACE. Он будет финансировать разработку новых подходов к алгоритмам, выделяя средства на небольшие проекты, которые покажут эффективность для приложений с поддержкой экзафлопсных вычислений. Бюджет проекта Inno4scale составляет €5 млн.

 Источник изображения: Inno4scale

Источник изображения: Inno4scale

Консорциум разработает и организует конкурс для предложений на основе механизма каскадного финансирования, приём которых продлится до конца сентября. Предложения будут оцениваться осенью 2023 года внешними экспертами исходя из инновационности дизайна и влияния на повышение эффективности работы экзафлопсных систем. Разработки, как ожидается, начнутся в 2024 году и продлятся год. Наиболее эффективные алгоритмы будут в дальнейшем использоваться для HPC, что, как ожидается, приведёт к значительному повышению производительности и энергоэффективности.

EuroHPC планирует построить два экзафлопсных суперкомпьютера для Европы. В прошлом году было объявлено, что в Юлихском суперкомпьютерном центре (JSC) недалеко от Аахена (Германия) будет установлен JUPITER (Joint Undertaking Pioneer for Innovative and Transformative Exascale Research). А в июне стало известно, что вторая экзафлопная система будет построена консорциумом Jules Verne во Франции.

Постоянный URL: http://servernews.kz/1089700
10.07.2023 [10:30], Сергей Карасёв

Представлена российская суперкомпьютерная платформа «РСК Экзастрим»: 570+ кВт на шкаф

Группа компаний РСК в ходе международной промышленной выставки «Иннопром 2023» анонсировала энергоэффективное и высокопроизводительное кластерное решение «РСК Экзастрим» для создания российских суперкомпьютеров и дата-центров нового поколения.

«РСК Экзастрим» — это двухсторонний универсальный вычислительный шкаф с возможностью монтажа 42 серверов формата 1U с каждой стороны (всего 84 сервера). Общие габариты составляют 2000 × 600 × 1200 мм. Платформа предлагает высокую энергетическую плотность (более 570 кВт на шкаф), но вместе с тем есть возможность использования разных типов охлаждения в одном шкафу: 100 % жидкостное, гибридное или воздушное.

Среди особенностей «РСК Экзастрим» разработчик называет: полностью отечественную технологическую разработку и производство в РФ; гибкую, управляемую и компонуемую архитектуру; универсальность (применимы стандартные размеры серверного оборудования); большой выбор конфигураций для используемого оборудования; легкость обслуживания; возможность использования узлов на базе разных процессоров (в том числе на основе отечественных чипов «Эльбрус»).

 Источник изображений: группа компаний РСК

Источник изображений: группа компаний РСК

Платформа может включать интегрированные программные комплексы «РСК БазИС» и «РСК БазИС СХД» для мониторинга и управления, а также для динамического перераспределения ресурсов системы «по запросу» (как вычислительных, так и для хранения данных) для наиболее эффективного решения каждой задачи.

В качестве примера использования «РСК Экзастрим» можно привести размещение узлов высокоплотной системы хранения RSC Tornado AFS на базе SSD форм-фактора E1.L (32 накопителя, 1 Пбайт на узел высотой 1U, со 100 % жидкостным охлаждением). Кроме того, могут использоваться вычислительные серверы «РСК Торнадо» на базе российских процессоров «Эльбрус-8СВ» и «Эльбрус-16С». Ещё один вариант — высокопроизводительные серверы для решения задач ИИ на основе специализированных ускорителей с плотностью размещения до четырёх штук на один узел высотой 1U.

Постоянный URL: http://servernews.kz/1089690
06.07.2023 [20:49], Владимир Мироненко

Начата сборка 2-Эфлопс суперкомпьютера El Capitan на базе серверных APU AMD Instinct MI300A

Ливерморская национальная лаборатория (LLNL) объявила о получении первой партии компонентов суперкомпьютера El Capitan, которые сразу же начала устанавливать. Система будет запущена в середине 2024 года и, согласно данным LLNL, будет обеспечивать производительность более 2 Эфлопс. Стоимость El Capitan составляет около $600 млн.

El Capitan будет использоваться для выполнения задач лабораторий Национальной администрации по ядерной безопасности США, чтобы они «могли поддерживать уверенность в национальных силах ядерного сдерживания», — сообщила LLNL. «На момент принятия проекта в следующем году El Capitan, вероятно, станет самым мощным суперкомпьютером в мире», — указано в заявлении LLNL. Он заменит машину Sierra на базе IBM POWER 9 и NVIDIA Volta, обойдя её производительности более чем на порядок.

 Источник изображений: LLNL

Источник изображений: LLNL

El Capitan базируется на платформе HPE Cray Shasta, как и две другие экзафлопсные системы, Frontier и Aurora. В отличие от этих систем, использующих традиционную конфигурацию дискретных CPU и ускорителей, El Capitan станет первым суперкомпьютером на базе гибридной архитектуры AMD. APU Instinct MI300A включает 24 ядра с микроархитектурой Zen 4 общего назначения, блоки CDNA 3 и 128 Гбайт памяти HBM3. Правда, пока не уточняется, устанавливаются ли узлы уже с финальной конфигурации «железа» или же пока что предсерийные образцы.

Постоянный URL: http://servernews.kz/1089561
Система Orphus