Материалы по тегу: hpc
13.11.2023 [17:00], Сергей Карасёв
Первый в Европе экзафлопсный суперкомпьютер Jupiter получит 24 тыс. гибридных суперчипов NVIDIA Grace HopperКомпания NVIDIA в ходе конференции по высокопроизводительным вычислениям SC23 сообщила о том, что её суперчип GH200 Grace Hopper станет одной из ключевых составляющих НРС-системы Jupiter — первого европейского суперкомпьютера экзафлопсного класса. ![]() Узел BullSequana XH3000 (Источник здесь и далее: NVIDIA) Jupiter — проект Европейского совместного предприятия по развитию высокопроизводительных вычислений (EuroHPC JU). Комплекс расположится в Юлихском исследовательском центре (FZJ) в Германии. В создании суперкомпьютера участвуют NVIDIA, ParTec, Eviden и SiPearl. Архитектура системы модульная, что позволяет адаптировать её под разные классы задач. В основу одного из основных блоков Jupiter ляжет платформа Eviden BullSequana XH3000 с прямым жидкостным охлаждением, а в состав каждого узла войдут модули Quad GH200. Общее количество суперчипов составит 23752. В качестве интерконнекта будет применяться NVIDIA Quantum-2 InfiniBand. Быстродействие на операциях обучения ИИ составит до 93 Эфлопс, а FP64-производительность должна достичь 1 Эфлопс. При этом общая потребляемая мощность Jupiter составит всего 18,2 МВт. Применять систему Jupiter планируется для решения наиболее сложных задач. Среди них — моделирование климата и погоды в высоком разрешении (на базе NVIDIA Earth-2), создание новых лекарственных препаратов (NVIDIA BioNeMo и NVIDIA Clara), исследования в области квантовых вычислений (NVIDIA cuQuantum и CUDA Quantum), промышленное проектирование (NVIDIA Modulus и NVIDIA Omniverse). Ввод Jupiter в эксплуатацию запланирован на 2024 год.
13.11.2023 [16:16], Сергей Карасёв
OSS представила защищённый ИИ-сервер Gen 5 AI Transportable на базе NVIDIA H100Компания One Stop Systems (OSS) на конференции по высокопроизводительным вычислениям SC23 представила сервер Gen 5 AI Transportable, предназначенный для решения задач ИИ и машинного обучения на периферии. Устройство, рассчитанное на монтаж в стойку, выполнено в корпусе уменьшенной глубины. Новинка соответствует американским военным стандартам в плане устойчивости к ударам, вибрации, диапазону рабочих температур и пр. Сервер может применяться в составе мобильных дата-центров, на борту грузовиков, самолётов и подводных лодок. Возможна установка четырёх ускорителей NVIDIA H100 и до 16 NVMe SSD суммарной вместимостью до 1 Пбайт. Говорится о поддержке до 35 одновременных ИИ-нагрузок. Кроме того, могут применяться сетевые решения стандарта 400 Гбит/с. При необходимости можно подключить NAS-хранилище в усиленном исполнении. ![]() Источник изображения: OSS Для сервера доступны различные варианты охлаждения: воздушное, автономное жидкостное или внешний теплообменник с жидкостным контуром. Поддерживаются различные варианты организации питания с переменным и постоянным током для использования на суше, в воздухе и море. При использовании СЖО ускорители H100, по всей видимости, комплектуются водоблоком EK-Pro NVIDIA H100 GPU WB. Реализована фирменная архитектура Open Split-Flow: она обеспечивает высокую эффективность охлаждения даже при небольшой скорости потока жидкости, что позволяет применять не слишком мощные помпы или помпы, работающие с невысокой скоростью. Микроканалы, фрезерованные на станке с ЧПУ, обладают минимальным гидравлическим сопротивлением потоку. Водоблок имеет однослотовое исполнение. Предусмотрено проприетарное ПО U-BMC (Unified Baseboard Management Controller) для динамического управления скоростью вентиляторов, мониторинга системы и пр. Сервер подходит для монтажа в большинство 19″ стоек.
12.11.2023 [18:51], Сергей Карасёв
ORCA Computing предоставит Польше две квантовые вычислительные системыБританский разработчик квантовых систем ORCA Computing выбран Познаньским центром суперкомпьютерных и сетевых технологий (PSNC) в Польше в качестве поставщика двух квантовых компьютеров. Эти системы призваны ускорить решение задач в ряде научных и прикладных областей, включая биологию, химию и машинное обучение. Речь идёт о квантовых фотонных компьютерах ORCA Computing PT-1. Они будут установлены в центре высокопроизводительных вычислений PSNC в Познане в ноябре и декабре нынешнего года и интегрированы в существующую HPC-инфраструктуру. Ситсемы закуплены в рамках проекта EuroHPC-PL. Квантовые компьютеры PT-1 используют источник одиночных фотонов и программируемые сети светоделителей для реализации квантовой памяти. Результаты вычислений представляют собой сложную статистику, где количество фотонов отражает вероятность распределения. Система может быть интегрирована с классическими HPC-платформами. Доступен специализированный комплект для разработки, который поддерживает гибридные квантово-классические алгоритмы с QPU и GPU. ![]() Источник изображения: ORCA Computing Технология ORCA Computing предусматривает использование одиночных фотонов в качестве носителя. Это не только позволяет системе естественным образом взаимодействовать с оптическими сетями, но также обеспечивает модульность и гибкость архитектуры с возможностью последующего обновления. Задействована проприетарная технология мультиплексирования для управления синхронизацией, частотой и маршрутизацией одиночных фотонов: данная методика позволяет достигать высокой плотности данных, что даёт возможность осуществлять полномасштабные квантовые вычисления с гораздо меньшим количеством компонентов.
11.11.2023 [23:59], Алексей Степин
СуперДупер: GigaIO SuperDuperNODE позволяет объединить посредством PCIe сразу 64 ускорителяКомпания GigaIO, чьей главной разработкой является система распределённого интерконнекта на базе PCI Express под названием FabreX, поставила новый рекорд — в новой платформе разработчикам удалось удвоить количество одновременно подключаемых PCIe-устройств, увеличив его с 32 до 64. О разработках GigaIO мы рассказывали читателям неоднократно. Во многом они действительно уникальны, поскольку созданная компанией композитная инфраструктура позволяет подключать к одному или нескольким серверам существенно больше различных ускорителей, нежели это возможно в классическом варианте, но при этом сохраняет высокий уровень утилизации этих ускорителей. ![]() GigaIO SuperNODE. Источник изображений здесь и далее: GigaIO В начале года компания уже демонстрировала систему с 16 ускорителями NVIDIA A100, а летом GigaIO представила мини-кластер SuperNODE. В различных конфигурациях система могла содержать 32 ускорителя AMD Instinct MI210 или 24 ускорителя NVIDIA A100, дополненных СХД ёмкостью 1 Пбайт. При этом система в силу особенностей FabreX не требовала какой-либо специфической настройки перед работой. ![]() FabreX позволяет физически объединить все типы ресурсов на базе существующего стека технологий PCI Express На этой неделе GigaIO анонсировала новый вариант своей HPC-системы, получившей незамысловатое название SuperDuperNODE. В ней она смогла удвоить количество ускорителей с 32 до 64. Как и прежде, система предназначена, в первую очередь, для использования в сценариях генеративного ИИ, но также интересна она и с точки зрения ряда HPC-задач, в частности, вычислительной гидродинамики (CFD). Система SuperNODE смогла завершить самую сложную в мире CFD-симуляцию всего за 33 часа. В ней имитировался полёт 62-метрового авиалайнера Конкорд. Хотя протяжённость модели составляет всего 1 сек, она очень сложна, поскольку требуется обсчёт поведения 40 млрд ячеек объёмом 12,4 мм3 на протяжении 67268 временных отрезков. 29 часов у системы ушло на обсчёт полёта, и ещё 4 часа было затрачено на рендеринг 3000 4К-изображений. С учётом отличной масштабируемости при использовании SuperDuperNODE время расчёта удалось сократить практически вдвое. Как уже упоминалось, FabreX позволяет малой кровью наращивать число ускорителей и иных мощных PCIe-устройств на процессорный узел при практически идеальном масштабировании. Обновлённая платформа не подвела и в этот раз: в тесте HPL-MxP пиковый показатель утилизации составил 99,7 % от теоретического максимума, а в тестах HPL и HPCG — 95,2 % и 88 % соответственно. Компания-разработчик сообщает о том, что программное обеспечение FabreX обрело завершённый вид и без каких-либо проблем обеспечивает переключение режимов SuperNODE между Beast (система видна как один большой узел), Swarm (множество узлов для множества нагрузок) и Freestyle Mode (каждой нагрузке выделен свой узел с заданным количеством ускорителей). Начало поставок SuperDuperNODE запланировано на конец года. Партнёрами, как и в случае с SuperNODE, выступят Dell и Supermicro.
08.11.2023 [20:00], Игорь Осколков
Счёт на секунды: ИИ-суперкомпьютер NVIDIA EOS с 11 тыс. ускорителей H100 поставил рекорды в бенчмарках MLPerf TrainingВместе с публикацией результатов MLPerf Traning 3.1 компания NVIDIA официально представила новый ИИ-суперкомпьютер EOS, анонсированный ещё весной прошлого года. Правда, с того момента машина подросла — теперь включает сразу 10 752 ускорителя H100, а её FP8-производительность составляет 42,6 Эфлопс. Более того, практически такая же система есть и в распоряжении Microsoft Azure, и её «кусочек» может арендовать каждый, у кого найдётся достаточная сумма денег. Суммарно EOS обладает порядка 860 Тбайт памяти HBM3 с агрегированной пропускной способностью 36 Пбайт/с. У интерконнекта этот показатель составляет 1,1 Пбайт/с. В данном случае 32 узла DGX H100 объединены посредством NVLink в блок SuperPOD, а за весь остальной обмен данными отвечает 400G-сеть на базе коммутаторов Quantum-2 (InfiniBand NDR). В случае Microsoft Azure конфигурация машины практически идентичная с той лишь разницей, что для неё организован облачный доступ к кластерам. Но и сам EOS базируется на платформе DGX Cloud, хотя и развёрнутой локально. В рамках MLPerf Training установила шесть абсолютных рекордов в бенчмарках GPT-3 175B, Stable Diffusion (появился только в этом раунде), DLRM-dcnv2, BERT-Large, RetinaNet и 3D U-Net. NVIDIA на этот раз снова не удержалась и добавила щепотку маркетинга на свои графики — когда у тебя время исполнения теста исчисляется десятками секунд, сравнивать свои результаты с кратно меньшими по количеству ускорителей кластерами несколько неспортивно. Любопытно, что и на этот раз сравнивать H100 приходится с Habana Gaudi 2, поскольку Intel не стесняется показывать результаты тестов. NVIDIA очередной раз подчеркнула, что рекорды достигнуты благодаря оптимизациям аппаратной части (Transformer Engine) и программной, в том числе совместно с MLPerf, а также благодаря интерконнекту. Последний позволяет добиться эффективного масштабирования, близкого к линейному, что в столь крупных кластерах выходит на первый план. Это же справедливо и для бенчмарков из набора MLPerf HPC, где система EOS тоже поставила рекорд.
03.11.2023 [01:01], Владимир Мироненко
В Великобритании появится ИИ-суперкомпьютер Dawn, разработанный Dell, Intel и Кембриджским университетомDell Technologies, Intel и Кембриджский университет объявили о создании в Великобритании разработанного совместными усилиями суперкомпьютера Dawn. Запуск будет осуществляться в два этапа. Первый будет выполнен в течение двух месяцев, то есть до конца года. На втором этапе, который буде завершён в 2024 году, производительность Dawn будет увеличена в десять раз, будет завершена в следующем году. Подробные характеристики Dawn будут объявлены на SC23 в этом месяце. Суперкомпьютер Dawn установлен в лаборатории Cambridge Open Zettascale Lab. Как сообщает Dell, это будет самое мощное суперкомпьютерное ИИ-облако на базе OpenStack, разработанное совместно с британской SME StackHPC. Машина использует серверы Dell PowerEdge XE9640 с процессорами Sapphire Rapids и ускорителями Max. Всего задействовано более 1 тыс. ускорителей. Платформа Scientific OpenStack с открытым исходным кодом обеспечит полностью оптимизированную для ИИ и моделирования облачную HPC-среду. Отмечена и поддержка Intel oneAPI для гетерогенных вычислений. Предполагается, что суперкомпьютер будет использоваться для выполнения сложных вычислительных задач в области академических и промышленных исследований, здравоохранения, инжиниринга и моделирования климата. В следующем году в Великобритании также будет построен суперкомпьютер Isambard-AI, который вместе с Dawn будет включён в проект AI Research Resource (AIRR), созданный британским правительством для оказания помощи национальным разработчикам ИИ. Isambard-AI и Isambard-3 будут построены HPE с использованием Arm-чипов NVIDIA Grace и Grace Hopper. При этом и Dell, и HPE одновременно заявили, что именно их детища будут самыми быстрыми ИИ-суперкомпьютерами в стране.
02.11.2023 [21:49], Руслан Авдеев
Британия получит 200-Пфлопс ИИ-суперкомпьютер Isambard-AI на гибридных Arm-чипах NVIDIA GH200Правительство Великобритании о выделении £225 млн ($273 млн) на строительство самого мощного в стране суперкомпьютера Isambard производительностью более 200 Пфлопс в FP64-вычислениях и более 21 Эфлопс в ИИ-задачах. Как сообщает The Register, новая машина на базе тысяч гибридных Arm-суперчипов NVIDIA Grace Hopper (GH200) разместится в Бристольском университете и будет построена HPE. Ожидается, что машина будет введена в эксплуатацию в следующем году и поможет в выполнении самых разных задач, от автоматизированной разработки лекарств до анализа климатических изменений, от изучения и внедрения нейросетей в робототехнике до задач, связанных с обеспечением национальной безопасности и обработкой больших данных. Isambard-AI войдёт в десятку самых быстрых суперкомпьютеров мира. Пока что самый быстрый суперкомпьютер Великобритании — это 20-Пфлопс система Archer2, занимающая 30-ю позицию в рейтинге TOP500 и введённая в строй всего пару лет назад. Isambard-AI получит 5448 гибридных чипов NVIDIA GH200 GraceHopper с 96/144 Гбайт HBM-памяти. Используется платформа HPE Cray EX с интерконнектом Slingshot 11 и СЖО. 25-Пбайт хранилище использует СХД Cray ClusterStor E1000. Система будет размещена в ЦОД с автономным охлаждением, а система утилизации избыточного тепла позволит обогревать близлежащие здания. Первыми выгодоприобретателями проекта Isambard-AI станут команды Frontier AI Task Force и AI Safety Institute, намеренные смягчить угрозу со стороны ИИ национальной безопасности Великобритании. Компанию Isambard-AI составит ранее анонсированный Arm-суперкомпьютер Isambard-3, который также построит HPE. Эту машину введут в эксплуатацию следующей весной, она обеспечит британским учёным ранний доступ к вычислительным мощностям на первом этапе реализации проекта Isambard-AI. Isambard-3 получит 384 суперчипа NVIDIA Grace, а его пиковое быстродействие в FP64-вычислениях составит 2,7 Пфлопс. Всего в различные ИИ-проекты британские власти вложат порядка £900 млн ($1,1 млрд). В частности, вместе с Isambard-AI был объявлен и суперкомпьютер Dawn, который разместится в Кембридже. Хотя ранее NVIDIA описывала Isambard-AI как самый быстрый в стране, создатели Dawn утверждают, что быстрейшим будет именно он. Система будет полагаться на серверы Dell PowerEdge XE9640 с процессорами Sapphire Rapids и ускорителями Max.
31.10.2023 [20:58], Руслан Авдеев
Voltage Park закупила 25 тыс. ускорителей NVIDIA H100, чтобы сбалансировать спрос и предложение на дефицитные ресурсы для ИИПровайдер ИИ-инфраструктуры Voltage Park объявил о приобретении 24 тыс. ускорителей NVIDIA H100. Как сообщает The Register, компания намерена сдавать их в аренду корпоративным клиентам, небольшим стартапам и исследовательским структурам уже в следующем году. Первые счастливчики в лице Imbue уже получили доступ, а формирование кластеров для Character.ai и Atomic AI находится на финальной стадии. В компании подчеркнули, что мало кто понимает, насколько недостаток вычислительных мощностей вредит инновациям — для реализации многих проектов в сфере ИИ и машинного обучения требуется или ждать месяцы своей очереди для доступа к ускорителям, или, если позволяет бюджет, платить доступ здесь и сейчас заоблачные суммы. Компания рассчитывает сбалансировать спрос и предложение. ![]() Источник изображения: NVIDIA Voltage Park привлекла $500 млн. Ускорители купят у некоммерческой организации, поддерживаемой миллиардером Джедом Маккалебом (Jed MacCaleb), сколотившим состояние на крипторынке, а теперь заинтересовавшимся космическими проектами. Внедрение нового оборудования намечено в Техасе, Вирджинии и Вашингтоне. Компания намерена расширить портфолио долгосрочных и краткосрочных тарифов, а в начале следующего года появится возможность даже почасовой аренды мощностей отдельных ускорителей. Доступ к одному ускорителю у Voltage Park будет стоить от $1,89/час, но полные условия, в том числе особенности инфраструктуры, не раскрываются. Для сравнения — инстанcы AWS EC2 P5 с восемью NVIDIA H100 обойдутся в $98,32/час при доступе по запросу или же в $43,16/час при заключении контракта на три года. Voltage Park по запросу будет предоставлять мощности от 1 до 8 ускорителей, для доступа к 8–248 H100 придётся подписать краткосрочный договор аренды. Наконец, годовой контракт даёт доступ к 4088 ускорителям ($67,7 млн/год). Это далеко не единственная компания, выросшая на фоне высокого спроса на продукцию NVIDIA и AMD. Например, CoreWeave при сотрудничестве с NVIDIA построила собственный кластер, включающий более 22 тыс. ускорителей H100.
29.10.2023 [16:11], Сергей Карасёв
Инвестфонд D9 продаст исландского оператора ЦОД Verne GlobalБританский инвестиционный фонд Digital 9 Infrastructure (D9), по сообщению ресурса Datacenter Dynamics, планирует продать всю свою долю в исландском операторе дата-центров Verne Global «стратегическому партнёру». Причина заключает в давлении со стороны акционеров. Фонд D9, контролируемый Triple Point Investment Management, купил Verne Global осенью 2021 года примерно за $320 млн. Verne Global оперирует комплексом ЦОД мощностью 24 МВт на территории бывшего объекта НАТО в Кеблавике на полуострове Рейкьянес в юго-западной Исландии. Под брендом Verne объединены и другие активы. Это финские дата-центы Ficolo и лондонские площадки Volta. Кроме того, на этапе строительства находится ЦОД мощностью приблизительно 8 МВт. ![]() Источник изображения: Verne Global Сообщается, что Verne реализует пятилетний проект по наращиванию вычислительных ресурсов. В частности, оператор намерен повысить мощности кампуса в Исландии до более чем 96 МВт, что потребует капитальных затрат в размере $483,6 млн. В июне 2023 года компания получила кредит на $100 млн для финансирования работ. Verne ориентирована на гиперскейлеров и HPC-пользователей. Совет директоров D9 заявил, что сделка по продаже доли Verne Global укрепит позиции компании и «ещё больше увеличит» её акционерную стоимость. Говорится, что инвестфонд ведёт переговоры с заинтересованными сторонами, но имя потенциального покупателя и сумма сделки не раскрываются. Ожидается, что дополнительная информация будет раскрыта в IV квартале нынешнего года.
25.10.2023 [12:15], Сергей Карасёв
Taiga Cloud развернёт ИИ-платформу Gigabyte с 10 тыс. ускорителями NVIDIA H100Компания Northern Data Group объявила о том, что её облачное подразделение Taiga Cloud заключило соглашение о стратегическом сотрудничестве с Gigabyte. Партнёрство предполагает создание в европейском регионе НРС-площадки для решения ресурсоёмких задач, связанных с генеративным ИИ. Речь идёт об использовании ускорителей NVIDIA. В частности, Gigabyte по заказу Taiga Cloud создала архитектуру из NVIDIA DGX SuperPod, насчитывающих 512 ускорителей NVIDIA H100. Четыре таких блока (2048 ускорителей) связаны посредством NVIDIA BlueField и NVIDIA Quantum-2 InfiniBand, а всего таких блоков будет пять, т.е. суммарно оператор получит 10 240 ускорителей. Gigabyte поставит в интересах Taiga Cloud в общей сложности 20 вычислительных блоков с ускорителями NVIDIA H100 на общую сумму €400 млн. В результате, Taiga Cloud станет одним из крупнейших в Европе независимых поставщиков облачных услуг на основе оборудования NVIDIA — с более чем 19 тыс. ускорителей H100, A100 и RTX A6000. ![]() Источник изображения: NVIDIA Предполагается, что развёртывание площадки поможет заказчикам ускорить инновации в области генеративного ИИ. Облачная платформа с ускорителями NVIDIA H100 повысит скорость обучения больших языковых моделей (LLM). Таким образом, клиенты смогут выводить свои продукты на коммерческий рынок в более сжатые сроки, что обеспечит конкурентное преимущество и даст возможность повысить выручку. |
|