Материалы по тегу: h100
23.03.2023 [22:55], Владимир Мироненко
Инстансы AWS EC2 P5 позволят объединить в облаке до 20 тыс. ускорителей NVIDIA H100AWS и NVIDIA объявили о заключении соглашения о многостороннем сотрудничестве с целью создания самой масштабируемой в мире инфраструктуры искусственного интеллекта (ИИ) по требованию, оптимизированной для обучения всё более сложных больших языковых моделей (LLM) и разработки генеративных приложений ИИ. Компании займутся развёртыванием инстансов следующего поколения EC2 P5 на базе ускорителей NVIDIA H100 с продвинутыми сетевыми возможностями и возможностями масштабирования в AWS, что позволит достичь производительности 20 Эфлопс. Каждый инстанс P5 оснащён восемью ускорителями NVIDIA H100. P5 станут первыми инстансами с ускорителями, в которых используются адаптеры AWS Elastic Fabric Adapter (EFA) 2-го поколения с низкой задержкой, скоростью передачи данных 3,200 Тбит/с и поддержкой NVIDIA GPUDirect RDMA, что позволит объединить до 20 тыс. ускорителей. Для сравнения — OCI SuperCluster позволяет объединить до 32 768 ускорителей A100). Как отмечено в пресс-релизе NVIDIA, инстансы P5 идеально подходят для обучения и инференса для всё более сложных LLM и моделей компьютерного зрения, лежащих в основе самых требовательных и ресурсоёмких приложений генеративного ИИ. Повышенная производительность инстансов P5 позволяет сократить время обучения моделей машинного обучения (ML) до 6 раз. Ожидается, что инстансы P5 снизят затраты на обучение моделей машинного обучения по сравнению с предыдущим поколением на 40 %. В результате заказчики получают производительность сравнимую с таковой у локальных HPC-кластеров, но с эластичностью и гибкостью AWS. Кроме того, клиенты смогут использовать портфолои сервисов AWS, включая S3, FSx, SageMaker и т.д. Инстансы P5 станут доступны в ближайшие недели в ограниченной предварительной версии.
22.03.2023 [20:32], Алексей Степин
Экспортный китайский вариант NVIDIA H100 получил модельный номер H800В связи с санкционными ограничениями некоторые разновидности сложных микроэлектронных чипов запрещено экспортировать в Китайскую Народную Республику. Однако производители находят выход. В частности, компания NVIDIA анонсировала экспортный вариант ускорителя H100, не нарушающий никаких санкций. Модельный номер у такого варианта изменён на H800. Введённые правительством США в 2022 году санкции сделали «невыездными» два наиболее продвинутых продукта NVIDIA: A100 и H100. Такие процессоры сегодня являются основой наиболее динамично развивающейся вычислительной отрасли — нейросетевой. Именно на кластерах из таких ускорителей «натаскивают» мощные нейросети вроде ChatGPT и подобных. Ещё осенью прошлого года NVIDIA анонсировала A800 — экспортный вариант A100, не попадающий под ограничения за счёт некоторого снижения пропускной способности NVLink, с 600 до 400 Гбайт/с. Сейчас пришло время архитектуры Hopper, которая запущена в массовое производство. По аналогии с флагманом Ampere модернизированный чип получил модельный номер H800. Ограничения в нём реализованы схожим образом: как известно, NVLink в H100 имеет производительность 900 Гбайт/с в базовом SXM-варианте. Версия H800 использует примерно половину этого потенциала, что, впрочем, не делает её в Китае менее популярной: новинка уже используется китайскими облачными гигантами, такими, как Alibaba, Baidu и Tencent. Есть ли у H800 другие отличия от H100, не говорится — NVIDIA пока отказывается предоставлять такую информацию. Достоверно известно лишь то, что они полностью соответствуют всем санкционным ограничениям. Интересно, появится ли в будущем вариант H800 NVL на базе NVIDIA H100 NVL.
22.03.2023 [13:53], Сергей Карасёв
Supermicro представила ИИ-серверы на базе NVIDIA H100 и L4Компания Supermicro анонсировала полный спектр серверов, оборудованных ускорителями NVIDIA H100 и L4. Системы предназначены для задач HPC, генеративного ИИ, глубокого обучения и других ресурсоёмких приложений, таких как умные чат-боты и визуальный поиск. Отмечается, что в ассортименте Supermicro присутствуют серверы в форм-факторах 8U, 6U, 5U, 4U, 2U и 1U, а также рабочие станции и системы SuperBlade, которые поддерживают весь модельный ряд новых ускорителей NVIDIA. Для ряда моделей доступно жидкостное охлаждение. В частности, Supermicro представила мощную систему SuperServer SYS-821GE-TNHR формата 8U. Допускается установка двух процессоров Intel Xeon Sapphire Rapids с показателем TDP до 350 Вт и 32 модулей оперативной памяти DDR5-4800 суммарным объёмом до 8 Тбайт. Сервер может быть оборудован восемью ускорителями NVIDIA H100 SXM5. Во фронтальной части предусмотрены отсеки для 16 NVMe-накопителей SFF и для восьми изделий SFF SATA. Кроме того, есть два внутренних коннектора M.2 NVMe. Сервер располагает четырьмя блоками питания мощностью 3000 Вт каждый. Может быть развёрнуто воздушное или жидкостное охлаждение. В качестве опции предлагается установка двух сетевых контроллеров 10GbE (Intel X710-AT2). Supermicro также выпустила шасии в серии X13 SuperBlade. В версии 8U оно вмещает 20 ускорителей NVIDIA H100 PCIe или 40 ускорителей NVIDIA L40. В варианте 6U можно использовать до 10 ускорителей NVIDIA H100 PCIe или до 20 ускорителей NVIDIA L4. Кроме того, Supermicro выпустила систему ИИ-разработки с жидкостным охлаждением (в виде башни или стойки), содержащую два CPU и четыре NVIDIA A100: это решение подходит для офисных и домашних сред.
22.03.2023 [12:32], Сергей Карасёв
В облаке Vultr появились ускорители NVIDIA H100Частная компания Vultr, предоставляющая услуги облачных вычислений, сообщила о том, что клиентам теперь доступны ускорители NVIDIA H100 для обработки ресурсоёмких приложений, связанных с генеративным ИИ, глубоким обучением, рендерингом видео, HPC-задачами и т. п. Воспользоваться мощностями платформы NVIDIA HGX H100 заказчики смогут в рамках сервиса IaaS. Данная облачная платформа Vultr также включает другие ускорители NVIDIA, в том числе A100, A40 и A16. Таким образом, как отмечается, корпоративные пользователи могут выбрать наиболее подходящий для себя вариант в зависимости от потребностей. Кроме того, Vultr объявила о трёхстороннем стратегическом альянсе с платформами обработки данных и машинного обучения Anaconda Inc. и Domino Data Lab. Эта инициатива призвана помочь специалистам по анализу данных и инженерам в области машинного обучения в упрощении и ускорении реализации проектов. Говорится, что в течение всего 60 секунд клиенты смогут развернуть полноценную и безопасную среду Anaconda на платформе Domino MLOps, работающую на инфраструктуре Vultr. Это позволит заказчикам сосредоточиться на инновациях, а не на решении рабочих вопросов. Ускорители NVIDIA также могут быть интегрированы с широким спектром виртуализированных облачных ресурсов Vultr, серверами bare metal, управляемыми базами данных, блочными и объектными хранилищами и пр. Этот комплексный набор продуктов и услуг способен удовлетворить потребности предприятий любого размера с критически важными проектами в области ИИ и машинного обучения.
21.03.2023 [22:01], Сергей Карасёв
NVIDIA и Mitsui анонсировали Tokyo-1, первый в мире ИИ-суперкомпьютер для фармацевтической отраслиКомпании Mitsui и NVIDIA в ходе весенний конференции GTC 2023 анонсировали проект Tokyo-1. Это, как утверждается, первый в мире суперкомпьютер с генеративным ИИ, спроектированный специально для фармацевтической отрасли. Мощности новой системы будут предоставляться японским заказчикам, включая фармацевтические организации и стартапы. HPC-комплекс поможет ускорить разработку передовых лекарственных препаратов благодаря использованию ИИ. Клиенты также смогут запускать на базе Tokyo-1 большие ИИ-модели с помощью ПО и сервисов NVIDIA BioNeMo. На начальном этапе суперкомпьютер объединит 16 узлов NVIDIA DGX H100, каждый из которых получит восемь ускорителей NVIDIA H100. За работу системы будет отвечать фирма Xeureka, дочерняя структура Mitsui, специализирующаяся на разработке лекарств с помощью ИИ. С течением времени в состав комплекса будут включены дополнительные вычислительные узлы, что позволит поднять его производительность. Ввод суперкомпьютера в эксплуатацию намечен на конец 2023 года. Модели ИИ, работающие на базе Tokyo-1, помогут в создании новых молекулярных структур для лекарственных препаратов. Инициатива также будет включать семинары и обучающие курсы по применению ускоренных вычислений в фармацевтической области. Клиенты смогут получить доступ к выделенному серверу на платформе Tokyo-1, а также воспользоваться технической поддержкой со стороны Xeureka и NVIDIA. Заказчики смогут приобрести программные решения Xeureka для молекулярной динамики, квантовой химии и иных расчётов. Отмечается, что, используя NVIDIA BioNeMo, исследователи смогут масштабировать ИИ-модели до миллионов и миллиардов параметров в различных приложениях, включая предсказание структуры белка. Крупные японские фармацевтические компании, включая Astellas Pharma, Daiichi-Sankyo и Ono Pharmaceutical, уже заявили о намерении использовать Tokyo-1 при реализации своих проектов.
21.03.2023 [20:45], Владимир Мироненко
NVIDIA запустила облачный сервис DGX Cloud — доступ к ИИ-супервычислениям прямо в браузереNVIDIA запустила сервис ИИ-супервычислений DGX Cloud, предоставляющий предприятиям доступ к инфраструктуре и программному обеспечению, необходимым для обучения передовых моделей для генеративного ИИ и других приложений. DGX Cloud предлагает выделенные ИИ-кластеры NVIDIA DGX в сочетании с фирменным набором ПО NVIDIA. С его помощью предприятие сможет получить доступ к облачному ИИ-суперкомпьютеру, используя веб-браузер и без надобности в приобретении, развёртывании и управлении собственной HPC-инфраструктурой. Правда, удовольствие это всё равно не из дешёвых — стоимость инстансов DGX Cloud начинается от $36 999/мес., причём деньги получает в первую очередь сама NVIDIA. Для сравнения — полностью укомплектованная система DGX A100 в Microsoft Azure обойдётся примерно в $20 тыс. Облачные кластеры DGX предлагаются предприятиям на условиях ежемесячной аренды, что гарантирует им возможность быстро масштабировать разработку больших рабочих нагрузок. «DGX Cloud предоставляет клиентам мгновенный доступ к супервычислениям NVIDIA AI в облаках глобального масштаба», — сообщил Дженсен Хуанг (Jensen Huang), основатель и генеральный директор NVIDIA. Развёртыванием инфраструктуры DGX Cloud компания NVIDIA будет заниматься в сотрудничестве с ведущими поставщиками облачных услуг. Первым среди них стала платформа Oracle Cloud Infrastructure (OCI), предлагающая суперкластер (SuperCluster) с объединёнными RDMA-сетью (в том числе на базе BlueField-3 и Connect-X7) системами DGX (bare metal), которые дополняет высокопроизводительное локальное и блочное хранилище. Cуперкластер может включать до 32 768 ускорителей, но этот рекорд был поставлен с использованием DGX A100, а вот предложение DGX H100 пока что ограничено. В следующем квартале похожее решение появится в Microsoft Azure, а потом в Google Cloud и у других провайдеров. Первыми пользователями DGX Cloud стали Amgen, одна из ведущих мировых биотехнологических компаний, лидер рынка страховых технологий CCC Intelligent Solutions (CCC) и провайдер цифровых бизнес-платформ ServiceNow. «Мощные вычислительные и многоузловые возможности DGX Cloud позволили нам в 3 раза ускорить обучение белковых LLM с помощью BioNeMo и до 100 раз ускорить анализ после обучения с помощью NVIDIA RAPIDS по сравнению с альтернативными платформами», — сообщил представитель Amgen. Для управления нагрузками в DGX Cloud предлагается NVIDIA Base Command. Также DGX Cloud включает в себя набор инструментов NVIDIA AI Enterprise для создания и запуска моделей, который предоставляет комплексные фреймворки и предварительно обученные модели для ускорения обработки данных и оптимизации разработки и развёртывания ИИ. DGX Cloud предоставляет поддержку экспертов NVIDIA на всех этапах разработки ИИ. Клиенты смогут напрямую работать со специалистами NVIDIA, чтобы оптимизировать свои модели и быстро решать задачи разработки с учётом сценариев отраслевого использования.
21.03.2023 [19:45], Игорь Осколков
Толстый и тонкий: NVIDIA представила самый маленький и самый большой ИИ-ускорители L4 и H100 NVLНа весенней конференции GTC 2023 компания NVIDIA представила два новых ИИ-ускорителя, ориентированных на инференес: неприличной большой H100 NVL, фактически являющийся парой обновлённых ускорителей H100 в формате PCIe-карты, и крошечный L4, идущий на смену T4. NVIDIA H100 NVL действительно выглядит как пара H100, соединённых мостиками NVLink. Более того, с точки зрения ОС они выглядят как пара независимых ускорителей, однако ПО воспринимает их как единое целое, а обмен данными между двумя картам идёт в первую очередь по мостикам NVLink (600 Гбайт/с). Новинка создана в первую очередь для исполнения больших языковых ИИ-моделей, в том числе семейства GPT, а не для их обучения. Однако аппаратно это всё же не просто пара обычных H100 PCIe. По уровню заявленной производительности NVL-вариант вдвое быстрее одиночного ускорителя H100 SXM, а не PCIe — 3958 и 7916 Тфлопс в разреженных (в обычных показатели вдвое меньше) FP16- и FP8-вычислениях на тензорных ядрах соответственно, что в 2,6 раз больше, чем у H100 PCIe. Кроме того, NVL-вариант получил сразу 188 Гбайт HBM3-памяти с суммарной пропускной способностью 7,8 Тбайт/с. NVIDIA утверждает, что форм-фактор H100 NVL позволит задействовать новинку большему числу пользователей, хотя четыре слота и TDP до 800 Вт подойдут далеко не каждой платформе. NVIDIA H100 NVL станет доступна во второй половине текущего года. А вот ещё одну новинку, NVIDIA L4 на базе Ada, в ближайшее время можно будет опробовать в облаке Google Cloud Platform, которое первым получило этот ускоритель. Кроме того, он же будет доступен в рамках платформы NVIDIA Launchpad, да и ключевые OEM-производители тоже взяли его на вооружение. Сама NVIDIA называет L4 поистине универсальным серверным ускорителем начального уровня. Он вчетверо производительнее NVIDIA T4 с точки зрения графики и в 2,7 раз — с точки зрения инференса. Маркетинговые упражнения компании при сравнении L4 с CPU оставим в стороне, но отметим, что новинка получила новые аппаратные ускорители (де-)кодирования видео и возможность обработки 130 AV1-потоков 720p30 для мобильных устройств. С L4 возможны различные сценарии обработки видео, включая замену фона, AR/VR, транскрипцию аудио и т.д. При этом ускорителю не требуется дополнительное питание, а сам он выполнен в виде HHHL-карты.
21.03.2023 [19:15], Сергей Карасёв
NVIDIA представила систему DGX Quantum для гибридных квантово-классических вычисленийКомпания NVIDIA в партнёрстве с Quantum Machines анонсировала DGX Quantum — первую систему, объединяющую GPU и квантовые вычисления. Решение использует новую открытую программную платформу CUDA Quantum. Утверждается, что система предоставляет революционно архитектуру для исследователей, работающими с гибридными вычислениями с низкой задержкой. NVIDIA DGX Quantum объединяет средства ускоренных вычислений на базе Grace Hopper (Arm-процессор + ускоритель H100), модели программирования с открытым исходным кодом CUDA Quantum и передовую квантовую управляющую платформу Quantum Machines OPX+. Такая комбинация позволяет создавать ресурсоёмкие приложения, сочетающие квантовые вычисления с современными классическими вычислениями. При этом в числе прочего обеспечивается работа гибридных алгоритмов и коррекция ошибок. Представленное решение предполагает соединение Grace Hopper и Quantum Machines OPX+ посредством интерфейса PCIe. Это обеспечивает задержку менее микросекунды между ускорителем и блоками квантовой обработки (QPU). Отмечается, что OPX+ — это универсальная система квантового управления. Таким образом, можно максимизировать производительность QPU и предоставить разработчикам новые возможности при использовании квантовых алгоритмов. Системы Grace Hopper и OPX+ можно масштабировать в соответствии с потребностями — от QPU с несколькими кубитами до суперкомпьютера с квантовым ускорением. О намерении интегрировать CUDA Quantum в свои платформы уже заявили компании по производству квантового оборудования Anyon Systems, Atom Computing, IonQ, ORCA Computing, Oxford Quantum Circuits и QuEra, разработчики ПО Agnostiq и QMware, а также некоторые суперкомпьютерные центры.
13.03.2023 [18:43], Сергей Карасёв
ИИ-инстансы ND H100 v5 в облаке Microsoft Azure позволят объединить тысячи ускорителей NVIDIA H100Корпорация Microsoft сообщила о том, что на базе облачной платформы Azure станут доступны высокопроизводительные масштабируемые инстансы ND H100 v5 для нагрузок, связанных со сложными ИИ-моделями, в частности, с генеративными приложениями на основе нейросетей. ND H100 v5 могут использоваться при реализации таких проектов, как чат-бот ChatGPT на базе нейросети. Этот бот использует языковую модель OpenAI GPT-3, насчитывающую 175 млрд параметров. Система предусматривает использование ускорителей NVIDIA H100. Восемь таких GPU объединены посредством NVSwitch и NVLink 4.0. Возможно масштабирование до тысяч ускорителей при помощи сети на базе NVIDIA Quantum-2 InfiniBand, которая обеспечивает пропускную способность до 400 Гбит/с в расчёте на GPU (до 3,2 Тбит/с на виртуальную машину). В составе ND H100 v5 применяются процессоры Intel Xeon Sapphire Rapids, обеспечивающие интерфейс PCIe 5.0 и 16 каналов DDR5-4800. Ранее NVIDIA планировала массово разворачивать в облаках специализированные HPC/ИИ-системы на базе H100.
22.03.2022 [18:40], Игорь Осколков
NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100На GTC 2022 компания NVIDIA анонсировала ускорители H100 на базе новой архитектуры Hopper. Однако NVIDIA уже давно говорит о себе как создателе платформ, а не отдельных устройств, так что вместе с H100 были представлены серверные Arm-процессоры Grace, в том числе гибридные, а также сетевые решения и обновления наборов ПО. NVIDIA H100 использует мультичиповую 2.5D-компоновку CoWoS и содержит порядка 80 млрд транзисторов. Но нет, это не самый крупный чип компании на сегодняшний день. Кристаллы новинки изготавливаются по техпроцессу TSMC N4, а сопровождают их — впервые в мире, по словам NVIDIA — сборки памяти HBM3 суммарным объёмом 80 Гбайт. Объём памяти по сравнению с A100 не вырос, зато в полтора раза увеличилась её скорость — до рекордных 3 Тбайт/с. Подробности об архитектуре Hopper будут представлены чуть позже. Пока что NVIDIA поделилась некоторыми сведениями об особенностях новых чипов. Помимо прироста производительности от трёх (для FP64/FP16/TF32) до шести (FP8) раз в сравнении с A100 в Hopper появилась поддержка формата FP8 и движок Transformer Engine. Именно они важны для достижения высокой производительности, поскольку само по себе четвёртое поколение ядер Tensor Core стало втрое быстрее предыдущего (на всех форматах). TF32 останется форматом по умолчанию при работе с TensorFlow и PyTorch, но для ускорения тренировки ИИ-моделей NVIDIA предлагает использовать смешанные FP8/FP16-вычисления, с которыми Tensor-ядра справляются эффективно. Хитрость в том, что Transformer Engine на основе эвристик позволяет динамически переключаться между ними при работе, например, с каждым отдельным слоем сети, позволяя таким образом добиться повышения скорости обучения без ущерба для итогового качества модели. На больших моделях, а именно для таких H100 и создавалась, сочетание Transformer Engine с другими особенностями ускорителей (память и интерконнект) позволяет получить девятикратный прирост в скорости обучения по сравнению с A100. Но Transformer Engine может быть полезен и для инференса — готовые FP8-модели не придётся самостоятельно конвертировать в INT8, движок это сделает на лету, что позволяет повысить пропускную способность от 16 до 30 раз (в зависимости от желаемого уровня задержки). Другое любопытное нововведение — специальные DPX-инструкции для динамического программирования, которые позволят ускорить выполнение некоторых алгоритмов до 40 раз в задачах, связанных с поиском пути, геномикой, квантовыми системами и при работе с большими объёмами данных. Кроме того, H100 получили дальнейшее развитие виртуализации. В новых ускорителях всё так же поддерживается MIG на 7 инстансов, но уже второго поколения, которое привнесло больший уровень изоляции благодаря IO-виртуализации, выделенным видеоблокам и т.д. Так что MIG становится ещё более предпочтительным вариантом для облачных развёртываний. Непосредственно к MIG примыкает и технология конфиденциальных вычислений, которая по словам компании впервые стала доступна не только на CPU. Программно-аппаратное решение позволяет создавать изолированные ВМ, к которым нет доступа у ОС, гипервизора и других ВМ. Поддерживается сквозное шифрование при передаче данных от CPU к ускорителю и обратно, а также между ускорителями. Память внутри GPU также может быть изолирована, а сам ускоритель оснащается неким аппаратным брандмауэром, который отслеживает трафик на шинах и блокирует несанкционированный доступ даже при наличии у злоумышленника физического доступа к машине. Это опять-таки позволит без опаски использовать H100 в облаке или в рамках колокейшн-размещения для обработки чувствительных данных, в том числе для задач федеративного обучения. Но главная инновация — это существенное развитие интерконнекта по всем фронтам. Суммарная пропускная способность внешних интерфейсов чипа H100 составляет 4,9 Тбайт/с. Да, у H100 появилась поддержка PCIe 5.0, тоже впервые в мире, как утверждает NVIDIA. Однако ускорители получили не только новую шину NVLink 4.0, которая стала в полтора раза быстрее (900 Гбайт/с), но и совершенно новый коммутатор NVSwitch, который позволяет напрямую объединить между собой до 256 ускорителей! Пропускная способность «умной» фабрики составляет до 70,4 Тбайт/с. Сама NVIDIA предлагает как новые системы DGX H100 (8 × H100, 2 × BlueField-3, 8 × ConnectX-7), так и SuperPOD-сборку из 32-х DGX, как раз с использованием NVLink и NVSwitch. Партнёры предложат HGX-платформы на 4 или 8 ускорителей. Для дальнейшего масштабирования SuperPOD и связи с внешним миром используются 400G-коммутаторы Quantum-2 (InfiniBand NDR). Сейчас NVIDIA занимается созданием своего следующего суперкомпьютера EOS, который будет состоять из 576 DGX H100 и получит FP64-производительность на уровне 275 Пфлопс, а FP16 — 9 Эфлопс. Компания надеется, что EOS станет самой быстрой ИИ-машиной в мире. Появится она чуть позже, как и сами ускорители, выход которых запланирован на III квартал 2022 года. NVIDIA представит сразу три версии. Две из них стандартные, в форм-факторах SXM4 (700 Вт) и PCIe-карты (350 Вт). А вот третья — это конвергентный ускоритель H100 CNX со встроенными DPU Connect-X7 класса 400G (подключение PCIe 5.0 к самому ускорителю) и интерфейсом PCIe 4.0 для хоста. Компанию ей составят 400G/800G-коммутаторы Spectrum-4. |
|