Материалы по тегу: dpu

22.11.2023 [11:18], Сергей Карасёв

NVIDIA представила сетевой ускоритель SuperNIC для гипермасштабируемых ИИ-нагрузок

Компания NVIDIA анонсировала аппаратное решение SuperNIC — это сетевой ускоритель нового типа, предназначенный для масштабных рабочих нагрузок ИИ в системах на базе Ethernet. Устройство обеспечивает скорость передачи данных до 400 Гбит/с с использованием RDMA (RoCE). Новинка выполнена на основе DPU BlueField-3: это часть сетевой 400G/800G-платформы Spectrum-X, которая предусматривает использование коммутаторов на базе ASIC NVIDIA Spectrum-4 (51,2 Тбит/с).

Отмечается, что сообща BlueField-3 SuperNIC и Spectrum-4 составляют основу вычислительной системы, специально разработанной для ускорения ИИ-нагрузок. При этом платформа Spectrum-X обеспечивает высокую эффективность сети, превосходя по производительности традиционные среды Ethernet. По заявления NVIDIA, DPU предоставляет множество расширенных функций, таких как высокая пропускная способность, подключение с небольшой задержкой и пр.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Среди ключевых особенностей SuperNIC называются: высокоскоростное переупорядочение пакетов; расширенный контроль перегрузок с использованием данных в реальном времени и специализированных сетевых алгоритмов; возможность программирования ввода-вывода (I/O); энергоэффективный низкопрофильный дизайн; полная оптимизация для ИИ (включая вычисления, сети, хранилище, системное ПО, коммуникационные библиотеки). В одной системе могут быть задействованы до восьми SuperNIC, что позволяет добиться соотношения 1:1 с GPU. А это даёт возможность максимизировать производительность при выполнении сложных задач ИИ.

Постоянный URL: http://servernews.kz/1096340
16.11.2023 [02:43], Алексей Степин

Microsoft представила 128-ядерый Arm-процессор Cobalt 100 и ИИ-ускоритель Maia 100 собственной разработки

Гиперскейлеры ради снижения совокупной стоимости владения (TCO) и зависимости от сторонних вендоров готовы вкладываться в разработку уникальных чипов, изначально оптимизированных под их нужды и инфраструктуру. К небольшому кругу компаний, решившихся на такой шаг, присоединилась Microsoft, анонсировавшая Arm-процессор Azure Cobalt 100 и ИИ-ускоритель Azure Maia 100.

 Изображения: Microsoft

Изображения: Microsoft

Первопроходцем в этой области стала AWS, которая разве что память своими силами не разрабатывает. У AWS уже есть три с половиной поколения Arm-процессоров Graviton и сразу два вида ИИ-ускорителей: Trainium для обучения и Inferentia2 для инференса. Крупный китайский провайдер Alibaba Cloud также разработал и внедрил Arm-процессоры Yitian и ускорители Hanguang. Что интересно, в обоих случаях процессоры оказывались во многих аспектах наиболее передовыми. Наконец, у Google есть уже пятое поколение ИИ-ускорителей TPU.

Microsoft заявила, что оба новых чипа уже производятся на мощностях TSMC с использованием «последнего техпроцесса» и займут свои места в ЦОД Microsoft в начале следующего года. Как минимум, в случае с Maia 100 речь идёт о 5-нм техпроцессе, вероятно, 4N. В настоящее время Microsoft Azure находится в начальной стадии развёртывания инфраструктуры на базе новых чипов, которая будет использоваться для Microsoft Copilot, Azure OpenAI и других сервисов. Например, Bing до сих пор во много полагается на FPGA, а вся ИИ-инфраструктура Microsoft крайне сложна.

Microsoft приводит очень мало технических данных о своих новинках, но известно, что Azure Cobalt 100 имеет 128 ядер Armv9 Neoverse N2 (Perseus) и основан на платформе Arm Neoverse Compute Subsystem (CSS). По словам компании, процессоры Cobalt 100 до +40 % производительнее имеющихся в инфраструктуре Azure Arm-чипов, они используются для обеспечения работы служб Microsoft Teams и Azure SQL. Oracle, вложившаяся в своё время в Ampere Comptuing, уже перевела все свои облачные сервисы на Arm.

Чип Maia 100 (Athena) изначально спроектирован под задачи облачного обучения ИИ и инференса в сценариях с использованием моделей OpenAI, Bing, GitHub Copilot и ChatGPT в инфраструктуре Azure. Чип содержит 105 млрд транзисторов, что больше, нежели у NVIDIA H100 (80 млрд) и ставит Maia 100 на один уровень с Ponte Vecchio (~100 млрд). Для Maia организован кастомный интерконнект на базе Ethernet — каждый ускоритель располагает 4,8-Тбит/с каналом для связи с другими ускорителями, что должно обеспечить максимально эффективное масштабирование.

Сами Maia 100 используют СЖО с теплообменниками прямого контакта. Поскольку нынешние ЦОД Microsoft проектировались без учёта использования мощных СЖО, стойку пришлось сделать более широкой, дабы разместить рядом с сотней плат с чипами Maia 100 серверами и большой радиатор. Этот дизайн компания создавала вместе с Meta, которая испытывает аналогичные проблемы с текущими ЦОД. Такие стойки в настоящее время проходят термические испытания в лаборатории Microsoft в Редмонде, штат Вашингтон.

В дополнение к Cobalt и Maia анонсирована широкая доступность услуги Azure Boost на базе DPU MANA, берущего на себя управление всеми функциями виртуализации на манер AWS Nitro, хотя и не целиком — часть ядер хоста всё равно используется для обслуживания гипервизора. DPU предлагает 200GbE-подключение и доступ к удалённому хранилищу на скорости до 12,5 Гбайт/с и до 650 тыс. IOPS.

Microsoft не собирается останавливаться на достигнутом: вводя в строй инфраструктуру на базе новых чипов Cobalt и Maia первого поколения, компания уже ведёт активную разработку чипов второго поколения. Впрочем, совсем отказываться от партнёрства с другими вендорами Microsoft не намерена. Компания анонсировала первые инстансы с ускорителями AMD Instinct MI300X, а в следующем году появятся инстансы с NVIDIA H200.

Постоянный URL: http://servernews.kz/1096037
19.10.2023 [01:40], Алексей Степин

Axiado представила новый класс сопроцессоров — TCU

На мероприятии 2023 OCP Global Summit компания Axiado представила новый класс аппаратных сопроцессоров — TCU (Trusted Control/Compute Unit), предназначенный для управления и защиты IT-инфраструктуры от различного рода атак.

Защитных механик в мире ИТ существует множество, но и киберпреступники постоянно совершенствуют методы атак, задействуя порой самые экзотические атак по сторонним каналам, к примеру, используя механизмы динамического управления напряжением и частотой в современных процессорах. Не всегда спасает положение даже подход «нулевого доверия» (Zero Trust), поскольку программная реализация также уязвима ко взлому или утере ключей.

 Источник изображений здесь и далее: OCP/Axiado

Источник изображений здесь и далее: OCP/Axiado

Решение Axiado — аппаратный контроль в реальном времени, использующий ИИ, который позволяет предсказывать и предотвращать разного рода атаки, дообучаясь в процессе. Последнее, по мнению компании, быть на шаг впереди злоумышленников и предотвращать возможный взлом ещё на этапе первых подозрительных действий, производимых в системе. Чипы серии AX2000/3000 способны выполнять и другие функции: Platform Root of Trust, BMC или TPM. При этом предполагается использование модульной и открытой программной архитектуры на основе PFR (Platform Firmware Resilence) и OpenBMC.

Чипы Axiado AX2000/3000 содержат четыре инференс-движка общей мощностью 4 Топс, четыре ядра общего назначения Arm Cortex A53, а также модули доверенного и привилегированного исполнения, блок брандмауэра и криптодвижок. Большая часть модулей решения Axiado работает под управлением открытой ОС реального времени Zephyr. Клиент легко может доработать платформу собственными модулями.

Axiado активно сотрудничает с OCP и уже разработала несколько вариантов адаптеров на базе TCU для продвигаемых консорциумом серверных форм-факторов. В портфолио компании представлены адаптеры DC-SCM 2.0 (Secure Control Module) как в вертикальном, так и в горизонтальном форм-факторах, а также в виде классического PCIe-адаптера NCM (Network Compute Module).

Компания уже успела договориться о сотрудничестве с GIGABYTE, VVDN, Wiwynn, Senao и Tyan. Но этим список партнёров Axiado не ограничивается: в её решениях заинтересованы также крупные облачные провайдеры, включая AWS, Microsoft, Google и Meta, а также ряд других компаний и системных интеграторов.

Постоянный URL: http://servernews.kz/1094652
21.07.2023 [23:10], Алексей Степин

Microsoft предлагает протестировать DPU MANA с Azure Boost

Крупные облачные провайдеры давно осознали пользу, которую могут принести DPU и активно применяют подобного рода решения. В частности, AWS давно использует платформу Nitro, Google разработала DPU при поддержке Intel, а Microsoft активно готовит к запуску собственную платформу под названием MANA.

Основой MANA является кастомный чип SoC, разработанный специально с учётом обеспечения высокой пропускной способности, стабильности подключения и низкой латентности. DPU на его основе обеспечивает пропускную способность до 200 Гбит/с, а также поддерживает подключение удалённого хранилища данных на скоростях до 10 Гбайт/с при производительности до 400 тыс. IOPS. Отметим, что ранее AMD заявила о появлении DPU Pensando в облаке Azure, а сама Microsoft в прошлом году поглотила разработчика DPU Fungible.

 Изображение: Microsoft

Изображение: Microsoft

MANA является частью услуги Azure Boost и берёт на себя управление всеми аспектами виртуализации, включая работу с сетью и данными, а также функции управления хост-системой. Перенос этих функций на отдельную платформу не просто улучшает производительность и масштабируемость, но и обеспечивает дополнительный слой безопасности. MANA уже задействованы в инфраструктуре Azure и подтвердили высочайшую скорость при работе с внешними хранилищами данных для инстансов Ebsv5, а также отличную пропускную способность и низкую латентность сетевого канала для всех инстансов семейств Ev5 и Dv5.

MANA поддерживает Windows и Linux, а для более тонкой работы с аппаратной частью ускорителя можно задействовать DPDK. В части информационной безопасности следует отметить наличие криптоядра, соответствующего стандартам FIPS 140. В настоящее время сервис Azure Boost доступен в качестве превью. Компания приглашает к сотрудничеству партнёров и клиентов с высокими запросами к характеристикам сетевого канала и хранилищ.

Постоянный URL: http://servernews.kz/1090334
22.06.2023 [17:04], Алексей Степин

NVIDIA AX800: ИИ-сервер для 5G в форм-факторе PCIe-карты

В форм-факторе плат расширения PCIe существует множество устройств, включая, к примеру, маршрутизаторы. Но NVIDIA AX800 выводит это понятие на новый уровень — здесь плата расширения являет собой полноценный высокопроизводительный сервер. Плата включает DPU BlueField-3, который располагает 16 ядрами Cortex Arm-A78, дополненных 32 Гбайт RAM, а также ускоритель A100 (80 Гбайт). Новинкая является наследницей карты A100X, но с гораздо более производительным DPU.

 Источник изображений здесь и далее: NVIDIA

Источник изображений здесь и далее: NVIDIA

На борту также имеется eMMC объёмом 40 Гбайт, два 200GbEпорта (QSFP56). Плата выполнена в форм-факторе FHFL, имеет пассивное охлаждение и предельный теплопакет 350 Вт. Дополнительно предусмотрен порт 1GbE для удалённого управления для BMC ASPEED AST2600, так что речь действительно идёт о полноценном сервере. На PCB имеются гребёнки разъёмов NVLink — данное решение может работать не в одиночку, а в составе высокоплотного многопроцессорного сервера.

NVIDIA AX800 позволяет построить полностью ускоряемый стек 5G vRAN

NVIDIA позиционирует новинку как решение для систем 5G vRAN, но также она может найти место и в высокоплотных системах периферийных системах для ИИ-задач. В качестве программной платформы предлагается Aerial 5G vRAN. Плата ускоряет обработку L1/L2-трафика 5G и способна предложить до 36,56 и 4,794 Гбит/с нисходящей и восходящей пропускной способности (4T4R). Платформа поддерживает масштабирование от 2T2R до 64T64R (massive MIMO). А поддержка MIG позволяет гибко перераспределять нагрузки ИИ и 5G.

Постоянный URL: http://servernews.kz/1088789
18.06.2023 [21:42], Алексей Степин

Kalray подготовила DPU Coolidge 2 третьего поколения

Компания Kalray, один из разработчиков сетевых сопроцессоров (DPU), сообщила о реализации в кремнии чипов Coolidge 2, которые относятся к третьему поколению фирменной архитектуры MPPA. Предыдущие решения компании успели прописаться в СХД Viking и Wistron, а также в облаке Scaleway. Компания позиционирует Coolidge 2 в качестве решения для всевозможных ИИ-систем, которые переживают сейчас бурный расцвет.

 Архитектура Kalray Coolidge. Источник здесь и далее: Kalray

Архитектура Kalray Coolidge. Источник здесь и далее: Kalray

Впрочем, данных о третьем поколении MPPA немного. В новостях компания сообщает лишь о существенной оптимизации всех компонентов чипа и заявляет, что такая оптимизация позволила ускорить процессор практически на порядок. Первые опытные партии Coolidge 2 будут доступны уже этим летом. Это важное событие для европейского рынка HPC и ИИ-вычислений, поскольку Kalray — единственный достаточно крупный игрок в этом регионе, предлагающий собственное энергоэффективное, но при этом производительное DPU-решение. В настоящее время уже начаты опытные работы по созданию чипа MPPA четвёртого поколения.

 Структура мультипроцессорных ядер в Coolidge

Структура мультипроцессорных ядер в Coolidge

Дела у Kalray идут неплохо, особенно на фоне некоторой депрессивности IT-рынка в целом. В 2022 году компания приобрела активы Arcapix Holdings в области технологий хранения данных, что позволило ей создать законченный пул DPU-решений. За прошедший год количество сотрудников Kalray возросло на 74 %; ещё на 20 % оно должно вырасти в этом году.

Постоянный URL: http://servernews.kz/1088577
29.05.2023 [07:30], Сергей Карасёв

NVIDIA представила модульную архитектуру MGX для создания ИИ-систем на базе CPU, GPU и DPU

Компания NVIDIA на выставке Computex 2023 представила архитектуру MGX, которая открывает перед разработчиками серверного оборудования новые возможности для построения HPC-систем, платформ для ИИ и метавселенных. Утверждается, что MGX закладывает основу для быстрого создания более 100 вариантов серверов при относительно небольших затратах.

Концепция MGX предусматривает, что разработчики на первом этапе проектирования выбирают базовую системную архитектуру для своего шасси. Далее добавляются CPU, GPU и DPU в той или иной конфигурации для решения определённых задач.

Таким образом, на базе MGX может быть построена серверная система для уникальных рабочих нагрузок в области наук о данных, больших языковых моделей (LLM), периферийных вычислений, обработки графики и видеоматериалов и пр. Говорится также, что благодаря гибридной конфигурации на одной машине могут выполняться задачи разных типов, например, и обучение ИИ-моделей, и поддержание работы ИИ-сервисов.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Одними из первых системы на архитектуре MGX выведут на рынок компании Supermicro и QCT. Первая предложит решение ARS-221GL-NR с NVIDIA Grace, а вторая — сервер S74G-2U на базе NVIDIA GH200 Grace Hopper. Эти платформы дебютируют в августе нынешнего года. Позднее появятся MGX-платформы ASRock Rack, ASUS, Gigabyte, Pegatron и других производителей.

Архитектура MGX совместима с нынешним и будущим оборудованием NVIDIA, включая H100, L40, L4, Grace, GH200 Grace Hopper, BlueField-3 DPU и ConnectX-7. Поддерживаются различные форм-факторы систем: 1U, 2U и 4U. Возможно применение воздушного и жидкостного охлаждения.

Постоянный URL: http://servernews.kz/1087473
11.05.2023 [01:38], Владимир Мироненко

ИИ-суперкомпьютер для богатых: теперь в облаке Google Cloud можно получить сразу 26 тыс. ускорителей NVIDIA H100

Компания Google Cloud представила на конференции для разработчиков Google I/O инстансы Google Compute Engine A3, специально созданные для обеспечения максимальной производительности рабочих нагрузок машинного обучения. Новинки используют современные CPU, быструю память, ускорители NVIDIA и IPU Intel.

Виртуальная машина A3 включает:

  • 8 ускорителей NVIDIA H100 Hopper.
  • Коммутаторы NVIDIA NVSwitch с NVLink 4.0, обеспечивающие пропускную способность 3,6 Тбайт/с между ускорителями.
  • Процессоры Intel Xeon Sapphire Rapids.
  • 2 Тбайт оперативной памяти DDR5-4800.
  • 200-Гбит/с IPU, специализированный стек межсерверной связи GPU↔GPU и оптимизации NCCL.

Помимо того, что новые инстансы используют DPU/IPU Mount Evans, разработанные совместно с Intel, кластеры A3 также задействуют фирменные оптические коммутаторы Google Jupiter с возможность переконфигурации топологии по требованию, которые компания уже использует в кластерах с собственными ИИ-ускорителями. Всё это позволяет объединять до 26 тыс. ускорителей H100 в облачный ИИ-суперкомпьютер производительность до 26 Эфлопс (TF32).

 Изображение: Google

Изображение: Google

Ключевое отличие от других облачных предложений именно в интерконнекте и масштабируемости. Например, ИИ-суперкомпьютеры в Microsoft Azure объединяют тысячи и даже десятки тысяч ускорителей с использованием InfiniBand и DPU NVIDIA. В Oracle Cloud Infrastructure (OCI), где ранее был поставлен рекорд по объединению 32 768 ускорителей, используется тот же подход. Наконец, в AWS можно объединить до 20 тыс. ускорителей благодаря EFA.

Google предложит клиентам несколько вариантов использования A3: клиенты смогут запускать ВМ самостоятельно или в качестве управляемого сервиса, где Google возьмёт на себя большую часть работы. Возможно использование A3 в Google Kubernetes Engine (GKE) или в Vertex AI. В настоящее время виртуальные машины A3 доступны только после регистрации в списке ожидания превью. Сейчас компания занята развёртыванием множественных кластеров A3 в наиболее крупных облачных регионах.

Постоянный URL: http://servernews.kz/1086514
03.05.2023 [18:13], Сергей Карасёв

В не слишком удачном квартальном отчёте AMD отметила, что в облаке Microsoft Azure появились DPU Pensando, а серверные решения помогут ей заработать во втором полугодии

Компания AMD, по сообщению ресурса The Register, нашла крупного заказчика для DPU (Data Processing Unit) семейства Pensando: им стало облако Microsoft Azure. Доступ к этим специализированным ускорителям теперь предоставляется клиентам по модели «как услуга». Это тем более любопытно, что Microsoft недавно поглотила разработчика DPU Fungible.

О поставках DPU Pensando в интересах Microsoft сообщила президент и исполнительный директор AMD Лиза Су (Lisa Su) в ходе оглашения финансовых показателей за I квартал 2023 года. Ускорители применяются в составе недавно анонсированной службы Microsoft Accelerated Connections. Гиперскейлеры зачастую используют DPU, но делают это для поддержания работы собственных сервисов. В случае Azure доступ к таким ускорителям предоставляется сторонним заказчикам.

 Источник изображения: AMD

Источник изображения: AMD

В финансовом отчёте AMD говорится, что выручка по итогам I четверти 2023-го составила $5,35 млрд. Это примерно на 9 % меньше результата годичной давности, равнявшегося $5,89 млрд. Компания понесла чистые убытки в размере $139 млн, или 9 центов в пересчёте на одну ценную бумагу. Для сравнения: в I квартале 2022 года AMD продемонстрировала чистую прибыль на уровне $786 млн, или 56 центов на акцию.

 Источник изображения: AMD

Источник изображения: AMD

Выручка подразделения ЦОД за год практически не изменилась: она составила $1,30 млрд против $1,29 млрд в I четверти 2022-го. При этом операционная прибыль рухнула в годовом исчислении на 65 % — с $427 млн до $148 млн. По направлению встраиваемых систем квартальная выручка за год взлетела на 163 % — с $595 млн до $1,56 млрд. Операционная прибыль в этой группе поднялась на 188 %, достигнув $798 млн.

По словам госпожи Су, AMD ожидает, что спрос на серверы во втором квартале 2023 года «остается смешанным». При этом компания рассматривает в качестве потенциальных областей роста ЦОД-сегмент и рынок встраиваемых систем. Увеличению продаж должно способствовать бурное развитие технологий ИИ. Компания ожидает, что на рынке будут востребованы процессоры Genoa и Bergamo, а также ускорители MI300 и решения Xilinx.

Постоянный URL: http://servernews.kz/1086129
21.03.2023 [21:43], Сергей Карасёв

Облако Oracle взяло на вооружение DPU NVIDIA BlueField-3

Компания NVIDIA объявила о том, что облачная инфраструктура Oracle Cloud Infrastructure (OCI) начала внедрение DPU NVIDIA BlueField для высокопроизводительных вычислений. Это позволит снять нагрузку с CPU и повысить общую эффективность ЦОД. Кроме того, новинка нашла место в инфраструктуре Baidu, JD, Tencent, CoreWeave и Microsoft Azure.

Речь идёт о применении 400Gbe-модулей BlueField-3. Благодаря возможности обеспечить разгрузку, ускорение и изоляцию широкого спектра процессов в работе сети, СХД и решений по безопасности, DPU BlueField позволяют создать безопасную и ускоренную инфраструктуру для решения различных задач в любой среде — от облака и дата-центра до периферийных устройств. Именно эти DPU явяются одним из ключевых компонентов платформы NVIDIA DGX Cloud в OCI.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Благодаря BlueField-3, как отмечается, ресурсы CPU в дата-центрах могут быть перенаправлены на обработку бизнес-приложений. BlueField-3 трансформируют традиционные среды облачных вычислений в ускоренную, энергоэффективную и безопасную инфраструктуру для обработки ресурсоёмких рабочих нагрузок генеративного ИИ. Тесты показывают снижение энергопотребления до 24 % на серверах с DPU BlueField по сравнению с традиционными системами.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

«DPU NVIDIA BlueField-3 являются ключевым компонентом нашей стратегии по созданию современной устойчивой облачной инфраструктуры с высочайшей производительностью», — отметил Клэй Магуирк (Clay Magouyrk), исполнительный вице-президент Oracle Cloud Infrastructure. Программный фреймворк NVIDIA DOCA позволяет разработчикам создавать инфраструктуры нового поколения для дата-центров, обеспечивая высокопроизводительные, программно-определяемые облачные сервисы с ускорением на основе DPU и высоким уровнем безопасности по модели Zero Trust.

Постоянный URL: http://servernews.kz/1083718

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus