Материалы по тегу: gpu
09.10.2024 [12:44], Алексей Степин
AMD анонсировала ускоритель Radeon PRO V710 для облака Microsoft AzureПосле долгого затишья обновилась серия графических ускорителей AMD Radeon PRO — Advanced Micro Devices представила Radeon PRO V710, созданный специально по заказу Microsoft для размещения в облаке Azure. Новинка характеризуется немалым для своего класса объёмом видеопамяти — она несёт на борту целых 28 Гбайт, то есть, больше, чем у всех сегодняшних игровых GPU, включая GeForce RTX 4090 и Radeon RX 7900 XTX. При этом AMD Radeon PRO V710 не является вычислительным ускорителем в чистом виде, хотя и способен развивать 27,7 Тфлопс в режиме FP16 и 55,3 Топс в режиме INT8 на частоте 2 ГГц. В состав 5-нм новинки, состоящей из 28,1 млрд транзисторов, входят 3456 потоковых процессора, сгруппированных в 54 вычислительных блока RDNA 3. Реализована поддержка аппаратного ускорения трассировки лучей. Памяти, как уже отмечалось, новинка получила 28 Гбайт. Это GDDR6 ECC с 224-битной шиной, обеспечивающей пропускную способность 448 Гбайт/с. При этом 4 Гбайт этой памяти всегда используются для системных нужд, так что пользовательским задачам доступно лишь 24 Гбайт. Графический процессор располагает также 54 Мбайт быстрого кеша AMD Infinity Cache. Технически Radeon PRO V710 представляет собой полноразмерную плату расширения PCIe 4.0 x16 одинарной высоты с пассивным охлаждением. При теплопакете 158 Вт адаптер полностью полагается на систему охлаждения сервера. Поскольку это, по сути, заказное решение, приобрести отдельно данный ускоритель будет нельзя, а в условиях ЦОД проблем с охлаждением быть не должно, к тому же, частота GPU намеренно ограничена планкой 2 ГГц. Главной сферой применения Radeon PRO V710 станет его применение в облачных сценариях класса Desktop-as-a-Service и Workstation-as-a-Service, то есть для запуска виртуальных рабочих сред. Набортный кодировщик видео поддерживает сжатие в форматах AV1, HEVC H.265 и AVC H.264. Также озвучены сценарии облачного гейминга и применения ускорителя в инференс-системах. В последнем случае будет актуальна совместимость с AMD ROCm и наличие блоков ускорения перемножения матриц. Microsoft Azure уже анонсировала новые инстансы на основе нового ускорителя. Они поддерживают в качестве гостевых систем как Windows, так и Linux, в последнем случае обеспечена поддержка Azure Kubernetes Service. Количество виртуальных vCPU – от 4 до 28, объёмы пользовательской памяти начинаются с 16 Гбайт и достигают 160 Гбайт, а видеопамяти за счёт поддержки SR-IOV выделяется от 4 до 24 Гбайт. Минимальная ширина сетевого канала при этом составит 3,3 Гбит/с, а максимальная — 20 Гбит/с.
03.10.2024 [10:45], Сергей Карасёв
Intel не отказывается от планов по выпуску ускорителей Falcon ShoresКорпорация Intel, по сообщению ресурса HPC Wire, не намерена сворачивать проект по разработке ускорителей Falcon Shores, несмотря на реструктуризацию, направленную на укрепление позиций в сегменте продуктов с архитектурой x86. Изделия Falcon Shores, как и планировалось ранее, появятся на рынке в 2025 году. Предполагалось, что решения Falcon Shores дебютируют после выхода ускорителей серии Rialto Bridge, которые должны были прийти на смену Ponte Vecchio. Однако в марте 2023 года Intel отменила выпуск Rialto Bridge, а недавно появилась информация, что будущем Falcon Shores также туманно. Теперь в Intel развеяли сомнения. Представители корпорации заявили, что изделия Falcon Shores выйдут в виде GPU-ускорителей. Ранее Intel отказалась от применения в этих решениях гибридной конфигурации CPU + GPU. Вместе с тем говорится, что в состав новых карт войдут элементы ИИ-ускорителей Gaudi. Утверждается, что такая конструкция обеспечит Falcon Shores преимущества перед конкурирующими продуктами, использующими только GPU-блоки. «Falcon Shores — это действительно ускоритель на основе GPU, в составе которого используются технологии Gaudi», — сообщила пресс-секретарь Intel. По имеющейся информации, ускорители получат модульный дизайн, поддержку современных ИИ-фреймворков, масштабируемые интерфейсы ввода-вывода и память HBM3e. По слухам, выпуск новинок будет организован на предприятии TSMC с применением 3-нм технологии. Intel по-прежнему нацеливает Falcon Shores на рынок высокопроизводительных вычислений. Вместе с тем Intel, находящаяся в сложном финансовом положении, намерена активно развивать экосистему x86. Недавно корпорация объявила о намерении оптимизировать процессоры Xeon Granite Rapids для работы с ИИ-ускорителями NVIDIA.
17.09.2024 [20:59], Владимир Мироненко
Объявленный Intel план реструктуризации ставит под сомнение будущее ускорителей Falcon ShoresВ начале недели Intel разослала сотрудникам письмо с описанием плана выхода из кризиса, который ставит под сомнение будущее ускорителей Falcon Shores, ранее намеченных к выпуску в 2025 году, пишет ресурс HPCwire. Согласно плану, компания сосредоточится на выпуске продуктов на архитектуре x86, что может отразиться на производстве Falcon Shores, поскольку глава Intel Пэт Гелсингер (Pat Gelsinger) ранее заявил, что не будет конкурировать с NVIDIA и AMD в области обучения ИИ. Следующий этап реструктуризации также включает сокращение расходов ещё на $10 млрд и увольнение 15 тыс. сотрудников, из которых 7,5 тыс. уже выразили согласие сделать это на добровольной основе. «Мы должны сосредоточиться на нашей сильной франшизе x86, поскольку мы реализуем нашу стратегию ИИ, одновременно оптимизируя наш портфель продуктов для обслуживания клиентов и партнёров Intel», — подчеркнул в письме Гелсингер. В прошлом месяце на аналитической конференции Deutsche Bank он заявил, что компания покидает рынок обучения ИИ с тем, чтобы сосредоточиться на инференсе, используя сильную сторону чипов x86. Желание Intel сократить расходы и отказаться от неактуальных продуктов может повлиять на реализацию проекта по выпуску Falcon Shores, ускорителя для ЦОД, выход которого неоднократно откладывался. Он является преемником ускорителя Intel Ponte Vecchio (Data Center GPU Max 1550) на базе архитектуры Xe, массовый выпуск которого был фактически прекращён после ввода в эксплуатацию суперкомпьютера Aurora. Ранее Intel отказалась от ускорителей серии Rialto Bridge, а в Falcon Shores было решено отказаться от гибридного подхода, к которому к этому моменту пришли и AMD, и NVIDIA. Впрочем, от ИИ-ускорителей Gaudi компания не отрекается. Intel не ответила на запрос о комментарии о будущем Falcon Shores. И основные разработчики, занимавшиеся этим проектом — Джейсон Маквей (Jason McVeigh) и Раджа Кодури (Raja Koduri) — либо ушли, либо были назначены на другие должности. Гелсингер признал, что Intel сильно отстаёт от своих конкурентов в области GPU и чипов для обучения ИИ, включая NVIDIA, AWS, Google Cloud и AMD. Впрочем, для AWS Intel будет производить в США кастомные процессоры Xeon 6 и ИИ-ускорители (вероятно, это наследники Trainium/Inferentia). Также компания отметила отставание на рынке серверов для ЦОД, где сейчас большим спросом пользуются серверы с ИИ-ускорителями. «Где мы ещё не полностью вывели бизнес на хорошие позиции, так это в области CPU для ЦОД», — сообщил в этом месяце финансовый директор Intel Дэйв Цинснер (Dave Zinsner) на конференции Citi Global Technology Conference. Процессоры Xeon Emerald Rapids не оправдали ожиданий компании. Обычный цикл обновления гиперскейлеров в этот раз значительно растянулся, поскольку они активно вкладываются в развитие ИИ-инфраструктуры, попутно увеличивая срок службы традиционных серверов. Следующее поколение Granite Rapids (Xeon 6) должно выйти в начале следующего года. А Diamond Rapids, которые будут выпускаться по техпроцессу Intel 18A (1,8 нм), как ожидается, помогут вывести Intel на лидирующие позиции. Выход на производство по техпроцессу 18A с использованием новой структуры транзисторов RibbonFET и технологии PowerVia является для Intel одной из приоритетных задач. В частности, это техпроцес будет использоваться для выпуска серверных процессоров Clearwater Forest. Пока Intel под натиском AMD активно теряет долю рынка серверных CPU.
03.07.2024 [23:49], Сергей Карасёв
Panmnesia расширит память GPU с помощью DRAM или даже SSDЮжнокорейский стартап Panmnesia сообщил о разработке специализированного CXL-решения, которое позволяет расширять встроенную память ускорителей на базе GPU путём подключения внешних блоков DRAM или даже SSD. Отмечается, что современным приложениям ИИ и НРС требуется значительный объём быстрой памяти, но возможности ускорителей в этом плане ограничены. Сложность расширения памяти актуальных ускорителей заключается в том, что в таких изделиях отсутствуют логическая структура CXL и компоненты, поддерживающие DRAM и/или SSD. Кроме того, подсистемы кеша и памяти GPU не распознают никаких расширений. В лучшем случае предлагается механизм унифицированной виртуальной памяти (UVM) для совместного доступа к содержимому памяти и CPU, и GPU. Однако этот механизм довольно медленный. Panmnesia обошла существующие ограничения путём создания собственного root-комплекса, совместимого со стандартом CXL 3.1 и предоставляющего несколько root-портов. Он и обеспечивает поддержку внешней памяти через PCIe. При этом задействован особый декодер HDM (Host-managed Device Memory), отвечающий за работу с адресными пространствами. Это сложное решение в каком-то смысле «обманывает» подсистему памяти ускорителя, заставляя ее рассматривать внешнюю PCIe-память как доступную напрямую. Прототип, основанный на кастомизированном GPU, в ходе тестов продемонстрировало задержки менее 100 нс при передаче данных в обоих направлениях. При этом решение Panmnesia предоставляет более гранулярный доступ к памяти в сравнении с UVM. Быстродействие CXL-системы Panmnesia оказалось в 3,22 раза выше в пересчёте на IPC по сравнению с UVM.
27.05.2024 [22:20], Алексей Степин
Тридцать на одного: Liqid UltraStack 30 позволяет подключить десятки GPU к одному серверуКомпания Liqid сотрудничает с Dell довольно давно — ещё в прошлом году она смогла добиться размещения 16 ускорителей в своей платформе UltraStack L40S. Но на этом компания не остановилась и представила новую композитную платформу UltraStack 30, в которой смогла довести число одновременно доступных хост-системе ускорителей до 30. Для подключения, конфигурации и управления ресурсами ускорителей Liqid использует комбинацию фирменного программного обеспечения Matrix CDI и интерконнекта Liqid Fabric. В основе последнего лежит PCI Express. Это позволяет динамически конфигурировать аппаратную инфраструктуру с учётом конкретных задач с её возвратом в общий пул ресурсов по завершению работы. Сами «капсулы» с ресурсами подключены к единственному хост-серверу, что упрощает задачу масштабирования, минимизирует потери производительности, повышает энергоэффективность и позволяет добиться наиболее плотной упаковки вычислительных ресурсов, нежели это возможно в классическом варианте с раздельными серверами. А благодаря гибкости конфигурирования буквально «на лету» исключается простой весьма дорогостоящих аппаратных ресурсов. В случае UltraStack 30 основой по умолчанию является сервер серии Dell PowerEdge R760 с двумя Xeon Gold 6430 и 1 Тбайт оперативной памяти, однако доступен также вариант на базе Dell R7625, оснащённый процессорами AMD EPYC 9354. Опционально можно укомплектовать систему NVMe-хранилищем объёмом 30 Тбайт, в качестве сетевых опций доступны либо пара адаптеров NVIDIA ConnectX-7, либо один DPU NVIDIA Bluefield-3. За общение с ускорительными модулями отвечает 48-портовой коммутатор PCI Express 4.0 вкупе с фирменными хост-адаптерами Liqid. Технология ioDirect позволяет ускорителям общаться друг с другом и хранилищем данных напрямую, без посредничества CPU. В трёх модулях расширения установлено по 10 ускорителей NVIDIA L40S, каждый несет на борту 48 Гбайт памяти GDDR6. Такая конфигурация теоретически способна развить 7,3 Пфлопс на вычислениях FP16, вдвое больше на FP8, и почти 1,1 Пфлопс на тензорных ядрах в формате TF32. Платформа UltraStack 30 предназначена в первую очередь для быстрого развёртывания достаточно мощной ИИ-инфраструктуры там, где требуется тонкая подстройка и дообучение уже «натасканных» больших моделей. При этом стоит учитывать довольно солидное энергопотребление, составляющее более 11 кВт. Также в арсенале компании есть решения SmartStack на базе модульных систем Dell PowerEdge C-Series, позволяющие подключать к каждому из лезвийных модулей MX760c, MX750с и MX740c до 20 ускорителей. Модульные решения Liqid поддерживают также ускорители других производителей, включая достаточно экзотические, такие как Groq.
22.05.2024 [14:09], Сергей Карасёв
Dell представила ИИ-сервер PowerEdge XE9680L с ускорителями NVIDIA B200 и СЖОКомпания Dell анонсировала сервер PowerEdge XE9680L, предназначенный для наиболее требовательных больших языковых моделей (LLM) и крупномасштабных сред ИИ, где плотность размещения ускорителей на стойку имеет решающее значение. Новинка станет доступна во II половине 2024 года. Сервер выполнен в форм-факторе 4U. Он может комплектоваться восемью ускорителями NVIDIA HGX B200 (Blackwell). Задействована система прямого жидкостного охлаждения (DLC). Доступны 12 слотов PCIe 5.0 полной высоты и половинной длины для установки сетевых карт и иных адаптеров/контроллеров. «Сервер использует эффективное интеллектуальное охлаждение DLC как для CPU, так и для GPU. Эта революционная технология позволяет создать более плотную конфигурацию 4U, максимизируя вычислительную мощность при сохранении тепловой эффективности», — заявляет производитель. Отмечается, что PowerEdge XE9680L обеспечивает возможность масштабирования до 72 ускорителей Blackwell в расчёте на стойку 52U или до 64 ускорителей на стойку 48U. Прочие характеристики новинки будут обнародованы ближе к началу продаж. В ассортименте Dell уже есть 6U-сервер PowerEdge XE9680. Эта система использует процессоры Intel Xeon Sapphire Rapids. Она поддерживает установку восьми ускорителей NVIDIA H100/A100, а также AMD Instinct MI300X и Intel Gaudi3.
16.04.2024 [15:17], Сергей Карасёв
Akamai запустила облако с ускорителями NVIDIA RTX для обработки видеоCDN-провайдер Akamai Technologies объявил о запуске нового облачного сервиса, оптимизированного для задач по обработке видеоматериалов. Услуга ориентирована прежде всего на компании в сфере медиа и развлечений, которым необходимы ресурсы для быстрого и эффективного создания контента. В основу системы положены ускорители NVIDIA RTX 4000 поколения Ada. Согласно результатам тестирования Akamai, использование этих GPU позволяет повысить производительность при кодировании и транскодировании видео примерно в 25 раз по сравнению с CPU. Akamai отмечает, что в настоящее время облачные инфраструктуры на базе ускорителей NVIDIA ориентированы в первую очередь на большие языковые модели (LLM) и приложения ИИ, тогда как медиасегменту уделяется недостаточное внимание. Новое облако как раз и призвано удовлетворить потребности заказчиков, которые работают с мультимедийным контентом, включая потоковое видео. Утверждается, что ускорители NVIDIA RTX 4000 обеспечивают скорость и энергоэффективность, необходимые для решения сложных творческих и инженерных задач по созданию цифрового контента, 3D-моделированию, рендерингу и пр. Отмечается, что GPU-ускорители позволяют выполнять транскодирование видеоматериалов со скоростью, превышающей потребности сервисов реального времени: благодаря этому значительно улучшается качество потоковой передачи. Кроме того, может осуществляться одновременное кодирование и декодирование материалов. Новый облачный сервис также подходит для работы с приложениями виртуальной (VR) и дополненной (AR) реальности. Хотя Akamai оптимизировала платформу для медиарынка, она может применяться для анализа данных и научных вычислений, рендеринга графики, задач ИИ и машинного обучения, моделирования и других ресурсоёмких операций. При этом Akamai всё быстрее превращается в распределённого облачного провайдера, а не просто оператора CDN.
10.04.2024 [14:14], Сергей Карасёв
Intel представила видеокарты Arc для встраиваемых решенийКорпорация Intel анонсировала видеокарты серии Arc Aхx0E, предназначенные для применения в различных встраиваемых устройствах и системах небольшого форм-фактора. В общей сложности дебютировали шесть моделей: Arc A310E, Arc A350E, Arc A370E, Arc A380E, Arc A580E и Arc A750E. В основном это встраиваемые версии видеокарт, которые уже доступны на рынке. При этом изделия подверглись некоторым доработкам с учётом сферы их применения. Ускорители насчитывают от 6 до 28 ядер Xe. Количество исполнительных блоков варьируется от 96 до 448. Объём памяти GDDR6 у младших вариантов составляет 4 Гбайт, а пропускная способность памяти у версий начального уровня составляет 112 Гбайт/с. Для A380E указаны 6 Гбайт и 186 Гбайт/с. А вот для A580E и A750E параметры памяти не указаны. Производительность INT8 варьируется от 49 до 235 TOPS. Быстродействие на операциях FP16 составляет от 24,6 до 117,6 Тфлопс, на операциях FP32 — от 3,1 до 14,7 Тфлопс. Говорится о совместимости с Windows 10/11, Windows 10 LTSC и Linux. В зависимости от модификации видеокарты Arc Aхx0E могут использоваться для решения таких задач, как распознавание лиц и речи, приложения ИИ, обработка медиаданных и пр. Поставки начнутся в текущем месяце. Решение будут доступны для заказа в течение пяти лет.
05.04.2024 [20:53], Владимир Мироненко
В реестр Минпромторга включили первый отечественный ИИ-сервер с поддержкой нескольких ускорителейВ реестре радиоэлектронной продукции Минпромторга появился первый отечественный сервер для работы ИИ с поддержкой подключения нескольких ускорителей — Delta Sprut от ООО «Дельта компьютерс» (Delta Computers), позволяющий подключить до 16 ускорителей, пишет ресурс «Ведомости». С его помощью можно выполнять «тяжёлые» технические задачи, включая связанные с обучением генеративных ИИ-моделей, распознаванием и синтезом речи, работой цифровых ассистентов или распознаванием лиц в видеопотоке. Delta Sprut включили в реестр 22 февраля 2024 года. До этого в перечне были только серверы с возможностью подключения одного ускорителя для выполнения более простых задач, таких как рендеринг фото- и видеоизображений. Следует отметить, что несмотря на включение в отечественный реестр, серверы Delta используют иностранные ускорители — в стране аналогов пока нет. В России разработкой серверов с возможностью подключения ускорителей также занимаются компании «Тринити» и Yadro, но это более простые и маломощные устройства, сообщил лидер по ИИ и управлению данными ФКУ «Гостех» Михаил Федоров. По его мнению, в числе потребителей модуля Delta Computers могут быть госструктуры, поскольку он технически аттестован для использования федеральными и региональными органами власти. Также его можно использовать на «ГосТехе» при построении информсистем. По словам представителя «ГосТеха», платформа пока не использует серверы с поддержкой ускорителей. В свою очередь, директор НОЦФНС России и МГТУ им. Н. Э. Баумана, эксперт рынка НТИ TechNet Алексей Бородулин отметил, что для дальнейшего развития «ГосТеха» потребуется большое количество ускорителей для решения высоконагруженных задач и распараллеливания вычислительных процессов. С 1 января 2024 г. на платформу «ГосТеха» перевели не только федеральные, но и региональные ведомства, в связи с чем назрела необходимость увеличения вычислительных мощностей.
19.03.2024 [22:31], Сергей Карасёв
ASRock Rack представила серверы с поддержкой ускорителей NVIDIA Blackwell и HopperКомпания ASRock Rack на конференции GTC 2024 анонсировала свои самые мощные серверы для обучения ИИ-моделей — системы 6U8X-EGS2 NVIDIA H100 и 6U8X-EGS2 NVIDIA H200. Кроме того, дебютировали решения с поддержкой новейших ускорителей NVIDIA Blackwell. Серверы 6U8X-EGS2 NVIDIA H100 и 6U8X-EGS2 NVIDIA H200 выполнены в форм-факторе 6U. Они рассчитаны на установку восьми ускорителей NVIDIA H100 и H200 соответственно. Возможно использование двух процессоров Intel Xeon Sapphire Rapids или Xeon Emerald Rapids с показателем TDP до 350 Вт. Доступны 32 слота для модулей оперативной памяти DDR5-5600, 12 отсеков для SFF-накопителей NVMe с интерфейсом PCIe 5.0 x4 (четыре также имеют поддержку SATA), два коннектора М.2 2280/22110 (PCIe 3.0 x4), восемь слотов HHHL PCIe5.0 x16 и пять слотов FHHL PCIe5.0 x16. Питание обеспечивают восемь блоков мощностью 3000 Вт с сертификатом 80 PLUS Platinum/Titanium. ASRock Rack также представила двухсокетный barebone-сервер 4UMGX с поддержкой восьми ускорителей NVIDIA H100 NVL или H200 в форм-факторе 4U. Система может комплектоваться шестью DPU NVIDIA BlueField-3 или шестью сетевыми адаптерами NVIDIA ConnectX-7. Модель 4UMGX также поддерживает ускорители NVIDIA Blackwell. В основу сервера положена модульная архитектура NVIDIA MGX, предназначенная для создания ИИ-систем на базе CPU, GPU и DPU. Кроме того, дебютировали двухсокетные 4U серверы 4U8G-EGS2, 4U10G-EGS2, 4U8G-GENOA2 и 4U10G-GENOA2. Первые два рассчитаны на чипы Intel Xeon Sapphire Rapids или Xeon Emerald Rapids, два других — на процессоры AMD EPYC 9004 (Genoa). Они могут оснащаться ускорителями NVIDIA H100 NVL и H200 NVL, а в перспективе — NVIDIA Blackwell. Устройства 4U8G поддерживают восемь двухслотовых карт FHFL с интерфейсом PCIe 5.0 x16, решения 4U10G — десять. Intel-системы снабжены 32 слотами для модулей памяти DDR5, AMD-модели — 24-мя. ASRock Rack также готовит суперускоритель GB200 NVL72, серверы с поддержкой конфигурации NVIDIA HGX B200 8-GPU и другие решения на основе аппаратных компонентов NVIDIA. |
|