Материалы по тегу: ускоритель
11.10.2024 [19:55], Алексей Степин
256 Гбайт HBM3e — это хорошо, а 288 Гбайт — ещё лучше: AMD анонсировала ускорители Instinct MI325X и MI355XВчера компания AMD анонсировала серверные процессоры EPYC 9005 (Turin) и ускорители Instinct MI325X. Если верить AMD, новинки устанавливают новые эталоны производительности в своих сферах применения. О процессорах речь пойдёт в отдельном материале, а сейчас попробуем разобраться с Instinct MI325X — чем же именно он отличается от представленного ранее MI300X, архитектура которого в своё время была разобрана достаточно подробно. Сама AMD позиционирует MI325X в качестве наследника MI300X, способного конкурировать с NVIDIA H200 и, возможно, даже с B200. В сравнении с тем, что было опубликовано ранее, характеристики новинки несколько изменились. В частности, новый ускоритель получил 256 Гбайт памяти HBM3e, а не 288 Гбайт, как было обещано ранее. На приведённых слайдах с изображением кристалла MI325X отчетливо видно, что количество сборок HBM по-прежнему равно восьми, однако вместо ожидаемых сборок ёмкостью 36 Гбайт использованы менее ёмкие «стопки» на 32 Гбайт. Это не позволяет говорить о 50 % приросте по объёму, только о 33 %. Но и это немало! Пропускная способность подросла с 5,3 до 6 Тбайт/с. Последнее может быть объяснено повышением тактовой частоты, но из-за тесной интеграции HBM3e с остальными частями ускорителя должна была вырасти и производительность. Тем не менее, AMD приводит же цифры, что и для MI300X —1,3 Пфлопс в режиме FP16 и 2,6 Пфлопс в режиме FP8. По сути, улучшены только характеристики подсистемы памяти. Архитектурно MI325X полностью подобен предшественнику, за исключением блока HBM. Он по-прежнему базируется на CDNA 3, имеет такое же количество транзисторов (153 млрд) и производится с использованием тех же техпроцессов, 5 нм для блоков XCD и 6 нм для IOD. Но теплопакет превышает 750 Вт, в то время как у MI300X данный параметр не достигал столь высокого значения. Ускорители подобного класса невозможно представить вне программной экосистемы. В настоящий момент AMD приводит данные о превосходстве MI325X над NVIDIA H200, варьирующемся в районе 20-40 % (в зависимости от нагрузки). Конечно, отчасти это заслуга памяти, но основной прирост заключается в оптимизации программной среды ROCm. По словам AMD, в задачах обучения и инференса производительность в версии 6.2 была увеличена более чем вдвое. Для сравнения, в первых тестах MI300X в MLPerf Inference 4.1 отстал от NVIDIA H200 примерно на 50 %. Однако для полноты картины следует дождаться результатов тестов, проведённых сторонними источниками. Кроме того, H200 уже не самый совершенный ускоритель NVIDIA — в следующем году MI325X предстоит столкнуться с B200 на базе архитектуры Blackwell. Ускорители Instinct MI325X будут доступны в I квартале 2025 года, но уже сейчас ясно, что усложнить жизнь своему главному конкуренту AMD в состоянии: так, вся обработка Llama 405B, используемой Meta✴, легла на плечи именно на MI300X. Активно используются решения AMD и в ЦОД Microsoft Azure. Что касается следующего поколения ускорителей AMD Instinct MI355X, то оно намечено на II половину 2025 года. Оно получит обновлённую архитектуру CDNA 4, о которой пока нет никаких сведений, кроме упоминания о поддержке режимов FP6 и FP4. Вычислительные тайлы будут переведены на 3-нм техпроцесс, а их количество, как ожидается, возрастёт с 8 до 10. Тем не менее, роста тепловыделения избежать не удастся: заявлен теплопакет до 1000 Вт. В Instinict MI355X получит дальнейшее развитие и подсистема памяти. Объём набортной HBM3e всё-таки достигнет 288 Гбайт, а пропускная способность вырастет с 6 до 8 Тбайт/с. Для связки из восьми MI355X AMD заявляет производительность в 18,5 Пфлопс в режиме FP16, что позволяет говорить о 2,31 Пфлопс для единственного ускорителя — то есть о примерно 80 % прироста в сравнении с MI325X. Делать какие-либо далеко идущие выводы о решениях на базе CDNA 4 рано: вероятнее всего, даже лаборатории AMD ещё не располагают финальной версией MI355X, а кроме того, как уже понятно, огромную роль играет постоянно изменяющаяся и совершенствуемая программная среда, которая ко II половине 2025 года может претерпеть существенные изменения. А вот гибридным решениям AMD планирует положить конец: преемника для Instinct MI300A, сочетающего в себе архитектуры CDNA 3 и Zen 4 не запланировано. Похоже, рынок для таких решений оказался слишком мал.
11.10.2024 [00:35], Владимир Мироненко
AMD представила серверные процессоры EPYC 9005 Turin и ускорители Instinct MI325XКомпания AMD представила ряд новых решений, включая серверные процессоры серии EPYC 9005 (Turin) и ускорители Instinct MI325X, которые, по словам компании, устанавливают новый стандарт производительности для ЦОД. Процессоры AMD EPYC 5-го поколения под кодовым названием Turin производятся с использованием техпроцесса 3 нм и 4 нм TSMC. Они предлагают тактовую частоту до 5,0 ГГц и от 8 до 192 ядер. AMD сообщила, что новая серия обеспечивает прирост показателя IPC на 17 % по сравнению с EPYC Genoa для корпоративных и облачных рабочих нагрузок и до 37 % в ИИ- и HPC-задачах по сравнению с Zen 4. Серия AMD EPYC 9005 включает 64-ядерный AMD EPYC 9575F, специально разработанный для ИИ-платформ на базе ускорителей, которым требуются максимальные возможности CPU. Турбочастота может достигать 5 ГГц, тогда как решение конкурента ограничено 3,8 ГГц — он до 28 % быстрее обрабатывает и передаёт данные ускорителям, что важно для требовательных рабочих нагрузок ИИ. В серии AMD EPYC 9005 доступны две версии чипов: 128-ядерная версия с классическими ядрами Zen5 и 192-ядерная версия с Zen5c. Оба варианта EPYC 9005 используют сокет SP5 и совместимы с некоторыми существующими платформами для Genoa (Zen4). Новинки поддерживают 12-канальную память DDR5-6400, а также предлагают полноценные обработку инструкций AVX-512 (целиком 512 бит за раз). Как сообщает компания, флагманский процессор серии EPYC 9965 имеет 192 ядра Zen5c и тактовую частоту до 3,7 ГГц. Серверы на базе процессоров AMD EPYC 9965 обеспечивают по сравнению с серверами на базе процессоров Intel Xeon Platinum 8592+ (Emerald Rapids):
Также сообщается, что в сравнении с конкурентом 192-ядерный процессор EPYC 9965 обеспечивает до 3,7 раза большую производительность на end-to-end рабочих нагрузках ИИ, таких как TPCx-AI, которые имеют решающее значение для эффективного подхода к генеративному ИИ. Что касается AMD Instinct MI325X, то новый ускоритель, построенный на архитектуре AMD CDNA 3, имеет 256 Гбайт памяти HBM3e с пропускной способностью 6,0 Тбайт/с, что соответственно в 1,8 и 1,3 раза больше, чем у NVIDIA H200. Ускоритель обеспечивает 2,6 Пфлопс производительности в режиме FP8, 1,3 Пфлопс производительности в режиме FP16. Как утверждает AMD, по сравнению с H200 новый ускоритель в 1,3 раза быстрее в задачах инференса ИИ-модели Mistral 7B (FP16), в 1,2 раза — Llama 3.1 70B (FP8), в 1,4 раза — Mixtral 8x7B (FP16). Ускорители AMD Instinct MI325X будут доступны с I квартала 2025 года. AMD также анонсировала следующее поколение ускорителей серии AMD Instinct MI350 на основе архитектуры AMD CDNA 4, разработанные для обеспечения 35-кратного улучшения производительности инференса по сравнению с ускорителями на базе AMD CDNA 3. Серия AMD Instinct MI350 получит до 288 Гбайт памяти HBM3e на ускоритель и поддержку форматов FP6/FP4. Новинка будет доступна во II половине 2025 года.
09.10.2024 [09:54], Сергей Карасёв
Фото дня: ИИ-система с NVIDIA GB200 и огромным радиатором для облака Microsoft AzureКорпорация Microsoft опубликовала в социальной сети Х фото новой ИИ-системы на базе ускорителей NVIDIA GB200 для облачной платформы Azure. Вычислительная стойка запечатлена рядом с блоком распределения охлаждающей жидкости (CDU), который является частью СЖО. Как отмечает ресурс ServeTheHome, вычислительная стойка содержит восемь узлов на основе GB200 с архитектурой Blackwell, а также ряд других компонентов. Точная конфигурация системы не раскрывается. На фотографии видно, что CDU-блок, расположенный по правую сторону от вычислительной стойки, имеет вдвое большую ширину. Он содержит крупноразмерный теплообменник жидкость — воздух, по сути, представляющий собой аналог автомобильного радиатора. Можно видеть насосы, элементы подсистемы питания, а также средства мониторинга. Наблюдатели отмечают, что обычно теплообменники шириной в две стойки предназначены для нескольких вычислительных стоек. Поэтому не исключено, что запечатленные на снимке изделия являются частью более крупной системы, где показанный CDU-блок будет отвечать за охлаждение сразу нескольких вычислительных стоек с ускорителями NVIDIA GB200. Напомним, ранее у Microsoft и NVIDIA возникли разногласия по поводу использования решений B200. NVIDIA настаивает на том, чтобы клиенты приобретали эти изделия в составе полноценных серверных стоек, тогда как Microsoft хочет использовать вариант стоек OCP с целью унификации инфраструктуры своих многочисленных дата-центров. Недавно также стало известно, что NVIDIA отказалась от выпуска двухстоечных суперускорителей GB200 NVL36×2 в пользу одностоечных вариантов NVL72 и NVL36. Причём Microsoft отдала предпочтение именно NVL72: корпорация начнёт получать эти системы в декабре.
09.10.2024 [09:49], Руслан Авдеев
Foxconn и NVIDIA построят крупнейший в мире завод по выпуску суперчипов GB200 в МексикеКомпания Foxconn построит в Мексике крупнейший в мире завод по упаковке суперчипов GB200 компании NVIDIA — ключевого продукта нового семейства Blackwell. По данным Reuters, Foxconn стал одним из главных выгодоприобретателей от бума ИИ, поскольку компания уже собирает серверы для систем искусственного интеллекта. По словам представителя Foxconn, речь действительно идёт о крупнейшем заводе по упаковке GB200 на планете. В мексиканском правительстве сообщили, что завод построят в городе Гвадалахара. В августе NVIDIA сообщала о начале поставок образцов чипов Blackwell партнёрам и клиентам, в период до января она рассчитывает уже заработать на новейших полупроводниках несколько миллиардов долларов. В Foxconn уверены, что сотрудничество компании с NVIDIA имеет важнейшее значение, поскольку спрос на новую платформу «ужасно огромный». Foxconn уже активно развивает производство в Мексике и инвестировала более $500 млн в штате Чиуауа. В компании утверждают, что цепочка поставок компании уже готова к ИИ-революции и производственные возможности включают выпуск передовых систем жидкостного охлаждения и теплоотвода, необходимых для оснащения серверов с GB200. Утверждается, что в текущем квартале компания обеспечила сильные показатели. В минувшую субботу Foxconn отчиталась о рекордной выручке в III квартале — на фоне сильного спроса на ИИ-серверы. Ещё одним приоритетом Foxconn являются амбициозные планы диверсификации бизнеса. В компании не желают, чтобы она ассоциировалась исключительно со сборкой электроники для Apple и надеются использовать технологические наработки для контрактного производства других продуктов, в т.ч. электромобилей и даже собственных машин под брендом Foxconn. Также известно, что на днях Foxconn и NVIDIA объявили о совместном строительстве самого быстрого ИИ-суперкомпьютера на Тайване с использованием платформы GB200 NVL72.
07.10.2024 [15:16], Руслан Авдеев
Intel может почти на треть сократить поставки ИИ-ускорителей Gaudi 3 в 2025 годуКомпания Intel борется за выживание на рынке ИИ-решений и в конце сентября официально представила свой новейший ускоритель — 5-нм Gaudi 3. Однако по данным аналитического агентства TrendForce, IT-гигант сократил планы поставок соответствующих чипов более чем на 30 % в 2025 году. Это может повлиять на бизнес-партнёров компании из цепочки поставок на Тайване. Агентство ссылается на отчёт Economic Daily News. В нём указывается, что новые меры могут быть связаны с изменением внутренней политики Intel и спроса, что побудило компанию сократить заказы на Тайване. После снижения объёмов выпуска место IT-гиганта на фабриках TSMC займут другие клиенты. То же касается и ASE, а также её дочерней SPIL, оказывающих Intel услуги по упаковке и тестированию микросхем. Для Alchip, проектирующей специализированные ASIC для Intel Gaudi 2 и Gaudi 3, ситуация может оказаться более сложной. Unimicron, которая считается главным поставщиком подложек для чипов Intel, тоже довольно сильно зависит от объёмов заказов последней. Но в Unimicron сохраняют оптимизм, поскольку рассчитывают, что во II половине 2024 года спрос на ИИ-ускорители и оптические модули вырастет. Отраслевые источники сообщают, что изначально в 2025 году планировалось отгрузить 300–350 тыс. ускорителей Gaudi 3, но теперь речь идёт лишь о 200–250 тыс. По имеющимся данным, после покупки израильского производителя Habana Labs в 2019 году, Intel, вероятно, весьма прохладно относится к идее совместной разработки ИИ-ускорителей нового поколения со сторонними компаниями. Более того, она ускоренно сворачивает выпуск Gaudi 2. Новость об изменениях структуры производства компании отнюдь не первая в 2024 году. В мае сообщалось, что Intel отказалась от ускорителей Ponte Vecchio в пользу Gaudi и Falcon Shores. Позже появились предположения о том, что создание Falcon Shores будет свёрнуто в рамках плана по выводу компании из кризиса, но Intel поспешила развеять сомнения, сообщив, что эту серию ускорителей всё же выпустят. Вероятно и то, что в них интегрируют элементы Gaudi.
05.10.2024 [15:55], Сергей Карасёв
Qualcomm готовит «урезанные» ИИ-ускорители Cloud AI 80Qualcomm, по сообщению Phoronix, планирует выпустить ускорители Cloud AI 80 (AIC080) для ИИ-задач. Информация о них появилась на сайте самого разработчика, а также в драйверах Linux. Речь идёт об «урезанных» версиях изделий Cloud AI 100, уже доступных на рынке. Базовая версия Cloud AI 100 Standard выполнена в виде HHHL-карты (68,9 × 169,5 мм) с интерфейсом PCIe 4.0 х8 и пассивным охлаждением. Объём памяти LPDDR4x-2133 с пропускной способностью 137 Гбайт/с составляет 16 Гбайт. Есть также 126 Мбайт памяти SRAM. TDP равен 75 Вт. Заявленное быстродействие достигает 350 TOPS на операциях INT8 и 175 Тфлопс при вычислениях FP16. От них в своё время отказалась Meta✴, сославшись на сырость программной экосистемы и предпочтя разработать собственные ИИ-ускорители MTIA. Кроме того, существует решение Cloud AI 100 Ultra в виде карты FH3/4L (111,2 × 237,9 мм). Для обмена данными служит интерфейс PCIe 4.0 х16; значение TDP равно 150 Вт. В оснащение входят 128 Гбайт памяти LPDDR4x, пропускная способность которой достигает 548 Гбайт/с. Объём памяти SRAM — 576 Мбайт. INT8-производительность составляет до 870 TOPS, FP16 — до 288 Тфлопс. Сообщается, что к выпуску готовятся «урезанные» ускорители Cloud AI 80 Standard и Cloud AI 80 Ultra. Их характеристики в точности соответствуют таковым у Cloud AI 100 Standard и Cloud AI 100 Ultra. Отличия заключаются исключительно в пониженном быстродействии. Так, у Cloud AI 80 Standard производительность INT8 находится на уровне 190 TOPS, FP16 — 86 Тфлопс. У Cloud AI 80 Ultra значения равны 618 TOPS и 222 Тфлопс. Нужно отметить, что в старшее семейство также входит модель Cloud AI 100 Pro в формате карты HHHL с интерфейсом PCIe 4.0 х8 и TDP 75 Вт. Она несёт на борту 32 Гбайт памяти LPDDR4x (137 Гбайт/с) и 144 Мбайт памяти SRAM. Производительность INT8 составляет до 400 TOPS, FP16 — до 200 Тфлопс. Появится ли подобная модификация в серии Cloud AI 80, пока не ясно.
03.10.2024 [12:52], Руслан Авдеев
США меняют правила экспорта ИИ-чипов, упрощая продажи современных ускорителей проверенным VEU-партнёрам на Ближнем ВостокеВ ближайшее время ЦОД Ближнего Востока могут получить доступ к передовым американским ИИ-ускорителям. Правда, как сообщает Network World, компании смогут закупать современную продукцию только при соблюдении строгих мер безопасности и после серьёзных проверок. Министерство торговли США анонсировало новую политику, в соответствии с которой предусмотрено смягчение ограничений на экспорт передовых ИИ-чипов на рынки Ближнего Востока и Центральной Азии. Это может облегчить бизнес американским компаниям, занимающимся их выпуском и разработкой. ЦОД из этих регионов смогут подавать заявки на получение особого статуса, без просьб об индивидуальных экспортных лицензиях. Ранее экспортёры получали специальные индивидуальные лицензии у американских регуляторов для поставки в «страны, вызывающие озабоченность». Теперь в рамках программы «Проверенный конечный пользователь» (Validated End User, VEU) можно будет получать ИИ-чипы, например, NVIDIA на общих основаниях — американским компаниям не понадобится лицензия на экспорт. Предполагается, что обновление программы VEU снизит лицензионное бремя на отрасль, а ЦОД смогут заранее выполнять строгие требования регуляторов. Проблемы с поставками начались после того, как в октябре 2023 года США ограничили отгрузки передовых чипов на Ближний Восток и в Центральную Азию, опасаясь «неправомерного» использования новых продуктов — основной угрозой назывался риск перепродажи продукции в Китай через третьи страны. В рамках программы VEU американские технологии будут защищены от подобных «злоупотреблений», рассчитывает министерство. Вероятно, решение американских властей связано с давлением со стороны американских компаний, нуждающихся в расширении рынков сбыта. Впрочем, операторам ЦОД придётся следовать ряду жёстких правил для получения технологий. Китайские структуры довольно изобретательны — не так давно выяснилось, что они покупают доступ к подсанкционному оборудованию даже в облаках на территории самих США. Также одной из главных проблем называется возможность попадания ИИ-технологий в руки Пекина через сторонние компании Ближнего Востока. Например, пристальное внимание в своё время привлекла компания G42 (ныне Core42) из ОАЭ. Хотя она отказалась от сотрудничества с бизнесом из КНР и выразила готовность соблюдать ограничения США, сделка с Microsoft на сумму $1,5 млрд вызвала озабоченность американских конгрессменов. Хотя новое правило решает ряд проблем экспортёров и импортёров, для компаний вроде G42 процедура вряд ли будет слишком простой. В рамках программы VEU дата-центры, подавшие заявку на получение соответствующего статуса, должны будут пройти строгую проверку, с оценкой клиентской базы, бизнес-активности, соблюдения протоколов кибербезопасности и контроля доступа. Получившие «добро» организации всё равно должны будут вести строгую отчётность и будут подвергаться проверкам на местах, участие в которых станут принимать должностные лица из США. Также правительства стран-импортёров должны будут предоставить гарантии безопасного и надлежащего использования технологий. По данным Министерства торговли Соединённых Штатов, каждое разрешение для защиты интересов национальной безопасности США имеет ограниченное действие, кроме того, в нём определены типы и объёмы технологий, к которым могут получить доступ VEU-партнёры. Сейчас Соединённые Штаты пытаются найти оптимальный баланс между контролем экспорта технологий и необходимостью инноваций как в стране, так и за её пределами. Это позволит отчасти умиротворить американский бизнес, в то же время сохраняя контроль использования передовых технологий за рубежом. А для стран Ближнего Востока развитие ИИ-технологий и цифровая трансформация стали одними из главных возможностей по диверсификации экономики.
03.10.2024 [10:51], Сергей Карасёв
NVIDIA отказалась от выпуска двухстоечных суперускорителей GB200 NVL36×2Компания NVIDIA, по информации аналитика Минг-Чи Куо (Ming-Chi Kuo), приняла решение отказаться от выпуска двухстоечных ИИ-систем NVL36×2 на основе ускорителей GB200 в пользу одностоечных машин NVL72 и NVL36. Объясняется это ограниченностью ресурсов и предпочтениями клиентов. Изначально планировалось выпустить три суперсистемы GB200 на базе ускорителей Blackwell для рабочих нагрузок ИИ и HPC — NVL72, NVL36 и NVL36×2. Первая объединяет в одной стойке 18 узлов 1U, каждый из которых содержит два ускорителя GB200. В сумме это даёт 72 чипа B200 и 36 процессоров Grace. Задействована шина NVLink 5, а энергопотребление системы находится на уровне 120 кВт. В свою очередь, NVL36 насчитывает 36 чипов B200, тогда как NVL36×2 объединяет две такие системы. Ожидалось, что конфигурация NVL36×2 получит более широкое распространение, нежели NVL72. Дело в том, что дата-центры большинства клиентов NVIDIA не могут удовлетворить требования NVL72 в плане питания и охлаждения. С этой точки зрения NVL36×2 представляет собой компромиссное решение. С другой стороны, NVL72 требует меньше пространства для установки и обладает меньшим суммарным энергопотреблением: каждая из стоек NVL36×2 требует 66 кВт, что в сумме даёт 132 кВт. При этом обеспечивается несколько меньшая производительность. По сведениям Минг-Чи Куо, некоторые заказчики (в частности, Microsoft) отдали предпочтение NVL72 перед NVL36×2. При этом между компании ещё на этапе обсуждения возникли разногласия по поводу конфигурации стоек. Кроме того, для NVIDIA управление тремя разными проектами по созданию суперускорителей на базе GB200 стало сложной задачей. Поэтому от двухстоечной машины решено отказаться. Отмечается также, что массовое производство NVL72 может быть отложено до II половины 2025-го, хотя ранее называлось I полугодие следующего года. Впрочем, отдельные заказчики, включая Microsoft, начнут получать эти системы уже в декабре.
03.10.2024 [10:45], Сергей Карасёв
Intel не отказывается от планов по выпуску ускорителей Falcon ShoresКорпорация Intel, по сообщению ресурса HPC Wire, не намерена сворачивать проект по разработке ускорителей Falcon Shores, несмотря на реструктуризацию, направленную на укрепление позиций в сегменте продуктов с архитектурой x86. Изделия Falcon Shores, как и планировалось ранее, появятся на рынке в 2025 году. Предполагалось, что решения Falcon Shores дебютируют после выхода ускорителей серии Rialto Bridge, которые должны были прийти на смену Ponte Vecchio. Однако в марте 2023 года Intel отменила выпуск Rialto Bridge, а недавно появилась информация, что будущем Falcon Shores также туманно. Теперь в Intel развеяли сомнения. Представители корпорации заявили, что изделия Falcon Shores выйдут в виде GPU-ускорителей. Ранее Intel отказалась от применения в этих решениях гибридной конфигурации CPU + GPU. Вместе с тем говорится, что в состав новых карт войдут элементы ИИ-ускорителей Gaudi. Утверждается, что такая конструкция обеспечит Falcon Shores преимущества перед конкурирующими продуктами, использующими только GPU-блоки. «Falcon Shores — это действительно ускоритель на основе GPU, в составе которого используются технологии Gaudi», — сообщила пресс-секретарь Intel. По имеющейся информации, ускорители получат модульный дизайн, поддержку современных ИИ-фреймворков, масштабируемые интерфейсы ввода-вывода и память HBM3e. По слухам, выпуск новинок будет организован на предприятии TSMC с применением 3-нм технологии. Intel по-прежнему нацеливает Falcon Shores на рынок высокопроизводительных вычислений. Вместе с тем Intel, находящаяся в сложном финансовом положении, намерена активно развивать экосистему x86. Недавно корпорация объявила о намерении оптимизировать процессоры Xeon Granite Rapids для работы с ИИ-ускорителями NVIDIA.
29.09.2024 [00:30], Алексей Степин
Рождение экосистемы: Intel объявила о доступности ИИ-ускорителей Gaudi3 и решений на их основеПро ускорители Gaudi3 компания Intel достаточно подробно рассказала ещё весной этого года — 5-нм новинка стала дальнейшим развитием идей, заложенных в предыдущих поколениях Gaudi. Объявить о доступности новых ИИ-ускорителей Intel решила одновременно с анонсом новых серверных процессоров Xeon 6900P (Granite Rapids), которые в видении компании являют собой «идеальную пару». Впрочем, в компании признают лидерство NVIDIA, так что обещают оптимизировать процессоры для работы с ускорителями последней. А вот ускорителей Falcon Shores, вполне вероятно, с новой политикой Intel потенциальные заказчики не дождутся. На данный момент главной новостью является то, что в распоряжении Intel не просто есть некий ИИ-ускоритель с более или менее конкурентоспособной архитектурой и производительностью, а законченное и доступное заказчикам решение, уже успевшее привлечь внимание крупных производителей и поставщиков серверного оборудования. Впрочем, на презентации были продемонстрированы любопытные слайды, в частности, касающиеся архитектуры и принципов работы блоков матричной математики (MME), тензорных ядер (TPC), а также устройство подсистемы памяти. В последнем случае любопытен максимальный отход от иерархических принципов построения в пользу единого унифицированного пространства памяти, включающего в себя кеши L2 и L3, а также набортные HBM2e-стеки ускорителя. Общение с сетевым интерконнектом при этом организовано из пространства L3, что должно минимизировать задержки. При этом сетевые порты доступны операционной системе как NIC через драйвер Gaudi3, с управлением посредством RDMA verbs. Благодаря большому количеству таких виртуальных NIC, организация интерконнекта внутри сервера-узла не требует никаких коммутаторов, а совокупная внутренняя производительность при этом достигает 67,2 Тбит/с. Хотя основой экосистемы Gaudi3 станут в первую очередь ускорители HL-325L и UBB-платы HLB-325, есть у Intel и PCIe-вариант в виде FHFL-платы HL-338: 1,835 Пфлопс в режиме FP8 при теплопакете 600 Вт. Оно имеет только 22 200GbE-контроллера, а в остальном повторяет конфигурацию HL-325L с восемью блоками матричной математики (MME). Эти ускорители получат пару портов QSFP-DD, каждый из которых будет поддерживать скорость 400 Гбит/с, а между собой платы в пределах одного сервера смогут общаться при помощи специального бэкплейна. Важно то, что Gaudi3 успешно прошёл путь от анонса до становления сердцем полноценной аппаратно-программной экосистемы, в том числе благодаря ставке на программное обеспечение с открытым кодом. В настоящее время Intel в содействии с партнёрами могут предложить широчайший по масштабу спектр решений на базе Gaudi3 — от рабочих станций и периферийных серверов до вычислительных узлов, собирающихся в стойки, кластеры и даже суперкластеры. В числе крупнейших партнёров Intel по новой экосистеме есть Dell и Supermicro, представившие серверные системы c Gaudi3. Начало массовых поставок этих систем запланировано на октябрь 2024 года. Вряд ли такие серверы будут развёртываться по одному, поэтому Intel рассказала о возможностях масштабирования Gaudi3-платформ. Один узел с восемью OAM-модулями HL-325L, развивающий 14,7 Пфлопс в режиме FP8 и располагающий 1 Тбайт HBM станет основой для 32- и 64-узловых кластеров с 256 и 512 Gaudi3 на борту, благо нехватка пропускной способности сетевой части Gaudi3 не грозит — она составляет 9,6 Тбайт/с для одного узла. Из таких кластеров может быть составлен суперкластер с 4096 ускорителями или даже мегакластер, где их число достигнет 8192. Производительность в этом случае составит 15 Эфлопс при объёме памяти 1 Пбайт и совокупной производительности сети 9,8 Пбайт/с. Типовой 32-узловой кластер на базе Gaudi3 Intel — это решение средней плотности с 15 стойками, содержащими не только вычислительные узлы, но и управляющие серверы, сетевые коммутаторы и подсистему хранения данных. Благодаря тому, что Intel в качестве интерконнекта для Gaudi3 избрала открытый и широко распространённый стандарт Ethernet (200GbE RoCE, 24 контроллера на ускоритель), не должно возникнуть проблем с совместимостью и привязкой к аппаратному обеспечению единственного вендора, как это имеет место быть c NVIDIA InfiniBand и NVLink. Вкупе с программным обеспечением, основой которого является открытый OneAPI, и развитой системой техподдержки, системы на базе Gaudi3 станут надёжной основой для развёртывания ИИ-систем класса RAG, позволяющих заказчику в кратчайшие сроки запускать сети LLM с собственными датасетами без переобучения модели с нуля, говорит компания. Именно в сферах, так или иначе связанных с большими языковыми моделями, Gaudi3 и системы на его основе должны помочь Intel укрепить свои позиции. Компания приводит данные, что Gaudi3 производительнее H100 примерно в 1,19 раза без учёта энергоэффективности, но в пересчёте «ватт на доллар» эти ускорители превосходят NVIDIA H100 уже в два раза. Правда, H100 арсенал NVIDIA уже не ограничивается, но с массовой доступности новых решений Intel они могут оказаться привлекательнее. К тому же платформа совместима со всеми основными фреймворками, библиотеками и средствами управления. Впрочем, на примере AMD прекрасно видно, насколько индустрия привязана к решениям NVIDIA, причём в первую очередь программным. |
|