В декабре корпорация Intel анонсировала новые решения под брендом Xeon. Главной «звездой» анонса стали процессоры Emerald Rapids — Xeon Scalable пятого поколения, которые идут на смену четвёртому поколению Sapphire Rapids. Это во многом существенный апгрейд, хотя Emerald Rapids являются скорее «разминкой» перед выходом Granite Rapids. При этом платформа у Sapphire Rapids и Emerald Rapids одна и та же — Eagle Stream.
Кроме того, Emerald'ы станут последними процессорами в рамках текущего подхода компании, поскольку на смену им идут сразу две серии CPU с E- и P-ядрами: Sierra Forest и Granite Rapids. Есть и другие нюансы. Так, например, пятое поколение Xeon включает несколько CPU, фактически относящихся к серии Sapphire Rapids. При этом в некоторых аспектах Emerald Rapids не дотягивают до Sapphire Rapids, поскольку среди них нет Max-процессоров и нет поддержки 4- и 8-сокетных систем.
Компоновка
Intel в своей презентации сделала упор на развитие ИИ-технологий и специфических ускорителей. С одной стороны, такой подход нельзя назвать новым — уже очень давно отставая от AMD по количеству ядер в сегменте серверных решений, Intel вынуждена отвечать асимметрично, упирая на дальнейшее расширение существующих наборов инструкций, таких как AVX-512, и на внедрение новых, таких как AMX, а также отдельных блоков для узких задач.
В пятом поколении Xeon Scalable ситуацию с количеством ядер Intel удалось подтянуть — в серии Emerald Rapids есть и 64-ядерные модели. Но AMD-то опять успела уйти вперёд в количественном отношении с 96-ядерными процессорами EPYC Genoa, представленными более года назад. При этом AMD даже дала некоторую фору Intel, но последней это не особо-то и помогло.
Количественные показатели новых Xeon Scalable компания подтянула заметно: общий прирост производительности в сравнении с Sapphire Rapids по данным Intel составляет 21 %, а в инференс-сценариях — аж на 42 %. Для достижения столь серьёзного прироста Emerald Rapids, в числе прочего, получили поддержку памяти DDR5-5600 и увеличенный до 320 Мбайт кеш последнего уровня (LLC). Для обеспечения гибкости в конфигурации серверных подсистем памяти заявлена поддержка устройств CXL 1.1 Type 1/2/3.
Компания по-прежнему использует несколько разных типов компоновки, в отличие от AMD, жонглирующей одинаковыми «кубиками». Во флагманских моделях Emerald Rapids с числом ядер до 64 применяется компоновка XCC с двумя тайлами, в то время как в моделях с числом ядер до 32 применена более простая монолитная компоновка (MCC). Имеется также малоядерная, но энергоэффективная компоновка EE LCC, где количество ядер не превышает 20. Все ядра — Raptor Cove P-класса. Фактически это чуть подтянутые Golden Cove с переработанной архитектурой кешей и небольшим приростом IPC.
Это довольно серьёзный шаг вперёд в сравнении с Sapphire Rapids, где для старших моделей Intel была вынуждена использовать компоновку с четырьмя тайлами. Переработана и геометрия интерконнекта: ранее четыре тайла соединялись друг с другом посредством четырёх же мостиков EMIB, а теперь на два тайла приходится три мостика, что в теории должно положительно сказываться на производительности в случае активной пересылки данных между кластерами ядер в разных тайлах.
Также на четверть возросла производительность межпроцессорного интерфейса UPI, с 16 ГТ/с до 20 ГТ/с. Вкупе с более скоростной подсистемой памяти и возросшим LLC это даёт соответствующий эффект при полном сохранении платформенной совместимости: Emerald Rapids может работать в существующих платформах, рассчитанных на Sapphire Rapids. Потребуется только обновление BIOS и замена направляющей пластиковой рамки.
Следует также отметить, что интерконнект был серьёзно оптимизирован именно с точки зрения энергопотребления, что позволило достичь 1,34-кратного превосходства в удельной производительности. Обновлённый комплекс более тонко оперирует частотами и имеет несколько новых режимов энергосбережения, таких как active idle mode и optimized power mode. Эффект от этого наиболее ярко выражен в режимах с низкой нагрузкой (порядка 30–40 % разницы) и позволяет снизить энергопотребление на величину до 110 Вт на процессор.
Повышенния экономичности и производительности не удалось бы добиться без переработки управления тактовыми частотами в турборежимах, которых теперь пять вместо четырёх. Новые процессоры могут более гибко регулировать частоты при активном использовании AVX-512 или AMX. По сути, Intel исправила ошибку, за которую критиковали первые поколения Xeon Scalable — серьёзную просадку частоты при использовании AVX-512, способную съедать заметную часть прироста производительности.
Модельный ряд
Всего Intel в пятом поколении представила 32 модели процессоров Xeon Scalable, однако только 27 из них являются «истинными» Emerald Rapids. Ещё пять процессоров — Xeon Gold 6554S, Xeon Bronze 3508U, Xeon Silver 4509Y, Xeon Silver 4510 и Xeon Silver 4510T — технически относятся к поколению Sapphire Rapids. Впрочем, относительно первого CPU в этом списке офсайт Intel ясности не даёт. Все процессоры производятся с использованием одного того же техпроцесса Intel 7 (10 нм ESF).
Ценовые рамки здесь скромнее, нежели в предыдущем поколении, но не стоит забывать, что речь идёт только о чипах для двухсокетных систем, в то время как в серии Sapphire Rapids были представлены и варианты для четырёх- и восьмисокетных систем. При взгляде на модельный ряд Emerald Rapids бросается в глаза серьёзная дифференциация моделей по объёму кеша: в списке имеются модели как с большим объёмом LLC, от 160 до 320 Мбайт, так и версии, оснащённые лишь 22,5–60 Мбайт кеша, что более характерно для Xeon Scalable предыдущих поколений.
Серьёзно варьируются и доступные блоки ускорителей. Сама Intel называет такую стратегию гибкой и дающей потребителям возможность выбора, но некоторые рамки, установленные компанией, выглядят неочевидно. В первую очередь это касается «игр» с поддержкой быстрой памяти. Да, EPYC Genoa ограничены DDR5-4800, но, во-первых, у решений AMD 12-канальный контроллер против 8-канального у Emerald Rapids, а во-вторых, эти параметры одинаковы для всего модельного ряда EPYC 9004. У Intel же мы видим прямо противоположный подход.
Хотя для Emerald Rapids и заявлена поддержка DDR5-5600, фактически менее четверти анонсированных CPU поддерживают соответствующую память, причём такая поддержка есть даже не у всех моделей Platinum. Особенно странно это смотрится в сегментах 5G/Networked Optimized и Cloud. Модели Xeon Gold вообще ограничены поддержкой DDR5-5200. Кроме того, ни одна из флагманских моделей Emerald Rapids, поддерживающих DDR5-5600, не имеет полного набора акселераторов.
Есть небольшие изменения в схеме наименования CPU — Emerald Rapids получила достаточно стройную систему суффиксов, описывающих основную сферу применения того или иного процессора. Что касается теплопакета, то его рамки, в основном, ограничены цифрой 350 Вт. Лишь одна модель, Xeon Platinum 8593Q, то есть 64-ядерный вариант с турбо-частотой 3,0 ГГц для всех ядер, ориентированный на работу в связке с СЖО, имеет базовый TDP на уровне 385 Вт.
Производительность
Intel приводит официальные данные о производительности и энергоэффективности Emerald Rapids, однако делает это в несколько странной манере. От лица пятого поколения выступает флагманский 64-ядерный Xeon Platinum 8592+, однако сравнивается он почему-то с разными моделями четвёртого поколения, что вносит серьёзную путаницу.
В тестах Web, Data Services и AI выступает 56-ядерный Xeon Platinum 8480+, в сегменте HPC выбран 60-ядерный Xeon Platinum 8490H, изначально разработанный для 4S и 8S-систем и несравнимый с двухсокетными Emerald Rapids по цене. В сетевых тестах (Network) и вовсе участвует 52-ядерный Xeon Platinum 8592+.
Конечно, в таком свете 64-ядерный флагман пятого поколения будет смотреться выгодно, с учётом его более быстрой памяти и объёмного кеша LLC, но почему-то Intel не рискнула сравнить его с Xeon Max с набортной памятью HBM2e. Известно, что в поколении Emerald Rapids таких процессоров не будет, но и вариант на базе Sapphire Rapids мог бы оказаться опасным соперником, особенно в задачах класса HPC и при работе с объёмными LLM.
А вот пристальное внимание к вопросам латентности выглядит совершенно оправданно: благодаря новой компоновке, использующей два тайла с тремя EMIB-каналами против четырёх тайлов у Sapphire Rapids, где диагональные относительно друг друга тайлы должны были связываться друг с другом через лишнюю «остановку», задержки удалось существенно снизить. NUMA-режимы SNC4 и Quad теперь по понятной причине не поддерживаются даже для XCC-компоновки, где по умолчанию включён режим SNC2.
Одним из достаточно важных нововведений в Emerald Rapids является аппаратная поддержка расширений TDX (Trust Domain Extensions). Фактически это новый режим работы процессора, т.н. SEAM (Secure Arbitration Mode), в котором виртуальная машина может быть полностью изолирована от всего, что происходит вне доверенного домена. Шифрование содержимого памяти такого домена выполняется аппаратно, поэтому штраф производительности минимален, а итоговая производительность ВМ оказывается всё равно выше, нежели на процессорах без поддержки TDX.
Intel также очень активно рекламирует наличие специфических акселераторов, поскольку их использование при должной поддержке со стороны ПО позволяет порой достичь 10-кратного выигрыша в производительности и особенно в энергоэффективности.
Отдельное внимание уделено тестам в различных ИИ-сценариях. Превосходство Xeon Platinum 8592+ над Xeon Platinum 8480+ полностью закономерно: новинка имеет больше ядер, более чем в три раза объёмный кеш LLC, более тонко управляет турбо-частотами и работает с более быстрой памятью. Вряд ли Emerald Rapids будет активно использоваться при обучении нейросетей, поскольку это удел ускорителей. А вот в инференс-системах прирост скорости может оказаться весьма к месту.
Причины говорить о более низком энергопотреблении Emerald Rapids в режимах простоя и малой нагрузки у Intel есть. Это в основном заслуга новой двухтайловой компоновки, которая должна решить проблему с крайне высоким потреблением в таких режимах, характерную для Sapphire Rapids. Для двухпроцессорного сервера разница может достигать 200–220 Вт, но на практике новые решения демонстрируют выигрыш в 160–180 Вт, что, впрочем, тоже неплохо.
Тесты Phoronix показали, что платформа с двумя 64-ядерными Intel Xeon Platinum 8592+ почти на четверть опередила пару 60-ядерных Platinum 8490H и оказалась близкой к двум 64-ядерным AMD EPYC 9554. А вот влияние памяти DDR5-5600 на производительность оказалось не слишком большим и в среднем составило менее 2 %. Разумеется, в определённых типах нагрузок преимущество очевидно, но и стоит более продвинутая DDR5-5600 пока что заметно больше, чем DDR5-4800.
Выигрыш в экономичности также зафиксирован, хотя и не столь существенный, как обещает Intel. Проверка нового режима Optimized Power Mode в BIOS показала, что по умолчанию данный режим не используется, а его активация действительно позволяет серьёзно снизить энергопотребление Emerald Rapids в режимах средней и малой загрузки. При этом обеспечивается общая производительность на уровне 93 % от той, которая была получена с отключенным режимом оптимизации питания, хотя результаты сильно варьируются в зависимости от характера конкретной нагрузки.
Заключение
Emerald Rapids — несомненно заметный шаг вперёд для Intel. Наконец-то преодолён своего рода «психологическиий барьер» в количестве ядер, и, хотя AMD по этому параметру вновь успела уйти вперед, появление 64-ядерных Xeon важно для Intel. Особенно с учётом серьёзной работы над ошибками: Emerald Rapids получили более эффективную двухтайловую компоновку с меньшей латентностью и большей межтайловой пропускной способностью.
По сути, в этом поколении количественно подтянуты все основные подсистемы: UPI, DDR5, LLC. Это позволяет Emerald Rapids конкурировать с соответствующими моделями AMD EPYC. Сохранена и платформенная совместимость с Sapphire Rapids, хотя далеко не факт, что все платформы успели пройти валидацию на работу с более быстрой памятью. Однако в поколении Emerald Rapids Intel вовсе не собирается соревноваться с AMD в количестве процессорных ядер.
Одна из главных целей Emerald Rapids — легкий апгрейд имеющихся систем на базе Sapphire Rapids, позволяющий получить серьёзный прирост производительности относительно малой ценой, а также снижение TCO при модернизации инфраструктур третьего и более ранних поколений Xeon Scalable. Intel активно продвигает концепцию акселераторов, приводя цифры, позволяющие сравнить стоимость владения инфраструктур на базе Xeon Scalable первого, третьего и пятого поколений, как при развёртывании, так и при модернизации.
Денежная экономия получается внушительная, однако в процессе планирования такой модернизации или закупки новых серверов для ЦОД следует учитывать, что оснащённость акселераторами у разных моделей Emerald Rapids очень разная. Потребуется тщательный анализ с учётом планируемых сценариев и нагрузок, поскольку иначе уникальные возможности Emerald Rapids могут пропасть даром.
В то же время, решения AMD такого тщательного планирования не требуют, поскольку обладают идентичным набором возможностей по всему модельному ряду, а заодно могут предложить повышенную вычислительную плотность ввиду большего максимального числа ядер на процессорный разъём.
Источники: