Материалы по тегу: cpu

25.07.2024 [10:12], Владимир Мироненко

AMD показала превосходство чипов EPYC над Arm-процессорами NVIDIA Grace в серии бенчмарков, но не всё так просто

AMD провела серию тестов, чтобы доказать преимущество своих нынешних процессоров AMD EPYC над Arm-процессорами NVIDIA Grace Superchip. Как отметила AMD, в связи с растущей востребованностью ЦОД некоторые компании начали предлагать альтернативные варианты процессоров, «часто обещающие преимущества по сравнению с обычными решениями x86».

«Обычно их представляют с большой помпой и заявлениями о значительных преимуществах в производительности и энергоэффективности по сравнению с x86. Слишком часто эти утверждения довольно сложно воплотить в реальные сценарии конкурентной рабочей нагрузки — с использованием устаревших, недостаточно оптимизированных альтернатив или плохо документированных предположений», — отметила AMD.

С помощью серии стандартных отраслевых тестов AMD, по её словам, продемонстрировала преимущество EPYC над решениями на базе Arm. «Благодаря проверенной архитектуре x86-64, впервые разработанной AMD, вы можете получить всё это без дорогостоящего портирования или изменений в архитектуре», — подчеркнула компания. Иными словами, тесты AMD могут быть просто попыткой развеять опасения, что архитектура x86 «выдыхается» и что Arm берёт верх.

 Источник изображений: AMD

Источник изображений: AMD

AMD сравнила производительность AMD EPYC и NVIDIA Grace CPU в десяти ключевых рабочих нагрузках, охватывающих вычисления общего назначения, Java, транзакционные базы данных, системы поддержки принятия решений, веб-серверы, аналитику, кодирование видео и нагрузки HPC. Согласно представленному выше графику, 128-ядерный процессор EPYC 9754 (Bergamo) и 96-ядерный EPYC 9654 (Genoa) более чем вдвое превзошли NVIDIA Grace CPU Superchip по производительности при обработке вышеуказанных нагрузок.

Напомним, что Grace CPU Superchip содержит два 72-ядерных кристалла Grace, использующих ядра Arm Neoverse V2, соединённых шиной NVLink C2C с пропускной способность 900 Гбайт/с, и работает как единый 144-ядерный процессор. В свою очередь, ресурс The Register отметил, что речь идёт о версии с 480 Гбайт памяти LPDDR5x, а не с 960 Гбайт.

В тесте SPECpower-ssj2008, по данным AMD, одно- и двухсокетные системы на базе AMD EPYC 9754 превосходят систему NVIDIA Grace CPU Superchip по производительности на Вт примерно в 2,50 раза и 2,75 раза соответственно, а двухсокетная система AMD EPYC 9654 — примерно в 2,27 раза.

Помимо производительности и эффективности, ещё одним важным фактором для операторов ЦОД является совместимость, сообщила AMD. По оценкам, во всем мире существуют триллионы строк программного кода, большая часть которого написана для архитектуры x86. EPYC основаны на архитектуре x86-64, впервые разработанной AMD, и эта архитектура является наиболее широко используемой и поддерживаемой в индустрии ЦОД, заявила компания, добавив, что изменения в архитектуре сложны, дороги и чреваты риском.

AMD также отметила, что экосистема AMD EPYC включает более 250 различных конструкций серверов и поддерживает около 900 уникальных облачных инстансов. Также процессоры AMD EPYC установили более 300 мировых рекордов производительности и эффективности в широком спектре тестов. В то же время лишь немногие Arm-решения доказали свою эффективность.

В свою очередь, ресурс The Register отметил, что ситуация не так проста, как AMD пытается всех убедить. В феврале сайт The Next Platform сообщил, что исследователи из университетов Стоуни-Брук и Буффало сравнили данные о производительности суперчипа NVIDIA Grace CPU Superchip и нескольких процессоров x86, предоставленные несколькими НИИ и разработчиком облачных решений.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Большинство этих тестов были ориентированы на HPC, включая Linpack, HPCG, OpenFOAM и Gromacs. И хотя производительность системы Grace сильно различалась в разных тестах, в худшем случае она находилась где-то между Intel Skylake-SP и Ice Lake-SP, превосходя AMD Milan и находясь в пределах досягаемости от показателей Xeon Max. Данные результаты отражают тот факт, что самые мощные процессоры AMD EPYC Genoa и Bergamo могут превзойти первый процессор NVIDIA для ЦОД — при правильно выбранном тесте.

В техническом описании Grace CPU Superchip компания NVIDIA сообщает, что этот чип обеспечивает от 0,9- до 2,4-кратного увеличения производительности по сравнению с двумя 96-ядерными EPYC 9654 и предлагает до трёх раз большую пропускную способность в различных облачных и HPC-сервисах. NVIDIA отмечает, что Superchip предназначен для «обработки массивов для получения интеллектуальных данных с максимальной энергоэффективностью», говоря об ИИ, анализе данных, нагрузках облачных гиперскейлеров и приложениях HPC.

Постоянный URL: http://servernews.kz/1108454
22.07.2024 [09:12], Сергей Карасёв

Intel представила чипы Raptor Lake Refresh с отключёнными E-ядрами для встраиваемых устройств

Компания Intel, по сообщению ресурса Wccftech, анонсировала процессоры Raptor Lake Refresh (Core 14-го поколения) для встраиваемых устройств. У этих чипов деактивирован кластер энергоэффективных Е-ядер (Gracemont) — они оперируют только производительными Р-ядрами (Raptor Cove).

В общей сложности перечислены 11 моделей: Core i9-14901KE, Core i9-14901E, Core i9-14901TE, Core i7-14701E, Core i7-14701TE, Core i5-14501E, Core i5-14501TE, Core i5-14401E, Core i5-14401TE, Core i5-14401EF и Core i5-14401TEF. Они имеют исполнение LGA1700, а показатель TDP варьируется от 45 до 125 Вт.

 Источник изображения: Intel

Источник изображения: Intel

На вершине семейства располагается изделие Core i9-14901KE с восемью ядрами (16 потоков), базовая частота которого составляет 3,8 ГГц с возможностью динамического повышения до 5,8 ГГц. Объём кеша третьего уровня равен 36 Мбайт. Индекс «К» в обозначении указывает на возможность разгона. Возможно, данная особенность заинтересует DIY-энтузиастов.

 Источник изображения: Wccftech

Источник изображения: Wccftech

В зависимости от модификации новые процессоры насчитывают шесть или восемь Р-ядер, при этом все чипы поддерживают технологию многопоточности. Возможна работа с двухканальной оперативной памятью DDR4/DDR5. Изделия с индексом «F» не имеют встроенного графического контроллера, тогда как модели «Т» обладают повышенной энергоэффективностью. Среди прочего упомянута поддержка PCIe 5.0 x16, PCIe 4.0 x4 (NVMe) и DMI 4.0 x8.

Постоянный URL: http://servernews.kz/1108272
17.07.2024 [13:16], Сергей Карасёв

Microchip представила свои первые 64-бит чипы PIC64GX на архитектуре RISC-V

Компания Microchip Technology анонсировала изделия PIC64GX — своё первое семейство 64-бит чипов, выполненных на открытой архитектуре RISC-V. Среди ключевых сфер применения названы устройства для промышленного, автомобильного, коммуникационного, аэрокосмического и оборонного сегментов, а также для Интернета вещей.

Первым представителем нового семейства стал чип PIC64GX1000. Он содержит четыре 64-битных ядра SiFive U54 (RV64GC) без внеочередного исполнения инструкций, но с блоком управления памятью (MMU). Тактовая частота достигает 625 МГц. Кроме того, присутствует вспомогательное ядро SiFive E51 RISC-V (RV64IMAC) с той же частотой, отвечающее за функции мониторинга. Чип может работать как в режиме SMP, так и AMP. Заявленный уровень производительности составляет порядка 5 тыс. DMIPS.

 Источник изображений: Microchip

Источник изображений: Microchip

Реализована подсистема кеша L1 с функциями коррекции ошибок Single-Error Correct, Double-Error Detect (SECDED). Объём кеша L2 с поддержкой SECDED составляет 2 Мбайт (SRAM). Все кеши можно переконфигурировать под свои нужды. Также есть 128 Кбайт энергонезависимой памяти для загрузчика и 56 Кбайт защищённой памяти для хранения пользовательских данных и ключей.

Имеется встроенный 36-бит контроллер памяти (LP)DDR4-1333 (SECDED) с поддержкой до 32 Гбит на DDR-интерфейс. Реализована поддержка интерфейсов MMC 5.1, SD, SDIO, HDMI 1.4, MIPI CSI-2 (две линии), 2 × 1GbE, USB 2.0 OTG, PCIe 2.2 x4 (версия FCV) или x1 (модификация FCS), 2 × SPI, 5 × UART, 2 × I2C, 32 × GPIO, 2 × CAN. Средства обеспечения безопасности включают AES/SHA (256 бит), TRNG, HMAC, RSA, ECDSA.

Доступны варианты упаковки FCSG325 (11 × 11 × 0,5 мм) c 200 контактами и FCVG484 (19 × 19 × 0,8 мм) с 244 контактами. Будут предлагаться коммерческая и индустриальная модификации: в первом случае диапазон рабочих температур простирается от 0 до +100 °C, во втором — от -40 до +100 °C.

Постоянный URL: http://servernews.kz/1108065
12.07.2024 [09:09], Алексей Степин

144 ядра, чиплеты, SRAM и 3D-упаковка: Fujitsu поделилась подробностями о грядущих Arm-процессорах MONAKA

Опыт японской компании Fujitsu в разработке процессоров и суперкомпьютеров велик и многогранен. Долгое время основной архитектурой для решений Fujitsu была SPARC64, но времена меняются: в 2018 году компания анонсировала разработку собственного процессора на базе архитектуры Arm. Сегодня этот чип мы знаем под именем A64FX.

В 2020 году японский кластер Fugaku на основе 48-ядерных A64FX с интегрированными HBM-памятью и интерконнектом занял первое место в рейтинге TOP500 с результатом 537,2 Пфлопс. Однако эти процессоры, которые всё ещё достойно трудятся не только в Fugaku, но и в других суперкомпьютерах, трудно назвать действительно универсальным и доступным.

 Источник изображений: Fujitsu

Источник изображений: Fujitsu

Важность архитектурных нововведений и смену IT-ландшафта в Fujitsu прекрасно осознают. Поэтому компания объявила о разработке нового серверного процессора под кодовым именем MONAKA, для которого она намеревается вдвое увеличить показатели производительности и энергоэффективности, а также учесть растущую популярность задач класса ИИ. А совсем недавно Fujitsu впервые более детально рассказала о технических особенностях будущих CPU.

Во-первых, разработчики нового процессора хорошо осознают ограничения, накладываемые текущей транзисторной технологии. Похоже, из FinFET и её аналогов выжаты все или почти все соки и для прорывных решений нового поколения данная технология не подходит. В процессорах MONAKA будут использоваться транзисторы с затвором нового типа, так называемые GAA (Gate-all-Around). Похоже, речь идёт о технологии, которую разрабатывает и собирается внедрить в производство уже в следующем году Samsung в рамках 2-нм техпроцесса SF2.

Внедрение 2-нм GAA-транзисторов позволит снизить паразитную ёмкость, а значит, добиться больших тактовых частот при меньшем напряжении питания. При этом новая технология будет применена не только в процессорных ядрах, но и в сборках кеш-памяти, также спроектированных с использованием собственного инструментария Fujitsu.

Во-вторых, MONAKA изначально проектируется как модульный процессор. В центре разместится IO-кристалл, содержащий контроллеры DDR5 (12 каналов) и PCI Express 6.0/CXL 3.0. Окружать его будут сборки из 5-нм кристаллов кеш-памяти SRAM и расположенных поверх 2-нм кристаллах с процессорными ядрами. По вертикали соединение обеспечит технология TSV, а по горизонтали — кремниевая подложка-интерпозер. Фактически речь идёт о 3D-компоновке.

12-канальная подсистема памяти обеспечит отсутствие узких мест: у A64FX проблем с пропускной способностью благодаря использованию HBM2 не было, но объем самой памяти был ограничен 32 Гбайт. Зато у MONAKA проблем с расширением не будет — как с помощью классических модулей DIMM, так и посредством банков памяти CXL, благо, за основу сразу взята версия PCIe 6.0 с пропускной способностью 256 Гбайт/с в режиме x16. Сколько будет самих линий, пока не уточняется.

Новая платформа изначально проектируется двухсокетной, при этом в количестве ядер Fujitsu также не скромничает: процессоры MONAKA получат 144 ядра, а благодаря новому 2-нм техпроцессу они будут не такими уж горячими. Им хватит воздушного охлаждения, говорят создатели. Процессоры получат набор инструкций Armv9-A с векторными расширениями SVE2 и технологией доверенных вычислений Confidential Computing. Скорее всего, без кастомных инструкций не обойдётся и в этот раз.

Последнее особенно важно ввиду того, что MONAKA предназначены не только для рынка HPC, но и для использования в облачных средах. Подсистема конфиденциальных вычислений позволяет шифровать содержимое каждой виртуальной машины собственным ключом, так что доступа к внутренностям ВМ не будет даже у владельцев ЦОД. Впрочем, современные HPC-комплексы всё чаще используют именно облачный подход для доступа к ресурсам.

Несмотря на популярность GPU и других специализированных ускорителей, Fujitsu считает, что гетерогенная архитектура имеет существенные недостатки — она заметно дороже, особенно с учётом ценовой политики производителей, склонна к неполной утилизации ресурсов, а также не слишком экономична и зачастую требует специфических систем охлаждения. Компания полагает, что гомогенная архитектура MONAKA этих недостатков лишена и в сочетании с ПО Fujitsu может успешно обрабатывать ИИ-нагрузки.

В программной части Fujitsu активно полагается на решения с открытым кодом. Процессоры MONAKA будут отвечать стандартам Arm System Ready и получат полноценную поддержку Linux и сопутствующего инструментария, в частности, GCC, glibc, live-patch, papi и т.д. Разработка ведётся в тесном содружестве с Linaro, организацией, занимающейся консолидацией открытого ПО для Arm, а также с альянсом UXL. Для MONAKA компания подготовит, например, оптимизированную библиотеку OpenBLAS.

Также Fujitsu уделяет внимание экологии: напомним, одной из главных черт нового процессора будет его экономичность, что отвечает целям японской национальной программы NEDO, ставящей своей целью достижение 40 % снижения энергопотребления ЦОД к 2030 году.

Что касается начала поставок MONAKA, здесь всё идёт по плану: первые партии новых процессоров найдут своё место в серверах и вычислительных узлах уже в 2027 году. Это вполне согласуется с циклом разработки PCI Express, согласно которому появления решений PCIe 6.0 на рынке следует ожидать не ранее 2025 года.

Постоянный URL: http://servernews.kz/1107780
28.06.2024 [12:35], Сергей Карасёв

Loongson представила 64-ядерные серверные процессоры с чиплетной компоновкой

Китайская компания Loongson, по сообщению Tom's Hardware, начала пробный выпуск процессоров 3C6000, 3D6000 и 3E6000 для серверных систем. В настоящее время эти изделия проходят тестирование, а серийное производство запланировано на IV квартал 2024 года.

Чип 3C6000 содержит 16 ядер LA664 (32 потока инструкций) с микроархитектурой LoongArch, разработанной Loongson. Утверждается, что новинка обеспечивает вдвое более высокую производительность по сравнению с процессором 3C5000, функционирующим на частоте 2,2 ГГц. Для 3C6000 реализована поддержка четырёх каналов оперативной памяти DDR4-3200.

 Источник изображения: Loongson

Источник изображения: Loongson

Решения 3D6000 и 3E6000, в свою очередь, имеют чиплетную компоновку. Они объединяют соответственно два и четыре кристалла 3C6000, связанных посредством технологии Loongson Coherent Link. В результате, получаются CPU с 32 и 64 вычислительными ядрами с возможностью одновременной обработки 64 и 128 потоков инструкций.

Архитектура чиплетов считается будущим микропроцессоров. Причём Китай делает особую ставку на чиплетную компоновку на фоне жёстких санкций со стороны США, которые ограничивают доступ китайских компаний к передовым технологиям производства полупроводниковой продукции. Объединяя несколько кристаллов в составе одного CPU, разработчики из КНР получают возможность наращивать производительность чипов без применения наиболее «тонких» техпроцессов.

В Китае в условиях активного импортозамещения наложен запрет на использование процессоров Intel и AMD в компьютерах и серверах для государственного сектора. Благодаря этому спрос на отечественную продукцию растёт, а Loongson увеличивает рыночную долю.

Постоянный URL: http://servernews.kz/1107203
27.06.2024 [11:04], Сергей Карасёв

SiFive анонсировала новое семейство процессоров RISC-V для встраиваемых устройств

Компания SiFive, разработчик процессоров на архитектуре RISC-V, представила решения семейства Essential Gen4 для различных встраиваемых устройств. В серию вошли восемь модификаций базовых ядер RISC-V, которые могут применяться в таком оборудовании, как камеры наблюдения, решения FPGA, накопители на основе флеш-памяти, носимые гаджеты и пр.

В частности, анонсированы 64-бит решения U6 и U7 для процессоров приложений, 64-бит ядра реального времени S2, S6 и S7 для встраиваемых систем, а также 32-бит ядра реального времени E2, E6 и E7.

 Источник изображения: SiFive

Источник изображения: SiFive

Для новинок заявлено снижение энергопотребления в рабочем режиме до 40 % по сравнению с ядрами RISC-V предыдущего поколения. Говорится об улучшенном кеше L2 и расширенном кеше L1. Разработчикам предоставляются гибкие возможности в плане конфигурирования устройств: тип CPU, различные варианты интегрированной памяти, выбор периферийных компонентов и портов. Кроме того, упомянуты развитые средства управления питанием и обеспечения безопасности.

Ядра SiFive Essential Gen4 могут использоваться со встраиваемыми ОС Linux и FreeRTOS. Заявлена интеграция с IDE Eclipse. В целом, изделия четвёртого поколения обеспечивают более высокую производительность, повышенную энергоэффективность и более гибкие возможности в плане использования интерфейсов. При этом полные технические характеристики новинок компания не раскрывает.

Отмечается также, что на сегодняшний день по всему миру реализовано более 2 млрд чипов с ядрами SiFive RISC-V для встраиваемых устройств. Данный рынок продолжает активно развиваться, что говорит о росте популярности открытой архитектуры RISC-V.

Постоянный URL: http://servernews.kz/1107129
22.06.2024 [15:01], Сергей Карасёв

Samsung случайно упомянула о разработке RISC-V чипа для ИИ-задач

В ходе конференции ISC 2024 компания Samsung, по сообщению HPC Wire, намекнула на разработку некоего чипа на открытой архитектуре RISC-V. Предполагается, что это изделие будет использоваться при решении задач, связанных с ИИ и НРС.

На одном из продемонстрированных южнокорейским производителем слайдов упоминается изделие CPU/ИИ-ускоритель на базе RISC-V («RISC-V CPU/AI accelerator from Samsung»). О чём именно идёт речь, сказать трудно. Возможно, Samsung проектирует процессор RISC-V с нейромодулем для ускорения ИИ-операций. С другой стороны, это может быть самостоятельный чип, предназначенный для работы в связке с ИИ-ускорителем. Например, Google уже использует RISC-V процессоры SiFive вместе со своим TPU.

 Источник изображения: Samsung / HPC Wire

Источник изображения: Samsung / HPC Wire

Отмечается, что слайд был показан на сессии ISC 2024, посвящённой инициативе UXL Foundation (Unified Acceleration Foundation). Целью данного проекта является создание универсального открытого ПО, которое позволит разработчикам ИИ-решений отказаться от CUDA и использовать ускорители других производителей. В состав UXL входят Intel, Qualcomm, Samsung, Arm и Google.

На слайде также упоминается модель параллельного программирования в контексте вычислений в памяти. Данная концепция позволяет повысить производительность, в том числе при обучении ИИ-моделей. Ранее Samsung и AMD представили экспериментальный ИИ-суперкомпьютер, скрестив «вычислительную» память HBM-PIM и ускорители Instinct MI100. Кроме того, Samsung работает над похожей концепцией PNM (processing-near-memory), которая будет использоваться в модулях памяти CXL.

Samsung также работает над собственными ИИ-ускорителями Mach-1, которые уже заказала ведущая южнокорейская интернет-компания Naver. По заявлениям Samsung, изделие Mach-1 позволяет выполнять инференс больших языковых моделей (LLM) даже с маломощной памятью. Таким образом, есть вероятность, что новый RISC-V-процессор Samsung сможет работать в связке с ИИ-ускорителями компании для максимизации производительности.

Постоянный URL: http://servernews.kz/1106897
22.06.2024 [00:05], Алексей Степин

Альянс CHERI будет продвигать технологию надёжной защиты памяти от атак — первой её могут получить процессоры RISC-V

В современных процессорах немало возможностей для атак связано с особенностями работы современных подсистем памяти. Для противостояния подобным угрозам Capabilities Limited, Codasip, FreeBSD Foundation, lowRISC, SCI Semiconducto и Кембриджский университет объявили о создании альянса CHERI (Capability Hardware Enhanced RISC Instructions).

Целью новой организации должна стать помощь в стандартизации, популяризации и продвижении на рынок разработанных Кембриджским университетом совместно с исследовательским центром SRI International процессорных расширений, позволяющих аппаратно реализовывать механизмы защиты памяти, исключающие целый ряд потенциальных уязвимостей, например, переполнение буфера или некорректная работа с указателями.

 Источник: University of Cambridge

Источник: University of Cambridge

Сама технология имеет «модульный» характер. Она может применяться выборочно для защиты функций от конкретных атак и требует лишь весьма скромной адаптации кода. Согласно заявлению CHERI Alliance, огромный пул уже наработанного ПО на языках семейств С и C++ может быть легко доработан для серьёзного повышения уровня безопасности.

 Источник: University of Cambridge

Источник: University of Cambridge

Кроме того, данная технология позволяет реализовать высокопроизводительные и масштабируемые механизмы компартментализации (compartmentalization) и обеспечения минимально необходимых прав (least privilege). Такое «разделение на отсеки» должно защитить уже скомпрометированную систему и не позволить злоумышленнику развить атаку, даже если он воспользовался ранее неизвестной уязвимостью.

 Механика работы расширений CHERI с памятью. Источник: University of Cambridge

Механика работы расширений CHERI с памятью. Источник: University of Cambridge

Технологии, предлагаемые альянсом CHERI, хорошо проработаны — их развитие идёт с 2010 года, а актуальность массового внедрения подобных решений за прошедшее время успела лишь назреть. Однако для успеха данной инициативы потребуется широкое содействие со стороны индустрии как аппаратного обеспечения, так и программного.

 Блок-схема Arm Morello. Источник: Arm

Блок-схема Arm Morello. Источник: Arm

Участники альянса настроены оптимистично, однако в их число пока не входит ни один из крупных разработчиков CPU, в частности, Arm. В настоящее время главной архитектурой для приложения своих усилий они видят RISC-V, о чём свидетельствует документация на CHERI ISAv9. Впрочем, черновой вариант расширений имеется и для x86-64.

Сама Arm этого оптимизма не разделяет. Компания имеет за плечами пятилетний опыт разработки проекта Morello, основанному на идеях CHERI, но, по словам представителя Arm, процесс тестирования прототипов защищённых систем выявил ряд ограничений, пока препятствующий их широкому распространению на рынке. Тем не менее, работы над платформой Morello будут продолжены. При этом буквально на днях для Arm-процессоров была выявлена атака TikTag, направленная на обход механизма защиты памяти Memory Tagging Extensions (MTE).

Постоянный URL: http://servernews.kz/1106875
15.06.2024 [00:25], Алексей Степин

Intel поймала AMD на подтасовке результатов в ИИ-тестах EPYC против Xeon

На Computex 2024 AMD анонсировала новое поколение серверных процессоров EPYC Turin на базе архитектуры Zen 5. При этом компания продемонстрировала слайды, из которых следует, что новые решения серьёзно опережают процессоры Intel Xeon. Так, 128-ядерный Turin сравнивается с 64-ядерным Xeon Platinum 8592+ (Emerald Rapids). AMD говорит о 2,5–5,4-кратном превосходстве, однако Intel опровергает полученные результаты и достаточно подробно разбирает вопрос тестирования в своём блоге.

Конечно, превосходство AMD в чисто количественных показателях очевидно, но в сложных вычислительных задачах, к которым относятся HPC- и ИИ-сценарии, не меньшую, а то и большую роль может играть оптимизация ПО. Intel отмечает, что AMD не привела в своём анонсе конкретных сведений о версиях и настройках ПО, и, вероятнее всего, отказалась от различных расширений. Но, например, Intel Extension for PyTorch (IPEX) позволяет добиться более чем пятикратного прироста производительности по сравнению с «чистой» версией PyTorch.

Для системы с двумя Xeon Platinum 8592+ применение IPEX позволяет поднять производительность инференса в режиме INT4 с чат-ботом на базе Llama2-7B со 127 до 686 запросов в секунду при заданной задержке не более 50 мс. Для своей 256-ядерной платформы на базе Turin AMD говорит про 671 запрос — как видно, с оптимизацией результаты получаются вполне сопоставимыми.

 Источник: AMD

Источник: AMD

И потенциал для дальнейшего роста у Xeon есть: Intel сообщает, что при отключении функции Sub-NUMA Clustering результат может достигать 740 запросов. К сожалению, для других тестов компания диаграмм не опубликовала, хотя и там оптимизация позволяет добиться увеличения производительности в 1,2–2,3 раза. Этого уже не хватает, чтобы бороться с платформой Turin, которая, помимо превосходства в числе ядер, использует и более мощную 12-канальную подсистему памяти.

 Источник: Intel

Источник: Intel

Следует отметить, что Intel не сказала последнего слова: Xeon Platinum 8592+ уже не нов, а в ближайшем будущем AMD Turin придётся столкнуться с Xeon 6 с большим числом ядер. Пока эти чипы доступны лишь в исполнении с энергоэффективными ядрами, но уже в III квартале появятся и 128-ядерные Granite Rapids с производительными P-ядрами и 12-канальной памятью.

 Источник: Intel

Источник: Intel

Тем не менее, тема затронута достаточно фундаментальная: свои плюсы имеет как чисто количественный подход, которого придерживается AMD, так и подход Intel, позволяющий добиться высоких результатов при тщательной оптимизации под более комплексную архитектуру. Нельзя сказать, что результаты AMD являются мошенничеством, хотя случай и не первый — согласно тестам компании, ускоритель Instinct MI300X серьёзно опередил NVIDIA H100, но при этом AMD точно так же «забыла» про оптимизированный фреймворк TensorRT-LLM. Правда, в тот раз «честь мундира» отстоять удалось и с оптимизациями NVIDIA.

Постоянный URL: http://servernews.kz/1106533
04.06.2024 [14:15], Сергей Карасёв

Intel представила процессоры Xeon 6 с P- и E-ядрами: 144-ядерные 6700E уже доступны

Корпорация Intel представила процессоры Xeon 6, предназначенные для решения различных задач — от поддержания облачных приложений до нагрузок, связанных с ИИ и НРС. Процессоры Xeon 6 E-core стали доступны с сегодняшнего дня. Поставки Xeon 6 P-core будут организованы в III квартале текущего года.

Напомним, схему обозначения чипов Xeon компания Intel изменила в апреле нынешнего года, отказавшись от бренда Scalable в пользу более простой нумерации — в данном случае Xeon 6. В это семейство вошли изделия на основе исключительно энергоэффективных ядер E-core (Sierra Forest) и на базе производительных ядер P-core (Granite Rapids).

 Источник изображений: Intel

Источник изображений: Intel

Intel обещает увеличение производительности на Вт в 2,6 раза по сравнению с Cascade Lake-SP при выполнении задач, связанных с транскодированием мультимедийных материалов. Прирост производительности на уровне стойки достигает 4,2 раза благодаря высокой плотности размещения вычислительных ядер. Чипы ориентированы прежде всего на облачные приложения, сети доставки контента, сетевые микросервисы и потребительские цифровые сервисы.

Процессоры Xeon 6 разделены на серии 6700 и 6900. В обоих случаях обеспечивается поддержка CXL 2.0 (Type 1, Type 2 и Type 3). Для изделий 6700 Series заявлено 1,4-кратное увеличение пропускной способности памяти и 1,1-кратное повышение I/O-производительности по сравнению с Xeon Emerald Rapids. В свою очередь, решения 6900 Series обеспечивают увеличение пропускной способности между сокетами до 1,8 раза по сравнению с Xeon Emerald Rapids. Благодаря этому существенно повышается производительность при выполнении наиболее ресурсоёмких задач.

На сегодняшний день в семействе Xeon 6700 Sierra Forest представлены семь чипов в исполнении LGA 4710: это модели Xeon 6710E, Xeon 6731E, Xeon 6740E, Xeon 6746E, Xeon 6756E, Xeon 6766E и Xeon 6780E. Они насчитывают от 64 до 144 E-ядер без поддержки многопоточности, так что по количеству ядер и потоков они заведомо отстают от AMD EPYC Turin. Поддерживается оперативная память DDR5-5600/6400. Количество линий PCIe 5.0 / CXL 2.0 равно 88. Объём кеша L3 — 96 или 108 Мбайт. Показатель TDP варьируется от 205 до 330 Вт.

Постоянный URL: http://servernews.kz/1105900
Система Orphus