Материалы по тегу: ram

14.08.2023 [17:37], Алексей Степин

CXL-пул Panmnesia втрое быстрее RDMA-систем и может предложить 6 Тбайт RAM

На конференции Flash Memory Summit южнокорейская компания Panmnesia продемонстрировала свою версию CXL-пула DRAM объёмом 6 Тбайт на базе программно-аппаратного стека собственной разработки. Новинка продемонстрировала более чем троекратное превосходство над системой, построенной на базе технологии RDMA, в нагрузках, связанной с работой рекомендательной ИИ-системы Meta✴.

Panmnesia разработана в сотрудничестве с Корейским инститом передовых технологий (KAIST). О более раннем варианте разработок KAIST в этой области мы рассказывали в 2022 году. Коммерческий вариант комплекса поддерживает CXL 3.0 и состоит из CXL-процессора, коммутатора и модулей расширения памяти. Все модули выполнены в форм-факторе, чрезвычайно напоминающем FHFL-карты. Модули устанавливаются в универсальное шасси, при этом их можно произвольно комбинировать.

Источник изображений здесь и далее: Panmnesia

Демо-платформа содержала два процессорных модуля, три модуля коммутации и шесть 1-Тбайт модулей памяти. Модули памяти построены на базе обыкновенных DIMM-планок и поддерживают их замену и расширение. Реализован не только режима CXL.mem, но и CXL.cache и CXL.io. При этом компания предлагает не только готовые IP-решения, но и их кастомизацию под конкретного заказчика, что поможет оптимизировать цикл создания продукта и снизить общую стоимость разработки и валидации.

Фирменное ПО базируется на Linux и содержит необходимые драйверы, а также специализированную виртуальную машину, с помощью которой пространство памяти представляется в виде безпроцессорного NUMA-узла. Поверх этих компонентов функционирует пользовательская часть, отвечающая за эффективное размещение и предвыборку (prefetching) данных.

По ряду параметров Panmnesia можно назвать лидером в области CXL-решений. В частности, по объёму DRAM она уже обгоняет совместное решение Samsung, MemVerge, H3 и XConn, а использование DIMM-модулей только придаёт ей гибкости. Развитая программная часть, как утверждается, упрощает и удешевляет интеграцию в существующую инфраструктуру ЦОД.

Спектр применения, как и у всех систем CXL-пулинга, крайне широкий и включает в себя не только ИИ-сценарии, но и любые задачи, требующие большого объёма оперативной памяти.

Постоянный URL: http://servernews.kz/1091449

12.08.2023 [00:00], Алексей Степин

2 Тбайт RAM для ИИ: Samsung, MemVerge, H3 и XConn создали компактный CXL-пул памяти

На конференции Flash Memory Summit альянс компаний Samsung, MemVerge, H3 Platform и XConn Technologies продемонстрировал первые плоды своего сотрудничества. Речь идёт о новом CXL-пуле памяти ёмкостью 2 Тбайт, ставшим ответом на ряд проблем, с которым сталкиваются масштабные ИИ-платформы сегодня. Хостам, подключённым к пулу, можно динамически выделять требуемый объём RAM.

Таких проблем, связанных со слишком тесной привязкой DRAM непосредственно к процессорам или ускорителям, можно назвать множество: потеря производительности при вынужденном сбросе данных на медленные накопители, излишнее перемещение данных из памяти и обратно, повышенная нагрузка на подсистему хранения данных, да и нехватка памяти. А памяти современным ИИ-системам требуется всё больше и больше, но наращиванию её ёмкости мешает слишком «процессороцентричная» архитектура.

Источник изображения: MemVerge

Многие видят здесь выход в отказе от традиционной концепции и переходе на композитную инфраструктуру, использующую возможности CXL в области организации вынесенных и легко наращиваемых при необходимости пулах памяти. Является таким пулом и демонстрируемая содружеством вышеназванных компаний система 2TB Pooled CXL Memory System.

Источник изображения: Samsung

Её основой стали CXL-модули Samsung ёмкостью 256 Гбайт с интерфейсом PCIe 5.0, имеющие максимальную пропускную способность до 35 Гбайт/с. В качестве связующего звена применены коммутаторы XConn Technologies XC50256 (Apollo). Эти чипы имеют 256 линий PCIe 5.0/CXL 2.0, которые группируются в 32 порта и могут обеспечить коммутацию на скорости до 2048 Гбайт/с при минимальной латентности. Как отметил представитель XConn, новые ASIC по всем параметрам превосходят аналогичные решения предыдущего поколения на базе FPGA.

Источник изображения: XConn Technologies

Компания H3 Platform разработала компактное высокоплотное 2U-шасси. Также она отвечает за управляющее ПО H3 Fabric Manager, позволяющее удобно распределять CXL-ресурсы. Наконец, MemVerge ответственна за ПО, реализующее функцию «бесконечной памяти» — Memory Machine X. Этот комплекс, отвечающий за виртуализацию массивов памяти, поддерживает гибкое масштабирование, tiering, динамическое выделение памяти приложениям и многое другое, включая службу Memory Viewer, позволяющую наблюдать за топологией и загрузкой системы в реальном времени.

Постоянный URL: http://servernews.kz/1091377

08.08.2023 [20:48], Алексей Степин

Micron представила CXL-модули DRAM объёмом 128 и 256 Гбайт

Компания Micron Technology анонсировала доступность первых партий CXL-модулей расширения памяти CZ120 для своих партнёров. Новые модули соответствуют стандарту CXL 2.0 Type 3 и имеют двухканальную архитектуру. Они выполнены в форм-факторе E3.S 2T (PCI Express 5.0 x8) и представлены в вариантах ёмкостью 128 и 256 Гбайт.

Заявленная пропускная способность новых модулей благодаря фирменной двухканальной архитектуре составляет 36 Гбайт/с (впрочем, это может быть опечатка). В качестве сценариев применения своих новинок Micron называет ситуации, где из-за возросших нагрузок требуется всё больший объём памяти, например, для работы с ИИ или in-memory задачами — с восемью модулями CZ120 можно дополнительно получить до 2 Тбайт RAM. Также новинки должны заинтересовать гиперскейлеров.

Источник изображений здеь и далее: Micron Technology

Но дело не только в объёмах — CZ120 выручит и там, где требуется дополнительная пропускная способность. В варианте с восемью модулями это означает дополнительные 256 Гбайт/с. CXL-модули несколько проигрывают в латентности традиционным DIMM, но «штраф» в этом случае не больше, нежели один переход в NUMA-системе.

В настоящее время компания тесно сотрудничает с Intel в деле валидации модулей CZ120 на платформе Xeon Sapphire Rapids, которая в полном объёме поддерживает лишь CXL 1.1, но не 2.0. Также новинки показали отличный результат на платформе AMD EPYC 9754 (Bergamo) в тестах TPC-H, сообщил представитель AMD.

Стоит отметить, что Micron не первой освоила DRAM-модули CXL 2.0 — ещё в мае Samsung представила свои модули объёмом 128 Гбайт в форм-факторе E3.S, всего год спустя после анонса первых в мире CXL-модулей DDR5. Свои E3.S-решения также представили SK hynix и ADATA, а Astera Labs и Montage Technology предложили экспандеры в форм-факторе плат расширения.

Постоянный URL: http://servernews.kz/1091207

18.07.2023 [14:48], Сергей Карасёв

Team Group представила индустриальные модули DDR5 ёмкостью 24 и 48 Гбайт

Компания Team Group анонсировала модули оперативной памяти стандарта DDR5 для промышленного и коммерческого секторов. Это могут быть встраиваемые компьютеры, системы периферийных вычислений, высокопроизводительные рабочие станции, автомобильные компьютеры и пр.

Отмечается, что обычно промышленная память DDR5 имеет ёмкость до 32 Гбайт на модуль. Однако с развитием облачных вычислений, IoT, платформ ИИ и Big Data потребность в наращивании ёмкости DDR5 возрастает.

Источник изображения: Team Group

Чтобы удовлетворить спрос в корпоративном сегменте, Team Group увеличила объём промышленных изделий DDR5 до 48 Гбайт. Кроме того, заказчикам будут предлагаться решения ёмкостью 24 Гбайт. Они, как говорится, обеспечивают более высокую гибкость при развёртывании приложений разного типа и позволяют клиентам лучше справляться с обработкой больших массивов данных, сложным моделированием и аналитическими задачами.

Вся промышленная память Team Group стандарта DDR5 может быть оснащена запатентованными графеновыми радиаторами, которые обеспечивают более высокую и стабильную производительность в различных температурных условиях. Новая память доступна в различных вариантах исполнения — DDR5 non-ECC U/SO-DIMM, DDR5 ECC U/SO-DIMM и DDR5 ECC R-DIMM.

Постоянный URL: http://servernews.kz/1090148

14.07.2023 [19:40], Алексей Степин

Samsung и SK Hynix работают над снижением энергопотребления оперативной памяти

Чем активнее внедряются ИИ-системы, тем важнее становится роль памяти HBM и DDR5, а в особенности её энергоэффективность. Так, в крупномасштабных системах на базе NVIDIA A100 на долю памяти может приходиться до 40 % потребляемой энергии. Неудивительно, что крупные производители памяти объединяют свои усилия с академическими кругами, чтобы разработать более экономичную память нового поколения.

В частности, Samsung на базе CXL и 12-нм техпроцесса уже разработала чипы DDR5 ёмкостью 16 Гбайт, который на 23 % экономичнее в сравнении с аналогичными чипами предыдущего поколения. В содействии с Сеульским национальным университетом (Seoul National University) Samsung продолжает вести работы по дальнейшему снижению энергопотребления. Сам университет также ведёт исследования в этом направлении и уже разработал новую технологию DRAM Translation Layer. Ожидается, что её внедрение поможет снизить энергопотребление DRAM ещё на 31,6 %.

Источник: SK Hynix

Не отстаёт от Samsung и другой крупный производитель устройств памяти, компания SK Hynix. Она представила новое поколение LPDDR5X, в котором применен техпроцесс High-K Metal Gate (HKMG). Благодаря материалу с оптимизированной диэлектрической проницаемостью удалось впятеро повысить заряд в ячейке, снизив при этом токи утечки. В итоге новая память LPDDR5X от SK Hynix может похвастаться на 33 % более высокой производительностью при 20 % экономии в энергопотреблении, в сравнении с предыдущим поколением.

Постоянный URL: http://servernews.kz/1089995

04.11.2019 [21:00], Алексей Степин

IBM продвигает открытый стандарт оперативной DDIMM-памяти OMI для серверов

Практически у всех современных процессоров контроллер памяти давно и прочно является частью самого ЦП, будь то монолитный кристалл или чиплетная сборка. Но не всегда подобная монолитность является плюсом — к примеру, она усложняет задачу увеличения количества каналов доступа к памяти.

Таких каналов уже 8 и существуют проекты процессоров с 10 каналами памяти. Но это усложняет как сами ЦП, так и системные платы, ведь только на подсистему памяти, без учёта интерфейса PCI Express, может уйти 300 и более контактов, которые ещё требуется корректно развести и подключить.

Организация подсистемы памяти у POWER8

У IBM есть ответ, и заключается он в переносе части функций контроллера памяти на сторону модулей DIMM. Сам интерфейс между ЦП и модулями памяти становится последовательным и предельно унифицированным. Похожая схема использовалась в стандарте FB-DIMM, аналогичную компоновку применила и сама IBM в процессорах POWER8 и POWER9 в варианте Scale-Up.

Роль и возможности буфера Centaur у POWER8

Контроллер памяти у этих процессоров упрощён, в нём отсутствует контроллер физического уровня (PHY). Его задачи возложены на чип-буфер Centaur, который посредством одноимённого последовательного интерфейса и связывается с процессором на скорости 28,8 Гбайт/с.

Контроллеров интерфейса Centaur в процессорах IBM целых восемь, что дает ПСП в районе 230 Гбайт/с. За счёт выноса ряда функций в чипы-буфера удалось сократить площадь кристалла, и без того немалую (свыше 700 мм2), но за это пришлось заплатить увеличением задержек в среднем на 10 нс. Частично это сглажено за счёт наличия в составе Centaur кеша L4.

Сравнительные размеры модулей Centaur, RDIMM и OMI DDIMM

Стандарт не является открытым, но IBM предлагает ему на смену полностью открытый вариант под названием Open Memory Interface (OMI). В его основу положена семантика и протоколы, описанные в стандарте OpenCAPI 3.1, а физический уровень представлен шиной BlueLink (25 Гбит/с на линию), которая уже используется для реализации NVLink и OpenCAPI.

Реализация OMI проще Centaur, что позволяет сделать чип-буфер более компактным и выделяющим меньше тепла. Но все преимущества сохраняются: так, число контактов процессора, отвечающих за интерфейс памяти, можно снизить с примерно 300 до 75, поскольку посылаются только простые команды загрузки и сохранения данных. Вся реализация физического интерфейса осуществляется силами чипа-компаньона OMI, и в нём же может находиться дополнительный кеш.

Модули OMI DDIMM станут стандартом JEDEC

Помимо экономии контактов есть и ещё одна выгода: можно реализовать любой тип памяти, будь то DDR, GDDR и даже NVDIMM — вся PHY-часть придётся на различные варианты чипов OMI, но со стороны стандартного разъёма любой модуль OMI будет выглядеть одинаково. Сейчас взят прицел на реализацию модулей с памятью DDR5.

При использовании существующих чипов DDR4 система с интерфейсом OMI может достичь совокупной ПСП порядка 650 Гбайт/с. Дополнительные задержки составят 5 ‒ 10 нс для RDIMM и лишь 4 нс для LRDIMM. Из всех соперников технологии на такое способны только сборки HBM, которые в силу своей природы имеют ограниченную ёмкость, дороги в реализации и не могут быть вынесены с общей с ЦП подложки.

Новый стандарт упростит процессоры и позволит увеличить ёмкость подсистемы памяти

Чипы-буферы OMI можно разместить как на модуле памяти, так и на системной плате. Разумеется, для стандартизации выбран первый вариант. В нём предусмотрено 84 контакта на модуль, сами же модули получили название Dual-Inline Memory Module (DDIMM).

View this post on Instagram✴

А вот первые модули #DDIMM от #Microchip и механические прототипы платформы на #SC19 #OpenCAPI #GenZ #DRAM #память #3dnews #3dnewsru

A post shared by 3DNews (@3dnews_live) on Nov 21, 2019 at 11:18am PST

DDIMM вышли существенно компактнее своих традиционных собратьев: ширина модуля сократилась со 133 до 85 мм. Реализация буфера OMI ↔ DDR4 уже существует в кремнии: компания Microsemi продемонстрировала чип SMC 1000 (PM8596), поддерживающего 8 линий OMI со скоростью 25 Гбит/с каждая. Допустима также работа в режиме 4 × 1 с вдвое меньшей общей пропускной способностью.

DDIMM существенно компактнее классических модулей памяти

DDIMM: меньше ширина, проще разъём

Со стороны чипов памяти SMC 1000 имеет стандартный 72-битный интерфейс с ECC и поддержкой различных комбинаций DRAM и NAND-устройств. Тактовая частота DRAM — до 3,2 ГГц, высота модуля зависит от количества и типов устанавливаемых чипов.

В случае одиночной высоты модули могут иметь ёмкость до 128 Гбайт, двойная высота позволит создать DDIMM объёмом свыше 256 Гбайт. Сам чип SMC 1000 невелик, всего 17 × 17 мм, а невысокое тепловыделение гарантирует отсутствие проблем с перегревом, свойственных FB-DIMM.

Процессоры IBM POWER9 AIO дополнили существующую серию

Первыми процессорами с поддержкой OMI стали новые POWER9 версии Advanced I/O (AIO), дополнившие семейства Scale Up (SC) и Scale Out (SO). В них реализовано 16 каналов OMI по 8 линий каждый (до 650 Гбайт/с суммарно), а также новые версии интерфейсов NVLink (возможно, 3.0) и OpenCAPI 4.0. Количество линий PCI Express 4.0 по-прежнему составляет 48.

Шина IBM BlueLink была переименована в PowerAXON. За счёт её использования в системах на базе процессоров POWER возможна реализация 16-сокетных систем без применения дополнительной логики. Максимальное количество ядер у POWER9 AIO равно 24, с учётом SMT4 это даёт 96 исполняемых потоков. Имеется также кеш L3 типа eDRAM объёмом 120 Мбайт. Техпроцесс остался прежним, это 14-нм FinFET.

Архитектура подсистем памяти у семейства IBM POWER9

Поставки POWER9 AIO начнутся в этом году, цены неизвестны, но с учётом 8 миллиардов транзисторов и кристалла площадью 728 мм2 они не могут быть низкими. Однако без OMI эти процессоры были бы ещё более дорогими. В комплект поставки входит и чип-буфер OMI, правда, не самая быстрая версия с пропускной способностью на уровне 410 Гбайт/с. Задел для модернизации есть, и для расширения ПСП достаточно будет заменить модули DDIMM на более быстрые варианты.

Сравнительная таблица существующих и будущих версий OpenCAPI

Следующее поколение процессоров IBM, POWER10, появится только в 2021 году. К этому времени ожидается принятие стандарта OMI на рынке высокопроизводительных многопроцессорных систем. Попутно IBM готовит новые версии OpenCAPI, не привязанные к архитектуре POWER, а значит, путь к OMI будет открыт и другим вендорам.

Постоянный URL: http://servernews.kz/996907