Материалы по тегу: ocp
02.05.2025 [13:55], Сергей Карасёв
MSI представила многоузловые OCP-серверы на базе AMD EPYC 9005 TurinКомпания MSI анонсировала многоузловые серверы высокой плотности, выполненные в соответствии со стандартом OCP ORv3 (Open Rack v3). Дебютировали модели Open Compute CD281-S4051-X2 и Core Compute CD270-S4051-X4 на аппаратной платформе AMD EPYC 9005 Turin. Решение Open Compute CD281-S4051-X2, выполненное в форм-факторе 2OU, представляет собой двухузловой сервер для инфраструктур гиперскейлеров. Каждый узел может оснащаться одним процессором EPYC 9005 с показателем TDP до 500 Вт и 12 модулями DDR5. Доступны до 12 посадочных мест для накопителей E3.S с интерфейсом PCIe 5.0 (NVMe). Говорится о поддержке CPU-радиаторов Extended Volume Air Cooling (EVAC) и 48-вольтной архитектуры питания ORv3 (48VDC). В свою очередь, Core Compute CD270-S4051-X4 (S4051D270RAU3-X4) — это четырёхузловой сервер стандарта Data Center Modular Hardware Systems (DC-MHS). Устройство имеет типоразмер 2U. Оно подходит для облачных вычислений, CDN-сетей, ИИ-инференса и машинного обучения, виртуализации сетевых функций, телеком-приложений и пр. Каждый узел новинки рассчитан на один чип EPYC 9005 с TDP до 400 Вт. Есть 12 слотов для модулей DDR5-6000 RDIMM/RIMM-3DS суммарным объёмом до 3 Тбайт, три фронтальных отсека для накопителей U.2 с интерфейсом PCIe 5.0 x4 (NVMe), два внутренних коннектора M.2 2280/22110 для SSD с интерфейсом PCIe 3.0 x2 (NVMe), а также слот PCIe 5.0 x16 OCP 3.0. Кроме того, каждый узел располагает контроллером ASPEED AST2600, сетевым портом управления 1GbE, разъёмами USB 2.0 Type-A и Mini DisplayPort, последовательным портом (USB Type-A). Вся система Core Compute CD270-S4051-X4 оборудована двумя блоками питания мощностью 2700 Вт с сертификатом 80 PLUS Titanium. Установлены четыре вентилятора охлаждения с возможностью горячей замены. Диапазон рабочих температур — от 0 до +35 °C. Габариты составляют 448 × 87 × 747 мм.
02.05.2025 [13:50], Сергей Карасёв
MiTAC анонсировала OCP-серверы на основе AMD EPYC Turin с воздушным и жидкостным охлаждением, а также edge-сервер на базе Intel Xeon Sapphire RapidsКомпания MiTAC Computing Technology представила OCP-серверы нового поколения C2810Z5 и C2820Z5, предназначенные для приложений ИИ и НРС. Устройства выполнены на аппаратной платформе AMD EPYC 9005 Turin. Решение C2810Z5 типоразмера 2OU имеет двухузловую конструкцию. Каждый узел допускает установку одного процессора и 12 модулей оперативной памяти DDR5-6400. Доступны шесть отсеков для накопителей U.2 и два посадочных места для SSD стандарта E1.S. Предусмотрены слоты PCIe 5.0 x16 для карт FHHL, HHHL и OCP NIC 3.0. Устройство оснащено воздушным охлаждением. Данная модель подходит для развёртывания микросервисов в облачных средах. В свою очередь, вариант C2820Z5 — это четырёхузловая система 2OU с технологией прямого жидкостного охлаждения. Каждый узел поддерживает два процессора EPYC 9005 Turin и 24 модуля памяти DDR5. Сервер подходит для высокопроизводительных вычислений. Кроме того, MiTAC анонсировала семейство серверов Whitestone 2 (WS2): это, как утверждается, компактная, но мощная платформа, специально оптимизированная для сетей Open RAN и периферийных задач. Система выполнена в корпусе небольшой глубины формата 1U. Задействован процессор Intel Xeon поколения Sapphire Rapids. Предусмотрены восемь слотов для модулей DDR5. Во фронтальной части находятся четыре порта 25GbE SFP28 и восемь портов 10GbE SFP+. Говорится о поддержке IEEE 1588 v2, Sync-E и GPS для синхронизации. В тыльной части располагаются вентиляторы охлаждения в виде девяти сдвоенных блоков.
01.05.2025 [00:45], Руслан Авдеев
Google готовит мегаваттные стойки с питанием 400 В и СЖО для ИИ-платформ будущегоGoogle представил технологию питания 400 В постоянного тока (DC) и систему жидкостного охлаждения пятого поколения Project Deschutes для стоек нового поколения, которы призваны поддержать стремительное развитие ИИ. В течение последних десяти лет компания использует питание 48 В DC, но переход к новому стандарту позволит повысить максимальную мощность на одну стойку со 100 кВт до 1 МВт. Ожидается, что отдельные стойки с ИИ-системами будут потреблять свыше 500 кВт уже к 2030 году. Так, грядущий суперускоритель NVIDIA Rubin Ultra NVL576, который появится в 2027 году, будет «упакован» в стойку нового поколения Kyber и потреблять порядка 600 кВт. Google, надо полагать, разработает собственную модификацию данного ускорителя, адаптированного к её дата-центрам, как уже сделала для GB200 NVL72. Использование 400 В позволяет задействовать цепочку поставок, используемую индустрией электромобилей, что способствует снижению затрат и повышению качества. Совместно с Meta✴ и Microsoft компания Google работает над проектом Mt. Diablo, в рамках которого вырабатываются общие стандарты электрических и механических интерфейсов. Первая версия спецификаций (v0.5) будет доступна для отраслевого обсуждения в мае 2025 года. ![]() Источник изображения: Google Подсистема питания в Mt. Diablo вынесена в отдельный модуль (sidecar). Это увеличивает полезное пространство в серверных стойках, позволяя целиком отдать их под ускорители, и повышает общую энергоэффективность приблизительно на 3 %, что в масштабах гиперскейлера очень существенно. В перспективе рассматривается переход на прямое распределение высоковольтного постоянного тока внутри ЦОД для ещё большей эффективности и повышения плотности. ![]() Источник изображения: Google С резким повышением энергопотребления чипов использование СЖО стало неизбежным. В последние семь лет Google развернула СЖО в более 2 тыс. кластеров TPU Pod. Впервые жидкостное охлаждение стало применяться для ИИ-ускорителей TPU v3, появившихся в 2018 году. Компания использует водоблоки, что позволяет практически удвоить плотность размещения вычислительных мощностей в сравнении с воздушным охлаждением. При переходе от TPU v2 к TPU v3 это также позволило вчетверо увеличить размер кластеров. СЖО применяются и для ускорителей Ironwood (TPU v7). CDU-архитектура Project Deschutes, в которой используются резервные теплообменники и насосы, обеспечивает уровень доступности 99,999 %. Пятое поколение Project Deschutes Google планирует передать Open Compute Project (OCP) в 2025 году. Публикация спецификаций, проектных данных и рекомендаций по эксплуатации ускорит массовое внедрение СЖО в индустрии. В компании уверены, что совместные усилия помогут индустрии справиться с будущими вызовами в индустрии ИИ и масштабировать вычислительные мощности и дальше.
18.03.2025 [23:26], Владимир Мироненко
Dell представила сервер PowerEdge XE8712 на базе NVIDIA GB200 NVL4Компания Dell представила сервер PowerEdge XE8712, предназначенный для обработки разнообразных ИИ-нагрузок и HPC, включая обучение ИИ-моделей, молекулярное моделирование, геномное секвенирование, а также моделирование процессов на финансовых рынках. ![]() Источник изображений: Dell В основе PowerEdge XE8712 лежит плата NVIDIA GB200 NVL4. Сервер оснащён суперчипом GB200 Grace Blackwell Superchip, включающим четыре ускорителя B200 Blackwell и два 72-ядерных Arm-процессора NVIDIA Grace. Как отмечает производитель, благодаря возможности установки до 144 ускорителей NVIDIA Blackwell (36 узлов) в одну стойку Dell серии IR7000, XE8712 обеспечивает одну из самых высоких в отрасли плотностей размещения GPU. Это позволяет выполнять больше рабочих нагрузок ИИ и HPC в меньшем физическом пространстве, снижая эксплуатационные расходы без ущерба для вычислительной мощности. Для отвода тепла в XE8712 используется технология прямого жидкостного охлаждения (DLC) — до 264 кВт на стойку. Dell IR7000 отличается раздельными полками питания с общей шиной питания мощностью до 480 кВт. Эта модульная ORv3-стойка легко интегрируется в различное окружения и будет совместима с серверами Dell PowerEdge следующего поколения.
04.03.2025 [11:10], Сергей Карасёв
SoftBank, ZutaCore и Foxconn представили стоечную систему с ИИ-серверами на базе NVIDIA H200 и двухфазной СЖОКомпании ZutaCore, Hon Hai Technology Group (Foxconn) и SoftBank объявили о внедрении двухфазной технологии прямого жидкостного охлаждения (DLC) в ИИ-сервер с ускорителями NVIDIA H200. Утверждается, что это первая подобная реализация на рынке. Двухфазная DLC-система ZutaCore служит для отвода тепла от CPU, GPU, микросхем памяти и других критичных компонентов в серверах. Данное решение по сравнению с традиционными средствами охлаждения позволяет снизить энергопотребление дата-центра и повысить общую эффективность. В результате сокращаются выбросы вредных газов в атмосферу. Система ZutaCore использует специальную охлаждающую пластину, которая находится в контакте с CPU, GPU и другими элементами сервера с большим тепловыделением. Применяется диэлектрическая жидкость с низкой температурой кипения: при нагреве происходит фазовый переход из жидкого в газообразное состояние. Эффективное охлаждение достигается благодаря многократному испарению и конденсации. ![]() Источник изображений: ZutaCore При этом температура жидкости может поддерживаться на более высоком уровне, чем в обычных системах с водяным охлаждением, что повышает эффективность отвода тепла, говорится в пресс-релизе. Кроме того, снижается нагрузка на насос, что способствует сокращению энергопотребления. Использование диэлектрического состава предотвращает серьезные повреждения сервера в случае протечки. В рамках партнёрства Foxconn разработала ИИ-сервер на базе NVIDIA H200 с двухфазной DLC-системой ZutaCore. В свою очередь, SoftBank создала серверную стойку, предназначенную для максимально эффективного охлаждения оборудования посредством двухфазной DLC-технологии. Эта ORv3-стойка совместима с 21″ и 19″ серверами. Источники питания и основная проводка сосредоточены в задней части для обеспечения безопасности эксплуатации и повышения удобства обслуживания.
03.03.2025 [15:23], Руслан Авдеев
Google развернула уже 100 млн литий-ионных ячеек в своих ЦОДСистемы энергоснабжения дата-центров во многом зависят от аккумуляторов в составе ИБП. Участники рынка ЦОД активно инвестируют в создание аккумуляторных систем — не так давно число используемых Li-Ion элементов в дата-центрах Google по всему миру достигло 100 млн шт., сообщает пресс-служба компании. В Google используются системы электропитания с 48 В постоянного тока (48Vdc), причём ИБП интегрированы непосредственно в стойки. Такая распределённая архитектура обладает двумя ключевыми преимуществами: область возможного сбоя ИБП ограничивается одной стойкой; нет дополнительной точки отказа между ИБП и серверами. Такой подход снижает общую стоимость владения (TCO), поскольку ИБП масштабируется вместе с инфраструктурой, благодаря чему уменьшаются затраты на начальном этапе внедрения, говорит компания. Размещение батарей на DC-шине вместе с серверами исключает потери энергии, связанные с промежуточными преобразованиями переменного тока (AC) в постоянный (DC), положительно влияя на общую эффективность системы. В 2016 году Google открыла спецификации своей системы электропитания стоек, включая спецификации для литий-ионных BBU, в рамках Open Compute Project (OCP). Кроме того, Li-Ion аккумуляторы вдвое долговечнее и вдвое мощнее свинцово-кислотных элементов, применявшихся ранее. Таким образом, переход с одних на другие означает, что теперь можно использовать меньше батарей, что также положительно влияет на экологичность ЦОД, говорит Google. В Google отмечают, что развернуть 100 млн Li-Ion элементов можно только благодаря подходу «безопасность прежде всего», принятому в компании. Основным риском для такого типа элементов является возможность неуправляемого нагрева, т. н. «теплового разгона» в случае, если с ними некорректно обращаются, чрезмерно заряжают или не охлаждают должным образом. В результате могут случаться пожары, и хотя такое бывает редко, огонь очень трудно погасить из-за выделения большого количества тепла и риска «цепной реакции» воспламенения соседних элементов. Для использования большого «парка» АКБ в Google применяют метод тестирования UL9540A (стандарт, разработанный для оценки безопасности энергосистем, включая аккумуляторы) и проводит строгие испытания литий-ионных блоков BBU. В результате Google успешно получила от регуляторов разрешения на использование BBU даже в Азиатско-Тихоокеанском регионе, где действуют самые жёсткие правила. Сейчас в Google изучают возможность использования больших энергохранилищ (BESS). Безопасность аккумуляторов — не праздный вопрос. Пожары в дата-центрах вообще случаются не так уж редко, а во многих случаях причиной служат именно инциденты с аккумуляторами. За примерами не надо далеко ходить: один из крупнейших в мире сбоев ЦОД южнокорейской площадки Kakao произошёл именно из-за перегрева и возгорания литий-ионных аккумуляторов SK On, что привело к пожару. В сентябре 2024 года из-за возгорания Li-Ion элементов ИБП пострадал сингапурский ЦОД Digital Realty. В 2023 году эксперты Uptime Institute предупреждали о возможной опасности использования Li-Ion элементов в дата-центрах, поскольку они подвержены повышенному риску возгорания.
04.01.2025 [15:21], Руслан Авдеев
Microsoft совместно с учёными США разработала экологичные облачные серверы GreenSKU, которые используют RAM и SSD из старых системУчёные из Microsoft, Университета Карнеги-Меллона и Вашингтонского университета разработали новый стандарт экологичных серверов GreenSKU, которые позволят снизят углеродные выбросы ЦОД, сообщает IEEE Spectrum. Кроме того, была представлена модель GreenSKU Framework для расчёта целесообразности использования подобных систем в дата-центрах гиперскейлеров и подбора оптимальных конфигураций. Созданные в рамках концепции GreenSKU прототипы серверов были протестированы в ЦОД Azure. ![]() Источник изображений: Microsoft Исследование, вышедшее минувшим летом, изучает возможность использования компонентов из списанных серверов. Это важно, поскольку сегодня во многих случаях при сбое одного компонента из эксплуатации выводится сервер целиком. Кроме того, Microsoft меняет серверы Azure каждые 3–5 лет для оптимизации производительности. И в этом случае работоспособные компоненты всё равно обычно не используются в других серверах. Согласно выкладкам исследователей, уровень сбоев оперативной памяти (AFR) после кратковременного всплеска вскоре после развёртывания остаётся примерно одинаковым на протяжении не менее семи лет. А износ SSD составляет около половины. Впрочем, в данном случае речь идёт об M.2-накопителях. Их надёжность и скорость работы можно повысить простым объединением в RAID-массив. А для их использования в современных платформах с E1.S-корзинами есть готовые пассивные адаптеры, благо стандарт PCIe обладает обратной совместимостью. ![]() С памятью дело обстоит не так просто. Предыдущие поколения серверов использовали DDR4, тогда как актуальные платформы работают только с DDR5. Однако выход есть — в современных CPU появилась поддержка CXL. Точнее, CXL Type 3 (CXL.mem), что позволяет подключать по PCIe пулы DRAM. Они представлены в виде NUMA-узлов без CPU. Такое подключение памяти даёт большую задержку, но современные гипервизоры умеют работать с такими пулами, отправляя в них редко используемые массивы данных. ![]() Старые процессоры переиспользовать не выйдет. Они гораздо менее энергоэффективны и производительны, при этом на CPU приходится основная часть энергопотребления и, соответственно, углеродных выбросов. Исследователи изучили актуальные предложения вендоров и пришли к выводу, что среди доступных на рынке процессоров наилучшим образом для GreenSKU подходят AMD EPYC Bergamo, которые предлагает большое количество ядер и потоков при сравнимом уровне TDP, пусть и при пониженной производительности каждого ядра, а также поддерживают необходимые протоколы CXL. Для распределения нагрузок используется отдельный программный слой, определяющий, какие задачи можно выполнять на серверах GreenSKU, а какие — на стандартных серверах Azure в зависимости от требований к производительности. Как отмечают исследователи, три четверти развёрнутых в Azure инстансов в среднем используют лишь 25 % выделенных ресурсов CPU и около 15 % от доступной пропускной способности памяти. Точно так же далеко не в полной мере используются и SSD. Вместе с тем есть клиенты, которые выживают максимум из каждого инстанcа. Снижение углеродных выбросов имеет большое значение для облачных вычислений, поскольку они могут составить 20 % всех выбросов к 2030 году — об этом свидетельствуют данные НКО Ассоциация вычислительной техники. В пересчёте на ядро выбросы серверов GreenSKU на 28 % ниже, чем выбросы обычных серверов Azure. А на уровне ЦОД с учётом всех накладных расходов снижение выбросов составляет 8 %.
23.11.2024 [15:57], Сергей Карасёв
Microsoft и Meta✴ представили дизайн ИИ-стойки с раздельными шкафами для питания и IT-оборудованияКорпорация Microsoft в сотрудничестве с Meta✴ представила дизайн серверной стойки нового поколения для дата-центров, ориентированных на задачи ИИ. Спецификации системы, получившей название Mt. Diablo, предоставляются участникам проекта Open Compute Project (OCP). Отмечается, что инфраструктура ЦОД постоянно эволюционирует, а наиболее значительное влияние на неё оказывает стремительное внедрение ИИ. Тогда как традиционные стойки с вычислительным оборудованием и средствами хранения данных имеют мощность максимум до 20 кВт, при размещении современных ИИ-ускорителей этот показатель исчисляется сотнями киловатт. В результате при развёртывании дата-центров могут возникать различные сложности. Идея Mt. Diablo заключается в разделении стойки на независимые шкафы для компонентов подсистемы питания и вычислительного оборудования. То есть, речь идёт о дезагрегированной архитектуре, позволяющей гибко регулировать мощность в соответствии с меняющимися требованиями. ![]() Источник изображения: Microsoft Одним из ключевых преимуществ нового подхода является оптимизация пространства. Утверждается, что в каждой серверной стойке можно размещать на 35 % больше ИИ-ускорителей по сравнению с традиционным дизайном. Ещё одним достоинством названа масштабируемость: конфигурацию стойки питания можно изменять в соответствии с растущими потребностями. Плюс к этому модульная конструкция позволяет реализовывать несколько проектов одновременно. Отмечается, что в современных OCP-системах уже используется единая шина питания постоянного тока с напряжением 48 В. В случае с новым дизайном возможен переход на архитектуру 400 В DC. Это открывает путь для создания более мощных и эффективных систем ИИ. Однако для внедрения стандарта 400 В потребуется общеотраслевая стандартизация. В индивидуальных проектах — например, суперкомпьютерах — для питания узлов уже используется шина HVDC.
21.10.2024 [19:23], Руслан Авдеев
От накопителей к ускорителям: Google тестирует роботов для обслуживания ЦОДВ Google занялись испытаниями роботов для управления и обслуживания оборудования в своих дата-центрах. Как сообщает Datacenter Dynamics со ссылкой на Рика Миллера (Rich Miller) из Data Center Frontier, соответствующую информацию представитель Google обнародовал в ходе недавнего мероприятия Open Compute Summit — роботы уже действуют на одном из объектов. В Google заявили, что роботы помогут кардинально пересмотреть подход к масштабированию операций, а их внедрение благотворно скажется на безопасности и надёжности работ. Робототехника может сыграть важную роль в задачах вроде перемещения компонентов и стоек, мониторинга оборудования и даже его обслуживания и ремонта. В прошлом году компания начала эксперименты по использованию роботов для замены вышедших из строя накопителей. А сейчас компания намерена привлечь роботов к обслуживанию стоек с ускорителями, которые значительно тяжелее традиционных стоек. Использование роботов для обеспечения работы ЦОД давно рассматривается гиперскейлерами и колокейшн-провайдерами. Впрочем, в большинстве случаев речь идёт о робособаках вроде моделей, выпускаемых Boston Dynamics, Unitree Go1 и Anybotics. Такие модели обычно выполняют в основном патрульные функции — для охраны и оповещения об инцидентах. Пока что Google использует довольно массивную, автономно передвигающуюся платформу собственной разработки. В 2023 году Microsoft создала команду, занимающуюся автоматизацией работы ЦОД вообще и роботами в частности. В том же году Digital Edge, Digital Realty, Scala Data Centers, и Oracle протестировали роботов для выполнения самых разных операций в дата-центрах. А вот у японской NTT Data подход иной — компания создала робота Ugo на моторизованной платформе, который получил две роборуки-манипулятора.
20.10.2024 [11:01], Сергей Карасёв
NVIDIA передаст OCP спецификации компонентов суперускорителя GB200 NVL72Некоммерческая организация Open Compute Project Foundation (OCP), специализирующаяся на создании открытых спецификаций оборудования для ЦОД, сообщила о том, что для её инициативы Open Systems for AI собственные разработки предоставят NVIDIA и Meta✴. Проект Open Systems for AI был анонсирован в январе 2024 года при участии Intel, Microsoft, Google, Meta✴, NVIDIA, AMD, Arm, Ampere, Samsung, Seagate, SuperMicro, Dell и Broadcom. Цель инициативы заключается в разработке открытых стандартов для кластеров ИИ и дата-центров, в которых размещаются такие системы. Предполагается, что Open Systems for AI поможет повысить эффективность и устойчивость ИИ-платформ, а также обеспечит возможность формирования цепочек поставок оборудования от нескольких производителей. В рамках инициативы NVIDIA предоставит OCP спецификации элементы электромеханической конструкции суперускорителей GB200 NVL72, включая архитектуры стойки и жидкостного охлаждения, механические части вычислительного и коммутационного лотков. Кроме того, NVIDIA расширит поддержку стандартов OCP в своей сетевой инфраструктуре Spectrum-X. Речь идёт об обеспечении совместимости со стандартами OCP Switch Abstraction Interface (SAI) и Software for Open Networking in the Cloud (SONiC). Это позволит клиентам использовать адаптивную маршрутизацию Spectrum-X и управление перегрузками на основе телеметрии для повышения производительности Ethernet-соединений в составе масштабируемой инфраструктуры ИИ. Адаптеры ConnectX-8 SuperNIC с поддержкой OCP 3.0 появятся в 2025 году. В свою очередь, Meta✴ передаст проекту Open Systems for AI свою архитектуру Catalina AI Rack, которая специально предназначена для создания ИИ-систем высокой плотности с поддержкой GB200. Это, как ожидается, позволит организации OCP «внедрять инновации, необходимые для создания более устойчивой экосистемы ИИ». |
|