Материалы по тегу: ocp

21.10.2024 [19:23], Руслан Авдеев

От накопителей к ускорителям: Google тестирует роботов для обслуживания ЦОД

В Google занялись испытаниями роботов для управления и обслуживания оборудования в своих дата-центрах. Как сообщает Datacenter Dynamics со ссылкой на Рика Миллера (Rich Miller) из Data Center Frontier, соответствующую информацию представитель Google обнародовал в ходе недавнего мероприятия Open Compute Summit — роботы уже действуют на одном из объектов.

В Google заявили, что роботы помогут кардинально пересмотреть подход к масштабированию операций, а их внедрение благотворно скажется на безопасности и надёжности работ. Робототехника может сыграть важную роль в задачах вроде перемещения компонентов и стоек, мониторинга оборудования и даже его обслуживания и ремонта. В прошлом году компания начала эксперименты по использованию роботов для замены вышедших из строя накопителей. А сейчас компания намерена привлечь роботов к обслуживанию стоек с ускорителями, которые значительно тяжелее традиционных стоек.

 Источник изображений: Google / OCP

Источник изображений: Google / OCP

Использование роботов для обеспечения работы ЦОД давно рассматривается гиперскейлерами и колокейшн-провайдерами. Впрочем, в большинстве случаев речь идёт о робособаках вроде моделей, выпускаемых Boston Dynamics, Unitree Go1 и Anybotics. Такие модели обычно выполняют в основном патрульные функции — для охраны и оповещения об инцидентах. Пока что Google использует довольно массивную, автономно передвигающуюся платформу собственной разработки.

В 2023 году Microsoft создала команду, занимающуюся автоматизацией работы ЦОД вообще и роботами в частности. В том же году Digital Edge, Digital Realty, Scala Data Centers, и Oracle протестировали роботов для выполнения самых разных операций в дата-центрах. А вот у японской NTT Data подход иной — компания создала робота Ugo на моторизованной платформе, который получил две роборуки-манипулятора.

Постоянный URL: http://servernews.kz/1112761
20.10.2024 [11:01], Сергей Карасёв

NVIDIA передаст OCP спецификации компонентов суперускорителя GB200 NVL72

Некоммерческая организация Open Compute Project Foundation (OCP), специализирующаяся на создании открытых спецификаций оборудования для ЦОД, сообщила о том, что для её инициативы Open Systems for AI собственные разработки предоставят NVIDIA и Meta.

Проект Open Systems for AI был анонсирован в январе 2024 года при участии Intel, Microsoft, Google, Meta, NVIDIA, AMD, Arm, Ampere, Samsung, Seagate, SuperMicro, Dell и Broadcom. Цель инициативы заключается в разработке открытых стандартов для кластеров ИИ и дата-центров, в которых размещаются такие системы. Предполагается, что Open Systems for AI поможет повысить эффективность и устойчивость ИИ-платформ, а также обеспечит возможность формирования цепочек поставок оборудования от нескольких производителей.

В рамках инициативы NVIDIA предоставит OCP спецификации элементы электромеханической конструкции суперускорителей GB200 NVL72, включая архитектуры стойки и жидкостного охлаждения, механические части вычислительного и коммутационного лотков.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Кроме того, NVIDIA расширит поддержку стандартов OCP в своей сетевой инфраструктуре Spectrum-X. Речь идёт об обеспечении совместимости со стандартами OCP Switch Abstraction Interface (SAI) и Software for Open Networking in the Cloud (SONiC). Это позволит клиентам использовать адаптивную маршрутизацию Spectrum-X и управление перегрузками на основе телеметрии для повышения производительности Ethernet-соединений в составе масштабируемой инфраструктуры ИИ. Адаптеры ConnectX-8 SuperNIC с поддержкой OCP 3.0 появятся в 2025 году.

В свою очередь, Meta передаст проекту Open Systems for AI свою архитектуру Catalina AI Rack, которая специально предназначена для создания ИИ-систем высокой плотности с поддержкой GB200. Это, как ожидается, позволит организации OCP «внедрять инновации, необходимые для создания более устойчивой экосистемы ИИ».

Постоянный URL: http://servernews.kz/1112736
18.10.2024 [00:10], Алексей Степин

Meta✴ представила свой вариант суперускорителя NVIDIA GB200 NVL72

Meta поделилась своими новинками в области аппаратной инфраструктуры и рассказала, каким именно видит будущее открытых ИИ-платформ. В своей презентации Meta рассказала о новой ИИ-платформе, новых дизайнах стоек, включая варианты с повышенной мощностью питания, а также о новинках в области сетевой инфраструктуры.

 Источник изображений: ***

Источник изображений: Meta

В настоящее время компания использует нейросеть Llama 3.1 405B. Контекстное окно у этой LLM достигает 128 тыс. токенов, всего же токенов свыше 15 трлн. Чтобы обучать такие модели, требуются очень серьёзные ресурсы и глубокая оптимизация всего программно-аппаратного стека. В обучении базовой модели Llama 3.1 405B участвовал кластер 16 тыс. ускорителей NVIDIA H100, один из первых такого масштаба. Но уже сейчас для обучения ИИ-моделей Meta использует два кластера, каждый с 24 тыс. ускорителей.

Проекты такого масштаба зависят не только от ускорителей. На передний план выходят проблемы питания, охлаждения и, главное, интерконнекта. В течение нескольких следующих лет Meta ожидает скоростей в районе 1 Тбайт/с на каждый ускоритель. Всё это потребует новой, ещё более плотной архитектуры, которая, как считает Meta, должна базироваться на открытых аппаратных стандартах.

Одной из новинок стала платформа Catalina. Это Orv3-стойка, сердцем которой являются гибридные процессоры NVIDIA GB200. Стойка относится к классу HPR (High Power Rack) и рассчитана на 140 КВт. Сейчас Microsoft и Meta ведут работы над модульной и масштабируемой системой питания Mount Diablo. Свой вариант GB200 NVL72 у Microsoft тоже есть. Также Meta обновила ИИ-серверы Grand Teton, впервые представленные в 2022 году. Это по-прежнему монолитные системы, но теперь они поддерживают не только ускорители NVIDIA, но и AMD Instinct MI300X и будущие MI325X.

Интерконнектом будущих платформ станет сеть DSF (Disaggregated Scheduled Fabric). Благодаря переходу на открытые стандарты компания планирует избежать ограничений, связанных с масштабированием, зависимостью от вендоров аппаратных компонентов и плотностью подсистем питания. В основе DSF лежит стандарт OCP-SAI и ОС Meta FBOSS для коммутаторов. Аппаратная часть базируется на стандартном интерфейсе Ethernet/RoCE.

Meta уже разработала и воплотила в металл новые коммутаторы класса 51Т на базе кремния Broadcom и Cisco, а также сетевые адаптеры FBNIC, созданные при поддержке Marvell. FBNIC может иметь до четырёх 100GbE-портов. Используется интерфейс PCIe 5.0, причём могущий работать как четыре отдельных слайса. Новинка соответствует открытому стандарту OCP NIC 3.0 v1.2.0.

Постоянный URL: http://servernews.kz/1112624
17.10.2024 [12:20], Сергей Карасёв

Dell представила решения AI Factory на базе NVIDIA GB200 и AMD EPYC Turin

Компания Dell Technologies анонсировала интегрированные стоечные масштабируемые системы для экосистемы AI Factory, рассчитанные на задачи НРС и ресурсоёмкие приложения ИИ. В частности, дебютировали решения Integrated Rack 7000 (IR7000), PowerEdge M7725 и PowerEdge XE9712.

 Источник изображений: Dell

Источник изображений: Dell

IR7000 — это высокоплотная 21″ стойка Open Rack Version 3 (Orv3) с поддержкой жидкостного охлаждения. Говорится о совместимости с мощными CPU и GPU с высоким значением TDP. Модификации 44OU и 50OU оснащены салазками, которые шире и выше традиционных: это гарантирует совместимость с несколькими поколениями архитектур процессоров и ИИ-ускорителей. Полки питания в настоящее время поддерживают мощность от 33 кВт до 264 кВт на стойку с последующим увеличением до 480 кВт.

Система Dell PowerEdge M7725 специально спроектирована для вычислений высокой плотности. В основу положены процессоры AMD серии EPYC 9005 (Turin), насчитывающие до 192 вычислительных ядер. Одна стойка IR7000 может вместить 72 серверных узла M7725, каждый из которых оборудован двумя CPU. Таким образом, общее количество вычислительных ядер превышает 27 тыс. на стойку. Возможно развёртывание прямого жидкостного охлаждения (DLC) и воздушного охлаждения. Доступны два IO-слота (PCIe 5.0 x16) в расчёте на узел с поддержкой Ethernet и InfiniBand.

В свою очередь, система Dell PowerEdge XE9712 разработана для обучения больших языковых моделей (LLM) и инференса в реальном времени. Эта новинка использует архитектуру суперускорителя NVIDIA GB200 NVL72. В общей сложности задействованы 72 чипа B200 и 36 процессоров Grace. Утверждается, что такая конфигурация обеспечивает скорость инференса до 30 раз выше по сравнению с системами предыдущего поколения.

Постоянный URL: http://servernews.kz/1112591
27.09.2024 [16:40], Сергей Карасёв

Cloudflare представила серверы 12-го поколения на базе AMD EPYC Genoa-X

Американская компания Cloudflare, предоставляющая в числе прочего услуги CDN, анонсировала серверы 12-го поколения для своей инфраструктуры. В основу 2U-узлов легла аппаратная платформа AMD EPYC Genoa-X. По словам компании, новая платформа на 145 % производительнее и при этом на 63 % энергоэффективнее систем 11-го поколения.

Серверы имеют односокетное исполнение. Применён процессор EPYC 9684X с 96 ядрами (192 потока инструкций), работающий на базовой частоте 2,55 ГГц с возможностью повышения до 3,42 ГГц для всех ядер. Объём L3-кеша составляет 1152 Мбайт, а объём оперативной памяти DDR5-4800 в 12-канальной конфигурации составляет 384 Гбайт.

В оснащения входят два накопителя формата EDSFF E1.S (15 мм) с интерфейсом PCIe 4.0 х4 вместимостью 7,68 Тбайт каждый (Samsung PM9A3 и Micron 7450 Pro). Заявленная скорость последовательного чтения информации достигает 6700 Мбайт/с, скорость последовательной записи — 4000 Мбайт/с. Показатель IOPS (операций ввода/вывода в секунду) при произвольном чтении — до 1,0 млн, при произвольной записи — до 200 тыс. Изделия рассчитаны на одну полную перезапись в сутки (DWPD).

 Источник изображений: Cloudflare

Источник изображений: Cloudflare

Серверы оснащены двумя 25GbE-адаптерами OCP 3.0 — Intel Ethernet Network Adapter E810-XXVDA2 и NVIDIA Mellanox ConnectX-6 Lx. Присутствуют контроллеры ASPEED AST2600 (BMC), AST1060 (HRoT), а также TPM-модуль. Примечательно, что все они, а также сдвоенные чипы памяти BMC и BIOS/UEFI, находятся на внешней карте стандарта OCP DC-SCM 2.0. Их разработкой в рамках Project Argus компания занималась совместно с Lenovo.

За питание отвечают два блока мощностью 800 Вт с сертификатом 80 Plus Titanium. Допускается установка одной карты расширения FHFL двойной ширины или двух карт FHFL одинарной ширины. В частности, могут быть добавлены ускорители на базе GPU с показателем TDP до 400 Вт. Во фронтальной части корпуса располагаются вентиляторы охлаждения.

Постоянный URL: http://servernews.kz/1111621
26.08.2024 [15:58], Руслан Авдеев

OCP совместно с гиперскейлерами проводит испытания «зелёного бетона» для ЦОД будущего

Организация Open Compute Project Foundation (OCP) анонсировала сотрудничество с рядом IT-гигантов. Как сообщает пресс-служба, партнёры будут тестировать строительство ЦОД с использованием т.н. «зелёного» низкоуглеродистого бетона. Из числа крупнейших IT-компаний участие в эксперименте примут все ключевые гиперскейлеры, включая Google, AWS, Meta и Microsoft. Инициатива согласуется с открытым письмом коалиции iMasons Climate Accord, призывающем к продвижению «зелёного бетона» в отрасли.

Гиперскейлеры намерены способствовать расширению использования «зелёного бетона» при строительстве дата-центров, вдохновляя другие компании своим примером. Meta и Microsoft уже исследовали новые экологичные смеси, в том числе созданные с использованием ИИ. Microsoft также тестировала бетон с добавлением CO2 и даже инвестировала в его производителя CarbonCure. Углекислый газ при использовании технологий CarbonCure делает бетон крепче, но позволяет компенсировать лишь малую часть выбросов в ходе производств цемента.

 Источник изображения: Open Compute Project

Источник изображения: Open Compute Project

В CarbonCure инвестировала и Amazon, которая также использовала смеси и низкоуглеродный цемент ASTM C1157 Hydraulic Cement от Ozinga. Утверждается, что в результате удалось добиться снижения углеродных выбросов на 64 % в сравнении со средним уровнем в индустрии. В AWS подчеркнули, что традиционный цемент для производства бетона несёт ответственность за значительную долю углеродных выбросов, но эти проекты демонстрируют, что для снижения негативного воздействия на окружающую среду можно применять заменители обычного цемента без ущерба характеристикам и надёжности бетона.

 Источник изображения: Open Compute Project

Источник изображения: Open Compute Project

В процессе производства традиционного бетона известняк нагревается вместе с глиной до приблизительно 1450 °C. В результате CO2 выделяется напрямую в атмосферу, а печи для обжига как правило используют уголь или природный газа, что обеспечивает ещё более количество выбросов. «Зелёный бетон» предусматривает использование дополнительных цементирующих материалов, а «альтернативный» цемент получается из сырья, не проходящего этапов вроде термообработки. Технологий использования низкоуглеродного бетона немало, но масштабного применения в сфере строительства ЦОД они ещё не нашли.

При первой в своём роде демонстрации особенностей «зелёного бетона» в августе этого года в Иллинойсе (США) присутствовали не только крупные IT-компании, но и представители властей США, экологических организаций и научного сообщества. Испытанию подвергаются четыре состава бетона, лучший из которых позволяет снизить углеродный след более чем на 50 % в сравнении с классическим бетоном. Материалы для производства доступны на рынке, но пока редко применяются по ряду причин. Уже готов план дельнейших испытаний, в том числе лабораторных и полевых тестов.

Постоянный URL: http://servernews.kz/1109975
23.06.2024 [12:35], Сергей Карасёв

Между Microsoft и NVIDIA возникли разногласия по поводу использования ускорителей B200

У компаний Microsoft и NVIDIA, по сообщению The Information, возникли разногласия по поводу использования новейших ускорителей B200 на архитектуре Blackwell. NVIDIA настаивает на том, чтобы клиенты приобретали эти изделия в составе полноценных серверных стоек, тогда как Microsoft с этим не согласна.

Отмечается, что NVIDIA, удерживающая приблизительно 98 % рынка ускорителей для ЦОД, стремится контролировать использование своих продуктов. В частности, компания накладывает ограничения в отношении дизайна ускорителей, которые партнёры создают на чипах NVIDIA.

Во время презентации Blackwell глава NVIDIA Дженсен Хуанг (Jensen Huang) неоднократно указывал на то, что теперь минимальной единицей для развёртывания должен стать суперускоритель GB200 NVL72. То есть NVIDIA призывает клиентов приобретать вместо отдельных ускорителей целые стойки и даже кластеры SuperPOD. По заявлениям компании, это позволит повысить ИИ-производительность благодаря оптимизации всех компонентов и их максимальной совместимости друг с другом. Кроме того, такая бизнес-модель позволит NVIDIA получить дополнительную выручку от распространения серверного оборудования и ещё больше укрепить позиции на стремительно развивающемся рынке ИИ.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Однако у Microsoft, которая оперирует огромным количеством разнообразных ускорителей и других систем в составе своей инфраструктуры, возникли возражения в отношении подхода NVIDIA. Сообщается, что вице-президент NVIDIA Эндрю Белл (Andrew Bell) попросил Microsoft приобрести специализированные серверные стойки для ускорителей Blackwell, но редмондский гигант ответил отказом. По заявлениям Microsoft, решения NVIDIA затруднят корпорации внедрение альтернативных ускорителей, таких как AMD Instinct MI300X.

 Ещё один вариант OCP-стойки с СЖО (Источник изображения: Microsoft)

Ещё один вариант OCP-стойки с СЖО (Источник изображения: Microsoft)

Дело в том, что форм-факторы стоек NVIDIA и стоек Microsoft различаются на несколько дюймов. Из-за этого могут возникнуть сложности с изменением конфигурации и модернизацией, предусматривающей использование конкурирующих компонентов. Так, Microsoft использует единую базовую платформу и для ускорителей NVIDIA, и для ускорителей AMD. Microsoft эксплуатирует вариант стоек OCP и старается максимально унифицировать инфраструктуру своих многочисленных дата-центров. NVIDIA, в конце концов, согласилась с доводами Microsoft и пошла на уступки, но это, похоже, не последнее подобное разногласие между компаниями.

Постоянный URL: http://servernews.kz/1106908
18.04.2024 [13:50], Сергей Карасёв

Компания Gagar>n представила OCP-серверы «Оракул Gen 3» и «Простор Gen 1» на базе Intel Xeon

Российская компания Gagar>n, занимающаяся производством оборудования корпоративного класса и ПО, анонсировала OCP-серверы «Оракул Gen 3» и «Простор Gen 1», которые, как утверждается, подходят для решения широкого спектра задач. В основу новинок, разработанных в России, положена аппаратная платформа Intel.

Модель «Оракул Gen 3» может применяться для построения горизонтально-масштабируемых систем хранения и обработки данных. Сервер выполнен в формате 2OU и может размещаться в шкафу стандарта OCP Rack v2. Устройство способно нести на борту два процессора Intel Xeon поколения Ice Lake-SP (до 40 ядер; TDP до 270 Вт) и 32 модуля оперативной памяти DDR4-3200 суммарным объёмом до 8 Тбайт.

Доступны три слота PCIe 4.0 x16, а также по одному разъёму PCIe 4.0 x8 и OCP 3.0 x16. Основная подсистема хранения данных включает до восьми SFF-накопителей U.2 NVMe/SATA на передней панели с поддержкой горячей замены. Кроме того, в зависимости от модификации допускается дополнительная установка 24 изделий формата SFF с интерфейсом SAS/SATA или 16 накопителей SFF U.2/NVMe или же 12 накопителей LFF с интерфейсом SAS/SATA. Есть и два коннектора M.2 PCIe.

 Источник изображений: Gagar>n

Источник изображений: Gagar>n

В свою очередь, сервер «Простор Gen 1» стандарта 2OU комплектуется двумя процессорами Intel Xeon Cascade Lake-SP (до 28 ядер; TDP до 205 Вт). Предусмотрены 12 слотов для модулей DDR4-2933 суммарным объёмом до 1,5 Тбайт. Есть по одному разъёму PCIe 3.0 x16 и OCP 2.0 x16.

Возможна установка до четырёх накопителей SFF NVMe SSD с поддержкой горячей замены, а также до 16 изделий SFF NVMe SSD или LFF SAS/SATA HDD. Плюс к этому доступен один коннектор М.2. Система подходит для организации файлового, блочного и объектного хранения.

Серверы оснащены сетевым портом 1GbE RJ-45 и портами USB 3.0 Type-A. Применяются вентиляторы охлаждения диаметром 80 мм. Заявлена совместимость с платформами РОСА, Red OS, Astra Linux, ALT Linux, Red Hat, VMware и др.

Постоянный URL: http://servernews.kz/1103460
17.04.2024 [21:53], Алексей Степин

Delta Computers анонсировала первые российские OCP-серверы на базе Intel Xeon Sapphire Rapids и Emerald Rapids

Широко анонсированная программа импортозамещения в области ИТ-технологий хотя и приносит свои плоды, но сталкивается с серьёзными проблемами. Тем не менее, российские производители стараются освоить и использовать современные архитектуры и технологии. Так, компания Delta Computers представила первый в России OCP-сервер, работающий с процессорами Intel Xeon Sapphire Rapids и Emerald Rapids.

Новинка, получившая имя Delta Serval, поддерживает установку двух CPU. А стандартное шасси 2OU вмещает два узла, так что в максимальной конфигурации можно получить сразу 256 ядер. Поддержка наиболее современных процессорами Intel позволяет использовать Serval в самых высоконагруженных сценариях — для крупномасштабных баз данных, ИИ и HPC. А соседство в одной OCP-стойке с Delta Sprut, который допускает установку 8 двухслотовых ускорителей или же 16 однослотовых, ещё больше расширяет возможности Serval.

С точки зрения базовых технических характеристик всё аналогично другим решениям с разъёмом LGA 4667. Поддерживается установка 60-ядерных Sapphire Rapids и 64-ядерных Emerald Rapids с TDP до 350 Вт. Доступно 32 слота дя модулей памяти DDR5-4800/5200/5600 суммарный объёмом до 8 Тбайт.

 Источник изображений: Delta Computers

Источник изображений: Delta Computers

В качестве основной шины используется PCI Express 5.0: один слот OCP 3.0 + либо пара x16 (HHHL), либо один x16 и два x8 (все HHHL). Возможна установка либо восьми U.2 NVMe SSD высотой 7 мм, либо четырёх высотой 15 мм. Выведены порты USB 3.0, mini-VGA и 1GbE RJ45.

Есть у Delta Serval и важное отличие от западных решений — он работает под управлением разработанных собственными силами Delta BIOS и Delta BMC. Это позволяет гарантировать дополнительный уровень безопасности. Обе прошивки включены в реестр Минцифры РФ, а Delta BMC сертифицирована ФСТЭК на соответствие четвёртому уровню доверия. Сам Delta Serval уже внесён в реестр радиоэлектронной продукции Министерства промышленности и торговли Российской Федерации.

Постоянный URL: http://servernews.kz/1103452
30.12.2023 [21:23], Сергей Карасёв

Intel с тайваньскими партнёрами создаст погружную СЖО для 1,5-кВт чипов

Корпорация Intel, по сообщениям сетевых источников, расширяет сотрудничество с тайваньскими партнёрами с целью разработки и вывода на рынок передовых систем охлаждения для дата-центров, поддерживающих ресурсоёмкие задачи, в частности, приложения ИИ.

В проекте принимают участие компании Kenmec и Auras Technology. Кроме того, Intel сотрудничает с Тайваньским институтом промышленных исследований (ITRI): стороны намерены сформировать новую лабораторию для сертификации технологий охлаждения НРС-систем на соответствие международным стандартам.

 Источник изображения: Intel

Источник изображения: Intel

Инициатива Intel предусматривает создание первого в отрасли открытого решения для развёртывания полноценных систем иммерсионного (погружного) охлаждения. Кроме того, будет предложен эталонный дизайн такой платформы. Предполагается, что технология поможет поднять производительность ЦОД. Intel говорит о разработке модульной системы охлаждения на основе сверхтекучей жидкости, которая обеспечит возможность отвода тепла от компонентов мощностью 1500 Вт и более.

Новая СЖО, как ожидается, будет внедряться в тайваньских и международных дата-центрах. Отмечается, что ЦОД, ориентированные на задачи ИИ, требуют всё большей плотности размещения компонентов при повышении энергоэффективности и надёжности. Во многом достижение этих показателей зависит от возможностей систем охлаждения.

Kenmec уже предлагает ряд продуктов для жидкостного охлаждения — от блоков распределения охлаждающей жидкости (CDU) до специализированных стоек Open Rack version 3 (ORv3). Причем некоторые такие решения уже сертифицированы Intel.

Постоянный URL: http://servernews.kz/1098216

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus