Материалы по тегу: сжо
09.12.2024 [13:24], Сергей Карасёв
До 132 кВт на стойку: Schneider Electric и NVIDIA разработают эталонную архитектуру охлаждения для ЦОД на основе GB200 NVL72Французская корпорация Schneider Electric, по сообщению ресурса Datacenter Dynamics, совместно с NVIDIA разрабатывает эталонную архитектуру охлаждения для дата-центров, рассчитанных на решение ИИ-задач. Речь, в частности, идёт о ЦОД с суперускорителями GB200 NVL72 (Blackwell). О том, что Schneider Electric и NVIDIA объединили усилия с целью оптимизации инфраструктуры ЦОД, стало известно в марте нынешнего года. Тогда говорилось, что стороны создадут первые в своём роде общедоступные эталонные проекты дата-центров, призванные переопределить стандарты развёртывания и эксплуатации ИИ. Как теперь стало известно, эталонный дизайн охлаждения Schneider Electric предусматривает применение специализированных блоков распределения охлаждающей жидкости (CDU), а также решений прямого жидкостного охлаждения Direct-To-Chip (DTC). Говорится, что такие системы обеспечат возможность охлаждения стоек с вычислительным оборудованием суммарной мощностью до 132 кВт. Финансовые условия сотрудничества не раскрываются. В октябре нынешнего года Schneider Electric приобрела контрольный пакет акций компании Motivair Corporation, которая специализируется на системах жидкостного охлаждения для HPC- и ИИ-платформ. Не исключено, что изделия Motivair будут применяться в составе эталонных СЖО для серверов на базе Blackwell. Апарна Прабхакар (Aparna Prabhakar), старший вице-президент подразделения электропитания Schneider, сообщила, что компания совместно с NVIDIA работает над несколькими вариантами систем охлаждения, которые можно масштабировать в зависимости от количества установленных серверов и потребляемой ими энергии. Это, как ожидается, поможет в развёртывании дата-центров нового поколения, ориентированных на ресурсоёмкие ИИ-вычисления.
05.12.2024 [09:13], Руслан Авдеев
AWS представила новую архитектуру ИИ ЦОД, энергоэффективную и экологичную
aws
hardware
pue
водоснабжение
дизель
ибп
ии
охлаждение
сжо
сша
цод
экология
электропитание
энергетика
энергоэффективность
AWS рассказала об инновациях, внедряемых в её ЦОД для поддержки ИИ-нагрузкок следующего поколения. По данным DataCenter Dynamics, нововведения связаны в первую очередь с электропитанием и охлаждением. Они направлены на повышение энергоэффективности дата-центров AWS. Первые ЦОД на базе новой архитектуры заработают в начале 2025 года. Новые решения в свежих новых дата-центрах компании по всему миру, а некоторые начнут применять уже на существующих объектах. В компании подчёркивают, что решения изначально спроектированы как модульные, поэтому возможная поэтапная модернизация площадок для внедрения СЖО, повышения энергоэффективности и снижения углеродного следа. Так, AWS упростит электрическую и механическую структуру новых ЦОД, чтобы облегчит их обслуживание и повысить надёжность. В частности, упростится подход к распределению энергии внутри ЦОД, а источники резервного питания будут размещаться ближе к стойкам. Это позволит повысить доступность инфраструктуры до 99,9999 % времени, а количество стоек, которых могут коснуться проблемы с энергоснабжением, снизится на 89 %. Также уменьшится количество вентиляторов для отвода горячего воздуха. Вместо этого будет применяться естественный перепад давления, что положительно скажется на энергопотреблении. Вместе с тем AWS намерено вшестеро увеличить мощность стойки в следующие два года, и ещё втрое — в будущем. Впрочем, в ИИ-серверах, где мощность ускорителей приближается к 1 кВт, без СЖО обойтись сложно. AWS готовит суперкластеры Project Rainier и Project Ceiba на базе AWS Tranium2 и NVIDIA Blackwell соответственно, поэтому она вместе с крупным производителем СЖО будет внедрять прямое жидкостное охлаждение и в новых, и в старых ЦОД. В некоторых случаях будет использоваться и гибридное охлаждение. Одним из главных плюсов новой архитектуры охлаждения является гибкость — акцент на воздушное или жидкостное охлаждение будет делаться в зависимости от потребностей оборудования и возможностей конкретных дата-центров. Заодно AWS использовала имеющиеся данные и генеративный ИИ для поиска наиболее эффективного способа размещения стоек в своих ЦОД, добавив ещё 12 % вычислительных мощностей на каждую площадку. Новая технология будет применяться как к новому оборудованию для ИИ-систем, так и для других типов техники. Также компания внедрила собственную систему управления механическими и электрическими устройствами — она поможет стандартизировать мониторинг и эксплуатацию дата-центров. Наконец, предприняты усилия по повышению экобезопасности дата-центров. AWS заявила, что новая архитектура охлаждения снизит потребление энергии на 46 % во времена пиковых нагрузок без увеличения потребления воды. Доля углеродных выбросов при производстве бетона, используемого при строительстве ЦОД, уменьшена на 35 % относительно средней по отрасли, кроме того, на 35 % сокращается потребление стали в целом, а та, что используется, поступает из электродуговых печей, а не газовых, что сокращает косвенные выбросы. Наконец, резервные генераторы AWS переведут на возобновляемое дизельное топливо. Дополнительно AWS совместно с Orbital Materials запустила пилотный проект по тестированию разработанного с помощью ИИ материала, помогающего захватывать в дата-центрах углекислый газ — речь идёт о «губке на атомном уровне», взаимодействующей только с молекулами углекислоты. Тестирование материала, три года разрабатывавшегося компаниями, начнётся в начале 2025 года. По данным Orbital, новый материал значительно дешевле аналогов. В дальнейшем стартап планирует испытать разработанные с помощью ИИ технологии для экономии воды и охлаждения чипов. DataCenter Dynamics также отмечает, что AWS впервые раскрыла показатель PUE своих дата-центров. В среднем он составляет 1,15, а самая лучшая площадка достигла 1,04. Для сравнения: у Google эти показатели составляют 1,1 и 1,06 соответственно, у Microsoft — 1,18 и 1,12 (у новых объектов). ЦОД Meta✴ в среднем имеют PUE около 1,08, а Oracle говорит об 1,15.
30.11.2024 [15:52], Сергей Карасёв
Iceotope представила KUL AI — GPU-сервер на платформе Gigabyte с необычной СЖОКомпания Iceotope анонсировала сервер KUL AI, предназначенный для поддержания самых требовательных рабочих нагрузок ИИ. Новинка базируется на аппаратной платформе Gigabyte G293, интегрированной с высокоэффективной гибридной СЖО Iceotope Precision Liquid Cooling, сочетающей прямое жидкостное охлаждение с погружным охлаждением в одном шасси. Известно, что в сервере применяются процессоры Intel Xeon. Установлены восемь ускорителей. Устройство имеет аккредитацию NVIDIA Certified-Solutions. Оно оптимизировано по конструкции для жидкостного охлаждения на основе диэлектрических теплоносителей. Утверждается, что благодаря системе Iceotope Precision Liquid Cooling сервер KUL AI обеспечивает бесперебойную и надёжную работу при поддержании оптимальной температуры. При этом достигается защита критически важных компонентов и сводится к минимуму частота отказов даже во время интенсивных и продолжительных ИИ-нагрузок. Устройство имеет размеры 121 × 53 × 13,5 см и весит 99 кг. В набор интерфейсов в зависимости от варианта исполнения входят до четырёх сетевых портов 10Gb RJ-45 и QSFP28 или SFP28, порты USB 3.2 Type-A, аналоговый разъём D-Sub и коннектор 1Gb RJ-45. Говорится о практически бесшумной работе и герметичном исполнении. По заявлениям разработчика, новинка идеально подходит для чувствительных к задержкам периферийных вычислений, включая среды с экстремальными условиями эксплуатации. «KUL AI позволяет организациям развёртывать ИИ везде, где это необходимо, открывая новые возможности в плане операционной эффективности и инноваций даже в самых сложных IT-средах», — заявляет Iceotope.
21.11.2024 [10:09], Сергей Карасёв
Lenovo представила сервер ThinkSystem SC750 V4 Neptune на базе Intel Xeon Granite Rapids с СЖОКомпания Lenovo анонсировала сервер ThinkSystem SC750 V4 Neptune, предназначенный для технических вычислений и обработки данных в различных областях, таких как аналитика, научные исследования, энергетика, проектирование и финансовое моделирование. Система ThinkSystem SC750 V4 Neptune объединяет два узла, которые заключены в 19″ корпус с возможностью вертикального монтажа. Каждый узел может нести на борту два процессора Intel Xeon 6900 поколения Granite Rapids (до 128 ядер) с показателем TDP до 500 Вт. В расчёте на узел доступны 24 слота для модулей оперативной памяти TruDDR5 RDIMM-6400 или MRDIMM-8800 (в сумме до 3 Тбайт). Каждый узел может комплектоваться шестью накопителями EDSFF E3.S NVMe SSD общей вместимостью до 92,16 Тбайт. Есть два сетевых порта 25GbE SFP28 на основе контроллера Broadcom 57414, один порт 1GbE RJ45 на базе Intel I210, два слота PCIe 5.0 x16. Габариты составляют 546 × 53 × 760 мм, масса — 37,2 кг. Говорится о совместимости с Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu и пр. Применено прямое жидкостное охлаждение Lenovo Neptune. Утверждается, что по сравнению с аналогичной системой с воздушным охлаждением сервер ThinkSystem SC750 V4 Neptune обеспечивает увеличение общей производительности до 10 % благодаря постоянной работе процессоров в турбо-режиме. При этом энергопотребление ЦОД от серверов может быть уменьшено на 40 %, тогда как шум от вентиляторов устраняется полностью. Восемь лотков ThinkSystem SC750 V4 Neptune могут быть установлены в шасси ThinkSystem N1380 формата 13U: в сумме это даёт 16 узлов. Шасси может быть оборудовано четырьмя узлами Power Conversion Stations (PCS) с сертификатом 80 PLUS Titanium.
18.11.2024 [13:55], Руслан Авдеев
Flex покупает производителя СЖО JetCoolПроизводитель электроники и инфраструктуры для ЦОД Flex объявил о покупке производителя СЖО для ЦОД JetCool. Приобретение позволит Flex расширить портфолио продуктов для дата-центров, сообщает HPC Wire. Сделка позволит объединить передовые технологии охлаждения JetCool и опыт Flex, связанный с IT-решениями, энергетической инфраструктурой, производством и вертикальной интеграцией для клиентов, нацеленных на масштабное внедрение ИИ-серверов. Как заявляют во Flex, передовые технологии жидкостного охлаждения усиливают возможности компании решать проблемы клиентов с возрастающей энергетической и тепловой плотностью, а также соответствовать требованиям к охлаждению при решении любых задач в области ИИ и HPC. В JetCool уверены, что присоединение к Flex позволит компании добиться новых высот, нарастить производственные возможности и расширить продуктовую номенклатуру. Основанная в 2019 году компания JetCool из Массачусетса предоставляет СЖО на базе т.н. «микроконвективного охлаждения». Компания предлагает широкий спектр продуктов, от водоблоков и систем прямого жидкостного охлаждения чипов до интегрированных систем точечного отвода тепла и комплексных систем охлаждения «под ключ». Не так давно компания представлена CDU для отвода до 300 кВт. Систему можно масштабировать, общая охлаждающая способность увеличивается до более 2 МВт. Около года назад сообщалось, что JetCool в ходе раунда финансирования серии А получила $17 млн на развитие бизнеса. До этого компания в рамках программы COOLERCHIPS получила $1 млн от Агентства передовых исследований в области энергетики (ARPA-E) при Министерстве энергетики США (DOE).
06.11.2024 [18:50], Владимир Мироненко
Акции Supermicro снова упали после предварительного отчёта и слабого прогноза, но компания не унывает и готовит 200-кВт стойки для чипов NVIDIAКомпания Supermicro сообщила предварительные финансовые результаты за I финансовый квартал, закончившийся 30 сентября. После объявления итогов и прогноза, а также сообщения о том, что компания всё ещё не может сказать, когда будет опубликован окончательный отчёт по форме 10-K, который должен был быть представлен 29 августа, акции Supermicro упали на 17 %, пишет CNBC. Согласно заявлению Supermicro, скорректированная прибыль за I финансовый квартал предварительно составляет 75–76 центов за акцию, что опережает консенсус-прогноз Уолл-стрит в размере 73 цента на акцию. Также ожидается выручка $5,9–$6 млрд, что ниже прогноза аналитиков в $6,44 млрд, но выше показателя аналогичного квартала годом ранее на 181 %. Прогноз Supermicro на II финансовый квартал оказался ниже ожиданий экспертов. Выручка составит $5,5–$6,1 млрд, что ниже средней оценки аналитиков, опрошенных LSEG, в размере $6,86 млрд. Скорректированная прибыль на акцию составит от 56 до 65 центов, тогда как аналитики ожидают 83 цента на акцию. Акции Supermicro резко упали на прошлой неделе после отказа аудиторской фирмы Ernst & Young работать с компанией. Во время телефонной конференции с аналитиками компания заявила, что не будет обсуждать вопросы, связанные с решением Ernst & Young, а также корпоративным управлением. Гендиректор Чарльз Лян (Charles Liang) сообщил, что Supermicro активно занимается поиском нового аудитора. Supermicro заявила, что совет директоров сформировал специальный комитет, который возглавил независимый юрист, чтобы изучить обвинения Hindenburg Research. После трёхмесячного расследования комитет пришёл к выводу, что «нет никаких доказательств мошенничества или неправомерных действий» со стороны руководства. «Комитет рекомендует ряд мер по исправлению положения для укрепления функций внутреннего управления и надзора и рассчитывает предоставить полный отчёт о проделанной работе на этой или следующей неделе», — рассказала компания. Supermicro договорилась с банком Cathay Bank о продлении сроков предоставления финансовой отчётности до конца года. Но фондовая биржа Nasdaq требует от Supermicro под угрозой делистинга предоставить годовой отчёт до 16 ноября, что также отразилось на настроениях инвесторов. Во вторник компания сообщила аналитикам, что «предпримет все необходимые шаги для скорейшего соблюдения требований Nasdaq». Аналитики задали на телефонной конференции вопрос по поводу возможного изменения планов относительно серверов на базе ускорителей NVIDIA Blackwell, поскольку, по слухам, NVIDIA уже начала менять цепочки поставок, якобы перенаправляя чипы, предназначенные Supermicro, другим производителям. В ответ финансовый директор Дэвид Вейганд (David Weigand) заверил, что у компании очень прочные отношения с чипмейкером, и им ничто не грозит: «Сейчас у нас есть несколько современных проектов в работе, и мы говорили с NVIDIA, и они подтвердили, что не вносили никаких изменений в распределение». По словам компании, она нарастила производственные мощности в США и теперь готова выпускать 1,5 тыс. стоек с СЖО ежемесячно. У неё уже готов собственный вариант GB200 NVL72, а также 10U- и 4U-варианты серверов с B200 с воздушным и жидкостным охлаждением соответственно. Кроме того, компания готовит новую стойку SuperRack мощностью более 200 кВт, которая разработана совместно с NVIDIA — с СЖО, которая обеспечит PUE близкий к 1,0. Наконец, Supermicro готова к выпуску серверов на базе AMD Instinct MI300X/MI325X и Intel Gaudi3. Также отмечается рост интереса к DCBBS.
18.10.2024 [18:58], Руслан Авдеев
Google тоже показала собственный вариант суперускорителя NVIDIA GB200 NVLGoogle показала собственный вариант суперускорителя NVIDIA Blackwell GB200 NVL для своей облачной ИИ-платформы, передаёт Datacenter Dynamics. Решение Google отличается от вариантов Meta✴ и Microsoft, представленных ранее. Тем не менее, это показывает высокий интерес к новой ИИ-платформе NVIDIA со стороны гиперскейлеров. Google заявила о тесном сотрудничестве с NVIDIA для формирования «устойчивой вычислительной инфраструктуры будущего». Подробнее о новой платформе будут рассказано на одной из будущих конференций Google. Пока что, увы, даже не до конца ясна конфигурация суперускорителя в исполнении Google. На фото видно сразу две стойки. Одна содержит неназванное количество ускорителей GB200, а вторая комплектуется оборудованием Google, в том числе блоками питания, коммутаторами и модулями охлаждения. Хотя NVIDIA рекомендует использовать в качестве интерконнекта InfiniBand в своих ИИ-платформах, некоторые эксперты считают, что Google пользуется собственными инфраструктурными наработками на базе Ethernet. Так, компания уже применяет оптические коммутаторы (OCS) собственной разработки в ИИ-кластерах с фирменными ускорителями TPU. Вариант Microsoft также состоит из двух стоек. Во второй смонтирован огромный теплообменник, который, вероятно, обслуживает не одну стойку с ускорителями, а сразу несколько. Известно, что ранее между Microsoft и NVIDIA были разногласия по поводу компоновки платформ для GB200. Наконец, вариант Meta✴ наиболее близок к оригинальной версии NVIDIA GB200 NVL72. При этом NVIDIA открыла её спецификации в рамках OCP. Ранее компания отказалась от выпуска «компромиссных» суперускорителей GB200 NVL36×2, которые сами по себе занимают две стойки.
18.10.2024 [14:53], Руслан Авдеев
Schneider Electric приобрела за $850 млн контрольный пакет акций производителя СЖО MotivairПоставщик инженерной инфраструктуры Schneider Electric приобрёл контрольный пакет акций компании Motivair Corporation. Последняя специализируется на системах жидкостного охлаждения для HPC- и ИИ-платформ и других критических систем. По данным The Register, позже будет выкуплена и оставшаяся доля компании. На первом этапе Schneider Electric выплатит из своих средств $850 млн за 75 % акций Motivair Corporation. Сделка должна быть закрыта в ближайшие кварталы. Компания намерена к 2028 году выкупить оставшиеся 25 % акций. Бизнес вольётся в подразделение Schneider Electric Energy Management, которое тоже специализируется на технологиях прямого жидкостного охлаждения и теплообмена в целом. У Motivair довольно большой опыт оснащения системами жидкостного охлаждения суперкомпьютеров. Руководство компании считает, что поглощение более крупным игроком поможет ей масштабировать бизнес и получить инвестиции на развитие новых технологий. В Schneider Electric уверены, что, хотя СЖО сами по себе не являются принципиально новым решением, у технологии большое будущее в секторе ЦОД. Во многом успеху СЖО будет способствовать распространение генеративного ИИ и повсеместное внедрение больших языковых моделей (LLM), ставших катализаторами роста энергопотребления. О росте энергопотребления ЦОД и возможных проблем с охлаждением говорится и в недавнем отчёте Международного энергетического агентство (IEA). В целом отраслевые эксперты уверены, что жидкостное охлаждение более эффективно для новых высокоплотных ЦОД в сравнении с воздушным, хотя расход воды может оказаться значительно больше, установка оборудования — дороже, а ущерб для экологии — выше. Ранее Schneider Electric фактически установила лимит в 20 кВт/стойку, выше которого без СЖО обойтись никак не удастся. Компания склоняется к системам прямого охлаждения (DLC) с водоблоками для горячих компонентов, а к погружным СЖО относится прохладно, особенно к двухфазным.
18.10.2024 [00:10], Алексей Степин
Meta✴ представила свой вариант суперускорителя NVIDIA GB200 NVL72Meta✴ поделилась своими новинками в области аппаратной инфраструктуры и рассказала, каким именно видит будущее открытых ИИ-платформ. В своей презентации Meta✴ рассказала о новой ИИ-платформе, новых дизайнах стоек, включая варианты с повышенной мощностью питания, а также о новинках в области сетевой инфраструктуры. ![]() Источник изображений: Meta✴ В настоящее время компания использует нейросеть Llama 3.1 405B. Контекстное окно у этой LLM достигает 128 тыс. токенов, всего же токенов свыше 15 трлн. Чтобы обучать такие модели, требуются очень серьёзные ресурсы и глубокая оптимизация всего программно-аппаратного стека. В обучении базовой модели Llama 3.1 405B участвовал кластер 16 тыс. ускорителей NVIDIA H100, один из первых такого масштаба. Но уже сейчас для обучения ИИ-моделей Meta✴ использует два кластера, каждый с 24 тыс. ускорителей. Проекты такого масштаба зависят не только от ускорителей. На передний план выходят проблемы питания, охлаждения и, главное, интерконнекта. В течение нескольких следующих лет Meta✴ ожидает скоростей в районе 1 Тбайт/с на каждый ускоритель. Всё это потребует новой, ещё более плотной архитектуры, которая, как считает Meta✴, должна базироваться на открытых аппаратных стандартах. Одной из новинок стала платформа Catalina. Это Orv3-стойка, сердцем которой являются гибридные процессоры NVIDIA GB200. Стойка относится к классу HPR (High Power Rack) и рассчитана на 140 КВт. Сейчас Microsoft и Meta✴ ведут работы над модульной и масштабируемой системой питания Mount Diablo. Свой вариант GB200 NVL72 у Microsoft тоже есть. Также Meta✴ обновила ИИ-серверы Grand Teton, впервые представленные в 2022 году. Это по-прежнему монолитные системы, но теперь они поддерживают не только ускорители NVIDIA, но и AMD Instinct MI300X и будущие MI325X. ![]() Интерконнектом будущих платформ станет сеть DSF (Disaggregated Scheduled Fabric). Благодаря переходу на открытые стандарты компания планирует избежать ограничений, связанных с масштабированием, зависимостью от вендоров аппаратных компонентов и плотностью подсистем питания. В основе DSF лежит стандарт OCP-SAI и ОС Meta✴ FBOSS для коммутаторов. Аппаратная часть базируется на стандартном интерфейсе Ethernet/RoCE. Meta✴ уже разработала и воплотила в металл новые коммутаторы класса 51Т на базе кремния Broadcom и Cisco, а также сетевые адаптеры FBNIC, созданные при поддержке Marvell. FBNIC может иметь до четырёх 100GbE-портов. Используется интерфейс PCIe 5.0, причём могущий работать как четыре отдельных слайса. Новинка соответствует открытому стандарту OCP NIC 3.0 v1.2.0.
17.10.2024 [12:20], Сергей Карасёв
Dell представила решения AI Factory на базе NVIDIA GB200 и AMD EPYC TurinКомпания Dell Technologies анонсировала интегрированные стоечные масштабируемые системы для экосистемы AI Factory, рассчитанные на задачи НРС и ресурсоёмкие приложения ИИ. В частности, дебютировали решения Integrated Rack 7000 (IR7000), PowerEdge M7725 и PowerEdge XE9712. ![]() Источник изображений: Dell IR7000 — это высокоплотная 21″ стойка Open Rack Version 3 (Orv3) с поддержкой жидкостного охлаждения. Говорится о совместимости с мощными CPU и GPU с высоким значением TDP. Модификации 44OU и 50OU оснащены салазками, которые шире и выше традиционных: это гарантирует совместимость с несколькими поколениями архитектур процессоров и ИИ-ускорителей. Полки питания в настоящее время поддерживают мощность от 33 кВт до 264 кВт на стойку с последующим увеличением до 480 кВт. Система Dell PowerEdge M7725 специально спроектирована для вычислений высокой плотности. В основу положены процессоры AMD серии EPYC 9005 (Turin), насчитывающие до 192 вычислительных ядер. Одна стойка IR7000 может вместить 72 серверных узла M7725, каждый из которых оборудован двумя CPU. Таким образом, общее количество вычислительных ядер превышает 27 тыс. на стойку. Возможно развёртывание прямого жидкостного охлаждения (DLC) и воздушного охлаждения. Доступны два IO-слота (PCIe 5.0 x16) в расчёте на узел с поддержкой Ethernet и InfiniBand. ![]() В свою очередь, система Dell PowerEdge XE9712 разработана для обучения больших языковых моделей (LLM) и инференса в реальном времени. Эта новинка использует архитектуру суперускорителя NVIDIA GB200 NVL72. В общей сложности задействованы 72 чипа B200 и 36 процессоров Grace. Утверждается, что такая конфигурация обеспечивает скорость инференса до 30 раз выше по сравнению с системами предыдущего поколения. |
|