Материалы по тегу: hpc

06.12.2023 [20:09], Руслан Авдеев

Министерство энергетики США выявило плохое обслуживание экзафлопсного суперкомпьютера Frontier

Управление генерального инспектора (OIG) Министерства энергетики США провело проверку ЦОД Национальной лаборатории Ок-Ридж, на базе которой работают передовые суперкомпьютеры, в том числе — первая в мире экзафлопсная система Frontier. Как сообщает The Register, результаты оставляют желать лучшего.

В сентябре прошлого года в OIG поступило заявление о необходимости проверки качества обслуживания и калибровки оборудования (в первую очередь речь температурных датчиках и автоматике систем охлаждения) на площадке лаборатории, расположенной в Теннеси. Лаборатория занимается проектами в области атомной энергетики и обеспечения национальной безопасности. Доклад по результатам проверки связан с ЦОД на площадке Ок-Ридж. В одном из кампусов находится центр Oak Ridge Leadership Computing Facility (OLCF), управляющий суперкомпьютером Frontier.

 Фото: ORNL

Фото: ORNL

Инспекция проводилась с января по сентябрь 2023 года и подтвердила данные поступившего регулятору заявления. Согласно докладу OIG, в заявлении сообщалось, что программа калибровки не соответствовала нормам, а предохранительные клапаны (PRV) в ЦОД или совсем не обслуживались, или обслуживались недобросовестно. Сбой работы клапанов мог привести к повышению давления выше допустимых пределов, что потенциально могло нанести вред как оборудованию, так и персоналу. Как сообщают в OIG, поскольку инфраструктура не обслуживалась должным образом, этом могло ограничить доступность вычислительных ресурсов и поставить под угрозу выполнение целей миссии лаборатории.

Управление вычислительными мощностями лаборатории выполняет некоммерческая организация UT-Battelle, созданная в 2000 году исключительно для контроля над площадкой Ок-Ридж в интересах Министерства энергетики при сотрудничестве с Университетом Теннесси и некоммерческим Мемориальным институтом Баттеля.

 Фото: ORNL

Фото: ORNL

В OIG заявляют, что программа обслуживания UT-Battelle не соответствовала необходимым требованиям. В самой UT-Battelle сообщили регулятору, что регулярная калибровка не нужна, поскольку каждый элемент оборудования калибруется при установке, а позже системы ЦОД постоянно контролируются субподрядчиком с помощью ПО, уведомляющего об инцидентах. В OIG подчёркивают, что хотя такая практика разрешена, всё ПО должно контролироваться с помощью специальной программы обеспечения качества, описывающей, каким именно образом соблюдаются требования к безопасности.

Однако лаборатория не смогла предоставить таких документов — в UT-Battelle фактически не знают, предоставляет ли ПО корректные данные. Кроме того, UT-Battelle не проверяла вовремя все воздушные клапаны, а почти половина клапанов для воды и теплоносителя не была протестирована и/или обследована в соответствиями с инструкциями. В некоторых случаях тесты проводили в соответствии с рекомендациями производителя, а не принятыми в лаборатории правилами. UT-Battelle заявляет, что процедура проверки сейчас пересматривается.

 Изображение: AMD

Изображение: AMD

В отчёте OIG подчёркивается, что в 2020 году уже проводилась аналогичная проверка, выявившая буквально те же проблемы. Хотя в некоторых аспектах положение улучшилось, требуются дальнейшие меры для приведения дел в порядок. При этом в UT-Battelle полностью признали правомерность рекомендаций и согласились разработать план обеспечения качества для мониторингового ПО и обеспечить работу и обслуживание PRV-клапанов в соответствии с актуальными процедурами и требованиями.

Постоянный URL: http://servernews.kz/1097052
06.12.2023 [13:19], Сергей Карасёв

Yotta анонсировала Shakti Cloud — самую мощную в Индии ИИ-платформу на базе NVIDIA H100

Компания Yotta Data Services объявила о заключении соглашения о сотрудничестве, в рамках которого планируется развёртывание облачной инфраструктуры Shakti Cloud — самой высокопроизводительной в Индии платформы для задач ИИ на основе GPU.

По условиям договора, Yotta закупит крупную партию ускорителей NVIDIA H100. К январю 2024 года планируется ввести в эксплуатацию 4096 ускорителей. Ещё 16 384 ускорителя войдут в состав Shakti Cloud к июню наступающего года. А к концу 2025-го инфраструктура Yotta будет насчитывать 32 768 ускорителей.

Yotta развернёт первый кластер из 16 384 ускорителей на площадке NM1 — это крупнейший в Азии дата-центр класса Tier IV, расположенный в Нави-Мумбаи на западном побережье индийского штата Махараштра. Затем Yotta создаст кластер аналогичного масштаба в D1 — своём новейшем ЦОД гиперскейл-уровня в Грейтер-Нойде недалеко от Дели. Проектная мощность Shakti Cloud составит 16 Эфлопс на операциях ИИ.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

На базе облака Yotta Shakti Cloud клиентам будут предоставляться различные услуги PaaS. Заказчики смогут обучать большие языковые модели (LLM), запускать ресурсоёмкие ИИ-задачи и другие рабочие нагрузки. Ожидается, что платформа поможет удовлетворить растущий спрос на услуги НРС со стороны исследовательских лабораторий, корпоративных пользователей и стартапов.

Кроме того, Yotta намерена использовать решения NVIDIA InfiniBand для формирования GPU-кластеров, предназначенных для поддержания масштабных проектов, связанных с инференсом, обучением крупных ИИ-моделей и пр. В целом, партнёрство с NVIDIA поможет Индии укрепить позиции на стремительно растущем мировом рынке ИИ.

Постоянный URL: http://servernews.kz/1097039
01.12.2023 [11:50], Сергей Карасёв

В основу ИИ-суперкомпьютера NCSA DeltaAI лягут суперчипы NVIDIA GH200 Grace Hopper

Национальный центр суперкомпьютерных приложений (NCSA) при Университете Иллинойса в Урбане-Шампейне (США) сообщил о том, что в 2024 году в эксплуатацию будет введён вычислительный комплекс DeltaAI. Его основой послужат суперчипы NVIDIA GH200 Grace Hopper.

Система DeltaAI создаётся с прицелом на ресурсоёмкие приложения ИИ. В рамках проекта NCSA в июле нынешнего года получил $10 млн от Национального научного фонда США (NSF). Инициатива DeltaAI направлена на расширение использования возможностей ИИ при реализации различных исследовательских задач.

Комплекс DeltaAI станет дополнением к суперкомпьютеру Delta, который заработал в NCSA в 2022 году. Данная система занимает 199-е место в ноябрьском рейтинге TOP500 с быстродействием около 3,81 Пфлопс. Теоретическая пиковая производительность достигает 8,05 Пфлопс. В основу положены процессоры AMD EPYC 7763 Milan и интерконнект Slingshot-10.

 Источник изображения: NCSA

Источник изображения: NCSA

Отмечается, что DeltaAI утроит вычислительные мощности NCSA, ориентированные на задачи ИИ, и значительно расширит ресурсы, доступные в НРС-экосистеме, финансируемой NSF. Благодаря использованию передовых интерфейсов система DeltaAI будет более доступна для различных исследовательских ИИ-проектов. Производительность DeltaAI пока не раскрывается.

Нужно отметить, что суперчип GH200 Grace Hopper ляжет в основу более чем 40 ИИ-суперкомпьютеров по всему миру. Это, в частности, первый европейский суперкомпьютер экзафлопсного класса Jupiter, британский комплекс Isambard-AI в Бристольском университете и пр.

Постоянный URL: http://servernews.kz/1096787
27.11.2023 [10:42], Сергей Карасёв

Объём мирового НРС-рынка превысит $100 млрд к 2028 году

Аналитики ResearchAndMarkets обнародовали прогноз по глобальному НРС-рынку до 2028 года. Эксперты полагают, что отрасль продолжит демонстрировать устойчивый рост на фоне стремительного развития приложений ИИ и увеличивающейся потребности в обработке больших данных.

По оценкам, в 2022-м мировые затраты в сфере НРС достигли $46,2 млрд. В перспективе ожидается показатель CAGR (среднегодовой темп роста в сложных процентах) на уровне 15,5 %. Если этот прогноз оправдается, к 2028-му объём рынка составит около $107,8 млрд.

 Источник изображения: Microsoft

Источник изображения: Microsoft

В 2022 году на НРС-рынке доминировал сегмент аппаратного обеспечения с затратами примерно $23,8 млрд. В данной области также прогнозируется величина CAGR на отметке 15,5 %. Таким образом, к 2028-му расходы на аппаратные решения поднимутся до $55,1 млрд. Вклад в расширение закупок «железа» для НРС-платформ вносят такие отрасли, как производство, оборона, финансовый сектор, здравоохранение, научно-исследовательский сегмент и пр.

Ключевыми драйверами рынка ResearchAndMarkets называет приложения с интенсивным использованием данных (ИИ, машинное обучение, аналитика), цифровую трансформацию предприятий, расширение облачного сегмента, правительственные инициативы по развитию высокопроизводительных вычислений и конвергенцию технологий (HPC, ИИ, квантовые и периферийные вычисления). Вместе с тем аналитики указывают и на ряд сложностей, препятствующих росту НРС-рынка. Среди них — высокие затраты на создание инфраструктуры, увеличение энергопотребления, нехватка квалифицированных специалистов и нормативно-правовые вопросы.

Постоянный URL: http://servernews.kz/1096544
26.11.2023 [23:28], Руслан Авдеев

Великобритания инвестирует ещё £500 млн в ИИ-вычисления и реализует пять новых квантовых проектов

Британское правительство намерено потратить дополнительные £500 млн (около $626 млн), чтобы местные учёные и исследовательские организации получили возможность заниматься передовыми ИИ-разработками. Как уточняет Silicon Angle, дополнительно будет реализовано пять новых квантовых проектов в рамках Национальной квантовой стратегии с бюджетом £2.5 млрд (примерно $3,1 млрд).

£500 млн потратят на ИИ-инфраструктуру в ближайшие два года, а общий объём планируемых инвестиций в эту сферу превысит £1,5 млрд. Закупленное оборудование будет доступно учёным и экспертам по машинному обучению, а также стартапам в области ИИ. В частности, именно в рамках этой инициативы для Бристольского университета создаётся ИИ-суперкомпьютер Isambard-AI.

В рамках Национальной квантовой стратегии власти намерены запустить пять специализированных проектов. В частности, одна из инициатив направлена на внедрение квантовых компьютеров, «способных выполнять триллион операций» [подряд до первой ошибки]. Власти считают, что такие вычисления нецелесообразно проводить с помощью классических компьютеров и суперкомпьютеров. В перспективе они надеются с помощью квантовых технологий добиться прорывов в самых разных отраслях: здравоохранении, финансах, оборонном и энергетическом секторах, промышленности и др.

 Источник изображения: Karlis Reimanis/unsplash.com

Источник изображения: Karlis Reimanis/unsplash.com

Параллельно будет реализовано создание сети, связывающей многочисленные удалённые квантовые процессоры, причём одной из задач станет коммерциализация квантовых сетевых технологий. Наконец, ещё три проекта связаны с разработкой квантовых сенсоров, в том числе мобильных, а также созданием нового поколения систем навигации на базе квантовых решений. Кроме того, Великобритания выделит средства на поддержку талантливых учёных и университетских стартапов, подготовку венчурных инвесторов и математиков, создание батарей и низкоорбитальных спутников и т.д.

Постоянный URL: http://servernews.kz/1096538
25.11.2023 [19:51], Сергей Карасёв

Сандийские национальные лаборатории возьмут на вооружение НРС-платформу NextSilicon

Сандийские национальные лаборатории (SNL) Министерства энергетики США объявили о заключении партнёрского соглашения с компаниями NextSilicon и Penguin Solutions с целью создания системы прототипов на основе передовой архитектуры (Advanced Architecture Prototype System AAPS, AAPS).

Речь идёт об определении и оценке новых технологий, которые ещё не были протестированы или внедрены, чтобы установить возможность их использования в рамках программы Advanced Simulation and Computing (ASC). Данная инициатива реализуется Национальным управлением по ядерной безопасности США (NNSA).

 Источник изображения: NextSilicon

Источник изображения: NextSilicon

NextSilicon разрабатывает новую вычислительную платформу, ориентированную на сегмент НРС. Компания использует интеллектуальные программные алгоритмы для динамической реконфигурации оборудования на основе данных, получаемых непосредственно во время выполнения задачи. Это даёт возможность оптимизировать производительность и энергопотребление, обеспечив преимущества по сравнению с традиционными аппаратными решениями.

Лаборатории SNL сотрудничают с NextSilicon более трёх лет. Решения NextSilicon будут интегрированы и поставлены специалистами компании Penguin Solutions, с которой SNL работают с 2010 года. Новый НРС-комплекс стандарта OCP получит СЖО Chilldyne, что поможет поднять энергоэффективность. Системы закупаются по проекту Sandia Vanguard: отгрузка первых образцов запланирована на 2024 год, после чего последует поставка Spectra — решения второго поколения.

Между тем компании DataDirect Networks (DDN) и NextSilicon представили комплексное решение, которое оптимизирует производительность ввода-вывода ЦОД при выполнении ресурсоёмких задач. Платформа, как утверждается, обеспечивает значительное повышение быстродействия благодаря одновременному подключению устройства хранения данных AI400NVX2 DDN к высокоскоростным сетям InifiniBand и Ethernet.

Постоянный URL: http://servernews.kz/1096512
24.11.2023 [17:14], Сергей Карасёв

Лос-Аламосская национальная лаборатория внедрит обновлённые ИИ-системы SambaNova

Лос-Аламосская национальная лаборатория (LANL) Министерства энергетики США (DOE) заключила соглашение о сотрудничестве со стартапом SambaNova Systems, который специализируется на разработке ИИ-решений. Финансовые условия договора не раскрываются, но ранее стартап уже поставлял LANL свои решения.

В рамках партнёрства LANL расширит применение программно-аппаратных комплексов SambaNova DataScale. Речь идёт о системе DataScale SN30, содержащей восемь ускорителей собственной разработки Cardinal SN30, суммарно имеющих 5 Гбайт SRAM и 8 Тбайт DRAM. Конфигурация комплекса может включать от одного до трёх узлов SN30.

Кроме того, LANL внедрит решение SambaNova Suite для генеративного ИИ. Эта платформа предоставляет различные ИИ-модели, оптимизированные для корпоративных и государственных организаций. Они могут быть развёрнуты локально или в облаке с возможностью адаптации к собственному набору данных заказчика.

 Источник изображения: SambaNova

Источник изображения: SambaNova

Новое многолетнее соглашение между LANL и SambaNova является расширением действующего партнёрства между сторонами. Лаборатория будет использовать технологии SambaNova для решения широкого спектра задач, связанных с ИИ и большими языковыми моделями (LLM), в том числе в интересах национальной безопасности. Отмечается, что платформа SambaNova Suite предлагает быстрый и эффективный способ развёртывания генеративного ИИ для реализации самых сложных проектов.

Постоянный URL: http://servernews.kz/1096460
23.11.2023 [01:01], Владимир Мироненко

Nokia поможет консорциуму Ultra Ethernet в разработке новых спецификаций Ethernet для систем ИИ

Nokia объявила о поддержке консорциума Ultra Ethernet Consortium (UEC), созданного с целью объединения усилий компаний для обновления спецификаций Ethernet и разработки API, позволяющих удовлетворить растущие сетевые требований систем ИИ и HPC.

Компания отметила, что почти универсальный протокол для сетей передачи данных Ethernet способен удовлетворить широкие потребности систем ИИ в производительности, а благодаря поддержке Nokia консорциум сможет разрабатывать новые стандарты, лучшие практики и архитектуры для специализированных сетей ЦОД с ИИ.

Nokia добилась больших успехов в разработке сверхмасштабируемых сетевых решений с низкой задержкой для ЦОД и интерконнекта. Компания планирует использовать накопленный опыт при участии в нескольких рабочих группах UEC, помогая обеспечить соответствие продуктов консорциума критическим потребностям всех своих клиентов.

 Источник изображения: Nokia

Источник изображения: Nokia

«Используя наше широкое присутствие в сфере коммуникаций, корпоративных и веб-сетей, мы стремимся сделать Ultra Ethernet высоко совместимой, недорогой и функционально интероперабельной частью будущих стеков приложений искусственного интеллекта и высокопроизводительных вычислений», — заявил глава IP-подразделения Nokia.

Постоянный URL: http://servernews.kz/1096390
22.11.2023 [01:23], Владимир Мироненко

NVIDIA в рекордные сроки завершила строительство первой фазы израильского ИИ-суперкомпьютера Israel-1

Компания NVIDIA объявила во вторник о досрочном завершении сборки первой фазы ИИ-суперкомпьютера Israel-1, анонсированного летом этого года. Сообщается, что суперкомпьютер уже доступен для использования исследовательскими и опытно-конструкторскими группами компании, а также её отдельными партнёрами. После завершения строительства Israel-1 станет самым мощным ИИ-суперкомпьютером в Израиле.

По данным NVIDIA, первая фаза компьютерной системы была построена менее чем за 20 недель или почти на два месяца раньше намеченных сроков — это намного быстрее, чем требуется для создания традиционных суперкомпьютеров, которые могут создаваться и несколько лет.

Первая фаза Israel-1, обеспечивающая производительность при обработке ИИ-нагрузок в 4 Эфлопс (FP8) и при научных вычислениях в 65 Пфлопс (FP64), послужит испытательным стендом для разработанной в Израиле сетевой Ethernet-платформы NVIDIA/Mellanox Spectrum-X, предназначенной для повышения производительности и эффективности облачных ИИ-сервисов.

 Изображение: NVIDIA

Изображение: NVIDIA

В конечном итоге Israel-1 будет содержать 256 систем NVIDIA HGX H100, включающих в общей сложности 2048 ускорителей NVIDIA H100 с более чем 34 млн ядер CUDA и 1 млн тензорных ядер четвёртого поколения, 2560 единиц DPU BlueField-3 и 80 коммутаторов Spectrum-4. Первая фаза суперкомпьютера включает 128 серверов Dell PowerEdge XE9680 на базе платформы NVIDIA HGX H100, 1280 единиц DPU BlueField-3 и более 40 коммутаторов Spectrum-4.

Постоянный URL: http://servernews.kz/1096329
21.11.2023 [09:51], Сергей Карасёв

Европейский экзафлопсный суперкомпьютер Jupiter получит универсальный блок cCuster на европейских Arm-процессорах SiPearl Rhea

В 2024 году в Юлихском исследовательском центре (FZJ) в Германии заработает вычислительный комплекс Jupiter — первый европейский суперкомпьютер экзафлопсного класса. Профессор Томас Липперт (Thomas Lippert; на фото ниже) из FZJ рассказал об особенностях конфигурации этой системы.

Ранее сообщалось, что в состав Jupiter будет включён высокомасштабируемый блок ускорителей (Booster). Речь идёт об использовании платформы Eviden BullSequana XH3000 с прямым жидкостным охлаждением, а в состав каждого узла войдут модули NVIDIA Quad GH200. Общее количество суперчипов GH200 Grace Hopper составит почти 24 тыс.

Блок Booster предназначен для решения особо ресурсоёмких задач. Как сообщил господин Липперт, второй составляющей НРС-комплекса станет универсальный блок cCuster, который сможет поддерживать приложения всех типов: это, в частности, операции с высокой интенсивностью использования данных. Оба блока можно будет использовать по отдельности или вместе, что позволит добиться максимальной эффективности при реализации различных проектов.

В основе cCuster — энергоэффективные высокопроизводительные Arm-процессоры SiPearl Rhea. Эти изделия обеспечивают высокое соотношение производительности к пропускной способности — 0,5 байт/флоп. Поэтому процессоры хорошо подходят для сложных приложений с интенсивным использованием данных.

 Источник изображения: FZJ

Источник изображения: FZJ

Все вычислительные узлы Jupiter подключены к высокопроизводительной сети NVIDIA Mellanox InfiniBand. Быстродействие на операциях обучения ИИ составит до 93 Эфлопс, а FP64-производительность «незначительно превысит 1 Эфлопс». Общая стоимость проекта составит €273 млн, включая доставку, установку и обслуживание Jupiter.

Постоянный URL: http://servernews.kz/1096276
Система Orphus