Материалы по тегу: hpc
26.05.2024 [22:25], Александр Бенедичук
«Гигафабрика» для ИИ: стартап xAI Илона Маска хочет построить суперкомпьютер со 100 тыс. NVIDIA H100Как сообщает Reuters со ссылкой на The Information, Илон Маск планирует построить гигантский суперкомпьютер для своего ИИ-стартапа xAI для работы над следующей версией чат-бота Grok. Запуск предполагаемого суперкомпьютера ожидается к осени 2025 года, при этом, по словам Маска, xAI может сотрудничать с Oracle. Для обучения Grok 2 использовалось около 20 тыс. ускорителей NVIDIA H100, а для Grok 3 и более поздних версий потребуется уже 100 тыс. NVIDIA H100. После завершения строительства суперкомпьютер будет как минимум в четыре раза больше самых больших существующих на сегодняшний день GPU-кластеров, утверждается в презентации, сделанной для инвесторов в мае. Семейство ускорителей NVIDIA доминирует на рынке ИИ-чипов для ЦОД, но из-за высокого спроса их может быть трудно приобрести. Маск основал xAI в прошлом году в качестве конкурента OpenAI и Google. Маск также был соучредителем OpenAI и членом совета директоров до 2018 года. В феврале этого года он подал иск к OpenAI и соучредителям Альтману и Брокману, посчитав, что они нарушили соглашение о некоммерческом характере деятельности.
26.05.2024 [13:24], Руслан Авдеев
Эрик Шмидт: будущие суперкомпьютеры США и Китая будут окружены пулемётами и колючей проволокой и питаться от АЭС
hardware
hpc
аэс
безопасность
ии
информационная безопасность
китай
суперкомпьютер
сша
цод
энергетика
Бывший генеральный директор Google Эрик Шмидт (Eric Schmidt) прогнозирует, что в обозримом будущем в США и Китае большие суперкомпьютеры будут заниматься ИИ-вычислениями под защитой военных баз. В интервью Noema он подробно рассказал о том, каким видит новые ИИ-проекты, и это будущее вышло довольно мрачным. Шмидт поведал о том, как правительства будут регулировать ИИ и искать возможности контроля ЦОД, работающих над ИИ. Покинув Google, бизнесмен начал очень тесно сотрудничать с военно-промышленным комплексом США. По его словам, рано или поздно в США и Китае появится небольшое число чрезвычайно производительных суперкомпьютеров с возможностью «автономных изобретений» — их производительность будет гораздо выше, чем государства готовы свободно предоставить как своим гражданам, так и соперникам. Каждый такой суперкомпьютер будет соседствовать с военной базой, питаться от атомного источника энергии, а вокруг будет колючая проволока и пулемёты. Разумеется, таких машин будет немного — гораздо больше суперкомпьютеров будут менее производительны и доступ к ним останется более широким. Строго говоря, самые производительные суперкомпьютеры США принадлежат Национальным лабораториям Министерства энергетики США, которые усиленно охраняются и сейчас. Как заявил Шмидт, необходимы и договорённости об уровнях безопасности вычислительных систем по примеру биологических лабораторий. В биологии широко распространена оценка по уровням биологической угрозы для сдерживания её распространения и оценки уровня риска заражения. С суперкомпьютерами имеет смысл применить похожую классификацию. Шмидт был председателем Комиссии национальной безопасности США по ИИ и работал в Совете по оборонным инновациям. Также он активно инвестировал в оборонные стартапы. В то же время Шмидт сохранил влияние и в Alphabet и до сих пор владеет акциями компании стоимостью в миллиарды долларов. Военные и разведывательные службы США пока с осторожностью относятся к большим языковым моделям (LLM) и генеративному ИИ вообще из-за распространённости «галлюцинаций» в таких системах, ведущих к весьма правдоподобным на первый взгляд неверным выводам. Кроме того, остро стоит вопрос сохранения секретной информации в таких системах. Ранее в этом году Microsoft подтвердила внедрение изолированной от интернета генеративной ИИ-модели для спецслужб США после модернизации одного из своих ИИ-ЦОД в Айове. При этом представитель Microsoft два года назад предрекал, что нынешнее поколение экзафлопсных суперкомпьютеров будет последним и со временем все переберутся в облака.
24.05.2024 [13:17], Сергей Карасёв
Microsoft ежемесячно развёртывает по пять ИИ-суперкомпьютеровMicrosoft на фоне стремительного развития ИИ активно расширяет свой вычислительный потенциал: каждый месяц корпорация развёртывает эквивалент пяти суперкомпьютеров Eagle. Об этом, как сообщает ресурс Datacenter Dynamics, заявил технический директор облачной платформы Azure Марк Руссинович (Mark Russinovich). Комплекс Microsoft Azure Eagle в нынешнем рейтинге TOP500 занимает третье место с FP64-производительностью 561,2 Пфлопс — это самый мощный в мире облачный суперкомпьютер. В системе задействованы 14 400 ускорителей NVIDIA H100, а также интерконнект NVIDIA InfiniBand NDR. «Сегодня мы развёртываем эквивалент пяти таких суперкомпьютеров каждый месяц. Наша экосистема ИИ теперь на несколько порядков больше и меняется каждый день и каждый час», — сказал Руссинович на конференции Microsoft Build. Таким образом, ежемесячно Microsoft вводит в эксплуатацию вычислительные мощности, сопоставимые с теми, которые могут обеспечить 72 000 ускорителей Н100. В общей сложности это 2,8 Эфлопс ресурсов, которые распределены по расширяющейся сети дата-центров корпорации. Руссинович отметил, что общая протяжённость соединений InfiniBand в этих ЦОД такова, что ими можно было бы как минимум пять раз опоясать Землю. То есть, это не менее 200 тыс. км. О стремительном расширении вычислительных мощностей также говорит технический директор Microsoft Кевин Скотт (Kevin Scott). Он не стал приводить конкретные цифры, но дал наглядное представление. Так, ИИ-суперкомпьютер, который корпорация в 2020 году создала для OpenAI GPT-3, Скотт сравнил с акулой. Система следующего поколения, разработанная в 2022-м для обучения GPT-4, — это косатка, которая в два раза длиннее и в три раза тяжелее больших белых акул. Нынешняя система Microsoft сравнивается с синим китом: он более чем в два раза длиннее и примерно в 25 раз тяжелее косатки. В настоящее время Microsoft и OpenAI обсуждают проект строительства масштабного кампуса ЦОД для решения самых сложных и ресурсоёмких задач в области ИИ. Проект под названием Stargate стоимостью около $100 млрд предполагает создание ряда объектов, суммарная мощность которых может достигать 5 ГВт. Компания действительно стремительно наращивает ёмкость своих ЦОД, добавляя порядка 200 МВт ежемесячно.
22.05.2024 [14:09], Сергей Карасёв
Dell представила ИИ-сервер PowerEdge XE9680L с ускорителями NVIDIA B200 и СЖОКомпания Dell анонсировала сервер PowerEdge XE9680L, предназначенный для наиболее требовательных больших языковых моделей (LLM) и крупномасштабных сред ИИ, где плотность размещения ускорителей на стойку имеет решающее значение. Новинка станет доступна во II половине 2024 года. Сервер выполнен в форм-факторе 4U. Он может комплектоваться восемью ускорителями NVIDIA HGX B200 (Blackwell). Задействована система прямого жидкостного охлаждения (DLC). Доступны 12 слотов PCIe 5.0 полной высоты и половинной длины для установки сетевых карт и иных адаптеров/контроллеров. «Сервер использует эффективное интеллектуальное охлаждение DLC как для CPU, так и для GPU. Эта революционная технология позволяет создать более плотную конфигурацию 4U, максимизируя вычислительную мощность при сохранении тепловой эффективности», — заявляет производитель. Отмечается, что PowerEdge XE9680L обеспечивает возможность масштабирования до 72 ускорителей Blackwell в расчёте на стойку 52U или до 64 ускорителей на стойку 48U. Прочие характеристики новинки будут обнародованы ближе к началу продаж. В ассортименте Dell уже есть 6U-сервер PowerEdge XE9680. Эта система использует процессоры Intel Xeon Sapphire Rapids. Она поддерживает установку восьми ускорителей NVIDIA H100/A100, а также AMD Instinct MI300X и Intel Gaudi3.
21.05.2024 [18:48], Алексей Степин
Intel отказалась от Ponte Vecchio в пользу Gaudi и Falcon ShoresУскоритель Intel Ponte Vecchio на базе архитектуры Xe стал настоящим технологическим чудом, объединив 47 чиплетов в своей сложнейшей, многослойной компоновке на базе EMIB и Foveros. Увы, амбициозный ускоритель задержался: анонсирован он был в 2019 году, но его массовое производство было налажено только к 2023 году. Он продолжит трудиться в уже построенных суперкомпьютерах — в свежем TOP500 система Aurora, использующая данные ускорители, добралась до второго места, хотя постройка машины была завершена почти год назад. Однако новых ускорителей на базе этого решения не будет — проект Rialto Bridge свернут, да и жизненный цикл Ponte Vecchio подходит к концу. Эту архитектуру погубил именно замах: Ponte Vecchio был задуман как универсальный ускоритель, способный эффективно работать практически со всеми существующими форматами вычислений, от полновесного FP64 до характерных для ИИ FP16, BF16 и INT8. Но решения NVIDIA и AMD успели уйти вперёд, появились и более узкоспециализированные ИИ-решения. Причём последние появились и у самой Intel: с приобретением активов Habana Labs компания получила перспективную ИИ-архитектуру Gaudi. С точки зрения рыночных перспектив она оказалась куда лучше Ponte Vecchio, уже во втором поколении чипов успешно сражаясь с решениями NVIDIA, особенно в области удельной производительности. И в области ИИ-ускорителей Intel теперь делает ставку именно на Gaudi3. ![]() В Falcon Shores компания намерена совместить несколько подходов. Согласно последним данным, новинка будет включать в себя элементы архитектур Xe и Gaudi, получит модульный дизайн, поддержку современных ИИ-фреймворков и будет использовать масштабируемые интерфейсы ввода-вывода и HBM3e. Выпуск Falcon Shores намечен на 2025 год. Intel намеревается сфокусировать своё внимание на рынке корпоративных ИИ-систем, для чего планируется как можно быстрее расширять рыночную нишу Gaudi. Однако для рынка HPC ведущей связкой пока останется Xeon с ускорителями серии Max. ![]() Следует отметить, что фокус на специфичных для ИИ архитектурах не означает экономичность. Если самый быстрый вариант Ponte Vecchio в лице OAM-ускорителя Data Center GPU Max 1550 имеет TDP 600 Вт, то у Gaudi3 даже с воздушным охлаждением этот показатель вырастет до 900 Вт. Это вынуждает использовать формат OAM 2.0, но для Falcon Shores и он не подойдёт — Intel говорит уже 1500 Вт, что больше, нежели у NVIDIA Blackwell с его 1200 Вт.
21.05.2024 [16:36], Руслан Авдеев
Core42 и Cerebras построят в Техасе ИИ-суперкомпьютер с 173 млн ядерБазирующаяся в ОАЭ компания Core42 занялась строительством ИИ-суперкомпьютера, в эксплуатацию объект должны ввести до конца текущего года. HPC Wire сообщает, что компьютер Condor Galaxy 3 (CG-3) получит 192 узла с 5-нм мегачипами Cerebras WSE-3 и 172,8 млн ИИ-ядер. WSE-3 в 50 раз крупнее актуальных ИИ-ускорителей NVIDIA и, конечно, гораздо производительнее. По данным Core42, развёртывание CG-3 в Далласе (Техас) начнётся в июне и завершится в сентябре–октябре. Core42 уже считается значимым игроком на рынке ЦОД, HPC- и ИИ-систем. Машины G42 уже попадали в TOP500 — это системы Artemis (NVIDIA) и POD3 (Huawei). Последняя покинула рейтинг в 2023 году. Суперкомпьютер CG-3, как теперь сообщается, получит 192 узла CS-3. Каждый узел с чипом WSE-3 обеспечивает до 125 Пфлопс (FP16 с разрежением), так что общая производительность Condor Galaxy 3 составит 24 Эфлопс. Всего же Cerebras намеревается построить девять суперкомпьютеров семейства Condor Galaxy. Машины GC-1 и GC-2 на базе чипов WSE-2 также созданы при участии G42. Core42 появилась в 2023 году в результате слияния G42 Cloud и G42 Inception AI. Родительская компания G42, основанная в 2018 году, также сотрудничает с NVIDIA, AMD, OpenAI и другими компаниями. G42 не так давно попала под пристальное внимание американских властей. Её подозревали в том, что она помогала Китаю получать доступ к новейшим ускорителям NVIDIA и другому ИИ-оборудованию американских компаний. В результате, как считается, она была вынуждена отказать от сотрудничества с Huawei. Также сообщалось, что G42 заключила с американским правительством взаимовыгодное секретное соглашение — компания обязалась лишить КНР доступа к ускорителям, а в ответ ей самой разрешали сохранить доступ к продукции NVIDIA. Не исключено, что были оговорены и иные пункты. По некоторым данным, именно в то же время, когда было заключено соглашение с руководством США, Microsoft инвестировала в G42 около $1,5 млрд.
16.05.2024 [01:05], Игорь Осколков
И для ИИ, и для HPC: первые европейские серверные Arm-процессоры SiPearl Rhea1 получат HBM-памятьКомпания SiPearl уточнила спецификации разрабатываемых ею серверных Arm-процессоров Rhea1, которые будут использоваться, в частности, в составе первого европейского экзафлопсного суперкомпьютера JUPITER, хотя основными чипами в этой системе будут всё же гибридные ускорители NVIDIA GH200. Заодно SiPearl снова сдвинула сроки выхода Rhea1 — изначально первые образцы планировалось представить ещё в 2022 году, а теперь компания говорит уже о 2025-м. При этом существенно дизайн процессоров не поменялся. Они получат 80 ядер Arm Neoverse V1 (Zeus), представленных ещё весной 2020 года. Каждому ядру полагается два SIMD-блока SVE-256, которые поддерживают, в частности, работу с BF16. Объём LLC составляет 160 Мбайт. В качестве внутренней шины используется Neoverse CMN-700. Для связи с внешним миром имеются 104 линии PCIe 5.0: шесть x16 + две x4. О поддержке многочиповых конфигураций прямо ничего не говорится. Очень похоже на то, что SiPearl от референсов Arm особо и не отдалялась, поскольку Rhea1 хоть и получит четыре стека памяти HBM, но это будет HBM2e от Samsung. При этом для DDR5 отведено всего четыре канала с поддержкой 2DPC, а сам процессор ожидаемо может быть поделён на четыре NUMA-домена. И в такой конфигурации к общей эффективности работы с памятью могут быть вопросы. Именно наличие HBM позволяет говорить SiPearl о возможности обслуживать и HPC-, и ИИ-нагрузки (инференс). На примере Intel Xeon Max (Sapphire Rapids c 64 Гбайт HBM2e) видно, что наличие сверхбыстрой памяти на борту даёт прирост производительности в означенных задачах, хотя и не всегда. Однако это другая архитектура, другой набор инструкций (AMX), другая же подсистема памяти и вообще пока что единичный случай. С Fujitsu A64FX сравнения тоже не выйдет — это кастомный, дорогой и сложный процессор, который, впрочем, доказал эффективность и в HPC-, и даже в ИИ-нагрузках (с оговорками). В MONAKA, следующем поколении процессоров, Fujitsu вернётся к более традиционному дизайну. Пожалуй, единственный похожий на Rhea1 чип — это индийский 5-нм C-DAC AUM, который тоже базируется на Neoverse V1, но предлагает уже 96 ядер (48+48, два чиплета), восемь каналов DDR5 и до 96 Гбайт HBM3 в четырёх стеках, а также поддержку двухсокетных конфигураций. AWS Graviton3E, который тоже ориентирован на HPC/ИИ-нагрузки, вообще обходится 64 ядрами Zeus и восемью каналами DDR5. Наконец, NVIDIA Grace и Grace Hopper в процессорной части тоже как-то обходятся интегрированной LPDRR5x, да и ядра у них уже Neoverse V2 (Demeter), и своя шина для масштабирования имеется. В любом случае в 2025 году Rhea1 будет выглядеть несколько устаревшим чипом. Но в этом же году SiPearl собирается представить более современные чипы Rhea2 и обещает, что их разработка будет не столь долгой как Rhea1. Компанию им должны составить европейские ускорители EPAC, тоже подзадержавшиеся. А пока Европа будет обходиться преимущественно американскими HPC-технологиями, от которых стремится рано или поздно избавиться.
15.05.2024 [14:18], Руслан Авдеев
PUE у вас неправильный: NVIDIA призывает пересмотреть методы оценки энергоэффективности ЦОД и суперкомпьютеровОператорам дата-центров и суперкомпьютеров не хватает инструментов для корректного измерения энергоэффективности их оборудования и оценки прогресса на пути к экоустойчивым вычислениям. Как утверждает NVIDIA, нужна новая система оценки показателей при использовании оборудования в реальных задачах. Для оценки эффективности ЦОД существует как минимум около трёх десятков стандартов, некоторые уделяют внимание весьма специфическим критериям вроде расхода воды или уровню безопасности. Сегодня чаще всего используется показатель PUE (power usage effectiveness), т.е. отношение энергопотребления всего объекта к потреблению собственно IT-инфраструктуры. В последние годы многие операторы достигли практически идеальных значений PUE, поскольку, например, на преобразование энергии и охлаждение нужно совсем мало энергии. В эпоху роста облачных сервисов оценка PUE показала довольно высокую эффективность, но в эру ИИ-вычислений этот индекс уже не вполне соответствует запросам отрасли ЦОД — оборудование заметно изменилось. NVIDIA справедливо отмечает, что PUE не учитывает эффективность инфраструктуры в реальных нагрузках. С таким же успехом можно измерять расход автомобилем бензина без учёта того, как далеко он может проехать без дозаправки. При этом среднемировой показатель PUE дата-центров остаётся неизменным уже несколько лет, а улучшать его всё дороже. Что касается энергопотребления, разное оборудование при одинаковых затратах может давать самые разные результаты. Другими словами, если современные ускорители потребляют больше энергии, это не значит, что они менее эффективны, поскольку они дают несопоставимо лучший результат в сравнении со старыми решениями. NVIDIA неоднократно приводила подобные сравнения и между своими GPU с обычными CPU, а теперь предлагает распространить этот подход на ЦОД целиком, что справедливо, учитывая стремление NVIDIA сделать минимальной единицей развёртывания целую стойку. Как считают в NVIDIA, оценивать качество ЦОД можно только с учётом того, сколько энергии тратится для получения результата. Так, ЦОД для ИИ могут полагаться на MLPerf-бенчмарки, суперкомпьютеры для научных исследований могут требовать измерения других показателей, а коммерческие дата-центры для стриминговых сервисов — третьих. В идеале бенчмарки должны измерять прогресс в ускоренных вычислениях с использованием специализированных сопроцессоров, ПО и методик. Например, в параллельных вычислениях GPU намного энергоэффективнее обычных процессоров Не так давно эксперты Стэнфордского университета отметии, что с 2003 года производительность ускорителей выросла приблизительно в 7 тыс. раз, а соотношение цены и производительности стало в 5,6 тыс. раз лучше. А с учётом того, что современные ЦОД достигли PUE на уровне приблизительно 1,2, подобная метрика практически исчерпала себя, теперь стоит ориентироваться на другие показатели, релевантные актуальным проблемам. Хотя напрямую сравнить некоторые аспекты невозможно, сегментировав деятельность ЦОД на типы рабочих нагрузок, возможно, удалось бы получить некоторые результаты. В частности, операторам ЦОД нужен пакет бенчмарков, измеряющих показатели при самых распространённых рабочих ИИ-нагрузках. Например, неплохой метрикой может стать Дж/токен. Впрочем, NVIDIA грех жаловаться на недостойные оценки — в последнем рейтинге Green500 именно её системы заняли лидерские позиции.
14.05.2024 [20:30], Владимир Мироненко
Великобритания вновь присоединилась к EuroHPCК Европейскому совместному предприятию по развитию высокопроизводительных вычислений EuroHPC JU присоединилась Великобритания, став его 35-м государством-участником, о чём было принято решение на 38-м заседании совета управляющих EuroHPC, сообщает сайт консорциума. Ранее страна лишилась своего места в EuroHPC из-за Brexit'а, хотя и являлась одной из стран-основательниц консорциума. Теперь Великобритания принимает участие в финансируемой Horizon Europe части программы EuroHPC, в рамках которой ей предоставляется доступ к суперкомпьютерам для исследований. Всего в рамках программы выделяется около £770 млн в период с 2021 по 2027 гг. Исследователи и учёные из Великобритании теперь смогут подавать заявки на участие в финансируемых Horizon Europe конкурсах EuroHPC JU Research & Innovation в партнёрстве с другими европейскими исследовательскими институтами, которые занимаются технологиями, приложениями и ПО для высокопроизводительных вычислений. ![]() Источник изображения: EuroHPC Horizon Europe — ключевая программа ЕС по финансированию исследований и инноваций с бюджетом в €95,5 млрд. Великобритания вновь присоединилась к ней в конце прошлого года после трёхлетнего перерыва. И теперь в соответствии с соглашением между Лондоном и Брюсселем она стала ассоциированным членом программы Horizon Europe. Сейчас EuroHPC объединяет HPC-ресурсы 35 стран, включая Норвегию, Турцию и все 27 государств-членов ЕС, предназначенных для стимулирования исследований в области вычислительных технологий следующего поколения. Пользователи из Великобритании получили доступ к суперкомпьютерной экосистеме EuroHPC JU для проведения исследований в 2018 году в рамках программы Horizon 2020. В соответствии с соглашением EU-UK Withdrawal Agreement, пользователи Великобритании продолжают пользоваться возможностями, финансируемыми программой Horizon 2020, включая использование суперкомпьютеров EuroHPC первого поколения. В марте этого года Великобритания присоединилась к совместному предприятию в сфере чипов Chips Joint Undertaking, благодаря чему британская полупроводниковая промышленность получила доступ к фонду в размере £1,1 млрд, созданным в рамках программы Horizon Europe для поддержки европейских исследований в области полупроводниковых технологий.
14.05.2024 [19:23], Руслан Авдеев
В Ирландии посчитали «постыдным» отсутствие национального суперкомпьютера. Предыдущий списали в 2023 годуЧлен партии Sinn Féin и нижней палаты ирландского парламента Луиза О’Райли (Louise O'Reilly) раскритиковала местное правительство за неспособность приобрести новый суперкомпьютер. Datacenter Dynamics сообщает, что политик привлекла внимание исполнительной власти к необходимости подготовки новой национальной HPC-платформы варианта взамен недавно списанной. По её словам, HPC-системы являются сердцем пятой промышленной революции, ключевым фактором роста ирландской экономики и обеспечения прямых иностранных инвестиций. Ранее у Ирландии имелся суперкомпьютер Kay, размещавшийся в центре ICHEC Ирландского национального университета (его части — University College Galway). Запущенный в 2018 году 665-Тфлопс суперкомпьютер, ранее использовавшийся властями, учёными и бизнесом, вывели из эксплуатации в ноябре 2023 года. ![]() Источник изображения: Jason Murphy/unsplash.com О’Райли заявляет, что у правительства достаточно возможностей для приобретения новой машины. Тем не менее, по её данным, несмотря на предупреждения о необходимости покупки суперкомпьютера, на поставку которого может уйти около трёх лет, власти не сделали ни шагу к приобретению системы. Пока же ирландским структурам приходится или просить об использовании суперкомпьютеров чужие государства, или прибегать к услугам частных компаний. Другими словами, как считает О’Райли, неспособность правительства инвестировать в критическую инфраструктуру «опозорила» Ирландию в глазах европейского и мирового технологического сообщества и лишит страну целого поколения талантов, отправившихся искать места получше, а также не даст привлекать прямые иностранные инвестиции в должных объёмах в секторы вроде ИИ, машинного обучения и квантовых вычислений. Как считает депутат, новый суперкомпьютер должен быть построен при участии консорциума EuroHPC. Последний ещё в 2022 году объявил о выборе пяти площадок для следующего поколения суперкомпьютеров, одной из которых должна была стать Ирландия. Страна должна была получить суперкомпьютер CASPIr, причём EuroHPC готов оплатить до 35 % стоимости системы. CASPIr должен быть в 25 раз производительнее Kay. |
|