Материалы по тегу: облако
24.05.2024 [13:17], Сергей Карасёв
Microsoft ежемесячно развёртывает по пять ИИ-суперкомпьютеровMicrosoft на фоне стремительного развития ИИ активно расширяет свой вычислительный потенциал: каждый месяц корпорация развёртывает эквивалент пяти суперкомпьютеров Eagle. Об этом, как сообщает ресурс Datacenter Dynamics, заявил технический директор облачной платформы Azure Марк Руссинович (Mark Russinovich). Комплекс Microsoft Azure Eagle в нынешнем рейтинге TOP500 занимает третье место с FP64-производительностью 561,2 Пфлопс — это самый мощный в мире облачный суперкомпьютер. В системе задействованы 14 400 ускорителей NVIDIA H100, а также интерконнект NVIDIA InfiniBand NDR. «Сегодня мы развёртываем эквивалент пяти таких суперкомпьютеров каждый месяц. Наша экосистема ИИ теперь на несколько порядков больше и меняется каждый день и каждый час», — сказал Руссинович на конференции Microsoft Build. Таким образом, ежемесячно Microsoft вводит в эксплуатацию вычислительные мощности, сопоставимые с теми, которые могут обеспечить 72 000 ускорителей Н100. В общей сложности это 2,8 Эфлопс ресурсов, которые распределены по расширяющейся сети дата-центров корпорации. Руссинович отметил, что общая протяжённость соединений InfiniBand в этих ЦОД такова, что ими можно было бы как минимум пять раз опоясать Землю. То есть, это не менее 200 тыс. км. О стремительном расширении вычислительных мощностей также говорит технический директор Microsoft Кевин Скотт (Kevin Scott). Он не стал приводить конкретные цифры, но дал наглядное представление. Так, ИИ-суперкомпьютер, который корпорация в 2020 году создала для OpenAI GPT-3, Скотт сравнил с акулой. Система следующего поколения, разработанная в 2022-м для обучения GPT-4, — это косатка, которая в два раза длиннее и в три раза тяжелее больших белых акул. Нынешняя система Microsoft сравнивается с синим китом: он более чем в два раза длиннее и примерно в 25 раз тяжелее косатки. В настоящее время Microsoft и OpenAI обсуждают проект строительства масштабного кампуса ЦОД для решения самых сложных и ресурсоёмких задач в области ИИ. Проект под названием Stargate стоимостью около $100 млрд предполагает создание ряда объектов, суммарная мощность которых может достигать 5 ГВт. Компания действительно стремительно наращивает ёмкость своих ЦОД, добавляя порядка 200 МВт ежемесячно.
23.05.2024 [21:32], Алексей Степин
Бери да пользуйся: IBM представила частное облако на базе POWER10IBM представила платформу POWER Virtual Server Private Cloud для локального развёртывания частного облака, за обслуживание и корректное функционирование которого отвечает сама IBM. Это решение, по словам компании, позволяет сохранить «ИТ-суверенитет» и избежать существенных финансовых затрат благодаря гибкой ценовой политике. Базовая конфигурация (Small Pod) начинается с 2–4 серверов с 8 Тбайт оперативной памяти, до 340 ядер и до 438 Тбайт пространства для хранения данных. Занимают такие комплекты одну стандартную стойку. Среднего размера «капсула» (Medium Pod) может насчитывать до 40 серверов, в том числе в варианте с 32 Тбайт памяти. Максимальная конфигурация насчитывает 1615 ядер и примерно 3,5 Пбайт дискового пространства. В основе платформы лежат серверы IBM POWER S1022 и E1050/1080, использующие процессоры POWER10. Первая система может иметь один или два 20-ядерных процессора с поддержкой SMT8, дополненных 2-4 Тбайт памяти. POWER E1050/1080 поддерживают до четырёх процессоров. Объём памяти в этом случае варьируется в пределах 4–32 Тбайт на сервер. В состав локального облака также могут входить СХД IBM FlashSystem ёмкостью 460 или 920 Тбайт. Сетевые коммутаторы и управляющие серверы входят в стоимость услуги. В качестве базовых ОС доступны Red Hat Enterprise Linux и классические решения IBM — IBM i и AIX. Доступна и сертификация SAP HANA и SAP NetWeaver. Сама услуга предлагается сроком на один год с возможностью возобновления, также доступны трёх- и пятилетние контракты. При этом само оборудование и лицензии приобретать не придётся, платить надо только за их фактическое использование, а сама платформа управляется из IBM Cloud.
22.05.2024 [21:45], Руслан Авдеев
Google обогнала AMD на рынке процессоров для ЦОД и вот-вот догонит Intel
cpu
google
google cloud platform
hardware
techinsights
tpu
анализ рынка
гиперскейлер
ии
облако
ускоритель
цод
В прошлом месяце компания Google анонсировала долгожданный серверный CPU на архитектуре Arm. Впрочем, как сообщает The Register, она уже оказалась третьей на рынке процессоров для ЦОД (сюда входят не только CPU, но и GPU, TPU и иные ускорители). Согласно отчёту TechInsights, компания теперь уступает только NVIDIA и Intel и давно обогнала AMD. Как и другие крупные облачные операторы, IT-гигант выпускает собственные чипы TPU, шестое поколение которых было представлено на прошлой неделе. Хотя на сторону их не продают, компания заказывает огромные партии TPU для оснащения собственных ЦОД — только в прошлом году речь шла о 2 млн штук. Ключевым партнёром Google в создании кастомного «кремния» является Broadcom. Поставки TPU нарастают с каждым поколением, следуя за ростом самой компании. После премьеры TPU v4 в 2021 году в связи с развитием больших языковых моделей (LLM) объём полупроводникового бизнеса Google значительно вырос. TPU применяются компанией для внутренних задач, а ускорители NVIDIA — для облака. В TechInsights считают, что на сегодняшний день у Google имеется крупнейшая в отрасли база установленных ИИ-ускорителей и самая масштабная ИИ-инфраструктура. В прошлом году на серверным рынке произошла «масштабная коррекция запасов» — гиперскейлеры увеличили срок службы оборудования, отложив замену серверов общего назначения и повысив капитальные затраты на ИИ-серверы и ускорители NVIDIA. Аналитики Omdia говорят о таких тенденциях на рынке что в прошлом, что в начале этого года. В TechInsights считают, что по итогам I квартала 2024 года Google сможет догнать или даже перегнать Intel по доле на этом рынке. Конечно, Google — не единственная облачная компания, разрабатывающая собственные чипы. Microsoft работает над серверным CPU Azure Cobalt и ИИ-ускорителями Maia 100. AWS и вовсе годами использует собственные Arm-процессоры Graviton и ИИ-ускорители серий Trainium и Inferentia. В прошлогоднем докладе Bernstein Research сообщалось, что архитектуру Arm используют уже около 10 % серверов по всему миру, а более 50 % из них внедряется AWS. Softbank в начале 2023 года говорила о том, что Arm захватила 5 % облачного рынка. Впрочем, с появлением процессоров TPU V5e и TPU V5p решения Google будут использоваться всё шире из-за «взрывного роста» больших языковых моделей вроде Gemini. В 2024 году у Google появится Arm-процессор Axion. И его внедрение, по мнению TechInsights, будет происходить намного быстрее, чем Graviton, поскольку у Google уже имеется программная инфраструктура для такого чипа. Всё это необходимо компании, чтобы идти в ногу с AWS, Microsoft и, в меньшей степени, Alibaba. При этом в докладе упоминается, что рынок полупроводников для ЦОД быстро меняется — раньше на нём доминировала Intel с архитектурой x86. Теперь его структура определяется потребностями ИИ-систем.
22.05.2024 [13:49], Сергей Карасёв
1,5 Тбайт HBM3: AMD Instinct MI300X стали доступны в облаке Microsoft AzureКорпорация Microsoft сообщила о доступности инстансов Azure ND MI300X v5 на базе ускорителей AMD Instinct MI300X. Отмечается, что это качественно новое семейство виртуальных машин, предлагающее максимально возможный объём памяти HBM и ведущей в отрасли производительности. О подготовке инстансов ND MI300X v5 компания Microsoft объявила в ноябре прошлого года. В составе одной виртуальной машины объединены восемь ускорителей со 192 Гбайт памяти HBM3, соединённых между собой посредством Infinity Fabric 3.0, а с хостом — по PCIe 5.0. Таким образом, общий объём HBM3 достигает 1,5 Тбайт, а пропускная способность — 5,3 Тбайт/с. Отмечается, что виртуальные машины ND MI300X v5 используют открытую программную платформу AMD ROCm, которая предоставляет полный набор инструментов и библиотек для разработки и развёртывания ИИ. Платформа ROCm поддерживает популярные фреймворки, такие как TensorFlow и PyTorch, а также ИИ-библиотеки Microsoft, включая ONNX Runtime, DeepSpeed и MSCCL. Кроме того, ROCm упрощает перенос моделей с одной платформы на другую, что обеспечивает снижение затрат. Компания Hugging Face портировала свои модели на ND MI300X v5 без какого-либо изменения кода. Это позволило увеличить производительность в 2–3 раза по сравнению с AMD Instinct MI250.
22.05.2024 [12:36], Сергей Карасёв
Arm-процессоры Microsoft Cobalt 100 появились в облаке AzureКорпорация Microsoft анонсировала предварительные версии новых инстансов Azure на собственных процессорах Azure Cobalt 100. Пользователи могут выбирать между версиями общего назначения (семейство Dpsv6 и Dplsv6) и конфигурациями, оптимизированными для приложений в памяти (семейство Epsv6). Чипы Cobalt 100 дебютировали в ноябре 2023 года. Они насчитывают 128 ядер Armv9 Neoverse N2 (Perseus). По заявлениям Microsoft, по сравнению с ранее использовавшимися в инфраструктуре Azure чипами Arm изделия Azure Cobalt 100 обеспечивают повышение CPU-производительности в 1,4 раза. Рост быстродействия при рабочих нагрузках на основе Java достигает 1,5 раза, на веб-серверах — 2 раз. Ранее в Azure были доступны Arm-процессоры Ampere Altra. Инстансы Dpsv6 и Dpdsv6 предназначены для эффективного выполнения масштабируемых рабочих нагрузок и облачных задач. Эти решения хорошо подходят для малых и средних баз данных с открытым исходным кодом, серверов приложений и веб-серверов, говорит компания. Dplsv6 и Dpldsv6 ориентированы на кодирование мультимедийных данных, игровые серверы, микросервисы и другие рабочие нагрузки, не требующие большего объема оперативной памяти. Инстансы Epsv6 и Epdsv6 способны справляться с крупными базами данных, корпоративными приложениями с высоким объёмом требуемой памяти и пр. Серия Dpsv6 предлагает до 96 vCPU с 384 Гбайт оперативной памяти (соотношение RAM к vCPU — 4:1). Семейство Dplsv6 также включает до 96 vCPU, но объём памяти составляет до 192 Гбайт (2:1). В свою очередь, Epsv6 предлагают до 96 vCPU и до 672 Гбайт RAM (8:1). Все эти варианты доступны с локальным хранилищем и без него. Инстансы доступны в регионах Central US, East US, East US 2, North Europe, Southeast Asia, West Europe и West US 2. В режиме превью сами инстансы будут бесплатны. Все виртуальные машины можно разворачивать, используя привычные инструменты, включая портал Azure, SDK, API, PowerShell и CLI. Говорится о совместимости с широким спектром дистрибутивов Linux, в том числе Canonical Ubuntu, CentOS, Debian, Red Hat Enterprise Linux, SUSE Enterprise Linux, Alma Linux, Azure Linux, Flatcar Linux и пр. Также компания подготовила Insider-сборки Windows 11 Pro и Enterprise, расширила возможности Visual Studio и оптимизировала сборки .NET 8 и OpenJDK.
20.05.2024 [13:50], Руслан Авдеев
Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправиласьПрошла всего неделя после того, как Google удалила облачную учётную запись австралийского пенсионного фонда UniSuper, но, похоже, инженеры компании только начинают входить во вкус. По данным The Register, в минувшую пятницу Google Cloud нарушила работу десятков сервисов. Изначально в Google Cloud объявили о запуске «автоматизации техобслуживания для отключения неиспользуемого компонента контроля сети в одной локации». Но в результате отключение состоялось сразу в 40 локациях, так что почти три часа пользователи 33 сервисов Google Cloud, включая крупные службы вроде Compute Engine и Kubernetes Engine, столкнулись с рядом проблем:
Прочие сервисы, требовавшие использования виртуальных машин в Google Cloud Engine или обновление конфигураций сети, столкнулись с проблемами с 15:22 по 18:10 по тихоокеанскому времени США. В Google объяснили инциденты ошибкой в системе автоматизированного отключения сетей. После перезапуска некорректно работавшего компонента проблема была устранена. Инструмент автоматизации заблокировали до принятия необходимых мер безопасности, а клиентам сообщили, что пока риска повторения сбоев нет. Впрочем, подмоченная репутация компании позволяет усомниться в её заявлениях. Облачное подразделение Google пообещало со временем раскрыть больше информации о произошедшем.
17.05.2024 [13:20], Руслан Авдеев
AWS потратит €7,8 млрд на суверенное облако для ЕвропыAmazon Web Services (AWS) намерена потратить €7,8 млрд ($8,47 млрд) на создание в Европе, в частности, в Германии суверенной облачной инфраструктуры до 2040 года. По данным Datacenter Dynamics, первый суверенный облачный регион AWS разместится в земле Бранденбург, запуск планируется к концу 2025 года. По данным представителя подразделения Sovereign Cloud, инвестиции укрепят намерение предоставить клиентам наиболее передовые решения, отвечающие за обеспечение суверенитета облака. Кроме того, компания активно инвестирует в местные кадры и инфраструктуру. В компании рассчитывают, что проект ежегодно обеспечит в Германии занятость, эквивалентную 2800 рабочих мест — речь идёт о строителях, специалистах поддержки инфраструктуры, инженерах, телеком-специалистах и других экспертах. Понадобятся и высококлассные сотрудники, которые будут работать над управлением суверенным облаком на постоянной основе: программисты, системные разработчики и архитекторы облачных решений. По словам представителя властей Бранденбурга, высокопроизводительная, надёжная и безопасная инфраструктура является важнейшим элементом цифровизацию экономики. В последние годы местные власти взяли курс на инвестиции в современную и устойчивую инфраструктуру ЦОД, это усиливает позиции Бранденбурга в роли бизнес-хаба. Впервые AWS заявила о намерении построить европейский суверенный облачный регион European Sovereign Cloud в октябре 2023 года. Также о планах построить в Бранденбурге кампус ёмкостью 300 МВт сообщала в сентябре того же года Virtus Data Centres. У Google облачный регион в Бранденбурге уже есть, а Oracle запустила облачный сервис EU Sovereign Cloudво Франкфурте (Германия) и Мадриде (Испания). Microsoft и Google располагают суверенными облачными регионами в Евросоюзе, но продвигают свои сервисы при посредничестве партнёров. В 2021 году Orange и Capgemini основали французскую облачную компанию Bleu для продажи сервисов Microsoft Azure, в январе 2024 года Bleu объявила, что работа начнётся в конце года. Google тем временем сотрудничает в Германии с T-Systems и с Thales во Франции, а также с Proximus в Бельгии и Люксембурге. По некоторым данным Google считает чрезвычайно важной свою программу доверенного облачного партнёрства и рассчитывает захватить в Евросоюзе и Азии рынок суверенных облаков объёмом в $100 млрд.
16.05.2024 [23:30], Алексей Степин
Шестое поколение ускорителей Google TPU v6 готово к обучению ИИ-моделей следующего поколенияGoogle успешно занимается разработкой ИИ-ускорителей порядка 10 лет. В прошлом году компания заявила, что четвёртое поколение TPU в связке с фирменными оптическими коммутаторами превосходит кластеры на базе NVIDIA A100 с интерконнектом InfiniBand, а к концу того же года было представлено уже пятое поколение, причём в двух вариантах: энергоэффективные TPU v5e для малых и средних ИИ-моделей и высокопроизводительные TPU v5p для больших моделей. Сбавлять темпа компания явно не собирается — не прошло и полугода, как было анонсировано последнее, шестое поколение TPU, получившее, наконец, собственное имя — Trillium. Клиентам Gooogle Cloud новинка станет доступна до конца этого года, в том числе в составе AI Hypercomputer. Сведений об архитектуре и особенностях Trillium пока не очень много, но согласно заявлениям разработчиков, он в 4,7 раза быстрее TPU v5e. Ранее аналитик Патрик Мурхед (Patrick Moorhead) опубликовал любопытное фото, на котором глава подразделения кастомных чипов Broadcom держит в руках некий XPU, разработанный для «крупной ИИ-компании». Не исключено, что сделан он именно для Google. На снимке видна чиплетная сборка из двух крупных кристаллов в окружении 12 стеков HBM-памяти. Любопытно и то, что TPU v6 нарекли точно так же, как и проект Arm шестилетней давности по созданию нового поколения ИИ-ускорителей. Пропускная способность 32 Гбайт набортной HBM-памяти составляет 1,6 Тбайт/с. Межчиповый интерконнект ICI имеет пропускную способность до 3,2 Тбит/с, хотя в TPU v5p скорости ICI уже 4,8 Тбит/с. По словам Google, новый чип получился на 67% энергоэффективнее TPU v5e. Складывается ощущение, что компания сознательно избегает сравнения с TPU v5p. Но это объяснимо, поскольку заявленный почти пятикратный прирост производительности в сравнении с TPU v5e даёт примерно 926 Тфлопс в режиме BF16 и 1847 Топс в INT8, что практически вдвое выше показателей TPU v5p. При этом компания не бравирует высокими цифрами в INT4/FP4, как это делает NVIDIA в случае с Blackwell. Согласно опубликованным данным, прирост производительности достигнут за счёт расширения блоков перемножения матриц (MXU) и прироста тактовой частоты. В новом TPU также использовано новое, третье поколение блоков SparseCore, предназначенных для ускорения работы с ИИ-модели, часто использующихся в системах ранжирования и рекомендаций. Масштабируется Trillium практически так же, как TPU v5e — в составе одного блока («пода») могут работать до 256 чипов. Эти «поды» формируют кластер с технологией Multislice, позволяющий задействовать в одной задаче до 4096 чипов. В таких кластерах на помощь приходят DPU Titanium, берущие на себя обслуживание IO-операций, сети, виртуализации, безопасности и доверенных вычислений. Размеры кластера могут достигать сотен «подов». Google полагает, что TPU v6 готовы к приходу ИИ-моделей нового поколения и имеет для этого все основания: ориентировочно каждый Trillium с его 32 Гбайт быстрой памяти может оперировать примерно 30 млрд параметров, а речь, напомним, в перспективе идёт о десятках тысяч таких чипов в одном кластере. В качестве интерконнекта в таких системах используется платформа Google Jupiter с оптической коммутацией, совокупная пропускная способность которой уже сейчас превышает 6 Пбайт/с.
16.05.2024 [14:22], Руслан Авдеев
xAI Илона Маска потратит $10 млрд на облачные ИИ-серверы Oracle для чат-бота GrokИИ-стартап Илона Маска (Elon Musk) xAI готов потратить $10 млрд на серверы в облаке Oracle. По данным The Information, ссылающейся на осведомлённые источники, компании ведут переговоры о долгосрочном сотрудничестве, которое сделает детище Маска одним из крупнейших клиентов Oracle. Предполагается, что xAI требуется больше вычислительных ресурсов для соперничества с OpenAI, Anthropic и другими компаниями, уже заключившими многомиллиардные инвестиционные сделки с Microsoft и AWS соответственно. Это позволяет им получать доступ к облачной инфраструктуре для обучения и запуска больших языковых моделей (LLM). Например, Microsoft и OpenAI, по слухам, готовы потратить $100 млрд на кампус ЦОД Stargate ёмкостью 5 ГВт. Пока Micosoft вынуждена сама арендовать часть ИИ-ускорителей у Oracle. В прошлом году xAI представила чат-бот Grok, доступный платным пользователям соцсети X, а сейчас разрабатывается вторая версия. Имеются сведения, что xAI завершает раунд привлечения инвестиций в размере $6 млрд, а Маск уже заявил, что полученные средства будут потрачены на аренду инфраструктуры. В прошлом месяце миллиардер заявил, что новинка обучается на 20 тыс. ускорителей NVIDIA, но для Grok 3.0 потребуется уже 100 тыс. ускорителей. Маск и основатель Oracle Ларри Эллисон (Larry Ellison) крепко дружат, кроме того, Элиссон входил в совет директоров Tesla. В декабре прошлого года он заявлял, что xAI уже является крупнейшим клиентом Oracle и утверждал, что у облачного гиганта достаточно ускорителей для Grok первого поколения, но, по его признанию, в xAI хотят намного больше. Сейчас xAI арендует у Oracle 15 тыс. ускорителей NVIDIA H100. Tesla, ещё одно детище Маска, уже ввела в эксплуатацию ИИ-ресурсы, эквивалентные по производительности 35 тыс. H100. ИИ-инфраструктура стала выгодным источником дохода для облачного оператора, в марте Эллисон заявлял, что компания строит новые ЦОД, включая некий «крупнейший в мире» объект. Примечательно, что после покупки социальной сети Twitter (ныне X), Маск и его менеджмент не хотели платить за услуги Oracle (а также AWS и Google), пытаясь оптимизировать расходы.
15.05.2024 [00:43], Владимир Мироненко
В AWS смена руководства — вместо Адама Селипски облачное направление возглавит Мэтт ГарманAmazon объявила о кадровых перестановках в облачном подразделении Amazon Web Services (AWS), пишет The Register. Гендиректор Amazon Энди Ясси (Andy Jassy) сообщил в служебном письме для сотрудников, что гендиректор AWS Адам Селипски (Adam Selipsky) покидает компанию, чтобы заняться новыми проектами. Вместо него с 3 июня этот пост займёт Мэтт Гарман (Matt Garman), в настоящее время занимающий должность старшего вице-президента по продажам и маркетингу AWS. Селипски был одним из первых вице-президентов Amazon, нанятых в AWS в 2005 году. Он в течение 11 лет руководил отделом продаж, маркетинга и поддержки, после чего в 2016 году покинул компанию, чтобы возглавить разработчика ПО для визуализации данных Tableau. Затем он вернулся в Amazon в 2021 году на пост гендиректора AWS. Энди Ясси, возглавлявший AWS вплоть до ухода Джеффа Безоса (Jeff Bezos) в 2021 году, поблагодарил в письме Селипски за 15 лет работы в компании. Он отметил, что Селипски «взял на себя управление в разгар пандемии» и «принял правильное долгосрочное решение, чтобы помочь клиентам более эффективно расходовать средства, даже если это означало снижение в краткосрочной перспективе доходов для AWS». Ясси также признался, что всегда знал, что Селипски будет недолго работать в компании после прихода в 2021 году. Согласно договорённости, Селипски должен был за это время помочь в подготовке следующего поколения лидеров. Еще до прихода Селипски на пост гендиректора AWS многие считали Гармана одним из главных претендентов на эту должность. Мэтт Гарман был принят в Amazon в качестве стажёра в 2005 году и с 2006 года работал в компании в качестве одного из первых менеджеров по продуктам AWS. Затем он возглавля несколько ключевых продуктовых подразделений, включая Amazon EC2, после чего стал руководителем отдела продаж и маркетинга. В своём письме Ясси отметил, что Гарман, ветеран компании с 18-летним стажем, обладает «необычайно сильным набором навыков и опыта для своей новой должности». AWS по-прежнему является лидером в сфере облачных технологий и остаётся одним из самых прибыльных бизнес-подразделений Amazon. В последнем квартале AWS принесла Amazon 67,2 % её всей прибыли. Её положению на рынке угрожает быстрорастущий облачный бизнес Microsoft Azure. Когда Селипский занял пост гендиректора AWS в 2021 году, аналитики подсчитали, что размеры бизнеса Azure составляли примерно 61 % от AWS, а в настоящее время этот показатель приближается к 77 %. Тем не менее, AWS на облачном рынке имеет долю около 31 %, ещё 25 % занимает Microsoft Azure, а 11 % — у Google Cloud. |
|