Материалы по тегу: broadcom
08.09.2024 [00:00], Владимир Мироненко
Broadcom столкнулась с самым большим падением акций с 2020 года, но намерена отыграться благодаря ИИ-решениямBroadcom Inc. объявила результаты за III квартал 2024 финансового года, закончившийся 4 августа. Несмотря на то, что в основном показатели были выше прогноза Уолл-стрит, акции компании упали более чем на 10 %, виной чему стал слабый прогноз по направлениям, не касающимся ИИ, пишет Bloomberg. Это было самое большое падение в течение дня за последние четыре года с первых дней пандемии в марте 2020 года. До падения акции компании выросли в этом году на 37 %. В III финансовом квартале выручка Broadcom составила $13,07 млрд, что на 47 % больше результата годичной давности с учётом дохода VMware или на 4 % больше без его учёта при консенсус-прогнозе аналитиков, опрошенных LSEG, в размере $12,97 млрд. При этом у компании были убытки (GAAP) $1,88 млрд или $0,40 на акцию, тогда как год назад у неё была прибыль в $3,3 млрд или $0,77 на акцию. Broadcom объяснила убыток единовременным налоговым резервированием в размере $4,5 млрд, связанным с торговлей правами на интеллектуальную собственность между сегментами компании в рамках управления цепочкой поставок. Вместе с тем компания сообщила о скорректированной прибыли (Non-GAAP) в размере $6,12 млрд или $1,24 на акцию, что выше консенсус-прогноза аналитиков в $1,20 на акцию. В отчётном квартале производство полупроводниковых продуктов принесло компании 56 % выручки или $7,27 млрд (рост — 5 %), доход от ПО составил $5,80 млрд (рост — 200 %). Скорректированная EBITDA составила $8,22 млрд или 63 % выручки. В текущем квартале Broadcom планирует получить выручку в размере $14,0 млрд в то время, как аналитики прогнозируют скорректированную прибыль в размере $1,36 на акцию при ожидаемой выручке $14,04 млрд. Также прогнозируется скорректированная EBITDA в пределах 64% выручки. При этом компания ожидает получить за весь финансовый году $12 млрд выручки от продуктов, связанных с ИИ, что превышает среднюю оценку аналитиков в $11,8 млрд. Но это не спасло Broadcom от падения акций. Гендиректор Broadcom Хок Тан сообщил, что большинство направлений компании по производству чипов, не связанных с ИИ, находятся на самом низком уровне или уже прошли через него и набирают обороты. Выручка от производства начала последовательно расти, хотя пока остаётся ниже, чем в прошлом году. По словам Тана, заказы — индикатор будущих продаж — выросли на 20%, и нет причин, чтобы производство не вернулось к прежним, более высоким уровням. «В целом мы достигли дна на наших рынках, не связанных с ИИ, и мы ожидаем восстановления в IV квартале, — сказал он в ходе телефонной конференции с участием аналитиков. — Спрос на ИИ остаётся высоким». Хок Тан также заявил, что рынок микросхем ИИ в долгосрочной перспективе перейдёт на индивидуальные внутренние разработки. Это означет отказ от решений NVIDIA, что будет на пользу Broadcom. По словам Тана этот процесс может занять несколько лет. Тан также сообщил, что поставки устройств следующего поколения для «североамериканского клиента» (Apple) позволят увеличить доход Broadcom в сегменте беспроводной связи в IV квартале на 20 %, хотя при этом он останется на уровне прошлого года. Отвечая на вопрос по поводу возможного следующего приобретения на рынке полупроводников, Тан сказал, что в ближайшее время этого не будет, поскольку он занят интеграцией активов VMware, а этот процесс может занять два года.
04.09.2024 [08:08], Владимир Мироненко
Broadcom анонсировала VMware Cloud Foundation 9 и Tanzu Platform 10
broadcom
kubernetes
software
vmware
виртуализация
гибридное облако
ии
контейнеризация
частное облако
Broadcom представила новейшую версию платформы для управления виртуальными машинами и оркестрации контейнеров VMware Cloud Foundation (VCF) 9, назвав её «будущим» своей платформы частного облака, которая ускорит переход клиентов от разрозненных ИТ-архитектур к унифицированной и интегрированной частной облачной платформе с меньшими затратами и рисками. Основной упор в новой версии сделан на создание частных облаков и, конечно же, ИИ. Broadcom заявила, что VMware Cloud Foundation — первая в отрасли облачная платформа, сочетающая масштабируемость и гибкость публичного облака с безопасностью, устойчивостью и производительностью частного облака и низкой совокупной стоимостью владения. VCF поддержит цифровые инновации клиентов с более быстрой модернизацией инфраструктуры, унифицированным облачным опытом, а также лучшей киберустойчивостью и безопасностью, говорит Broadcom. Компания сослалась на спонсируемое ею исследование IDC, в котором сообщалось, что VCF обеспечивает в среднем на 34 % более низкие затраты на инфраструктуру, на 42 % более низкую общую стоимость эксплуатации и 564 % окупаемости инвестиций в течение трёх лет. VCF помогает организациям быстро перейти на современную и интегрированную инфраструктуру, снижая сложность и время простоя, связанные с ручной миграцией существующих сред в частную облачную платформу. С VMware Cloud Foundation 9 Broadcom добавила возможность клиентам импортировать конфигурации NSX, vDefend, Avi Load Balancer и сложные топологии хранения в существующие среды VCF, а также использовать и интегрировать старые версии существующей инфраструктуры. Этому будет способствовать новый интуитивно понятный пользовательский интерфейс — VCF 9 включает в себя портал самообслуживания с единой консолью управления (вместо десятка с лишним панелей ранее), которая упрощает операции и автоматизацию. Кроме того, компания представила VMware Cloud Foundation (VCF) Advanced Services, каталог готовых к развёртыванию решений, упрощающих работу клиентов в своих частных облачных средах. VMware Cloud Foundation 9Обновлений платформы целое множество. Так, расширение пула DRAM посредством NVMe SSD (CXL) в VCF 9 позволит значительно улучшить работу приложений с интенсивным использованием данных, такие как ИИ, СУБД и аналитика в реальном времени, а также сократит задержку и ускорит передачу информации, что имеет решающее значение для задач обучения и инференса. Также это позволяет масштабировать производительность без чрезмерных затрат. А удалённая репликация снимков между vSAN поддерживает глубокую историю неизменяемых снимков, сокращая время простоя и упрощая оркестрацию аварийного восстановления, в том числе в изолированных on-premise окружениях. Также в VCF 9 включена функциональность VMware Cloud Director, благодаря чему в рамках одной платформы можно поддерживать несколько организаций или, например, групп разработки, сегментируя инфраструктуру на основе их конкретных требований к доступу, управлению рабочими нагрузками, безопасности и конфиденциальности. Кроме того, значительно упростилось создание виртуальных частных облаков (VPC), которые теперь можно формировать буквально в один клик, не занимаясь ручной настройкой VLAN и интеграцией с существующими сетями. Возможности VPC можно расшириить службами VMware vDefend и VMware Avi Load Balancer, которые также получили существенные обновления. Например, Avi Load Balancer лучше оптимизирован для сред VCF и Kubernetes и интегрирован со службой Tanzu Application Service. По словам Broadcom, это сокращает время развёртывания с недель до минут и повышает прозрачность работы на уровне L4–L7. Kubernetes-системы получат расширенными возможности по управлению трафиком и конвейерами CI/CD. vDefend был расширен с помощью распределённого анализа влияния правил брандмауэра и распределённой же системы IPS. Он поддерживает крупные и сложные среды, позволяя провести быструю оценку и профилирование угроз, в том числе в изолированных (air-gapped) окружениях. А в рамках Project Cypress компания готовит для vDefent интеллектуального помощника на базе генеративного ИИ, который будет проактивно находить возможные вектора атак, предлагать возможные варианты защиты, выявлять малоэффектвные политики безопасности и т.д. Пообщаться с ним можно будет на естественном языке. А гипервизор VMware может выступать в качестве датчика угроз для быстрой оценки защиты инфраструктуры. Broadcom также сообщила об обновлении платформы VMware Private AI Foundation with NVIDIA, предназначенный для предприятий, которые хотят использовать возможности ИИ, сохраняя при этом преимущества частного облака, представляющей собой комплексное решение для безопасного и эффективного развёртывания, управления и масштабирования ИИ-приложений на базе VCF. В VCF 9 компания упростила развёртывания платформ генеративного ИИ, расширив возможности управления и мониторинга vGPU и GPU, добавив службу индексации и извлечения данных, а также службу создания ИИ-агентов. Tanzu 10На конференции также была представлена 10-я версия унифицированной платформы VMware Tanzu, с помощью котороый разработчики могут автоматизировать защищённые сборки контейнеров, привязывать сервисы к приложениям, развёртывать код одной командой и легко масштабировать приложения, заявила Broadcom. Tanzu 10 также автоматизирует задачи управления приложениями и платформами, такие как исправление уязвимостей, развёртывание непрерывных обновлений и применение политик. Tanzu предоставляет ряд пакетных сервисов для VCF для автоматизированной и защищённой работы с контейнерами и данными. Новые функции включают поддержку изолированных среды, глобальный балансирощик, расширенные сетевые возможности (Avi Load Balancer), защищённые виртуальные машины, каталог образов с open source ПО. Наконец, встроенная среда разработки ИИ платформы Tanzu позволяет разработчикам создавать приложения Python без знания языка. Решения Tanzu AI Solutions включают, в том числе, такие функции:
Поддержка VMware Private AI Foundation with NVIDIA встроена в сервис GenAI on Tanzu Platform.
28.08.2024 [09:14], Владимир Мироненко
Google поделилась подробностями истории создания ИИ-ускорителей TPUВ огромной лаборатории в штаб-квартире Google в Маунтин-Вью (Калифорния, США) установлены сотни серверных стоек с ИИ-ускорителями TPU (Tensor Processing Unit) собственной разработки, с помощью которых производится обучение больших языковых моделей, пишет ресурс CNBC, корреспонденту которого компания устроила небольшую экскурсию. Первое поколение Google TPU, созданное ещё в 2015 году, и представляет собой ASIC для обработки ИИ-нагрузок. Сейчас компания использует такие, хотя и более современные ускорители для обучения и работы собственного чат-бота Gemini. С 2018 года TPU Google доступны облачным клиентам компании. В июле этого года Apple объявила, что использует их для обучения моделей ИИ, лежащих в основе платформы Apple Intelligence. «В мире есть фундаментальное убеждение, что весь ИИ, большие языковые модели, обучаются на (чипах) NVIDIA, и, конечно, на решения NVIDIA приходится львиная доля объёма обучения. Но Google пошла по собственному пути», — отметил гендиректор Futurum Group Дэниел Ньюман (Daniel Newman). Благодаря расширению использованию ИИ подразделение Google Cloud увеличило доход, и в последнем квартальном отчёте холдинг Alphabet сообщил, что выручка от облачных вычислений выросла на 29 %, впервые превысив $10 млрд за квартал. Google была первым провайдером облачных вычислений, создавшим кастомные ИИ-чипы. Лишь спустя три года Amazon Web Services анонсировала свой первый ИИ-ускоритель Inferentia, Microsoft представила ИИ-ускоритель Azure Maia 100 в ноябре 2023 года, а в мае того же года Meta✴ рассказала об семействе MTIA. Однако лидирует на рынке генеративного ИИ компания OpenAI, обученная на ускорителях NVIDIA, тогда как нейросеть Gemini была представлена Google спустя год после презентации ChatGPT. В Google рассказали, что впервые задумались о создании собственного чипа в 2014 году, когда в руководстве решили обсудить, насколько большими вычислительными возможностями нужно обладать, чтобы дать возможность всем пользователям поговорить с поиском Google в течение хотя бы 30 с каждый день. По оценкам, для этого потребовалось бы удвоить количество серверов в дата-центрах. «Мы поняли, что можем создать специальное аппаратное обеспечение, <…> в данном случае тензорные процессоры, для обслуживания [этой задачи] гораздо, гораздо более эффективно. Фактически в 100 раз эффективнее, чем было бы в противном случае», — отметил представитель Google. С выходом второго поколения TPU в 2018 году Google расширила круг выполняемых чипом задач, добавив к инференсу обучение ИИ-моделей. Процесс создания ИИ-ускорителя не только отличается высокой сложностью, но и требует больших затрат. Так что реализация таких проектов в одиночку не по силам даже крупным гиперскейлерам. Поэтому с момента создания первого TPU Google сотрудничает с разработчиком чипов Broadcom, который также помогает её конкуренту Meta✴ в создании собственных ASIC. Broadcom утверждает, что потратила более $3 млрд в рамках реализации совместных проектов. В рамках сотрудничества Google отвечает за собственно вычислительные блоки, а Broadcom занимается разработкой I/O-блоков, SerDes и иных вспомогательных компонентов, а также упаковкой. Самы чипы выпускаются на TSMC. С 2018 года в Google трудятся ещё одни кастомные чипы — Video Coding Unit (VCU) Argos, предназначенной для обработки видео. Что касается TPU, то в этом году клиентам Google будет доступно шестое поколение TPU Trillium. Более того, им станут доступны и первые Arm-процессоры Axion собственной разработки. Google выходит на этот рынок с большим отставанием от конкурентов. Amazon выпустила первый собственный процессор Graviton в 2018 году, Alibaba Yitian 710 появились в 2021 году, а Microsoft анонсировала Azure Cobalt 100 в ноябре. Все эти чипы основаны на архитектуре Arm — более гибкой и энергоэффективной альтернативе x86. Энергоэффективность имеет решающее значение. Согласно последнему экологический отчёту Google, с 2019 по 2023 год выбросы компании выросли почти на 50 %, отчасти из-за увеличения количества ЦОД для ИИ-нагрузок. Для охлаждения ИИ-серверов требуется огромное количество воды. Именно поэтому начиная с третьего поколения TPU компания использует прямое жидкостное охлаждение, которое только теперь становится практически обязательным для современных ИИ-ускорителей вроде NVIDIA Blackwell.
20.08.2024 [12:13], Сергей Карасёв
Raspberry Pi 5 вышел в версии с 2 Гбайт памяти, которая стоит всего $50Представлена новая версия одноплатного компьютера Raspberry Pi 5: она получила 2 Гбайт оперативной памяти, а также несколько модифицированный по сравнению с оригинальной версией процессор Broadcom. Решение уже доступно для заказа по цене $50. Изделие Raspberry Pi 5 дебютировало в сентябре 2023 года. Оно оснащено 16-нм чипом Broadcom BCM2712C1 с четырьмя ядрами Arm Cortex-A76 с частотой 2,4 ГГц. Есть графический ускоритель VideoCore VII с поддержкой OpenGL ES 3.1 и Vulkan 1.2. Изначально предлагались варианты одноплатного компьютера с 4 и 8 Гбайт ОЗУ за $60 и $80. Отмечается, что BCM2712C1 — это довольно сложный процессор, который, помимо функций необходимых для работы Raspberry Pi, также поддерживает дополнительные возможности, ориентированные на другие области применения. Но в случае с Raspberry Pi 5 эти возможности лишь увеличивают цену чипа. Поэтому в новой версии одноплатного компьютера процессор BCM2712C1 переведён на степпинг D0, который лишён всей ненужной функциональности. Это позволило снизить стоимость производства. В Raspberry Pi 5 с 2 Гбайт памяти, как и в оригинальной модификации решения, задействован контроллер ввода-вывода собственной разработки RP1. Прочие технические характеристики также не изменились: контроллеры Wi-Fi 802.11ac (2,4/5 ГГц) и Bluetooth 5.0 / Bluetooth Low Energy (BLE), слот microSD, по два порта USB 3.0 и USB 2.0, адаптер 1GbE с поддержкой PoE+ и др.
19.08.2024 [17:32], Руслан Авдеев
Клиентам не по нраву новая политика VMware, что только на руку конкурентам BroadcomОбеспокоенность тем, в каком направлении движется компания VMware после сделки с Broadcom, ведёт к негативным для бизнеса последней результатам. По данным Network World, некоторые клиенты уже рассматривают альтернативные программные платформы, например, Scale Computing и Nutanix. Изменение условий лицензирования ПО VMware и прочие нововведения под патронажем Broadcom буквально заставляют существующих клиентов компании искать альтернативные решения. Как минимум двое конкурентов заявили о росте продаж, который напрямую связан с разочарованием новой политикой Broadcom. Например, Scale Computing, специализирующаяся на HCI-системах, в последнем квартальном отчёте объявила о росте выручки, который во многом связан именно с изменениями схемы продаж ПО Vmware. Руководство Scale Computing отметило значительный спрос на решения для периферийных вычислений и платформы виртуализации — в минувшем квартале рост продаж оказался рекордным, а количество новых клиентов и партнёров удвоилось в сравнении с тем же периодом прошлого года. А по итогам 2024-го прирост выручки может составить год к году беспрецедентные 50 %. В Nutanix подтверждают, что клиенты обеспокоены влиянием Broadcom на бизнес VMware, что ведёт как к росту цен, так и изменениям в службах поддержки продуктов, недостатку инноваций и т.п. От VMware к Nutanix уже ушли немаленькие компании вроде Treasure Island Hotel & Casino и Computershare, причём тенденция, похоже, будет сохраняться годами. Хотя подобный переход весьма неудобен и сложен для клиентов, а также отнимает много времени, в Oxide Computer отмечают, что клиенты VMware намерены полностью избавиться от продуктов компании в своих IT-экосистемах. И конкуренты Broadcom стараются воспользоваться моментом, предлагая не только скидки, но и помощь в миграции инфраструктур. Впрочем, в некоторых случаях компании будут вынуждены сохранить и поддерживать устаревающие VMware-инфраструктуры. Со времён закрытия сделки по покупке VMware в конце прошлого года, Broadcom внесла чересчур много изменений в устоявшийся бизнес. В частности, она отказалась от «вечных» лицензий в пользу подписок, прекратила выпуск десятков продуктов и объединила оставшиеся в два громоздких набора ПО — VMware Cloud Foundation и VMware vSphere Foundation. Это заставляет покупателей покупать в комплекте с нужным ПО те программы, которые им нее понадобятся вовсе, из-за чего растут и издержки.
19.07.2024 [14:29], Владимир Мироненко
OpenAI обсуждала с Broadcom возможность создания собственного ИИ-ускорителяСтало известно, что компания OpenAI вела переговоры с разработчиками чипов, включая Broadcom, по поводу создания нового серверного ИИ-ускорителя. Сообщивший об этом ресурс The Information утверждает, что данная инициатива, которую возглавил руководитель OpenAI Сэм Альтман (Sam Altman), является частью более широкого плана по увеличению вычислительной мощности компании для разработки ИИ, преодолению дефицита ИИ-ускорителей и снижению зависимости от NVIDIA. На фоне этих сообщений акции Broadcom выросли на 3 %. По словам источников The Information, компания наняла несколько сотрудников Google, участвовавших в создании ИИ-ускорителей TPU. Примечательно, что Broadcom работала с Google над созданием TPU, а это означает, что у компании есть опыт разработки чипов для обработки ИИ-приложений. И у неё есть подразделение, которое занимается созданием кастомных ASIC. «Миру нужно больше инфраструктуры ИИ — больших мощностей, энергии, ЦОД и т. д. — чем в настоящее время планируют построить, — сказал ранее Альтман. — OpenAI постарается помочь!». В настоящее время доля рынка ИИ-чипов NVIDIA оценивается от 70 % до 95 % рынка, а это означает, что компании, занимающиеся ИИ, находятся в полной зависимости от неё с точки зрения доступа к вычислениям. Если OpenAI удастся создать свой ИИ-ускоритель, то ей больше не нужно будет всецело полагаться на NVIDIA. Если бы такой чип был создан, его производство началось бы не раньше 2026 года, сообщил один из источников, поскольку отдельные детали всё ещё прорабатываются, включая вопросы упаковки и доступности памяти. Альтман вёл переговоры с южнокорейскими компаниями Samsung и SK Hynix о поставках HBM и обсуждал планы по производству чипов, сообщил The Information со ссылкой на информированные источники. Кроме того, Альтман общался с TSMC по поводу возможности выпуска нового чипа, а также увеличения поставок ИИ-ускорителей NVIDIA для его компании. OpenAI не стала подтверждать факты, изложенные в публикации The Information, но и не опровергла её. Представитель компании заявил, что «OpenAI ведёт постоянные переговоры с представителями отрасли и правительства о расширении доступа к инфраструктуре, необходимой для обеспечения широкой доступности преимуществ ИИ». Ускорители собственной разработки есть у Amazon (Trainium и Inferentia), Google (TPU), Microsoft (Maia), Meta✴ (MTIA), а также Tesla (D1). Однако все эти компании всё равно массово скупают ускорители NVIDIA для работы над ИИ или для предоставления их своим клиентам. И всё возрастающая стоимость оборудования их пока не останавливает, хотя новейший суперускоритель NVIDIA GB200 NVL72, как ожидается, будет стоить $3 млн.
03.07.2024 [17:25], Владимир Мироненко
Gartner: изменения в лицензировании VMware запустили процессы девиртуализации и ревиртуализацииАналитическая фирма Gartner опубликовала отчёт 2024 Hype Cycle for Data Center Infrastructure Technologies, в котором отметила, что изменения в лицензировании Broadcom не только ведут к кратному увеличению стоимости услуг и пересмотру стратегий развития инфраструктур, но и запускают процесс девиртуализации, пишет The Register. «Поскольку проекты локальной виртуализации переходят от [корпоративного лицензионного соглашения] ELA и бессрочных лицензий к новым пакетам ПО, иному соотношению количества ядер к сокетам и моделям потребления, затраты и цены могут увеличиться в два или три раза», — полагает Gartner. Для ряда крупных рабочих нагрузок, которые «не получают такого же увеличения плотности и экономии средств, как консолидация небольших рабочих нагрузок», подорожание лицензий сводит на нет всю выгоду от виртуализации. Девиртуализация может стать выходом в данной ситуации, утверждает Gartner, вместе с тем предупреждая о стоимости и сложности приобретения и эксплуатации платформ bare metal, для которых труднее добиться той же устойчивости, что у виртуализированных сред. На данный момент Gartner считает девиртуализацию применимой лишь к 1 % компаний, но считает, что в течение 5–10 лет технологии станут более зрелыми. Переезд на другие гипервизоры — ревиртуализация — оценивается Gartner как технология, достигшая зрелости, поскольку она применима для 5–20 % организаций. В качестве драйвера здесь тоже названы изменения в лицензировании VMware. «Ревиртуализация, как правило, проводится для устранения технических недостатков или для устранения рисков, связанных с жизнеспособностью систем, а также коммерческих рисков», — указала Gartner в отчёте, добавив, что она может «увеличить общую стоимость владения, привнести незрелые административные и управленческие инструменты, создать дополнительную операционную нагрузку или проблемы с надёжностью». Однако аналитики Gartner считают, что риск может быть оправданным. В отчёте Gartner также перечислены другие технологии, которые оцениваются как «находящиеся на подъёме»:
Среди технологий, которые, по оценкам Gartner, достигли пика, указаны экономика замкнутого цикла в ИТ, ЦОД с нулевым уровнем потребления, модели оплаты на основе потребления ресурсов для локальных и гибридных инфраструктур, а также прямое жидкостное охлаждение (D2C). По мнению Gartner, периферийные вычисления не оправдали ожиданий. Также исследователи отметили сокращение автоматизации инфраструктуры и использования погружного охлаждения. Гибридные серверы также разочаровали покупателей, как и компонуемая инфраструктура. Среди растущих технологий аналитики выделили программно определяемую и т.н. неизменяемую (immutable) инфраструктуры.
02.07.2024 [23:55], Алексей Степин
15 тыс. ускорителей на один ЦОД: Alibaba Cloud рассказала о сетевой фабрике, используемой для обучения ИИAlibaba Cloud раскрыла ряд сведений технического характера, касающихся сетевой инфраструктуры и устройства своих дата-центров, занятых обработкой ИИ-нагрузок, в частности, обслуживанием LLM. Один из ведущих инженеров компании, Эньнань Чжай (Ennan Zhai), опубликовал доклад «Alibaba HPN: A Data Center Network for Large Language Model Training», который будет представлен на конференции SIGCOMM в августе этого года. В качестве основы для сетевой фабрики Alibaba Cloud выбрала Ethernet, а не, например, InfiniBand. Новая платформа используется при обучении масштабных LLM уже в течение восьми месяцев. Выбор обусловлен открытостью и универсальностью стека технологий Ethernet, что позволяет не привязываться к конкретному вендору. Кроме того, меньше шансы пострадать от очередных санкций США. Отмечается, что традиционный облачный трафик состоит из множества относительно небыстрых потоков (к примеру, менее 10 Гбит/с), тогда как трафик при обучении LLM включает относительно немного потоков, имеющих периодический характер со всплесками скорости до очень высоких значений (400 Гбит/с). При такой картине требуются новые подходы к управлению трафиком, поскольку традиционные алгоритмы балансировки склонны к перегрузке отдельных участков сети. Разработанная Alibaba Cloud альтернатива носит название High Performance Network (HPN). Она учитывает многие аспекты работы именно с LLM. Например, при обучении важна синхронизация работы многих ускорителей, что делает сетевую инфраструктуру уязвимой даже к единичным точкам отказа, особенно на уровне внутристоечных коммутаторов. Alibaba Cloud использует для решения этой проблемы парные коммутаторы, но не в стековой конфигурации, рекомендуемой производителями. Каждый хост содержит восемь ИИ-ускорителей и девять сетевых адаптеров. Каждый из NIC имеет по паре портов 200GbE. Девятый адаптер нужен для служебной сети. Между собой внутри хоста ускорители общаются посредством NVLink на скорости 400–900 Гбайт/с, а для общения с внешним миром каждому из них полагается свой 400GbE-канал с поддержкой RDMA. При этом порты сетевых адаптеров подключены к разным коммутаторам из «стоечной пары», что серьёзно уменьшает вероятность отказа. В докладе говорится, что Alibaba Cloud использует современные одночиповые коммутаторы с пропускной способностью 51,2 Тбит/с. Этим условиям отвечают либо устройства на базе Broadcom Tomahawk 5 (март 2023 года), либо Cisco Silicon One G200 (июнь того же года). Судя по использованию выражения «начало 2023 года», речь идёт именно об ASIC Broadcom. Своё предпочтение именно одночиповых коммутаторов компания объясняет просто: хотя многочиповые решения с большей пропускной способностью существуют, в долгосрочной перспективе они менее надёжны и стабильны в работе. Статистика показывает, что аппаратные проблемы у подобных коммутаторов возникают в 3,77 раза чаще, нежели у одночиповых. Одночиповые решения класса 51,2 Тбит/с выделяют много тепла, но ни один поставщик оборудования не смог предложить Alibaba Cloud готовые решения, способные удерживать температуру ASIC в пределах 105 °C. Выше этого порога срабатывает автоматическая защита. Поэтому для охлаждения коммутаторов Alibaba Cloud создала собственное решение на базе испарительных камер. Сетевая фабрика позволяет создавать кластеры, каждый из которых содержит 15360 ускорителей и располагается в отдельном здании ЦОД. Такое высокоплотное размещение позволяет использовать оптические кабели длиной менее 100 м и более дешёвые многомодовые трансиверы, которые дешевле одномодовых примерно на 70 %. Ёмкость такого дата-центра составляет около 18 МВт. Но есть у HPN и недостаток: использование топологии с двумя внутристоечными коммутаторами и другие особенности архитектуры усложняют кабельную подсистему, поэтому инженеры поначалу столкнулись с ростом ошибок при подключении сетевых интерфейсов. В настоящее время активно используются тесты, позволяющие проверить каждое подключение на соответствие идентификаторов портов и коммутаторов рабочим схемам. Отмечается, что параметры Ethernet-коммутаторов удваиваются каждые два года, поэтому компания уже разрабатывает сетевую архитектуру следующего поколения, рассчитанную на применение будущих ASIC 102,4 Тбит/с. По словам Alibaba Cloud, обучение LLM с сотнями миллиардов параметров потребует огромного распределённого кластера, количество ускорителей в котором исчисляется миллионами. И ему требуется соответствующая сетевая инфраструктура.
27.06.2024 [09:30], Илья Коваль
Ловкий патч и никакого мошенничества: эмуляция NUMA повышает производительность Raspberry Pi 5 на 18 %Портал Phoronix обратил внимание на необычный патч, заметно повышающий производительность Raspberry Pi 5. Инженеры Igalia в результате экспериментов с эмуляцией NUMA на UMA-системах с чипами ARM64 (AArch64) добились повышения эффективности использования памяти. Так, простой патч для ядра Linux позволил улучшить результаты в Geekbench на 6 % в однопоточном режиме и на целых 18 % — в многопоточном. Авторы патча пишут, что разделение RAM на несколько независимых блоков с последующим попеременными доступом (interleaving) позволяет контроллеру в Broadcom BCM2712 более полно использовать параллелизм на уровне физической организации чипов памяти (parallelism in physical memory chip organisation). Почему так происходит, авторы не уточняют, но, вероятно, это связано с особенностями организации кеша в SoC. 16-нм SoC BCM2712 включает четыре ядра Cortex-A76 (2,4 ГГц), каждому из которых полагается по 64 Кбайт кеша для инструкций и данных и 512 Кбайт L2-кеша. Объём общего L3-кеша составляет 2 Мбайт. Встроенный 32-бит контроллер памяти предлагает LPDRR4x-интерфейс, теоретическая пропускная способность которого достигает 17 Гбайт/с. Важно отметить, что этот чип не создавался эксклюзивно для Raspberry Pi — он был выбран среди актуальных массовых решений Broadcom из-за удачного сочетания цены, производительности и доступности. Патч добавляет в Kconfig новую опцию, а для активации эмуляции NUMA (Non-uniform memory access) нужно передать соответствующий параметр при загрузке ядра. Дальнейшая работы осуществляется с помощью стандартной утилиты numactl.
26.06.2024 [21:10], Владимир Мироненко
Новая страница: Broadcom представила VMware Cloud Foundation 5.2Компания Broadcom объявила о выходе обновления облачной платформы VMware Cloud Foundation (VCF) 5.2, которое обеспечит более быструю модернизацию инфраструктуры, рост продуктивности разработчиков, а также повышение киберустойчивости и безопасности, сохранив при этом более низкую общую стоимость владения. «Мы изменили нашу стратегию, чтобы сделать VCF лучшей доступной платформой частного облака <…>, где клиенты могут развернуть сеть, хранилище, вычисления, автоматизацию и управление в составе единой платформы там, где они хотят», — цитирует SiliconAngle Прашанта Шеноя (Prashanth Shenoy), вице-президента по маркетингу облачных платформ, инфраструктуры и решений VMware, дочерней компании Broadcom. Сообщения о повышении цен на продукты VMware он назвал далёкими от действительности. «Нет ничего более далекого от правды. Мы вдвое снизили цену на VCF и перешли от модели бессрочной лицензии к модели на основе подписки, которая является стандартом, который каждый поставщик инфраструктуры и ПО применяет в последние годы. VMware была одной из последних компаний, которая продолжала использовать бессрочное лицензирование», — сообщил Шеной. В обновлении стала доступна функция VCF Import, которая позволяет интегрировать существующие среды vSphere и vSAN в VMware Cloud Foundation. Эта функция обеспечивает централизацию управления и оптимизирует ресурсы без необходимости полной перестройки среды клиента, что позволит повысить эффективность, сократить затраты и ускорить окупаемость инвестиций, говорит компания. Также VCF теперь включает полную поддержку vSAN Max и vSAN ESA, предоставляя клиентам дезагрегированное хранилище петабайтного масштаба и доступность «активный-активный». В свою очередь, версия VCF Edge предоставляет оптимизированную конфигурацию VMware Cloud Foundation для сценариев использования на периферии с согласованным управлением от ЦОД до периферии. VCF 5.2 также включает шаблоны быстрого развёртывания приложений, упрощённую сетевую интеграцию и расширенные отчёты о производительности. Сообщается, что VCF получил усовершенствованную сетевую подсистему, что упрощает развёртывание и настройку по мере того, как пользователи переходят от традиционных архитектур на основе VLAN к расширенной виртуализации NSX. А VMware Avi Load Balancer в составе VCF обеспечивает упрощённую настройку балансировки. Кроме того, появилась возможность использовать два DPU в vSphere Distributed Services Engine, что повышает надёжность и производительность. Наконец, интеграция VMware Avi с SDDC Manager упрощает управление жизненным циклом Avi. Обновления VCF, а также связанные с ними надстройки, такие как VMware Live Recovery и VMware vDefend, повышают целостность и доступность облака, улучшают производительность сети и защиту от вредоносных программ и программ-вымогателей. Так, ESXi Live Patching позволяет на лету устанавливать апдейты, сводя к минимуму возможные простои. Также можно обновлять отдельные компоненты VCF. Что касается защиты, то vSAN Data Protection позволяет администраторам легче и быстрее восстанавливать виртуальные машины после случайного удаления и запуска. VMware vDefend защищает от горизонтального перемещения взломщиков в системе, упрощает масштабирование распределённых межсетевых экранов и предлагает интеграцию с SIEM-системами. Среди прочих обновлений отмечается появление SSO для всех компонентов VCF, упрощённый доступк к IaaS-функциям для разработчиков, упрощённые управление и диагностика для всего облака VCF, включая глобальную инвентаризацию, централизованное управление сертификатами и унифицированное лицензирование. Наконец, упомянуто, что служба Tanzu Kubernetes Grid (TKG) стала независимой. |
|