Материалы по тегу: 1
07.04.2023 [20:38], Сергей Карасёв
AMD представила ускоритель Alveo MA35D для «умного» кодирования AV1-видеоAMD анонсировала специализированный ускоритель Alveo MA35D для работы с видеоматериалами. Новинка приходит на смену FPGA Alveo U30 компании Xilinx, которую AMD поглотила в начале 2022 года. По сравнению с предшественником модель Alveo MA35D привносит поддержку AV1 и 8K, а также обещает четырёхкратное увеличение количества одновременно обрабатываемых видеопотоков. Решение может одновременно обрабатывать до 32-х потоков 1080p60, до восьми потоков 4Kp60 или до четырёх потоков 8Kp30. В основу ускорителя положены два VPU-блока на базе 5-нм ASIC, разработка которых началась ещё в недрах Xilinix, но которые не имеют отношения к FPGA. Каждый модуль VPU включает два «полноценных» кодировщика с поддержкой AV1/VP9/H.264/H.265 и два — только с AV1. Каждый из VPU использует 8 Гбайт собственной памяти LPDDR5, а для связи с CPU служит интерфейс PCIe 5.0 x8 (по x4 для каждого модуля). В состав VPU также входят четыре ядра общего назначения с архитектурой RISC-V. Для новинки доступен SDK-комплект с поддержкой широко используемых видеофреймворков FFmpeg и Gstreamer. Интересной особенностью является наличие выделенного ИИ-ускорителя (22 Топс) для предварительной обработки видеопотока и улучшения качества и скорости кодирования. Ускоритель покадрово определяет, какие части изображения (лица, текст и т.д.) должны быть закодированы с повышенными качестовом, а какие — нет. Также он определяет повреждённые кадры и по возможности восстанавливает или удаляет их до передачи кодировщику. При этом задержка при 4К-стриминге составляет приблизительно 8 мс. Заявленное энергопотребление составляет 1 Вт в расчёте на один канал 1080p60. Показатель TDP составляет 50 Вт, но, по заявлениям AMD, в обычных условиях он не превышает 35 Вт. Ускоритель выполнен в виде низкопрофильной однослотовой PCIe-карты. Задействована пассивная система охлаждения. В один 1U-сервер могут быть установлены до восьми таких ускорителей, что позволит одновременно обрабатывать до 256 видеопотоков. Пробные поставки карты уже начались, а массовые отгрузки намечены на III квартал 2023 года. Рекомендованная цена составляет $1595. AMD подчёркивает, что новый (де-)кодер разработан с нуля, а не позаимствован из её же GPU. В этом отличие подхода от Intel и NVIDIA, которые предлагают использовать более универсальные GPU Flex и L4 соответственно. Alveo MA35D рассчитан на стриминговые площадки, видеохостинги и т.д. При этом Google, например, уже разработала собственные ASIC Argos, а Meta✴ заручилась поддержкой Broadcom для той же цели.
17.10.2022 [14:27], Сергей Карасёв
В России начали серийное производство защищённых маршрутизаторов на процессорах «Байкал»«НПП "Исток" им. Шокина» холдинга «Росэлектроника» (входит в государственную корпорацию «Ростех») начало серийное производство специализированных роутеров для защищённой информационной инфраструктуры. Устройства предназначены для небольших организаций с численностью сотрудников до 50 человек. Семейство маршрутизаторов включает модели ISN41508T3, ISN41508T4 и ISN41508T3-М. В основу устройств положена российская система-на-кристалле Байкал BE-T1000 (Baikal-T1): два MIPS-ядра P5600 (до 1,2 ГГц), 1/10GbE, PCIe 3.0, SATA 3.0 и USB 2.0. На устройствах применяется полностью российское программное обеспечение. ![]() Модульная архитектура маршрутизаторов позволяет кастомизировать каждое устройство под нужды конкретного клиента. Конструкцией, в частности, предусмотрена возможность подключения накопителя или модулей расширения для получения дополнительных сетевых интерфейсов. Роутеры оснащены PoE-портами, позволяющими, к примеру, развернуть систему видеонаблюдения и организовать доступ к видеоконференцсвязи. «Мы приступили к серийному производству устройств, на данный момент уже выпущено две тысячи изделий. До конца года планируется изготовить ещё три тысячи роутеров, а также расширить линейку выпускаемого оборудования и приступить к серийному производству граничных маршрутизаторов», — сообщил представитель «НПП "Исток" им. Шокина».
20.04.2022 [14:43], Алексей Степин
Процессоры AMD EPYC помогают команде Формулы-1 Mercedes-AMG Petronas побеждатьВ современной Формуле-1 состязание вычислительных технологий давно уже стало не менее важным, чем сами гонки. И важность эта проявляется во многих аспектах, к примеру, в анализе и моделировании аэродинамики болидов. Команда Mercedes-AMG Petronas Formula One Team продемонстрировала преимущества процессоров AMD EPYC, помогших достичь 20% прироста скорости в задачах вычислительной гидродинамики (computational fluid dynamics, CFD). ![]() Фото: Mercedes-Benz AG Как отметил Дэн МакНамара (Dan McNamara), глава серверного подразделения AMD, с решениями EPYC партнёры смогут быстрее и эффективнее создавать новые, оптимизированные болиды Формулы-1. Переход на использование решений AMD позволил команде повысить и финансовый КПД, поскольку процессоры EPYC обеспечивают лучшую удельную производительность, а значит, позволяют добиться лучших результатов в рамках бюджета, ограниченного требованиями FIA. ![]() Источник: AMD AMD и Mercedes-AMG Petronas Formula One Team впервые заявили о долговременном сотрудничестве в 2020 году, и, похоже, уже в 2021 году оно начало приносить первые плоды: в сезоне 2021 команда показала хорошие результаты практически во всех заездах. Что касается подробностей, связанных с применением AMD EPYC, их можно прочесть в презентации на сайте компании.
06.04.2022 [19:57], Сергей Карасёв
Представлен защищённый сервисный маршрутизатор на отечественном процессоре «Байкал-BE-T1000»Государственная корпорация «Ростех» сообщает о том, что входящий в её состав холдинг «Росэлектроника» разработал полностью отечественный маршрутизатор для создания доверенной информационной инфраструктуры, защищённой от хакерских атак. В проекте приняли участие специалисты НПП «Исток» им. Шокина. Новинки предназначены для применения в небольших организациях с численностью сотрудников до 50 человек. «Сердце» роутера — российский MIPS-процессор Байкал BE-T1000. Говорится о реализации специальных механизмов для защиты от (D)DoS-атак и поддержке VPN. Создатели называют устройство новым поколением российского телекоммуникационного оборудования для сетей уровня доступа и агрегации корпоративного класса. Программное обеспечение является полностью отечественным, а аппаратная платформа произведена на территории Российской Федерации. «Сервисный маршрутизатор предназначен для организации связи с ненагруженными оконечными объектами, узлами связи корпоративных сетей, операторов связи и сервис-провайдеров» — говорится в описании устройства. Доступны модели ISN41508T3, ISN41508T4 и ISN41508T3-М. Первые две снабжены слотами U.2, третья — PCIe 3.0 x4. Также все модели имеют 2 Гбайт памяти DDR3-1600, SATA SSD ёмкостью 16 Гбайт и флеш-модуль объёмом 128 Гбайт. На переднюю панель выведены два порта USB 2.0. В оснащение входят восемь 1GbE-портов RJ-45, обслуживаемых чипом Marvell Link Street 88E6390X. Варианты ISN41508T3 и ISN41508T3-М также наделены двумя 1GbE-портами WAN (RJ-45), модель ISN41508T4 — двумя SFP-портами WAN. Упоминается и поддержка PoE. Модели ISN41508T3 и ISN41508T4 имеют габариты 215 × 43.5 × 148 мм и массу 1,8 кг, а вот ISN41508T3-М чуть крупнее — 215 × 43.5 × 218 мм и 2 кг соответственно. Корпус устройств выполнен из металла и имеет крепление для замка типа DeviceLock. Допускается работа при температурах от +5 до +40 °С. Возможно размещение на стене или на столе; также доступен опциональный кронштейн для монтажа в 19" стойку. Применено активное воздушное охлаждение. Средний заявленный срок службы — 5 лет. Показатель MTBF составляет не менее 45 тыс. часов. Более подробную информацию об устройствах можно найти здесь.
04.12.2021 [21:27], Сергей Карасёв
Облачные Mac'и: в AWS появились EC2-инстансы с Apple M1Облачная платформа Amazon Web Services (AWS) анонсировала инстансы EC2 M1 Mac, предназначенные для разработки и тестирования приложений для различных устройств Apple: смартфонов iPhone, планшетов iPad, компьютеров Mac, часов Apple Watch и приставок Apple TV. Конфигурация на базе Mac Mini включает CPU Apple M1 с восемью ядрами, восьмиядерный графический блок, 16-ядерный движок Neural Engine и 16 Гбайт RAM. ![]() Изображение: Amazon AWS Фактически это bare-metal инстансы, подключённые посредством Thunderbolt к AWS Nitro, так что выглядят и ведут они себя как обычные EC2-экземпляры. Новинки доступны в составе Amazon VPC с сетевым подключением до 10 Гбит/c. Загрузка осуществляется с EBS-томов (до 8 Гбит/с). Предварительный доступ к EC2 M1 Mac пока что имеется в двух облачных регионах США, а стоимость аренды составляет $0,6498/час. В России аналогичное предложение есть у Selectel — аренда аналогичной bare-metal системы обойдётся в 6990 руб./мес.
22.11.2021 [20:58], Игорь Осколков
SC21: несмотря на неурядицы, HPC-рынок будет растиАналитики в очередной раз скорректировали свои прогнозы по развитию рынка высокопроизводительных вычислений (HPC). Звучащие ещё с лета прошлого года высказывания, мол, уж через полгода-то ситуация с пандемией разрешится, становятся всё менее и менее уверенными. А осторожные предположения о возможных нарушениях цепочек поставок предположениями быть перестали. Однако не всё так плохо. По оценкам Hyperion Research, доходы рынка on-premise HPC-систем составили $27,283 млрд в 2020 году, что чуточку больше, чем в 2019 году ($26,979 млрд). Рынок «спасло» досрочное введение в эксплуатацию Fugaku. HPC в облаках принесли соответственно $4,3 и $3,91 млрд. Intersect360 Research приводит иные цифры (сразу с учётом облаков) по всему рынку — $38,9 млрд в 2020 году и $39 млрд в 2019-ом. При этом оба агентства считают, что первая половина этого года была неплохой, а в целом рынок на пятилетнем отрезке ждёт рост. Intersect360 ожидает CAGR на уровне 9,1 % для всего рынка, и стремительный рост облаков c CAGR 22,8 %. Hyperion Research разделяет сегменты — рынок без учёта облаков ждёт CAGR 7,9 %, а конкретно для облаков этот показатель составит 16,7 %. Доля последних вырастет c 14 % до 19 %. Несмотря на то, что подавляющее большинство нагрузок выполняется локально, облака используются всё чаще. Нередко для выноса некоторых задач, то есть в качестве временного «ускорителя». Однако есть небольшая доля пользователей, которая «живёт» исключительно в публичных облаках. Это в основном стартапы, а также организации, у которых в принципе нет и не было локальной HPC-инфраструктуры, и вряд ли таковая появится в обозримом будущем. При этом меняются и сами подходы. Так, ещё летом было объявлено о создании гибридного суперкомпьютера для метеослужбы Великобритании, который получит как локальные машины HPE Cray EX, так и доступ к практически таким же системам в Microsoft Azure. Обратный пример — для АНБ будет развёрнут локальный HPC-комплекс с облачной моделью потребления в рамках HPE GreenLake. В обоих случаях речь идёт о десятилетних контрактах. В облачном подходе даже к локальной инфраструктуре (см. пример Cambridge-1) должны быть заинтересованы и производители, и потребители, поскольку он позволяет упростить развёртывание, управление, миграцию и защиту нагрузок. Intersect360 Research отмечает ещё одну важную особенность: почти половина (49,5 %) нагрузок обычно масштабируется до 4 узлов, а максимум 16 узлов могут «освоить» лишь 55,8 %. Приложений, рассчитанных на 1000+ узлов, по данным опроса, набираются единицы процентов. Похожие задачи по развёртыванию, управлению и защите стоят и перед другим направлением, отмеченным Hyperion Research. Речь о конвергенции периферийных вычислений и HPC. Идея сама по себе нова, она заключается в предобработке данных непосредственно вблизи их источника с дальнейшей отправкой кратно меньше обычного объёма информации в вышестоящий ЦОД. И здесь при определённом масштабе уже можно говорить об HPC-задачах. Впрочем, оба агентства сходятся в том, что в ближайшие годы одним из ключевых факторов роста рынка станут экзафлопсные системы, но (как обычно) расходятся в методах оценки. Формально уже есть такие «призрачные» системы в Китае, но учитывать ли госзаказ, выполненный господрядчиком при оценке рынка? «Официально» экзафлопсные системы появятся в 2022 году. Для суперкомпьютеров, по оценкам Hyperion Research, CAGR на промежутке с 2020 по 2024 год составит 23,2 % — быстрому росту помогут единичные, но очень дорогие машины. Для HPC-систем среднего размера (от $3 млн) этот показатель составит 5,8 %, для малых (до $500 тыс.) — 8,6 %, а в среднем по всем трём сегментам — 10,1 %. Сегмент малых систем, кажется, оказался наиболее уязвим к дефициту и росту цен. Впрочем, средняя продолжительность эксплуатации всех систем уже выросла с 3,8 до 4,2 лет. И, к слову, всё чаще можно слышать о т.н. «бустерах», относительно небольших системах, которые пристраиваются к имеющимся машинам для повышения общей производительности и запуска новых классов задач. Нетрудно догадаться, что чаще всего они включают различного рода ускорители — к 2024 году, согласно оценкам, их число в HPC-системах вырастет более чем в два раза. И дело не только в адаптации ПО под ускорители, что долгое время было проблемой, но и повышенный интерес к машинному и глубокому обучению, которые дополняют традиционные задачи. ИИ-модели позволяют в некоторых случаях не только упростить подготовку входных и обработку выходных данных, но иногда и заменить обычные расчёты, пусть и ценой потери точности. Ускорители важны для области HPDA (High Performance Data Analysis), где ценна масштабная обработка больших объёмов данных, а не только вычисления как таковые. И в ближайшие годы именно здесь будут происходить самые интересные события. Уже некоторое время идёт активная борьба между разработчиками различных типов ускорителей (строго говоря, не только для ИИ), а наиболее обеспеченные площадки закупают небольшие комплексы от разных вендоров, чтобы оценить возможности и выбрать один-два варианта для будущих систем. Это даже интереснее потенциальной борьбы x86-64 с Arm (нет, Fugaku всё ещё не в счёт) на фоне стагнации POWER. Ещё одна тенденция на рынке — как и прежде высокий темп прироста затрат на СХД, который, по данным Hyperion Research, в период с 2020 по 2025 год составит 9,3 %. Лидерами здесь являются Dell Technologies, HPE/Cray, IBM и DDN (единственный независимый поставщик именно СХД, а не систем в целом). Наиболее популярными ФС остаются NFS и Lustre. В облаках же CAGR за тот же период составит аж 17,3 % — на хранилища приходится треть от всех расходов на облака. Тему интерконнектов оставим на следующий раз, поскольку тут изменений мало, а вот про приложения стоит сказать отдельно. На фоне остальных составляющих стоимости HPC-систем они не так велики, но всё равно важны. Intersect360 Research приводит два любопытных факта. Во-первых, аналитики отмечают рост open source решений, хотя и расходы на сторонние коммерческие приложения будут увеличиваться, и ПО собственной разработки будет значимым. Во-вторых, Python стал таким распространённым как C/C++.
21.11.2021 [01:54], Игорь Осколков
Meta✴ (Facebook✴) и Intel показали прототип сервера с CXL-памятью: DDR4 поверх PCIe 5.0На SC21 консорциум CXL не только объявил о поглощении всех наработок Gen-Z, но и представил несколько демо от разных участников консорциума. Одним из самых интересных стал показ прототипа сервера с CXL-памятью от Meta✴ (бывшая Facebook✴). Доклад о нём был сделан ещё на OCP Global Summit, но вот видеодемонстрация стала публичной только на этой неделе. ![]() FPGA-протототип CXL-модуля с DDR4 (Фото: Intel) Перед Meta✴ давно встала проблема увеличения ёмкости и плотности размещения DRAM. Причём у компании, как и других гиперскейлеров, очень жёсткие ограничения на физические размеры, энергопотребление и стоимость систем — создание и содержание парка в миллионы серверов выливается в круглые суммы. Представитель Meta✴ в ходе доклада отметил несколько важных факторов, учитываемых при создании новых платформ. Так, в последние годы цена за 1 Гбит DRAM перестала существенно падать, поэтому память становится всё более дорогим компонентом в составе сервера. И не только с точки зрения финансов, но и по энергопотреблению, что отрицательно влияет на совокупную стоимость владения (TCO). Кроме того, производительность процессоров заметно выросла, в основном благодаря увеличению числа ядер (в три с лишним раза). Однако пропускная способность памяти в пересчёте на канал в среднем лишь удвоилась, а в пересчёте на ядро — и вовсе упала почти вдвое. Тем не менее, ядра CPU всё равно надо как-то «прокормить», поэтому приходится искать новые пути масштабирования пула DRAM. Простым увеличением числа DIMM-слотов не обойтись — каждый «лишний» канал памяти обходится в дополнительные пару сотен дорожек в разводке платы, что при росте числа каналов приводит к увеличению числа слоёв материнской платы (и буквально её толщины). А попутное увеличение скорости памяти ведёт к необходимости использования более дорогих материалов и всё тем же проблемам. Как отмечают некоторые аналитики, платформы следующего поколения с поддержкой DDR5 будут дороже нынешних, но дело не в самой памяти, динамика удешевления которой будет примерно той же, что у DDR4, а именно в необходимости увеличения числа слоёв в материнских платах где-то на треть. Решением мог бы стать переход на последовательные интерфейсы — буферизованная DDIM-память (OMI) уже используется в серверах IBM E1080, но компактной её не назовёшь. Однако у нас и так уже есть другой, универсальный и широко распространённый последовательный интерфейс — это шина PCI Express 4.0, а в ближайшем будущем и 5.0. Она обеспечивает приемлемую скорость передачи данных, но требует где-то на три четверти меньше сигнальных линий, которые могут иметь бо́льшую протяжённость по сравнению с DDR. Строго говоря, попытки создать PCIe-фабрики для дезагрегации ресурсов уже предприняты, к примеру, GigaIO и Liqid. С приходом CXL это станет ещё проще. CXL позволит задействовать разные типы памяти с разными характеристиками, используя единый интерфейс. Например, можно с одной и той же платформой использовать и DDR5, и DDR4, и SCM (PMem). Чем-то похожим занимался и консорциум Gen-Z, куда, как ни странно, не входила Intel, которая и стала одним из основателей и апологетов Compute Express Link. С ней-то Meta✴ и работает около года над прототипом нового сервера и платы расширения с DRAM для него. Прототип использует сервер с инженерным образцом Intel Xeon Sapphire Rapids и стандартную карту расширения для платформы Yosemite v3. Карта с x16-подключением PCIe 5.0 несёт на борту инженерную версию FPGA (вероятно, что-то из серии Agilex) с двумя контроллерами памяти и двумя же слотами DIMM для обычной регистровой DDR4 суммарным объёмом 64 Гбайт. На базе FPGA реализован интерфейс CXL 2.0, который имеет поддержку протокола CXL.memory и даёт расширенные возможности мониторинга и отладки. При старте системы происходит опрос доступных PCIe-устройств и согласование с ними скоростей и возможностей, после чего становится доступна оперативная память, физически размещённая на карте расширения, а не только локальная DDR5, «привязанная» к процессору. В этом случае система «видит» несколько NUMA-доменов — два от самого CPU и ещё один «безпроцессорный». Прототип успешно проходит все базовые тесты, так что программно-аппаратный стек уже достаточно хорошо проработан.
18.11.2021 [23:45], Алексей Степин
GigaIO FabreX с CXL позволит вынести пулы оперативной памяти за пределы серверовКомпания GigaIO, один из пионеров в области разработки современных компонуемых сред для ЦОД, кластеров и облачных систем, показала на конференции SC21 свои последние разработки и решения. Компания намерена всего через два года создать универсальную компонуемую платформу, которая позволит на лету собирать сервер любой конфигурации из удалённых SSD, GPU, DPU, FPGA и даже DRAM. ![]() Коммутатор GigaIO FabreX Использовать в качестве основы такой платформы PCIe-фабрику — идея заманчивая, поскольку эта универсальная, стандартная и используемая сегодня в любых ИТ-системах шина обеспечивает высокую производительность при минимальном уровне задержек. У GigaIO уже есть коммутаторы FabreX с поддержкой PCIe 4.0. А CXL позволит добиться практически идеальной дезагрегации ресурсов. Отдельные стойки будут содержать различные массивы DRAM и SCM, флеш-массивы, ускорители самых разных типов и т.д. ![]() Такие стойки-массивы войдут в общую фабрику FabreX, а уже из неё нужные ресурсы смогут получать как традиционные серверы, так и целые кластеры — технологии GigaIO позволяют крайне гибко разграничивать ресурсы, черпаемые из единого пула и раздавать их разным клиентам в нужных пропорциях. Такой подход напоминает современные облачные системы, к которым может подключиться кто угодно и использовать столько ресурсов нужного типа, сколько надо для данной задачи. ![]() Всё управление траифком берёт на себя FabreX, а в клиентские системы остаётся только установить соответствующие HBA-адаптеры, также разработанные GigaIO. Модули Hydra, показанные компанией в конце 2020 года, обеспечивает пропускную способность до 32 Гбайт/с на слот PCIe 4.0 x16. Для кабельной инфраструктуры FabreX использует стандартные кабели с коннекторами SFF-8644 (возможны как чисто медные варианты, так и активные, с оптическими трансиверами). ![]() К тому же FabreX обеспечивает беспроблемную переброску практически любых протоколов и приложений между любыми узлами, включёнными в сеть — будь то TCP/IP, MPI, NVMe-oF и другие виды трафика. Последним барьером, мешающим достигнуть полной дезагрегации ресурсов GigaIO справедливо считает оперативную память, которая в большинстве систем пока ещё находится на стороне процессоров общего назначения в клиентских серверах. Но в партнёрстве с AMD компания уже работает над этой проблемой. ![]() Попытки вынести оперативную память за пределы серверов снижают производительность даже при использовании RDMA. Однако последние разработки GigaIO для FabreX и интеграция в эту систему стандарта CXL должны позволить использовать истинный прямой NUMA-доступ к памяти, даже если она вынесена за пределы клиентской системы и находится в общем пуле-массиве. Последний барьер к полной дезагрезации ресурсов практически пал. ![]() Таким образом, любой сервер в сети FabreX сможет получить полноценный доступ к любой памяти — соседнего сервера или стойки пула, с минимальным ростом латентности и максимально возможной в рамках PCIe пропускной способностью. Пулинг оперативной памяти с сохранением когерентности кешей, по словам GigaIO, будет реализован в 3 квартале следующего года на базе CXL 1.0. В четвёртом квартале должна появиться поддержка CXL 2.0 с возможностью систем делиться ресурсами памяти между собой, а в начале 2023 года компания планирует внедрить весь спектр возможностей CXL 2.0. ![]() В числе преимуществ FabreX GigaIO также называет использование открытых стандартов, даже собственное ПО GigaIO будет находиться в открытом доступе. Клиенты, уже использующие FabreX, без проблем перейдут на новую версию с CXL, поскольку этот стандарт базируется на PCIe 5.0. Им не потребуется вносить изменения в уже работающие контейнеры, ВМ и прочее ПО, зато они смогут использовать все преимущества FabreX в области дезагрегации ресурсам, включая удалённые пулы DRAM.
18.11.2021 [18:40], Алексей Степин
LIQID представила шасси EX-4400: 10 × PCIe 4.0 x16 или 20 × PCIe 4.0 x8Компания LIQID, известная как поставщик сверхбыстрых серверных SSD и решений для композитной инфраструктуры, представила новые 4U-шасси серии EX-4400 с поддержкой PCI Express 4.0 — модель EX-4410, рассчитанную на установку 10 полноразмерных двухслотовых x16-плат, и EX-4420, в которой можно разместить 20 однослотовых x8-плат, но в форм-факторе. Идея, как и прежде, заключается в том, что в шасси можно установить практически любые PCIe-устройства (SSD, GPU, FPGA, DPU и т.д.), сформировав таким образом пул различных ресурсов. Вся коммутация PCIe осуществляется непосредственно в самом шасси, которое содержит три свитча Broadcom Atlas — задержка PCIe-фабрики составляет 105 нс. Серверы же имеют прямое PCIe-подключение к шасси, а доступом к ресурсам управляет фирменное ПО. Компания называет эту концепцию CDI Simplified. ![]() Для подключения клиентов есть 16 портов (используются кабели Mini-SAS), каждый из которых может обеспечить передачу данных на скорости до 16 Гбайт/с в дуплексе. Поддерживается агрегация портов, так что требовательный сервер может задействовать сразу четыре порта (до 64 ГБайт/с). Однако суммарная пропускная способность на всех портах одновременно составлят 256 ГБайт/с (тоже в дуплексе). Конфигурация подключаемых ресурсов управляется программно, поэтому добавить в систему ещё один ускоритель или NVMe-накопитель можно на лету и без прерывания рабочей нагрузки, запущенной на клиентском сервере. Все PCIe-слоты в EX-4400 реализованы с полноценным независимым управлением по питанию, за которое отвечают четыре (2+2) БП мощностью 2,4 кВт и с поддержкой горячей замены. По словам создателей, это первое в индустрии PCIe-шасси, в которое платы можно устанавливать без отключения самого шасси. Сам процесс установки или изъятия плат предельно упрощён — достаточно выдвинуть шасси из стойки и вытащить, либо добавить нужные клиенту устройства.
17.11.2021 [19:49], Алексей Степин
Habana Labs, Supermicro и DDN представили платформу машинного обученияОбучение сложных нейросетей, в отличие от запуска уже натренированных, требует огромных вычислительных ресурсов, включая специализированные ИИ-ускорители. Компания Intel, в своё время купившая стартап Habana Labs, такими ускорителями располагает и на днях объявила о доступности новой, готовой к использованию мощной платформы машинного обучения. Процессоры Habana Gaudi изначально проектировались с прицелом на задачи машинного обучения, а вычислительная часть спроектирована с учётом вычислений, характерных для задач ИИ. При этом Gaudi — единственный сопроцессор подобного класса, располагающий встроенными 100GbE-контроллерами с поддержкой RoCE v2, что значительно упрощает развёртывание и масштабирование систем на его основе. ![]() Supermicro X12 Gaudi AI Training System Одной из первых сервер на базе ускорителей Gaudi представила Supermicro. X12 Gaudi AI Training System включает в себя пару процессоров Xeon Ice Lake-SP, но основной объём занимают модули Gaudi в формате OAM HL-205. Их в системе восемь, и каждый несёт на борту по 32 Гбайт памяти HBM2. Эти серверы стали основой суперкомпьютера SDSC Voyager. Но это лишь часть платформы, представленной Intel: для полноценного обучения сложных сетей мало одних вычислительных ускорителей, огромные объёмы входных данных надо где-то хранить и эффективно ими управлять, не создавая «бутылочных горлышек». Поэтому вторым важным компонентом новой платформы стала новейшая СХД DDN AI400X2. Новая платформа Intel/Habana может поставляться в вариантах с одним, двумя или четырьмя серверами X12 и минимум одной AI400X2. ![]() DDN AI400X2 DDN AI400X2 — новинка, пополнившая на днях серию решений DDN A3I и наследница AI400X. Один 2U-узел AI400X2 вдвое быстрее прошлого поколения и способен выдать 90 Гбайт/с. На случайных операциях производительность составляет 3 млн IOPS. Для того чтобы обеспечить такой поток данных, в системе используются NVMe SSD с поддержкой PCIe 4.0, суммарным объёмом до 720 Тбайт. Интересно, что данная СХД умеет использовать в своей ФС ExaScaler ресурсы клиентских узлов для хранения и дистрибуции самых «горячих» данных. Поддерживаются также гибридные конфигурации с SSD и HDD, с автоматическим ранжированием данных, при этом HDD-часть может набираться отдельными дисковыми полками (до 22U) и предоставляет до 11,5 Пбайт. Весьма полезное качество, поскольку аналитики отмечают крайне быстрый рост объёмов данных, используемых для систем ИИ и машинного обучения. Причём более половины пользователей дополняют и переобучают свои ИИ-модели минимум раз в неделю. ![]() Один из вариантов развёртывания новой платформы При необходимости, начав с минимальной конфигурации, платформу легко превратить в серьёзный кластер с сотнями и тысячами ускорителей, объединённый быстрой сетью с поддержкой RDMA. В качестве основного коммутатора DDN рекомендует модель Arista 7170-32C с 32 портами 100GbE, а в крупных масштабах и при необходимости развёртывания Gaudi-сети — Arista DCS-7060DX-32 с 32 портами 400GbE и производительностью 25,6 Тбит/с. Платформа прошла валидацию для использования с ПО Habana SynapseAI и включает в себя оптимизированные docker-контейнеры для нагрузок TensorFlow и PyTorch. За управление отвечает фирменная система Software Vault, а портал Habana Developer и открытые GitHub-репозитории упростят ввод платформы в эксплуатацию. |
|