Материалы по тегу: ускоритель
29.09.2024 [00:30], Алексей Степин
Рождение экосистемы: Intel объявила о доступности ИИ-ускорителей Gaudi3 и решений на их основеПро ускорители Gaudi3 компания Intel достаточно подробно рассказала ещё весной этого года — 5-нм новинка стала дальнейшим развитием идей, заложенных в предыдущих поколениях Gaudi. Объявить о доступности новых ИИ-ускорителей Intel решила одновременно с анонсом новых серверных процессоров Xeon 6900P (Granite Rapids), которые в видении компании являют собой «идеальную пару». Впрочем, в компании признают лидерство NVIDIA, так что обещают оптимизировать процессоры для работы с ускорителями последней. А вот ускорителей Falcon Shores, вполне вероятно, с новой политикой Intel потенциальные заказчики не дождутся. На данный момент главной новостью является то, что в распоряжении Intel не просто есть некий ИИ-ускоритель с более или менее конкурентоспособной архитектурой и производительностью, а законченное и доступное заказчикам решение, уже успевшее привлечь внимание крупных производителей и поставщиков серверного оборудования. Впрочем, на презентации были продемонстрированы любопытные слайды, в частности, касающиеся архитектуры и принципов работы блоков матричной математики (MME), тензорных ядер (TPC), а также устройство подсистемы памяти. В последнем случае любопытен максимальный отход от иерархических принципов построения в пользу единого унифицированного пространства памяти, включающего в себя кеши L2 и L3, а также набортные HBM2e-стеки ускорителя. Общение с сетевым интерконнектом при этом организовано из пространства L3, что должно минимизировать задержки. При этом сетевые порты доступны операционной системе как NIC через драйвер Gaudi3, с управлением посредством RDMA verbs. Благодаря большому количеству таких виртуальных NIC, организация интерконнекта внутри сервера-узла не требует никаких коммутаторов, а совокупная внутренняя производительность при этом достигает 67,2 Тбит/с. Хотя основой экосистемы Gaudi3 станут в первую очередь ускорители HL-325L и UBB-платы HLB-325, есть у Intel и PCIe-вариант в виде FHFL-платы HL-338: 1,835 Пфлопс в режиме FP8 при теплопакете 600 Вт. Оно имеет только 22 200GbE-контроллера, а в остальном повторяет конфигурацию HL-325L с восемью блоками матричной математики (MME). Эти ускорители получат пару портов QSFP-DD, каждый из которых будет поддерживать скорость 400 Гбит/с, а между собой платы в пределах одного сервера смогут общаться при помощи специального бэкплейна. Важно то, что Gaudi3 успешно прошёл путь от анонса до становления сердцем полноценной аппаратно-программной экосистемы, в том числе благодаря ставке на программное обеспечение с открытым кодом. В настоящее время Intel в содействии с партнёрами могут предложить широчайший по масштабу спектр решений на базе Gaudi3 — от рабочих станций и периферийных серверов до вычислительных узлов, собирающихся в стойки, кластеры и даже суперкластеры. В числе крупнейших партнёров Intel по новой экосистеме есть Dell и Supermicro, представившие серверные системы c Gaudi3. Начало массовых поставок этих систем запланировано на октябрь 2024 года. Вряд ли такие серверы будут развёртываться по одному, поэтому Intel рассказала о возможностях масштабирования Gaudi3-платформ. Один узел с восемью OAM-модулями HL-325L, развивающий 14,7 Пфлопс в режиме FP8 и располагающий 1 Тбайт HBM станет основой для 32- и 64-узловых кластеров с 256 и 512 Gaudi3 на борту, благо нехватка пропускной способности сетевой части Gaudi3 не грозит — она составляет 9,6 Тбайт/с для одного узла. Из таких кластеров может быть составлен суперкластер с 4096 ускорителями или даже мегакластер, где их число достигнет 8192. Производительность в этом случае составит 15 Эфлопс при объёме памяти 1 Пбайт и совокупной производительности сети 9,8 Пбайт/с. Типовой 32-узловой кластер на базе Gaudi3 Intel — это решение средней плотности с 15 стойками, содержащими не только вычислительные узлы, но и управляющие серверы, сетевые коммутаторы и подсистему хранения данных. Благодаря тому, что Intel в качестве интерконнекта для Gaudi3 избрала открытый и широко распространённый стандарт Ethernet (200GbE RoCE, 24 контроллера на ускоритель), не должно возникнуть проблем с совместимостью и привязкой к аппаратному обеспечению единственного вендора, как это имеет место быть c NVIDIA InfiniBand и NVLink. Вкупе с программным обеспечением, основой которого является открытый OneAPI, и развитой системой техподдержки, системы на базе Gaudi3 станут надёжной основой для развёртывания ИИ-систем класса RAG, позволяющих заказчику в кратчайшие сроки запускать сети LLM с собственными датасетами без переобучения модели с нуля, говорит компания. Именно в сферах, так или иначе связанных с большими языковыми моделями, Gaudi3 и системы на его основе должны помочь Intel укрепить свои позиции. Компания приводит данные, что Gaudi3 производительнее H100 примерно в 1,19 раза без учёта энергоэффективности, но в пересчёте «ватт на доллар» эти ускорители превосходят NVIDIA H100 уже в два раза. Правда, H100 арсенал NVIDIA уже не ограничивается, но с массовой доступности новых решений Intel они могут оказаться привлекательнее. К тому же платформа совместима со всеми основными фреймворками, библиотеками и средствами управления. Впрочем, на примере AMD прекрасно видно, насколько индустрия привязана к решениям NVIDIA, причём в первую очередь программным.
24.09.2024 [11:32], Руслан Авдеев
Саудовская Аравия начнёт закупать передовые ИИ-чипы в случае снятия американских ограничений в 2025 годуХотя Саудовская Аравия фактически находится под санкциями США и не может закупать некоторые передовые ИИ-чипы, страна намерена получить американское разрешение на импорт уже в 2025 году. По данным DigiTimes, тогда же начнутся закупки ускорителей вроде NVIDIA H200. Саудовская Аравия уже активно вкладывает средства в развитие собственных вычислительных мощностей и к 2030 году намерена поднять вклад ИИ в национальный ВВП до 12 %. По данным саудовского ведомства Saudi Data & AI Authority (SDAIA), курирующего вопросы, связанные с ИИ-системами, США рассматривают ослабление торговых ограничений в отношении страны. Не исключается, что новейшие чипы можно будет приобретать в следующем году. Саудовские власти акцентируют внимание на том, что доступ к новому оборудованию будет содействовать развитию коммерческих операций между Саудовской Аравией и США и даст возможность стране строить собственные современные вычислительные мощности. Кроме того, местные власти в последние три года немало вкладывают в подготовку национальных IT-специалистов и информационные технологии в целом. В частности, Саудовская Аравия немало тратит на развитие локальной ИИ-экосистемы. По данным сентябрьского доклада SDAIA, в рамках плана Vision 2030 вклад ИИ-отрасли в ВВП должен составить к 2030 году до 12 %. Инвестициями займётся фонд национального благосостояния Public Investment Fund (PIF). По мнению экспертов, при сохранении роста инвестиций в генеративный ИИ, шесть стран GCC (Саудовская Аравия, ОАЭ, Кувейт, Катар, Оман и Бахрейн) будут получать по $23,5 млрд экономической выгоды ежегодно, из которых на Саудовскую Аравию придётся $12,2 млрд. Параллельно американское правительство принимает меры, чтобы ограничить доступ к передовым чипам китайским государственным и коммерческим структурам. В мае 2024 года США расширили санкционное поле, включив в него и многие ближневосточные страны, в том числе Саудовскую Аравию и ОАЭ. Одна из причин заключается в желании КНР развивать тесные связи с Ближним Востоком. В США опасались, что Китай сможет получать современные полупроводники через своих ближневосточных партнёров. Китай является крупнейшим торговым партнёром Саудовской Аравии и крупным инвестором в саудовскую экономику в рамках плана Vision 2030. По мере того, как напряжённость между США и Китаем нарастает, критически важные технические сферы тоже становятся пространством для конкуренции, заставляя более мелких игроков принимать ту или иную сторону, и совсем не по доброй воле. По данным руководства саудовского фонда Alat, занимающегося инвестициями в ИИ-технологии и полупроводники вообще, уже поступили запросы о полном отделении от китайских технологических цепочек, иначе под угрозой окажутся отношения с США. При этом в Alat подчеркнули, что США являются не только приоритетным партнёром, но и приоритетным рынком. Сотрудничают с США и другие крупные местные игроки. Например, Aramco Digital уже объявила о партнёрстве с Cerebras, Groq и Qualcomm для развития ИИ и 5G IoT в стране. Впрочем, эксперты отмечают, что хотя саудовские власти уже приняли меры по ограничению сделок с китайскими бизнесами, если США продолжит курс на ограничение поставок ИИ-чипов в Саудовскую Аравию, та может вновь повернуться лицом к сотрудничеству с Китаем, да и сейчас некоторые планы реализуются. Весной сообщалось, что Tencent увеличит инвестиции в облака на Ближнем Востоке, в том числе в Саудовской Аравии.
20.09.2024 [21:27], Алексей Степин
От IoT до ЦОД: SiFive представила экономичные ИИ-ядра Intelligence XMРазработчик SiFive, известный своими процессорными ядрами с архитектурой RISC-V, решил подключиться к буму систем ИИ, анонсировав кластеры Intelligence XM — первые в индустрии RISC-V решения, оснащённые масштабируемым движком матричных вычислений для обработки ИИ-нагрузок. Как отмечает SiFive, новый дизайн должен помочь разработчикам чипов на базе RISC-V в создании кастомных ИИ-систем, в том числе для автономного транспорта, робототехники, БПЛА, IoT, периферийных вычислений и т.п., где роль таких нагрузок в последнее время серьёзно выросла, а требование к энергоэффективности никуда не делись. Но при желании можно создать и серверные ускорители, говорит компания. Каждый матричный блок в составе одного XM-кластера дополнен четырьмя ядрами X Core, каждое из которых имеет в своём составе два блока векторных вычислений и один блок скалярных вычислений. Все вместе они делят общий L2-кеш. XM-кластер располагает шиной с пропускной способностью 1 Тбайт/с и поддерживает подключение к памяти двух типов — когерентное через общую шину CHI, к которой подключается и внешняя память DDR/HBM, или высокоскоростной порт для SRAM. Производительность одного XM-кластера 8 Тфлопс в режиме BF16 и 16 Топс в режиме INT8 на каждый ГГц частоты. Тип хост-ядра не важен, это может быть RISC-V, Arm или даже x86. Впрочем, хост-ядра могут отсутствовать вовсе. Ожидается, что чипы на базе XM в среднем будут иметь от четырёх до восьми кластеров, что даст им до 8 Тбайт/с пропускной способности памяти и до 64 Тфлопс производительности в режиме BF16, и это лишь на частоте 1 ГГц при малом уровне энергопотребления. Но возможно и масштабирование до 512 XM-блоков, что даст уже 4 Пфлопс BF16. У NVIDIA Blackwell, например, в том же режиме производительность составляет 5 Пфлопс. В целях дальнейшей популяризации архитектуры RISC-V компания также планирует сделать открытой (open source) референсную имплементацию SiFive Kernel Library (SKL). SKL включает оптимизированную для RISC-V ядер SiFive реализацю различных востребованных алгоритмов, в том числе для работы с нейронными сетями, обработки сигналов, линейной алгебры и т.д. Дела у SiFive идут, судя по всему, неплохо, и, как отметил глава компании Патрик Литтл (Patrick Little), новые дизайны ядер помогут ей сохранить темпы роста и не отстать от эволюции ИИ, оставаясь в то же время поставщиком уникальных процессорных решений с открытой архитектурой. На данный момент решения SiFive уже поставляет свои решения таким гигантам, как Alphabet, Amazon, Apple, Meta✴, Microsoft, NVIDIA и Tesla.
17.09.2024 [20:59], Владимир Мироненко
Объявленный Intel план реструктуризации ставит под сомнение будущее ускорителей Falcon ShoresВ начале недели Intel разослала сотрудникам письмо с описанием плана выхода из кризиса, который ставит под сомнение будущее ускорителей Falcon Shores, ранее намеченных к выпуску в 2025 году, пишет ресурс HPCwire. Согласно плану, компания сосредоточится на выпуске продуктов на архитектуре x86, что может отразиться на производстве Falcon Shores, поскольку глава Intel Пэт Гелсингер (Pat Gelsinger) ранее заявил, что не будет конкурировать с NVIDIA и AMD в области обучения ИИ. Следующий этап реструктуризации также включает сокращение расходов ещё на $10 млрд и увольнение 15 тыс. сотрудников, из которых 7,5 тыс. уже выразили согласие сделать это на добровольной основе. «Мы должны сосредоточиться на нашей сильной франшизе x86, поскольку мы реализуем нашу стратегию ИИ, одновременно оптимизируя наш портфель продуктов для обслуживания клиентов и партнёров Intel», — подчеркнул в письме Гелсингер. В прошлом месяце на аналитической конференции Deutsche Bank он заявил, что компания покидает рынок обучения ИИ с тем, чтобы сосредоточиться на инференсе, используя сильную сторону чипов x86. Желание Intel сократить расходы и отказаться от неактуальных продуктов может повлиять на реализацию проекта по выпуску Falcon Shores, ускорителя для ЦОД, выход которого неоднократно откладывался. Он является преемником ускорителя Intel Ponte Vecchio (Data Center GPU Max 1550) на базе архитектуры Xe, массовый выпуск которого был фактически прекращён после ввода в эксплуатацию суперкомпьютера Aurora. Ранее Intel отказалась от ускорителей серии Rialto Bridge, а в Falcon Shores было решено отказаться от гибридного подхода, к которому к этому моменту пришли и AMD, и NVIDIA. Впрочем, от ИИ-ускорителей Gaudi компания не отрекается. Intel не ответила на запрос о комментарии о будущем Falcon Shores. И основные разработчики, занимавшиеся этим проектом — Джейсон Маквей (Jason McVeigh) и Раджа Кодури (Raja Koduri) — либо ушли, либо были назначены на другие должности. Гелсингер признал, что Intel сильно отстаёт от своих конкурентов в области GPU и чипов для обучения ИИ, включая NVIDIA, AWS, Google Cloud и AMD. Впрочем, для AWS Intel будет производить в США кастомные процессоры Xeon 6 и ИИ-ускорители (вероятно, это наследники Trainium/Inferentia). Также компания отметила отставание на рынке серверов для ЦОД, где сейчас большим спросом пользуются серверы с ИИ-ускорителями. «Где мы ещё не полностью вывели бизнес на хорошие позиции, так это в области CPU для ЦОД», — сообщил в этом месяце финансовый директор Intel Дэйв Цинснер (Dave Zinsner) на конференции Citi Global Technology Conference. Процессоры Xeon Emerald Rapids не оправдали ожиданий компании. Обычный цикл обновления гиперскейлеров в этот раз значительно растянулся, поскольку они активно вкладываются в развитие ИИ-инфраструктуры, попутно увеличивая срок службы традиционных серверов. Следующее поколение Granite Rapids (Xeon 6) должно выйти в начале следующего года. А Diamond Rapids, которые будут выпускаться по техпроцессу Intel 18A (1,8 нм), как ожидается, помогут вывести Intel на лидирующие позиции. Выход на производство по техпроцессу 18A с использованием новой структуры транзисторов RibbonFET и технологии PowerVia является для Intel одной из приоритетных задач. В частности, это техпроцес будет использоваться для выпуска серверных процессоров Clearwater Forest. Пока Intel под натиском AMD активно теряет долю рынка серверных CPU.
17.09.2024 [14:54], Руслан Авдеев
ByteDance разрабатывает собственные ИИ-ускорителями, но и от закупок чипов NVIDIA пока не отказываетсяПо данным The Information, китайская ByteDance, владеющая популярной социальной сетью TikTok, работает над выпуском собственных ИИ-чипов. Два вида чипов начнут производить на TSMC к 2026 году. Предполагается, что собственные разработки позволят китайскому IT-гиганту избавиться от зависимости от поставщиков вроде NVIDIA. Принято считать, что решения NVIDIA использует большинство компаний, участвующих в разработке ИИ-систем. Тем не менее, получить передовые ускорители довольно сложно из-за американских санкций, не раз ужесточавшихся и распространившихся даже на ослабленные ускорители. Из-за этого ByteDance приходится искать альтернативы. Экспорт чипов из США и других стран, использующих американские технологии, неоднократно ограничивали, а в июне появилась информация о том, что ByteDance сотрудничает с Broadcom над 5-нм решением, соответствующим всем ограничениям — его будет производить тайваньская TSMC. Также сообщалось, что ByteDance закупила в прошлом году чипы Ascend 910B, разработанные и продаваемые Huawei. Однако, по данным The Information, ByteDance пока что всё равно заказала 200 тыс. ускорителей NVIDIA H20 за более чем $2 млрд. С ними намного проще и удобнее работать, чем с решениями Huawei. Разработка собственных чипов в ByteDance объясняется ростом интереса менеджмента компании к ИИ-технологиям — они применяются во многих решениях IT-гиганта, в том числе в рекомендательных системах TikTok. Разработка собственных продуктов позволит повысить производительность систем ByteDance при обучении моделей и инференсе. В Китае над собственными решениями в сфере ИИ-ускорителей работает не только ByteDance, но и, например, Baidu. ИИ-ускоритель Kunlun 3 тоже будет производить TSMC. При этом у Baodi гораздо более богатый опыт разработки ускорителей. Начав в 2010 году с FPGA, к 2020 году она перешла к созданию ASIC. В августе 2022 года ByteDance представила чат-бота на основе ИИ Doubao, он стал главным конкурентом Ernie Bot (разработан Baidu) в Китае. В мае под «зонтиком» бренда Doubao компания ByteDance представила большие языковые модели (LLM), рассчитанные на корпоративных клиентов. Модели относительно дёшевы в сравнении с продуктами конкурентов, предлагающими аналогичную функциональность.
17.09.2024 [10:57], Руслан Авдеев
Intel будет выпускать для AWS кастомные Xeon 6 и ИИ-ускорителиIntel и Amazon Web Services (AWS) объявили о намерении совместно инвестировать в разработку и выпуск кастомных чипов в рамках многомиллиардного многолетнего проекта, в котором будет задействовано производство Intel. Пресс-служба компании сообщает, что расширение сотрудничества поможет клиентам AWS справиться почти с любыми рабочими нагрузками и повысить производительность ИИ-приложений. Intel будет выпускать ИИ-ускорители для AWS по техпроцессу Intel 18A в рамках инициативы AI Fabric, а также кастомные процессоры серии Xeon 6 по техпроцессу Intel 3. По словам руководства Intel и AWS, взаимодействие на новом уровне для работ в сфере ИИ и машинного обучения не только будут способствовать росту обеих компаний, но и обеспечат устойчивую цепочку поставок ИИ-решений непосредственно на территории США. При этом производственное подразделение Intel Foundry фактически превратится в независимую дочернюю компанию Intel. Заявление о расширенном сотрудничестве подкрепляет обязательства компаний по ускоренной организации производства полупроводников на территории США и созданию динамичной ИИ-экосистемы в Огайо. Intel по-прежнему планирует создание передовых производств полупроводников в этом штате (в районе Нью-Олбани), а AWS намерена вложить $7,8 млрд в расширение ЦОД в Центральном Огайо — помимо тех $10,3 млрд, которые уже инвестированы в штат с 2015 года. Власти Огайо приветствуют инициативу и предполагают, что это поможет укрепить позиции штата в качестве лидера ИИ-сферы и демонстрирует приверженность Intel развитию национальных производственных площадок, а AWS — инвестициям в штат в качестве оператора ЦОД. В AWS подчёркивают, что сотрудничество с Intel началось ещё в 2006 году с создания EC2-инстансов на чипах последней. История отношений Intel и AWS насчитывает более 18 лет. В дальнейшем компании намерены изучить потенциал новых разработок на основе техпроцесса Intel 18A, а также перспективных Intel 18AP и Intel 14A. Соответствующие технологии будут, как ожидается, внедряться на фабрике в Огайо, которую ещё предстоит построить. Правда, в своём пресс релизе Intel не преминула добавить стандартную приписку, что заявления относительно выгод и влияния сотрудничества на бизнес основаны на ожиданиях руководства компаний и влекут за собой «риски неопределённости», поскольку многие факторы находятся вне контроля партнёров.
12.09.2024 [21:46], Сергей Карасёв
SiMa.ai представила чипы Modalix для мультимодальных рабочих нагрузок ИИ на периферииСтартап SiMa.ai анонсировал специализированные изделия Modalix — «системы на чипе» с функциями машинного обучения (MLSoC), спроектированные для обработки ИИ-задач на периферии. Эти решения предназначены для дронов, робототехники, умных камер видеонаблюдения, медицинского диагностического оборудования, edge-серверов и пр. В семейство Modalix входя четыре модификации — М25, М50, М100 и М200 с ИИ-производительностью 25, 50, 100 и 200 TOPS соответственно (BF16, INT8/16). Изделия наделены процессором общего назначения с восемью ядрами Arm Cortex-A65, работающими на частоте 1,5 ГГц. Кроме того, присутствует процессор обработки сигналов изображения (ISP) на базе Arm Mali-C71 с частотой 1,2 ГГц. В оснащение входят 8 Мбайт набортной памяти. Изделия производятся по 6-нм технологии TSMC и имеют упаковку FCBGA с размерами 25 × 25 мм. Чипы Modalix располагают узлом компьютерного зрения Synopsys ARC EV-74 с частотой 1 ГГц. Говорится о возможности декодирования видеоматериалов H.264/265/AV1 в формате 4K со скоростью 60 к/с и кодировании H.264 в формате 4K со скоростью 30 к/с. Реализована поддержка восьми линий PCIe 5.0, четырёх портов 10GbE, четырёх интерфейсов MIPI CSI-2 (по четыре линии 2.5Gb), восьми каналов памяти LPDDR4/4X/5-6400 (до 102 Гбайт/с). Таким образом, по словам SiMa.ai, Modalix покрывает практически весь цикл работы с данными, не ограничиваясь только ускорением ИИ-задач. По заявлениям SiMa.ai, чипы Modalix можно применять для работы с большими языковыми моделями (LLM), генеративным ИИ, трансформерами, свёрточными нейронными сетями и мультимодальными приложениями. Среди возможных вариантов использования названы медицинская визуализация и роботизированная хирургия, интеллектуальные приложения для розничной торговли, автономные транспортные средства, беспилотники для инспекции зданий и пр. Есть поддержка популярных фреймворков PyTorch, ONNX, Keras, TensorFlow и т.д. Также предоставляется специализированный набор инструментов под названием Pallet, упрощающий создание ПО для новых процессоров.
04.09.2024 [23:45], Руслан Авдеев
Неудобное ПО, технические дефекты и проблемы с производительностью не помешали Huawei поднять цену на ИИ-ускорители AscendУсилия Китая, направленные на достижение технологического суверенитета в сфере полупроводников, не всегда полностью успешны. Как сообщает Financial Times, клиенты часто жалуются на различные проблемы с ИИ-ускорителями Huawei, которая сама считает их достойной альтернативой продуктам NVIDIA в условиях антикитайских санкций со стороны США и их союзников. Huawei лидирует на китайском рынке ИИ-чипов. Ускорители Ascend активно используются местными компаниями и государственными структурами как минимум для инференса. Однако некоторые китайские эксперты утверждают, что китайская продукция всё ещё сильно отстаёт от решений NVIDIA. В частности, работа чипов нестабильна, они используют довольно медленный межчиповый интерконнект и сопровождаются некачественным базовым ПО CANN, а использовать Ascend для обучения моделей по-прежнему затруднительно. Программная платформа CUDA считается одним из ключевых факторов успеха NVIDIA. Huawei пытается создать альтернативу CUDA. Правда, пока на CANN жалуются даже некоторые сотрудники Huawei, в частности, на плохую документацию, что затрудняет поиск ошибок и проблем. Кроме того, некоторые пользователи сообщают о слишком частом выходе чипов из строя. Вместе с тем Huawei гораздо более тесно сотрудничает с клиентами, чем NVIDIA. Китайская компания готова на месте помогать клиентам с переносом решений с платформы CUDA на CANN, а команды специалистов Huawei уже прописались в Baidu, iFlytek и Tencent. По имеющимся данным, из 207 тыс. сотрудников китайской компании, более половины работают в сфере R&D, куда относятся и специалисты, направляемые для отладки технологий на территории клиентов. Другими словами, в отличие от NVIDIA у Huawei большая команда специалистов поддержки, готовых оперативно устранять возникающие у клиентов проблемы. Кроме того, у Huawei есть специальный портал для отзывов разработчиков, связанных с улучшением программной экосистемы. По данным источников издания, после того как США ужесточили санкции, Huawei подняла стоимость чипов Ascend 910B на 20–30 %. Кроме того, клиенты обеспокоены ограниченными объёмами поставок — имеющиеся в Китае мощности не могут работать в полную силу из-за санкций, мешающих покупать оборудование для выпуска чипов, например, у ASML. В то же время дела у Huawei идут хорошо — в компании отмечают сильный спрос на ИИ-чипы, а в I выручка выросла на 34 %. Правда, статистику представили без разбивки по направлениям бизнеса. Летом на конференции World Artificial Intelligence Conference представители Huawei объявили, что на чипах Ascend обучено и протестировано более 50 ИИ-моделей. Например, iFlytek заявила, что её модель обучена исключительно на ускорителях Huawei, хотя и не без помощи последней. Вместе с тем ещё в прошлом году китайские компании стали массово скупать урезанные версии ускорителей NVIDIA (A800 и H800), предназначенные для рынка КНР, в ожидании очередной волны санкций со стороны США. А Tencent даже похвасталась, что смогла накопить достаточно ускорителей для дальнейшего развития ИИ-проектов. При этом для NVIDIA рынок Китая по-прежнему крайне важен, поэтому она готова выпускать всё новые и новые варианты ускорителей специально для него.
31.08.2024 [00:39], Алексей Степин
Новые мейнфреймы IBM z получат ИИ-ускорители SpyreВместе с процессорами Telum II для систем z17 компания IBM представила и собственные ускорители Spyre, ещё больше расширяющие возможности будущих мейнфреймов в области обработки ИИ-нагрузок. Они станут дополнением к встроенным в Telum ИИ-блокам. Spyre представляет собой плату расширения с интерфейсом PCIe 5.0 x16 и теплопакетом 75 Вт. Помимо самого нейропроцессора IBM на ней установлено 128 Гбайт памяти LPDDR5, а производительность в ИИ-задачах оценивается производителем в более чем 300 Топс, т.е. новинки подходят для инференса крупных моделей. Сам чип приозводится с использованием 5-нм техпроцесса Samsung 5LPE и содержит 26 млрд транзисторов, а площадь его кристалла составляет 330 мм2. Spyre включает 32 ядра, каждое из которых дополнено 2 Мбайт быстрой скрэтч-памяти. Отдельно отмечено, что последняя не является кешем. При этом заявлена эффективность использования доступных вычислительных ресурсов — свыше 55 % на ядро. Каждое ядро содержит 78 матричных блоков и раздельные FP16-аккумуляторы, по восемь на «вход» и «выход». Интересно, что ядра Spyre и скрэтч-память используют отдельные кольцевые двунаправленные шины разной разрядности (32 и 128 бит соответственно), причём с оперативной памятью на скорости 200 Гбайт/с соединена именно вторая. Каждый узел (drawer) на базе Telum II способен вместить восемь плат Spyre, которые формируют логический кластер, располагающий 1 Тбайт памяти с совокупной ПСП 1,6 Тбайт/с, но, разумеется, каждая плата будет ограничена 128 Гбайт/с из-за интерфейса PCIe 5.0 x16. Spyre создан с упором на предиктивный и генеративный ИИ, благо в полной комплектации новые мейнфреймы могут нести 96 таких ускорителей и развивать до 30 ПОпс (Петаопс). Новинки рассчитаны на работу в средах zCX или Linux on Z, сопровождаются оптимизированным набором библиотек и совместимы с популярными фреймворками Pytoch, TensorFlow и ONNX. Они станут частью программных платформ IBM watsonx и Red Hat OpenShift. Новые мейнфреймы IBM z17 должны дебютировать на рынке в 2025 году. А в собственном облаке IBM будет также полагаться и на Intel Gaudi 3.
30.08.2024 [13:11], Руслан Авдеев
ИИ-ускорители Intel Gaudi 3 дебютируют в облаке IBM CloudКомпании Intel и IBM намерены активно сотрудничать в сфере облачных ИИ-решений. По данным HPC Wire, доступ к ускорителям Intel Gaudi 3 будет предоставляться в облаке IBM Cloud с начала 2025 года. Сотрудничество обеспечит и поддержку Gaudi 3 ИИ-платформой IBM Watsonx. IBM Cloud станет первым поставщиком облачных услуг, принявшим на вооружение Gaudi 3 как для гибридных, так и для локальных сред. Взаимодействие компаний позволит внедрять и масштабировать современные ИИ-решения, а комбинированное использование Gaudi 3 с процессорами Xeon Emerald Rapids откроет перед пользователями дополнительные возможности в облаках IBM. Gaudi 3 будут применяться и в задачах инференса на платформе Watsonx — клиенты смогут оптимизировать исполнение таких нагрузок с учётом соотношения цены и производительности. Для помощи клиентам в различных отраслях, в том числе тех, деятельность которых жёстко регулируется, компании предложат возможности IBM Cloud для гибкого масштабирования нагрузок, а интеграция Gaudi 3 в среду IBM Cloud Virtual Servers for VPC позволит компаниям, использующим аппаратную базу x86, быстрее и безопаснее использовать свои решения, чем до интеграции. Ранее сообщалось, что модель Gaudi 3 готова бросить вызов ускорителям NVIDIA. В своё время Intel выступила с заявлением о 50 % превосходстве новинки в инференс-сценариях над NVIDIA H100, а также о 40 % преимуществе в энергоэффективности при значительно меньшей стоимости. Позже Intel публично раскрыла стоимость новых ускорителей, нарушив негласные правила рынка. |
|