Материалы по тегу: ии
16.11.2024 [20:49], Сергей Карасёв
Сандийские национальные лаборатории запустили ИИ-систему Kingfisher на огромных чипах Cerebras WSE-3Сандийские национальные лаборатории (SNL) Министерства энергетики США (DOE) в рамках партнёрства с компанией Cerebras Systems объявили о запуске кластера Kingfisher, который будет использоваться в качестве испытательной платформы при разработке ИИ-технологий для обеспечения национальной безопасности. Основой Kingfisher служат узлы Cerebras CS-3, которые выполнены на фирменных ускорителях Wafer Scale Engine третьего поколения (WSE-3). Эти гигантские изделия содержат 4 трлн транзисторов, 900 тыс. ядер и 44 Гбайт памяти SRAM. Суммарная пропускная способность встроенной памяти достигает 21 Пбайт/с, внутреннего интерконнекта — 214 Пбит/с. На сегодняшний день платформа Kingfisher объединяет четыре узла Cerebras CS-3, а конечная конфигурация предусматривает использование восьми таких блоков. Узлы Cerebras CS-3 мощностью 23 кВт каждый содержат СЖО, подсистемы питания, сетевой интерконнект Ethernet и другие компоненты. Развёртывание кластера Cerebras CS-3 является частью программы Advanced Simulation and Computing (ASC), которая реализуется Национальным управлением по ядерной безопасности США (NNSA). Речь идёт, в частности, об инициативе ASC Artificial Intelligence for Nuclear Deterrence (AI4ND) — искусственный интеллект для ядерного сдерживания. Предполагается, что Kingfisher позволит разрабатывать крупномасштабные и надёжные модели ИИ с использованием защищённых внутренних ресурсов Tri-lab — группы, в которую входят Сандийские национальные лаборатории, Ливерморская национальная лаборатория имени Лоуренса (LLNL) и Лос-Аламосская национальная лаборатория (LANL) в составе (DOE).
15.11.2024 [19:50], Руслан Авдеев
ИИ-серверы NVIDIA помогут в управлении АЭС в КалифорнииКалифорнийский коммунальный оператор Pacific Gas and Electric Company (PG&E) намерен построить в Сан-Хосе кампус из трёх ЦОД с общей подведённой мощностью 200 МВт и внедрить ИИ-оборудование NVIDIA на площадке при АЭС Diablo Canyon, передаёт Datacenter Dynamics. В рамках совместного проекта PG&E Corporation с застройщиком Westbank в Сан-Хосе появятся три дата-центра и более 4 тыс. единиц жилья. Локальная энергосистема свяжет дата-центры и близлежащие районы, благодаря чему можно будет использовать тепло дата-центров для отопления и подачи горячей воды в соседние здания, что позволит добиться нулевых углеродных выбросов. Также PG&E объявила о NVIDIA развёртывании ИИ-оборудования NVIDIA и программных ИИ-решений Atomic Canyon на АЭС Diablo Canyon Power Plant. В NVIDIA уже заявили, что внедрение ИИ строго регулируемыми отраслями вроде атомной энергетики открывает новые возможности, а продукты Atomic Canyon будут способствовать росту операционной эффективности отрасли. В частности, речь идёт о решении Neutron Enterprise на базе семейства ИИ-моделей FERMI компании Atomic Canyon, которые разработаны совместно с учёными Министерства энергетики США. Решение предназначено для ядерных объектов и в основном применяется для работы с документацией. Предполагается, что это обеспечит значительную экономию средств и повысит эффективность и безопасность работы АЭС. ИИ-продукты Atomic Canyon позволят быстрее получать и обрабатывать данные. Как отмечает Reuters, решение о внедрении ИИ — не просто дань моде. Станцию уже планировали закрыть, но отложили этот процесс в 2022 году из-за необходимости достижения планируемых показателей «безуглеродности» в штате. В Diablo Canyon насчитывается 9 тыс. различных процедур и 9 млн. документов, многие на микрофильмах. Для того, чтобы PG&E могла сохранить федеральную лицензию на эксплуатацию в течение ещё 20 лет, необходимо сформировать планы управления АЭС с учётом её старения. Значительную часть информации предстоит получить из документов, подготовленных десятилетия назад. ИИ, обученный на таких документах, поможет найти в огромном массиве необходимые материалы, в том числе на микрофильмах, а в будущем сможет помочь в составлении расписаний обслуживания станции, принимающих в расчёт множество факторов. При этом весь ИИ-комплекс работает автономно и не имеет прямого выхода глобальную Сеть. АЭС Diablo Canyon Power Plant была запущена в 1985 году. Совокупная мощность двух реакторов Westinghouse составляет порядка 2,25 ГВт. Это единственная оставшаяся в Калифорнии действующая атомная электростанция и она обеспечивает подачу почти 9 % электроэнергии штата, а также 17 % энергии с нулевым углеродным выбросом.
15.11.2024 [10:31], Сергей Карасёв
Eviden представила интерконнект BullSequana eXascale третьего поколения для ИИ-системКомпания Eviden (дочерняя структура Atos) анонсировала BullSequana eXascale Interconnect (BXI v3) — интерконнект третьего поколения, специально разработанный для рабочих нагрузок ИИ и HPC. Технология станет доступа на рынке во II половине 2025 года. Отмечается, что существующие высокоскоростные сетевые решения недостаточно эффективны, поскольку не устраняют критическое узкое место, известное как «сетевая стена». По заявлениям Eviden, зачастую при крупномасштабном обучении ИИ компании наращивают количество ускорителей, однако на самом деле ограничивающим фактором является интерконнект. Хотя поставщики сетевых решений продолжают удваивать пропускную способность каждые несколько лет, этого недостаточно для решения проблемы. В результате, до 70 % времени GPU простаивают, ожидая получения данных из-за задержек, утверждает Eviden. Технология BXI v3 призвана устранить этот недостаток. Новый интерконнект использует стандарт Ethernet в качестве базового протокола связи. При этом реализованы функции, которые обычно характерны для масштабируемых сетей высокого класса, таких как Infiniband. Отмечается, что BXI v3 обеспечивает низкие задержки (менее 200 нс от порта к порту), высокую пропускную способность, упорядоченную (in order) доставку пакетов, расширенное управление перегрузками и масштабируемость. Технология BXI v3 ляжет в основу интеллектуального сетевого адаптера (Smart NIC) нового поколения, который поможет снизить влияние задержек сети на GPU и CPU. При использовании такого решения ускоритель ИИ выгружает данные на сетевой адаптер и сразу же переходит к другим задачам, что устраняет неэффективность, связанную с простоями. Подчёркивается, что протокол BXI v3 интегрируется непосредственно в Smart NIC, благодаря чему оборудование работает сразу после установки, а в приложения не требуется вносить какие-либо изменения. Кроме того, новая технология предоставляет ряд дополнительных функций, ориентированных на повышение производительности путём оптимизации системных операций и обработки данных. В частности, BXI v3 обеспечивает прозрачную трансляцию виртуальных адресов в физические, что позволяет приложениям напрямую отправлять запросы в SmartNIC с использованием виртуальных адресов без необходимости системных вызовов. Такой подход повышает эффективность, обеспечивая бесперебойное управление памятью при сохранении высокой производительности. Технология BXI v3 также позволяет регистрировать до 32 млн приёмных буферов, которые SmartNIC выбирает с помощью ключей сопоставления на основе атрибутов сообщения. Благодаря этому уменьшается нагрузка на CPU, что повышает общую эффективность системы. Кроме того, сетевой адаптер способен выполнять математические атомарные операции, что дополнительно высвобождает ресурсы CPU. Впрочем, деталей пока мало, зато говорится об участии в консорциуме Ultra Ethernet (UEC) и партнёрстве с AMD.
14.11.2024 [23:07], Владимир Мироненко
Google и NVIDIA показали первые результаты TPU v6 и B200 в ИИ-бенчмарке MLPerf TrainingУскорители Blackwell компании NVIDIA опередили в бенчмарках MLPerf Training 4.1 чипы H100 более чем в 2,2 раза, сообщил The Register. По словам NVIDIA, более высокая пропускная способность памяти в Blackwell также сыграла свою роль. Тесты были проведены с использование собственного суперкомпьютера NVIDIA Nyx на базе DGX B200. Новые ускорители имеют примерно в 2,27 раза более высокую пиковую производительность в вычисления FP8, FP16, BF16 и TF32, чем системы H100 последнего поколения. B200 показал в 2,2 раза более высокую производительность при тюнинге модели Llama 2 70B и в два раза большую производительность при предварительном обучении (Pre-training) модели GPT-3 175B. Для рекомендательных систем и генерации изображений прирост составил 64 % и 62 % соответственно. Компания также отметила преимущества используемой в B200 памяти HBM3e, благодаря которой бенчмарк GPT-3 успешно отработал всего на 64 ускорителях Blackwell без ущерба для производительности каждого GPU, тогда как для достижения такого же результата понадобилось бы 256 ускорителей H100. Впрочем, про Hopper компания тоже не забывает — в новом раунде компания смогла масштабировать тест GPT-3 175B до 11 616 ускорителей H100. Компания отметила, что платформа NVIDIA Blackwell обеспечивает значительный скачок производительности по сравнению с платформой Hopper, особенно при работе с LLM. В то же время чипы поколения Hopper по-прежнему остаются актуальными благодаря непрерывным оптимизациям ПО, порой кратно повышающим производительность в некоторых задач. Интрига в том, что в этот раз NVIDIA решила не показывать результаты GB200, хотя такие системы есть и у неё, и у партнёров. В свою очередь, Google представила первые результаты тестирования 6-го поколения TPU под названием Trillium, о доступности которого было объявлено в прошлом месяце, и второй раунд результатов ускорителей 5-го поколения TPU v5p. Ранее Google тестировала только TPU v5e. По сравнению с последним вариантом, Trillium обеспечивает прирост производительности в 3,8 раза в задаче обучения GPT-3, отмечает IEEE Spectrum. Если же сравнивать результаты с показателями NVIDIA, то всё выглядит не так оптимистично. Система из 6144 TPU v5p достигла контрольной точки обучения GPT-3 за 11,77 мин, отстав от системы с 11 616 H100, которая выполнила задачу примерно за 3,44 мин. При одинаковом же количестве ускорителей решения Google почти вдвое отстают от решений NVIDIA, а разница между v5p и v6e составляет менее 10 %. В тесте Stable Diffusion система из 1024 TPU v5p заняла второе место, завершив работу за 2,44 мин, тогда как система того же размера на основе NVIDIA H100 справилась с задачей за 1,37 мин. В остальных тестах на кластерах меньшего масштаба разрыв остаётся примерно полуторакратным. Впрочем, Google упирает на масштабируемость и лучшее соотношение цены и производительности в сравнении как с решениями конкурентов, так и с собственными ускорителями прошлых поколений. Также в новом раунде MLPerf появился единственный результат измерения энергопотребления во время проведения бенчмарка. Система из восьми серверов Dell XE9680, каждый из которых включал восемь ускорителей NVIDIA H100 и два процессора Intel Xeon Platinum 8480+ (Sapphire Rapids), в задаче тюнинга Llama2 70B потребила 16,38 мДж энергии, потратив на работу 5,05 мин. — средняя мощность составила 54,07 кВт.
14.11.2024 [18:28], Руслан Авдеев
АЭС от ВМС: OpenAI подготовила для правительства США детальные рекомендации по масштабному развитию ИИ-отраслиКомпания OpenAI приготовила пакет рекомендаций американским властям, в котором изложила меры, необходимые, как она считает, для развития ИИ-сектора. По данным CNBC, план ИИ-инфраструктуры США касается экономики ИИ, использования опыта ВМС США в сфере атомной энергетики, а также правительственных проектов, финансируемых частными инвесторами. Говорится и о необходимости создания североамериканского ИИ-альянса, к которому в перспективе могут присоединиться, например, страны Персидского залива. Критически важным считается принятия «Закона о национальных магистральных ЛЭП» (National Transmission Highway Act), который называется столь же амбициозным, как и «Закон о национальных межштатных и оборонных магистралях» (National Interstate and Defense Highways Act) 1956 года. В сентябре уже сообщалось, что топ-менеджеры OpenAI, включая гендиректора Сэма Альтмана (Sam Altman), провели ряд встреч с потенциальными инвесторами с целью заручиться поддержкой в создании многомиллиардной IT-инфраструктуры, необходимой для ускоренного развития ИИ. В документе OpenAI предсказывает ИИ блестящее будущее, называя искусственный интеллект «основополагающей» технологией, какой стало электричество, и обещающей такие же распределённый доступ и выгоды. Предполагается, что инвестиции в ИИ помогут создать десятки тысяч рабочих мест, приведут к росту ВВП, модернизации энергетической инфраструктуры, включая атомную энергетику и созданию новых заводов по выпуску чипов — а также миллиардным инвестициям из зарубежных фондов. OpenAI недвусмысленно выразила готовность сотрудничать с администрацией будущего президента США Дональда Трампа (Donald Trump). По имеющимся данным, Трамп намерен отменить указ действующего президента США Джо Байдена (Joe Biden), в котором упоминаются необходимость оценки безопасности технологий, защита прав сотрудников отрасли, защита принципов равенства, защита прав потребителей и др. Трамп заявлял, что указ препятствует инновациям в сфере ИИ. В презентации компании упоминается о необходимости создания экономических ИИ-зон совместно с властями штатов и федеральным правительством, что должно упростить выдачу разрешений на создание ИИ-инфраструктуры. Компания намерена строить новые солнечные и ветряные электростанции, а также добиться разрешения на эксплуатацию неиспользуемых реакторов. Предполагается, что штаты, предоставляющие поддержку ИИ-бизнесу, смогут требовать выделения части вычислительных мощностей государственным университетам для проведения собственных исследований. «Закон о национальных магистральных ЛЭП» должен расширить возможности электроснабжения, развить ВОЛС и обеспечить строительство газопроводов. В компании запрашивают новые полномочия для упрощения бюрократических процедур. Заявляется, что правительство может поощрять частные инвестиции в дорогостоящие проекты энергетической инфраструктуры и взять на себя ряд обязательств, в т.ч. по покупке энергии, чтобы снизить риски инвесторов. Также предлагается использовать опыт ВМС, уже эксплуатирующих около 100 малых модульных реакторов (SMR), питающих в основном подводные лодки — это поможет состязаться с Китаем, активно строящим новые АЭС. В США основными регионами для инвестиций в ИИ называются Средний Запад и Юго-Запад, пока они остаются «за бортом», несмотря на то что там есть земля и возможность строительства ветряных и солнечных электростанций и, возможно, ядерных объектов. Тем более, что в штатах вроде Канзаса или Айовы могут потребоваться собственные специализированные ИИ-модели для обработки сельскохозяйственных данных. По оценкам одного из представителей OpenAI, к 2030 году США понадобится 50 ГВт энергии для удовлетворения потребностей ИИ-отрасли и конкуренции с КНР, особенно с учётом того, что Китай за последние два года одобрил строительство 20 ядерных реакторов и ещё 11 на следующий год. Не так давно уже сообщалось об инициативе главы OpenAI Сэма Альтмана (Sam Altman), предлагавшего правительству США строительство сети 5-ГВт ЦОД. Позже данные получили подтверждение.
14.11.2024 [17:06], Руслан Авдеев
Европейские компании ищут низкоуглеродные альтернативы дизель-генераторам для ЦОДКонсорциум Net Zero Innovation Hub for Data Centers ) инициировал т. н. запрос информации (RFI). Как сообщает сайт NZIH, речь идёт о первом запросе такого рода в Европе, направленном на поиск инновационных решений, способных заменить дизельные резервные генераторы. RFI представляет собой официальный запрос, направляемый компаниям и организациям с целью сбора информации о передовых технологиях и подходах, имеющихся в их распоряжении, которые могут использоваться для решения конкретной проблемы, в данном случае — замены источников резервного питания на безуглеродные. В консорциум входят такие известные компании, как Danfoss, Data4, Google, Microsoft, Schneider Electric и Vertiv. В NZIH объявили, что ищут решения, которые можно масштабировать до гигаваттного уровня. Инициатива, как ожидается, должна ускорить внедрение решений для резервного питания с нулевым выбросом. В I квартале 2025 года будет проведена оценка жизнеспособности предложенных решений с технической, экономической, регуляторной и других точек зрения, а во II квартале 2025 года начнётся поиск источников финансирования, после чего, возможно, будут заключены соглашения о внедрении между владельцами инновационных технологий и участниками NIZH. Речь идёт о возможностях для широкого круга компаний, в том числе тех, чьи решения находятся на раннем этапе коммерциализации. Инициативу планируется реализовать в три этапа. Предполагается:
Как сообщается на сайте консорциума, внедрение передовых «чистых» технологий часто сталкиваются с препятствиями, во многом из-за новизны и высоких рисков на ранних стадиях. Выступая «агрегатором» спроса на такие технологии и создавая новые коммерческие структуры при поддержки крупнейших заказчиков, NIZH со своей инициативой пытается снизить риск для инновационных проектов, разработчиков, энергетических компаний, обеспечивая при этом возможность получения инвестиций. Инновационный аспект решений может быть представлен разработчиками — речь может идти о технологии, бизнес-модели или других аспектах или их комбинации. Первое предложение уже сделал один из ключевых участников консорциума — Microsoft продвигает водородную энергетику. Так, компания при поддержке ESB на время запитает свой дублинский ЦОД от водородных топливных ячеек GeoPura.
14.11.2024 [14:30], Руслан Авдеев
AMD сократит 4 % штата и сосредоточится на ИИ и серверном рынкеКомпания AMD подтвердила планы сокращения около 4 % штата по всему миру. The Register сообщает, что речь идёт об увольнении около 1 тыс. человек из приблизительно 26 тыс. Новость появилась после публикации воодушевляющего финансового отчёта AMD за III квартал — чистая прибыль составила $771 млн при выручке $6,8 млрд. Рост год к году составил 158 % и 18 % соответственно. Несмотря на это, сотрудников решено уволить, чтобы уделить больше внимания ИИ-продуктам и рынку серверных решений. Недавняя серия увольнений Intel была значительно масштабнее, поскольку работу потеряли около 15 тыс. человек в самых разных подразделения. Впрочем, у AMD не всё так замечательно, как могло бы быть. Выручка игрового подразделения год к году упала на 69 %. В самой компании объясняют это падением доходов от кастомных решений. Другими словами, упал спрос на чипсеты для PlayStation и Xbox. Это вполне ожидаемо — желающие купить консоли текущего поколения на базе аппаратных решений AMD в основном уже приобрели их и ждут нового поколения. Некоторые эксперты сравнивают подходы AMD и Intel с хирургической операцией и пропуском подразделений через измельчитель. В AMD подчёркивают, что новые меры — не показатель финансовой нестабильности компании. Речь идёт именно о смене фокуса на более маржинальные продукты в сферах ЦОД и ИИ. Ранее уже сообщалось, что Intel теряет позиции на рынке серверных чипов под натиском AMD, а уже в ноябре появилась информация, что компания отстала от AMD и NVIDIA по продажам ускорителей. Представитель AMD заявил The Register, что, корректируя распределение ресурсов в соответствии с ключевыми возможностями роста, приходится принимать ряд целевых мер, которые, к сожалению для руководства, ведут к сокращению сотрудников. В компании обещают отнестись к ним «с уважением» и помочь по мере возможностей. Какие именно подразделения подвергнутся сокращениям, AMD уточнять не стала, сообщив, что принимает «целевые меры», касающиеся разных функций в компании.
14.11.2024 [08:17], Владимир Мироненко
SoftBank построит в Японии первый в мире ИИ-суперкомпьютер на базе NVIDIA DGX B200NVIDIA объявила о серии совместных проектов с SoftBank, направленных на ускорение суверенных инициатив Японии в области ИИ, которые также обеспечат возможность получения дохода от ИИ для поставщиков телекоммуникационных услуг по всему миру. В выступлении на саммите NVIDIA AI Summit Japan генеральный директор NVIDIA Дженсен Хуанг (Jensen Huang) объявил, что SoftBank создаёт самый мощный в Японии ИИ-суперкомпьютер с использованием платформы NVIDIA DGX SuperPOD B200 и интерконнекта Quantum-2 InfiniBand. Эта система станет первой в мире, которая получит системы DGX B200. Она будет использоваться компанией для разработки генеративного ИИ и развития других бизнес-решений, а также для предоставления вычислительных услуг университетам, научно-исследовательским институтам и предприятиям в стране. Суперкомпьютер идеально подойдёт для разработки больших языковых моделей (LLM), говорится в пресс-релизе. Пока что на звание самого мощного ИИ-суперкомьютера Японии претендует система ABCI 3.0 на базе NVIDIA H200. Впрочем, Softbank не сидит сложа руки и планирует построить ещё один суперкомпьютер, на этот раз на базе суперускорителей GB200 NVL72. Они же будут использоваться в проекте Sharp, KDDI и Supermicro по созданию «крупнейшего в Азии» ИИ ЦОД. Также в ходе саммита было объявлено, что SoftBank, используя платформу ускоренных вычислений NVIDIA AI Aerial, успешно запустил первую в мире телекоммуникационную сеть, объединяющую возможности ИИ и 5G. В ходе испытаний, проведенных в префектуре Канагава, SoftBank продемонстрировала, что решение AI-RAN достигло производительности 5G операторского класса, используя ресурсы ускорителя для одновременной обработки сетевого трафика и инференса. Отмечается, что мобильные сети традиционно рассчитаны на обработку пиковых нагрузок и в среднем задействуют только треть аппаратных ресурсов, что позволяет монетизировать оставшиеся две трети путём предоставления ИИ-сервисов. NVIDIA и SoftBank также сообщили, что с помощью ПО NVIDIA AI Enterprise японская компания будет создавать локализованные безопасные ИИ-сервисы.
13.11.2024 [23:33], Руслан Авдеев
Дефицит энергии ограничит возможности 40 % ИИ ЦОД уже к 2027 годуИИ вообще и генеративный ИИ в частности привели к стремительному росту энергопотребления ЦОД — по прогнозам агентства Gartner, в следующие два года рост составит 160 %. В результате ожидается, что 40 % существующих ИИ ЦОД будут ограничены в энергоресурсах к 2027 году. Как утверждают в агентстве, взрывной рост новых ИИ ЦОД гиперскейл-уровня обеспечивает постоянный рост спроса на электроэнергию, который совсем скоро превысит возможности поставщиков электричества. Это грозит нехваткой энергии и перебоями в энергоснабжении, что ограничит рост новых ЦОД для систем генеративного ИИ и прочих целей с 2026 года. По оценкам Gartner, для обеспечения работы для ИИ серверов в 2027 году понадобится 500 ТВт∙ч, что в 2,6 раза больше, чем в 2023 году. Дефицит энергии может затянуться, поскольку на создание новой инфраструктуры для генерации, распределения и доставки энергии уйдут годы, а уже назревшие проблемы никуда не денутся. В скором будущем число новых ЦОД и развитие систем генеративного ИИ будет определяться доступностью энергии. В Gartner рекомендуют организациям и компаниям оценить влияние риск дефицита энергии на их продукты и сервисы. Стоит не только принимать в расчёт рост стоимости электричества при планировании новых продуктов и сервисов, но и искать новые решения, требующие меньше энергии. Неизбежно связанное с дефицитом повышение цен на электричество увеличит стоимость эксплуатации больших языковых моделей (LLM). Хотя ключевые пользователи электроэнергии заранее работают над заключением долгосрочных контрактов, зачастую по фиксированным ставкам, стоимость энергии для питания дата-центров в любом случае значительно вырастет. Это скажется на стоимости ИИ как продукта и бизнесе соответствующих сервис-провайдеров. Вероятно, цели по достижению экоустойчивости при этом пострадают. Ранее уже прогнозировалось, что операторы ЦОД не смогут добиться заявленных целей, теперь к сходным выводам приходят и в Gartner. В краткосрочной перспективе растущий спрос заставит поставщиков добывать энергию любыми доступными способами. В некоторых случаях это означает сохранение электростанций на ископаемом топливе, которые при других обстоятельствах закрылись бы в плановом порядке. В Gartner подчёркивают, что масштабирование ЦОД приведёт и к росту выбросов CO2 в краткосрочной перспективе. Дата-центрам требуется энергоснабжение в режиме 24/7, а такого не могут обеспечить классические ветряные и солнечные электростанции. Надёжно поставлять энергию в больших объёма могут только ГЭС, станции на ископаемом топливе и АЭС. В долгосрочной перспективе новые технологии энергохранилищ (вроде натрий-ионных аккумуляторов) или «чистая» энергия вроде малых модульных реакторов (SMR) позволит легче добиваться ESG-целей. В Gartner рекомендуют пересмотреть цели достижения экоустойчивости, связанные с выбросами углекислого газа с учётом будущих требований ЦОД и доступности источников энергии в ближайшие годы. При разработке ИИ-приложений стоит сконцентрировать усилия на использовании минимальных вычислительных мощностей и оценивать другие возможности вроде широкого применение периферийных вычислений и т.н. малых языковых моделей (SLM), имеющих узкую специализацию.
13.11.2024 [22:21], Руслан Авдеев
Поработайте за нас: AWS предоставит учёным кластеры из 40 тыс. ИИ-ускорителей TrainiumAWS намерена привлечь больше людей к разработке ИИ-приложений и фреймворков, использующих разработанные Amazon ускорители семейства Tranium. В рамках нового инициативы Build on Trainium с финансированием в объёме $110 млн академическим кругам будет предоставлен доступ к кластерам UltraClaster, включающим до 40 тыс. ускорителей, сообщает The Register. В рамках программы Build on Trainium предполагается обеспечить доступ к кластеру представителям университетов, которые заняты разработкой новых ИИ-алгоритмов, которые позволяет повысить эффективность использования ускорителей и улучшить масштабирование вычислений в больших распределённых системах. На каком поколении чипов, Trainium1 или Trainium2, будут построены кластеры, не уточняется. Как поясняют в самом блоге AWS, исследователи могут придумать новую архитектуру ИИ-моделей или новую технологию оптимизации производительности, но у них может не оказаться доступа к HPC-ресурсам для крупных экспериментов. Не менее важно, что плоды трудов, как ожидается, будут распространяться по модели open source, поэтому от этого выиграет вся экосистема машинного обучения. Впрочем, со стороны AWS альтруизма мало. Во-первых, $110 млн будут выданы выбранным проектам в виде облачных кредитов, такое происходит не впервые. Во-вторых, компания фактически пытается переложить часть своих задач на других людей. Кастомные чипы AWS, включая ИИ-ускорители для обучения и инференса, изначально разрабатывались для повышения эффективности выполнения внутренних задач компании. Однако низкоуровневые фреймворки и т.п. ПО не предназначены для того, чтобы с ними мог свободно работать широкий круг лиц как, например, происходит с NVIDIA CUDA. Иными словам, AWS для популяризации Trainium необходимо более простое в освоение ПО, а ещё лучше готовые решения прикладных задач. Неслучайно Intel и AMD склонны предлагать разработчикам готовые оптимизированные под их ускорители фреймворки вроде PyTorch и TensorFlow, а не пытаться заставить их заниматься достаточно низкоуровневым программированием. AWS занимается тем же самым, предлагая продукты вроде SageMaker. Во многом реализация проекта возможна благодаря новому интерфейсу Neuron Kernel Interface (NKI) для AWS Tranium и Inferentia, обеспечивающему прямой доступ к набору инструкций чипов и позволяющему исследователям строить оптимизированные вычислительные ядра для работы новых моделей, оптимизации производительности и инноваций в целом. Впрочем, учёным — в отличие от обычных разработчиков — часто интересно работать именно с низкоуровневыми системами. |
|