Материалы по тегу: ff

24.07.2024 [01:11], Владимир Мироненко

Самый быстрый SSD для ИИ: Micron представила серию накопителей 9550 ёмкостью до 30,72 Тбайт

Компания Micron Technology объявила о доступности серии NVMe-накопители Micron 9550, которые позиционируются как самые быстрые в мире PCIe 5.0 SSD для ЦОД с лучшими в отрасли показателями энергоэффективности и производительности для ресурсоёмких рабочих нагрузок, таких как ИИ. Новинки используют 232-слойную флеш-память TLC NAND, предлагаются в форм-факторах U.2 (15 мм), E3.S (1T) и E1.S (15 мм), а их ёмкость составляет от 3,2 до 30,72 Тбайт.

Micron 9550 обеспечивает скорость последовательного чтения до 14,0 Гбайт/с и последовательной записи до 10,0 Гбайт/с, что превышает на 67 % показатели твердотельных накопителей аналогичного класса от конкурентов, говорит компания, подразумевая решения Kioxia и Samsung. Производительность накопителя на операциях случайного чтения и записи составляет 3,3 млн IOPS и 400 тыс. IOPS соответственно, что до 35 % и до 33 % выше, чем у предложений конкурентов.

 Источник изображения: Micron

Источник изображения: Micron

Накопители Micron 9550 поддерживают TCG Opal 2.01, SPDM 1.2, телеметрию по стандарту OCP 2.5, шифрование данных (SED), сквозную поддержку целостности данных, подписанное встроенное ПО, изолированный анклав Micron Secure Execution Environment, защиту от потери питания, а также соответствуют стандартам NVMe v2.0b и OCP 2.0 (r21). Доступны и варианты с сертификацией FIPS 140-3 Level 2 и TAA.

Компания предлагает две версии Micron 9550: 9550 PRO для интенсивного чтения с 1 DWPD (допустимое количество перезаписей всего объёма накопителя в день) в течение пятилетнего гарантийного периода и 9550 MAX для смешанных нагрузок с надёжностью 3 DWPD. E1.S-вариант есть только 9550 PRO. Доступная ёмкость 9550 PRO составляет 3,84/7,68/15,36/30,72 Тбайт. Версия накопителя 9550 MAX предлагает меньшую ёмкость — 3,2/6,4/12,8/25,6 Тбайт.

Как отметила Micron, ИИ-нагрузки требуют высокопроизводительных решений для хранения данных. Показатели последовательного и случайного чтения и записи SSD 9550 позволяет использовать его именно в таких в сценариях. Накопители поддерживают архитектуры Big Accelerator Memory (BaM) и GPU-Initiated Direct Storage (GIDS).

Например, большие языковые модели (LLM) требуют высокой скорости последовательного чтения, а графовые сети (GNN) требуют высокой производительности случайного чтения. Компания заявила, что Micron 9550 превосходит предложения конкурентов в работе с ИИ-нагрузками: время выполнения сокращается до 33 %, агрегация в BaM происходит до 60 % быстрее, обеспечивается до 34 % более высокая пропускная способность при использовании Magnum IO GPUDirect Storage (GDS).

Согласно пресс-релизу, Micron 9550 обеспечивает лучшую в отрасли энергоэффективность для поддержки различных рабочих ИИ-нагрузок, в том числе:

  • Обучение графовых сетей с помощью BaM: снижение среднего энергопотребления SSD до 43 % и снижение общего энергопотребления сервера до 29 %.
  • NVIDIA Magnum IO GPUDirect Storage: до 81 % меньше потребление энергии на каждый переданный 1 Тбайт.
  • MLPerf: до 35 % меньше потребление энергии накопителем и до 13 % меньше использование энергии системой.
  • Тюнинг Llama LLM с помощью Microsoft DeepSpeed: энергопотребление SSD до 21 % меньше.

Micron 9550 имеет вертикально интегрированную архитектуру с использованием технологий, разработанных Micron, обеспечивающую гибкий выбор конструкции и расширенные возможности безопасности, говорит компания. Кроме того, Micron сотрудничает с NVIDIA и разработчиками решений с открытым исходным кодом, чтобы гарантировать соответствие решений потребностям самых требовательных ИИ-нагрузок.

Постоянный URL: http://servernews.kz/1108395
26.06.2024 [08:32], Владимир Мироненко

Данные стали «валютой» для ИИ, но для их обработки нужно немало реальной валюты

В эпоху ИИ данные рассматриваются как «валюта». Поэтому спрос на инструменты для интеграции, хранения и обработки данных становится растущим приоритетом среди предприятий, пишет IEEE ComSoc. Ожидается, что к 2025 году объём генерируемых в мире данных достигнет 180 Збайт по сравнению со 120 Збайт в 2023 году. И всё это потребует немало оборудования.

Согласно оценкам BofA Global Research, средний размер наборов данных, необходимых для обучения моделей ИИ, увеличился с 5,9 млн записей в 2010 году до 750 млрд в 2023 году. В опросе BofA 150 IT-профессионалов в качестве ключевых вариантов использования ИИ были указаны потоковая обработка данных (44 %) и машинное обучение (37 %). Кроме того, ИИ подталкивает к переносу данных в облака. По оценкам Gartner, к 2027 году 74 % платформ управления данными будет развёрнуто в облаках по сравнению с 60 % в 2023 году.

Затраты на инфраструктурное ПО для работы с данными представляют собой главную статью расходов ИТ-отделов. По оценкам участников опроса, на такое ПО приходится 35 % от общих расходов на ИТ. При этом ожидается, что бюджеты вырастут на 9 % в течение следующих 12 месяцев. Публичные облака вошли в тройку лидеров среди поставщиков таких решений. Они же получают и немало выручки. Согласно подсчётам BofA, оборот индустрии инфраструктурного ПО (хранилища и озёра, работа с неструктурированными данными и т. д.) в настоящее время составляет около $96 млрд, и он может вырасти до $153 млрд в 2028 году.

 Источник изображения: BofA Global Research

Источник изображения: BofA Global Research

Что касается «железа», то BofA прогнозирует стремительное увеличение капитальных затрат у Amazon, Alphabet/Google и Meta/Facebook — в 2024 году они вырастут на 43 % в годовом исчислении до $145 млрд. Большая часть увеличения придётся на серверы и оборудование:

  • Капитальные затраты Alphabet на ИТ-активы увеличатся на $12 млрд в годовом исчислении до $28 млрд.
  • Мета, после резкого роста в 2023 году останавливаться не будет и снова увеличит расходы на серверы, сетевое и прочее оборудование на $7 млрд в годовом исчислении до $22 млрд.
  • Расходы на оборудование Amazon увеличатся на $8 млрд в годовом исчислении до $41 млрд (за счёт AWS, затраты ретейл-сегмента не поменяются).

Также исследователи отметили, что Meta лидирует по соотношению капвложений и выручки (% от выручки), и с 2022 года компания постоянно наращивает капитальные затраты на ИИ (собственный суперкомпьютер, LLM и т. д.). Расходы Meta по объёму сравнимы с расходами более крупных гиперскейлеров. Одним из возможных результатов может быть появления нового облачного решения для рекламодателей.

Постоянный URL: http://servernews.kz/1107039
22.06.2024 [14:34], Сергей Карасёв

Галлюцинации от радиации: аппаратные сбои могут провоцировать ошибки в работе ИИ-систем

Компания Meta, по сообщению The Register, провела исследование, результаты которого говорят о том, что ошибки в работе ИИ-систем могут возникать из-за аппаратных сбоев, а не только по причине несовершенства алгоритмов. Это может приводить к неточным, странным или просто плохим ответам ИИ.

Говорится, что аппаратные сбои способны провоцировать повреждение данных. Речь идёт, в частности, о так называемом «перевороте битов» (bit flip), когда значение ячейки памяти может произвольно меняться с логического «0» на логическую «1» или наоборот. Это приводит к появлению ложных значений, что может обернуться некорректной работой ИИ-приложений. Одной из причин ошибок является космическое излучение, причём с ростом плотности размещения ресурсов его влияние нарастает. Впрочем, в современных комплексных системах такие ошибки по разным причинам могут возникать на любом из этапов хранения, передачи и обработки информации.

 Ошибка в одном бите одного параметра существенно меняет ответ ИИ (Источник: ***)

Ошибка в одном бите одного параметра существенно меняет ответ ИИ (Источник: Meta)

Такие необнаруженные аппаратные сбои, которые не могут быть выявлены и устранены «на лету», называют тихими повреждениями данных (Silent Data Corruption, SDC). Подобные ошибки могут провоцировать изменения ИИ-параметров, что, в конечном счёте, приводит к некорректному инференсу. Утверждается, что в среднем 4 из 1000 результатов инференса неточны именно из-за аппаратных проблем. «Растущая сложность и неоднородность платформ ИИ делает их всё более восприимчивыми к аппаратным сбоям», — говорится в исследовании Meta. При этом изменение одного бита может привести к тому, что ошибки будут расти как снежный ком.

Для оценки возможных неисправностей предлагается ввести новую величину — «коэффициент уязвимости параметров» (Parameter Vulnerability Factor, PVF). PVF показывает вероятность того, как повреждение конкретного параметра в конечном итоге приведёт к некорректному ответу ИИ-модели Эта метрика, как предполагается, позволит стандартизировать количественную оценку уязвимости модели ИИ к возможным аппаратным сбоям. Показатель PVF может быть оптимизирован под различные модели и задачи. Метрику также предлагается использовать на этапе обучения ИИ и для выявления параметров, целостность которых надо отслеживать.

Производители аппаратного оборудования также принимают меры к повышению надёжности и устойчивости работы своих решений. Так, NVIDIA отдельно подчеркнула важность RAS в ускорителях Blackwell. Правда, делается это в первую очередь для повышения стабильности сверхкрупных кластеров, простой которых из-за ошибок обойдётся очень дорого.

Постоянный URL: http://servernews.kz/1106889
07.06.2024 [10:31], Сергей Карасёв

Western Digital представила SSD серии Ultrastar DC SN861 с интерфейсом PCIe 5.0 для ИИ-нагрузок

Компания Western Digital анонсировала SSD корпоративного класса семейства Ultrastar DC SN861, рассчитанные на поддержание ресурсоёмких нагрузок, связанных с большими языковыми моделями (LLM), инференсом, приложениями ИИ и пр. Изделия будут предлагаться в трёх вариантах исполнения — U.2, E1.S и E3.S.

Решения U.2 выполнены в SFF-формате толщиной 15 мм. Используется интерфейс PCIe 5.0 х4 (NVMe 2.0). В серии представлены модификации вместимостью 1,60, 1,92, 3,2, 3,84, 6,4 и 7,68 Тбайт. Заявлена поддержка TCG Opal 2.01. Средства Power Loss Protection отвечают за сохранность данных при внезапном отключении питания.

Скорость чтения информации у всех накопителей достигает 13 700 Мбайт/с, а скорость записи варьируется от 3600 до 7500 Мбайт/с. Показатель IOPS при чтении — от 2,1 млн до 3,3 млн, при записи — от 165 тыс. до 665 тыс. Изделия могут выдерживать до одной полной перезаписи в сутки (показатель DWPD), а версии на 3,2 и 6,4 Тбайт — до трёх.

 Источник изображения: Western Digital

Источник изображения: Western Digital

Решения стандарта E1.S, в свою очередь, имеют ёмкость 1,92, 3,84 и 7,68 Тбайт. Они выполнены в корпусе толщиной 15 мм. Применяется интерфейс PCIe 5.0 х4 (NVMe 1.4b). Скорость чтения варьируется от 12 100 до 13 700 Мбайт/с, скорость записи — от 3400 до 7000 Мбайт/с. Устройства обладают показателем IOPS от 1,55 млн до 3,2 млн при чтении и от 140 тыс. до 235 тыс. при записи. Величина DWPD равна 1.

Все накопители рассчитаны на эксплуатацию при температурах от 0 до +70 °C. Средняя наработка на отказ (MTTF) заявлена в 2,5 млн часов. Гарантия производителя — пять лет. Характеристики устройств формата E3.S пока не раскрываются.

Кроме того, Western Digital объявила о расширении семейства накопителей Ultrastar DC SN655. Теперь в него входят модели вместимостью до 64 Тбайт. Наконец, компания сообщила о начале пробных поставок HDD серии Ultrastar DC HC690 на основе технологии UltraSMR ёмкостью 32 Тбайт.

Постоянный URL: http://servernews.kz/1106098
19.05.2024 [18:07], Игорь Осколков

Phison представила новый бренд серверных SSD PASCARI и накопители X200 с PCIe 5.0

Phison представила собственный бренд SSD корпоративного класса PASCARI, который включает сразу несколько различных серий: X, AI, D, S и B. Новинки представлены в форм-факторах E1.S, E3.S, U.3/U.2, M.2 2280/22110 и SFF 2,5″ и наделены интерфейсами SATA-3 и PCIe 4.0/5.0.

Наиболее интересна серия AI (или aiDAPTIVCache), которая фактически является частью программно-аппаратного комплекса aiDAPTIV+. Пока упоминается только один M.2 SSD — AI100E. Это сверхбыстрые и сверхнадёжные 2-Тбайт NVMe-накопители на базе SLC NAND (вероятно, всё же eSLC) с DWPD, равным 100 на протяжении трёх или пяти лет (в материалах указаны разные сроки). Аналогичные накопители, хотя и в более крупном форм-факторе, предлагают Micron и Solidigm, а Kioxia в прошлом году анонсировала накопители на базе XL-Flash второго поколения с MLC NAND.

Во всех случаях, по сути, речь идёт об SCM (Storage Class Memory). Наиболее ярким представителем данной категории была почившая серия продуктов Intel Optane. Phison переняла общую идею перестройки иерархии памяти, где SCM является ещё одним слоем между DRAM и массивом SSD, приложив её к задачам обучения ИИ. AI100E являются кеширующими накопителями, расширяющими доступную память. Программная прослойка aiDAPTIVLink общается с ускорителями NVIDIA и SSD с одной стороны и с PyTorch (также есть упоминание TensorFlow) — с другой.

 Источник изображений: Phison

Источник изображений: Phison

aiDAPTIVLink позволяет автоматически и прозрачно переносить на SSD неиспользуемые в текущий момент части обучаемой LLM и по необходимости отправлять их сначала в системную RAM, а потом и в память ускорителя, что и позволяет обходиться меньшим числом ускорителей при тренировке действительно больших моделей. Естественно, никакого чуда здесь не происходит, поскольку время обучения от этого нисколько не сокращается, но с другой стороны, обучение становится в принципе возможным на системах с малым количеством ускорителей или просто с относительно слабыми GPU и относительно небольшим же объёмом системной RAM.

Среди уже поддерживаемых моделей упомянуты некоторые LLM семейств Llama, Mistral, ResNet и т.д. Для них, как заявляется, не нужны никакие модификации для работы с aiDAPTIV+. Также упомянута возможность горизонтального масштабирования при использовании данной технологии. Точные характеристики AI100E компания не приводит, но это и не так существенно, поскольку напрямую продавать эти накопители она не собирается. Вместо этого они будут предлагаться в составе готовых и полностью укомплектованных рабочих станций или серверов.

Семейство PASCARI X включает сразу четыре серии накопителей. Так, X200E (DWPD 3) и X200P (DWPD 1) — это двухпортовые накопители на базе TLC NAND с интерфейсом PCIe 5.0 x4, представленные в форм-факторах U.2 и E3.S. Пиковые скорости последовательного чтения и записи составляют 14,8 Гбайт/с и 8,35 Гбайт/с соответственно. На случайных операциях с 4K-блоками производительность чтения достигает 3 млн IOPS, а записи — 900 тыс. IOPS у X200E и 500 тыс. IOPS у X200P. Здесь и далее даны только крайние показатели в рамках серии, а не отдельного накопителя.

Ёмкость X200E составляет 1,6–12,8 Тбайт, но также готовится 25,6-Тбайт U.2-версия. У X200P диапазон ёмкостей простирается от 1,92 Тбайт до 15,36 Тбайт, но опять-таки будет 30,72-Тбайт вариант в U.2-исполнении. Отмечается поддержка MF-QoS (QoS для различных нагрузок), поддержка 64 пространств имён, MTBF на уровне 2,5 млн часов, сквозная защита целостности передаваемых данных, улучшенная защита от потери питания и т.д.

У X100E (DWPD 3) и X200P (DWPD 1) среди возможностей дополнительно упомянуты поддержка TCG Opal 2.0, NVMe-MI, шифрования AES-256, безопасной очистки и т.д. От X200 эти накопители отличаются в первую очередь интерфейсом PCIe 4.0 x4 (возможны два порта x2). Выпускаются они только в форм-факторе U.3/U.2. X100E предлагают ёмкость от 1,6 Тбайт до 25,6 Тбайт, а X100P — от 1,92 Тбайт до 30,72 Тбайт. Пиковые скорости последовательного чтения и записи в обоих случаях достигают 7 Гбайт/с. Произвольное чтение 4K-блоками — до 1,7 млн IOPS, а вот запись у X100E упирается в 480 тыс. IOPS, тогда как у X100P и вовсе не превышает 190 тыс. IOPS.

В семейство PASCARI D входит всего одна серия компактных накопителей D100P на базе TLC NAND с интерфейсом PCIe 4.0 x4 (один порт, NVMe 1.4), представленная в форм-факторах M.2 2280 (от 480 Гбайт до 1,92 Тбайт), M.2 22110 (от 480 Гбайт до 3,84 Тбайт) и E1.S (тоже от 480 Гбайт до 1,92 Тбайт). Производительность M.2-вариантов составляет до 6 Гбайт/с и 2 Гбайт/с на последовательных операциях чтения и записи, а на случайных — до 800 тыс. IOPS и 60 тыс. IOPS соответственно. E1.S-версия чуть быстрее в чтении — до 6,8 Гбайт/с. Надёжность — 1 DWPD. Среди особенностей вендор выделяет сквозную защиту целостности данных, LPDC-движок четвёртого поколения, поддержку NVMe-MI и т.п.

PASCARI B включает серию загрузочных накопителей B100P: M.2 2280 (будет и 22110), TLC NAND, PCIe 4.0 x4, 1 DWPD и те же функции, что у D100P. Доступны только накопители ёмкостью 480 Гбайт и 960 Гбайт. Скоростные характеристики относительно скромны. Последовательные чтение и запись не превышают 5 Гбайт/с и 700 Мбайт/с, а произвольные — 450 тыс. IOPS и 30 тыс. IOPS. Также к PASCARI B принадлежит серия BA50P: SATA-накопители в форм-факторах M.2 2280 и SFF 2,5″ на базе TLC NAND с DWPD 1 и ёмкостью 240/480/960 Гбайт. Скорости чтения/записи не превышают 530/500 Мбайт/с при последовательном доступе, и 90/20 тыс. IOPS при случайном доступе 4K-блоками.

Наконец, семейство PASCARI S представлено тремя сериями SFF-накопителей (2,5″) с TLC-памятью и интерфейсом SATA-3, отличающихся в первую очередь опять-таки показателем надёжности: SA50E (3 DWPD), SA50P (1 DWPD) и SA50E (>0,4 DWPD). SA50E имеют ёмкость от 480 Гбайт до 3,84 Тбайт, SA50P — от 480 Гбайт до 7,68 Тбайт, а SA50E — от 1,92 Тбайт до 15,36 Тбайт. Отличаются и максимальные скорости произвольного чтения/записи 4K-блоками: 98/60 тыс., 98/40 тыс. и 97/20 тыс. IOPS соответственно. А вот последовательные чтение и запись естественным образом ограничены самим интерфейсом, т.е. не превышают 530 Мбайт/с и 500 Мбайт/с соответственно. В описании упомянуты сквозная защита целостности данных, LPDC-движок и улучшенная защита от потери питания.

Для вообще всех накопителей заявленный диапазон рабочих температур простирается от 0 до 70 °C. А вот срок гарантии не указан, так что показатели DWPD теряют смысл. Кроме того, Phison практически для каждой серии говорит о возможности кастомизации. Например, для X100 предлагаются услуги IMAGIN+.

Постоянный URL: http://servernews.kz/1105036
26.04.2024 [11:47], Сергей Карасёв

Meta✴ увеличит инвестиции в развитие инфраструктуры ИИ и готовит крупнейшие капиталовложения в истории компании

Компания Meta, по сообщению ресурса Datacenter Dynamics, на фоне стремительного развития ИИ и больших языковых моделей (LLM) намерена увеличить инвестиции в дата-центры и серверное оборудование «на миллиарды долларов». Эти затраты, по заявлениям генерального директора Meta Марка Цукерберга, жизненно необходимы, чтобы стать «ведущей ИИ-компанией в мире».

По итогам I квартала текущего финансового года, который был завершён 31 марта, Meta получила выручку в размере $36,46 млрд. Это на 27 % больше результата годичной давности, когда была зафиксирована сумма в $28,65 млрд. Чистая прибыль при этом подскочила на 117 % — с $5,71 млрд до $12,37 млрд.

 Источник изображения: ***

Источник изображения: Meta

В финансовом отчёте говорится, что капитальные затраты по итогам квартала оказались на уровне $6,72 млрд, что несколько ниже по сравнению с прошлогодними $7,09 млрд. Тем не менее, Meta намерена нарастить общие капвложения: ожидается, что в 2024 году в целом они достигнут $35–$40 млрд, тогда как ещё в феврале называлась цифра в диапазоне $30–$37 млрд. Это будут крупнейшие капиталовложения в истории компании.

«Мы ожидаем, что капитальные затраты продолжат расти и в следующем году, поскольку мы активно инвестируем средства в исследования в области искусственного интеллекта», — отмечает финансовый директор Meta Сьюзен Ли (Susan Li). По словам Цукерберга, в ближайшие годы компания будет наращивать инвестиции в создание и внедрение передовых ИИ-моделей, а также запуск ведущих мировых сервисов на базе ИИ. При этом Meta намерена активно использовать собственные ИИ-ускорители Artemis в качестве альтернативы решениям NVIDIA и AMD.

Постоянный URL: http://servernews.kz/1103886
23.04.2024 [11:42], Сергей Карасёв

Бывший вице-президент Meta✴ по инфраструктуре присоединился к ЦОД-подразделению Microsoft

Джейсон Тейлор (Jason Taylor), бывший исполнительный директор Meta Platforms, по сообщению The Information, перешёл на работу в Microsoft, где занял пост старшего руководителя команды дата-центров. Его непосредственным начальником станет технический директор Microsoft Кевин Скотт (Kevin Scott).

Тейлор проработал в Meta почти 14 лет. Занимая должность вице-президента по инфраструктуре, он в числе прочего курировал расширение сети ЦОД и создание серверных чипов Meta. Тейлор ушёл из компании Марка Цукерберга (Mark Zuckerberg) в сентябре 2022 года. Согласно информации профилю LinkedIn, с тех пор он официально работал только в Intrepid Ventures.

 Источник изображения: LinkedIn / Datacenter Dynamics

Источник изображения: LinkedIn / Datacenter Dynamics

Отмечается, что в Microsoft Тейлор будет исполнять обязанности, аналогичные тем, что были возложены на него в Meta. В настоящее время Microsoft активно развивает направление дата-центров, что связано со стремительным внедрением технологий ИИ. В частности, совместно с OpenAI создаётся масштабный кампус ЦОД под названием Stargate стоимостью около $100 млрд. Мощность объектов в составе этого комплекса суммарно составит до 5 ГВт. Кроме того, Microsoft продолжает закупать ускорители на базе GPU для решения ИИ-задач: планируется, что количество таких изделий в составе вычислительной ИИ-инфраструктуры корпорации к концу 2024 года достигнет 1,8 млн штук.

Ожидается, что Тейлор примет участие в расширении сети дата-центров Microsoft, а также возьмёт на себя некоторые обязанности Брайана Гарри (Brian Harry), старшего руководителя команды ЦОД, который планирует уйти на пенсию. Сама корпорация назначение Тейлора никак не комментирует. Два месяца назад Microsoft также переманила к себе Ахмеда Шихаба (Ahmed Shihab), ответственного ранее за аппаратные решения облака AWS. На новом месте он займётся «созданием передовых сервисов хранения данных для платформы Azure».

Постоянный URL: http://servernews.kz/1103681
22.04.2024 [16:35], Руслан Авдеев

Meta✴ и Alphabet X разрабатывают системы прямого захвата углекислоты из воздуха с помощью тепла ЦОД

Компания Meta и Alphabet X работают над технологиями Direct Air Capture (DAC) для извлечения углекислого газа с последующей его утилизацией. По данным Datacenter Dynamics, для высвобождения углекислоты из сорбентов будет применяться тепло, выделяемое оборудованием дата-центров.

Meta ведёт соответствующие работы над DAC как минимум с 2021 года. Похоже, история началась с лабораторного прототипа технологии удаления углекислоты, интегрированной в системы охлаждения ЦОД. С тех пор проект претерпел некоторые изменения, но исследования по-прежнему продолжаются, как с жидкими сорбентами, так и с твёрдыми. Для регенерации поглощающих элементов действительно предполагается использовать «мусорное» тепло ЦОД.

 Источник изображения:  Ella Ivanescu/unsplash.com

Источник изображения: Ella Ivanescu/unsplash.com

После захвата CO2 из воздуха сорбент способен при нагревании высвобождать его для хранения где угодно, например, в подземных полостях. По последним данным, Meta работает над новой системой DAC, использующей для высвобождения углекислоты нагрев до невысокой температуры — это значительно снизит издержки.

О проекте Alphabet X Development известно мало. Компания в 2021 году подала патентную заявку, описывающую методы и системы для высвобождения из DAC-сорбентов CO2 с использованием тепла от производственных процессов. Сам был опубликован в 2023 году. Судя по описанию, «промышленное» тепло используется в комбинации с одним и более тепловым насосом для отделения CO2 от твёрдого или жидкого сорбента. Некоторые из участников проекта с тех пор перешли в Amazon. Похожую патентную заявку, посвящённую системе захвата углерода с помощью тепла дата-центров, подавала и Microsoft.

Тепло ЦОД пытаются использовать повсеместно — от подогрева ферм по выращиванию угрей до нагрева воды в плавательных бассейнах. Нет ничего удивительного, что со временем возникла идея использования его для захвата углерода. Одной из проблем была необходимость нагревать сорбенты до высоких температур, что само по себе приводит к углеродным выбросам. К счастью, в прошлом году компания Spiritus представила сорбент, который можно нагревать до температур ниже 100℃. Как заявляют в Meta, ключевыми покупателями нового материал являются именно ЦОД.

 Источник изображения: Spiritus

Источник изображения: Spiritus

По данным Spiritus, целесообразно устанавливать DAC в дата-центрах, способных отдавать 20–50 МВт избыточного тепла, а кампусы, способные генерировать 300 МВт тепла способны захватывать три мегатонны углекислоты ежегодно в сравнении с мегатонной, доступной более ранним DAC-технологиям, целесообразность которых тоже была под вопросом. Так, в рамках не связанного с ЦОД проекта Orchard One компания будет удалять из атмосферы по две мегатонны CO2 каждый год.

При этом в Spiritus отказались сообщать, участвует ли она в проектах Meta или X. Впрочем, будущее всех подобных проектов пока под вопросом, поскольку природные или искусственные полости для закачки туда углекислоты есть далеко не везде, а транспортировка CO2, возможно, не получит одобрения регуляторов. Другими словами, ЦОД с системами подобной очистки можно будет строить лишь в некоторых местах.

Alphabet и Meta входят в проект Frontier Climate, в рамках которого осуществляется покупка «углеродных кредитов» у компаний, использующих самые разные технологии захвата углекислоты из атмосферы, включая DAC. Frontier Climate является инвестором в другие проекты вроде Lithos, CarbonCapture Inc., Airhive, Inplanet, Living Carbon и Heirloom. Google, инвестировавшая $35 млн в проект по захвату углерода, заявила, что недавно покупала углеродные кредиты у Frontier, но деталей сделки не раскрыла.

Постоянный URL: http://servernews.kz/1103646
22.04.2024 [08:59], Владимир Мироненко

Цукерберг: ограниченные поставки электроэнергии — главная проблема при строительстве крупных ЦОД для ИИ

Гендиректор Meta Марк Цукерберг (Mark Zuckerberg) назвал главным препятствием в строительстве более крупных ЦОД для ИИ-нагрузок ограничения по поставкам электроэнергии, пишет ресурс DatacenterDynamics. Об этом глава компании сообщил в подкасте Dwarkesh, согласившись с мнением представителей отрасли.

Цукерберг отметил, что ПО регулируется лишь «отчасти», в то время как энергетическая отрасль является строго регулируемым сектором. И если вести речь о строительстве новых крупных электростанций или о значительном укрупнении существующих, а также о строительстве линий электропередачи, пересекающих государственные или частные земли, то этот процесс может затянуться на долгие годы. В частности, два года назад Meta была вынуждена отказаться от гигантского 1,38-ГВт кампуса ЦОД в Нидерландах, где назрел энергетический кризис.

 Источник изображения: Shane Rounce / Unsplash

Источник изображения: Shane Rounce / Unsplash

Возведение крупного объекта для ИИ-вычислений, а также его ввод в эксплуатацию Цукерберг назвал «очень долгосрочным проектом». Эти ограничения сдерживают развитие собственных дата-центров ЦОД Meta. В конце 2022 года компания отказалась от планов по строительству ряда ЦОД, объявив о намерении кардинально изменить подход к их созданию и сейчас разрабатывает ряд модернизированных объектов. «Полагаю, что мы бы создали более крупные кластеры, чем можем сейчас, если бы у нас была энергия для этого», — сообщил Цукерберг.

«Никто ещё не построил ЦОД мощностью 1 ГВт. Я думаю, что это произойдёт, но не в следующем году. Это лишь вопрос времени», — добавил он, отметив, что для питания такого кампуса может понадобиться уже АЭС. Напомним, что по данным ресурса The Information, Microsoft и OpenAI обсуждают проект строительства к 2030 году объектов для решения задач в области ИИ мощностью 5 ГВт.

Постоянный URL: http://servernews.kz/1103625
11.04.2024 [02:16], Владимир Мироненко

Второе поколение ИИ-ускорителей Meta✴ MTIA втрое быстрее первого

Компания Meta поделилась подробностями о следующем собственных ИИ-ускорителей Meta Training and Inference Accelerator. Новый чип отличается более высокой производительностью по сравнению со чипом MTIA v1, представленным в мае прошлого года, и будет играть решающую роль в обеспечении работы ИИ-моделей Meta.

Следующее поколение крупномасштабной инфраструктуры Meta рассчитано на поддержку новых продуктов и услуг в области генеративного ИИ, рекомендательных систем и передовых исследований в области ИИ. Создание нового чипа является частью инвестиций в инфраструктуру. В ближайшие годы, как ожидается, затраты в этом направлении будут расти, поскольку требования к вычислительным ресурсам для поддержки моделей будут расти вместе с усложнением последних.

 Источник изображений: ***

Источник изображений: Meta

Архитектура чипа ориентирована на обеспечение «правильного баланса вычислений, пропускной способности и объёма памяти» даже при относительно небольших размерах обрабатываемых последовательностей. MTIA v2 в сравнении с MTIA v1 в 3,5 раза быстрее в обычных вычислениях и в 7 раз — в разреженных. Новый чип изготавливается по 5-нм техпроцессу TSMC и имеет габариты 25,6 × 16,4 мм (упаковка 40 × 50 мм). Ускоритель работает на частоте 1,35 ГГц, а его TDP составляет 90 Вт, тогда как 7-нм MTIA v1 работал на частоте 800 МГц и имел TDP всего 25 Вт. Готовая стоечная система вмещает до 72 ускорителей и состоит из трёх шасси с 12 платами, на каждой из которых размещено по два ускорителя. Для дальнейшего масштабирования можно добавить RDMA-сеть.

Чип состоит из 64 вычислительных элементов (PE). У каждого PE есть небольшой блок локальной памяти объёмом 384 Кбайт с ПСП 1 Тбайт/с. На весь чип приходится 256 Мбайт SRAM (2,7 Тбайт/с), а внешняя память представлена 128 Гбайт LPDDR5 (204,8 Гбайт/с). Для подключения к хосту используется интерфейс PCIe 5.0 x8 (32 Гбайт/с). При работе с матрицами чип развивает 177 (FP16/BF16) и 354 (INT8) Тфлопс, в разреженных вычислениях — вдвое больше. SIMD-блоки выдают 2,76 Тфлопс для FP32 и 5,53 Тфлопс для INT8/FP16/BF16. В векторных расчётах значения те же, только для INT8 показатель составляет уже 11,06 Тфлопс.

MTIA v2 совместим с кодами, разработанными для MTIA v1. Стек MTIA ориентирован на PyTorch 2.0 и включает компилятор Triton-MTIA. Предварительные испытания MTIA v2 на четырёх ключевых ИИ-моделях компании показали, что он втрое быстрее MTIA v1 чип первого поколения. А на уровне платформы достигнуто шестикратное увеличение пропускной способности модели и рост производительности на Вт в 1,5 раза. Чипы MTIA уже развёрнуты в ЦОД компании. Правда, для обучения Meta их пока не использует.

Постоянный URL: http://servernews.kz/1103091

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus