Материалы по тегу: исследование
27.09.2024 [09:00], Владимир Мироненко
К триллиону за три года: Bain & Co прогнозирует рост ИИ-рынка почти до $1 трлн к 2027 годуГлобальный рынок продуктов, связанных с ИИ, включая услуги и оборудование, будет расти на 40–55 % в год с $185 млрд в прошлом году и достигнет $780–990 млрд в 2027 году, сообщается в пятом ежегодном «Глобальном технологическом отчёте» (Global Technology Report) консалтинговой фирмы Bain & Co, передаёт Bloomberg. Драйверами роста рынка в Bain назвали более крупные ИИ-системы и более крупные ЦОД для их обучения и эксплуатации. ИИ понадобится компаниям и правительствам для повышения эффективности работы. Спрос растёт столь быстро, что это ударит по цепочкам поставок компонентов, включая чипы, а на фоне геополитической напряжённости может спровоцировать дефицит полупроводников, персональных компьютеров и смартфонов, предупредили в Bain. По оценкам консалтинговой фирмы, спрос на проектирование интегральных схем и связанную с этим интеллектуальную собственность может вырасти на 30 % и более к 2026 году, что окажет давление на производителей. Стоимость крупных ЦОД может подскочить через пять лет с $1–$4 млрд в настоящее время до $10–$25 млрд, поскольку их мощность увеличится до 1+ ГВт с 50–200 МВт в настоящее время. «Ожидается, что эти изменения будут иметь огромные последствия для экосистем, которые поддерживают ЦОД, включая проектирование инфраструктуры, выработку электроэнергии и охлаждение», — говорится в заявлении консалтинговой компании. Компании перешли от этапа экспериментов к масштабированию генеративного ИИ, указано в отчёте Bain. Малые языковые модели (SLM), более «лёгкие» и эффективные в сравнении с LLM, могут быть более предпочтительны для предприятий и стран, что связано с меньшим объёмом затрат и опасениями по поводу конфиденциальности. Правительства ряда стран, включая Канаду, Францию, Индию, Японию и ОАЭ, тратят миллиарды долларов на субсидирование суверенного ИИ, инвестируя в национальную вычислительную инфраструктуру и ИИ-модели, созданные в пределах их границ и обученные на собственных данных. Но создание успешных суверенных экосистем ИИ будет трудоёмким и дорогим, считают в Bain.
20.09.2024 [09:19], Владимир Мироненко
В iKS-Consulting назвали основные тренды российского рынка ЦОДАналитическое агентство iKS-Consulting провело исследование с целью определить основные тренды российского рынка ЦОД, пишут «Ведомости». В исследовании приняли участие топ-менеджеры ИТ-отрасли — более 50 технических директоров, руководителей службы эксплуатации и проектировщиков дата-центров. Участникам опроса было предложено оценить по 10-балльной шкале по степени вероятности и силе влияния на CAPEX/OPEX ЦОД 19 трендов, которые в перспективе 2028 года или раньше могут оказать влияние на рынок и инженерную инфраструктуру дата-центров в РФ. По словам директора по развитию бизнеса iKS-Consulting Дмитрия Горкавенко, наиболее заметным трендом участники рынка считают увеличение срока эксплуатации инженерного оборудования ЦОД. Как правило, большую модернизацию ЦОД начинают через 10 лет службы, хотя батареи, например, меняют уже через пять лет. Теперь же срок службы оборудования может быть увеличен на 30 %. Это стало ответом на рост стоимости оборудования и проблемой с его доступностью из-за санкций и попыткой оптимизировать затраты. По словам Горкавенко, на этом фоне параллельно растёт стоимость ЦОД в пересчёте на 1 кВт потребления. Растёт и средняя плотность мощности дата-центров — проектировщики закладывают 10–12 кВт на стойку, хотя два-три года назад базовый диапазон составлял 5–7 кВт. ЦОД по-прежнему сконцентрированы в Москве и Московской области. Так, в 2023 году на столицу приходилось 76 % всего российского рынка, или 53,4 тыс. стойко-мест, на Санкт-Петербурге — 9,3 % от общего объёма рынка, или 7,3 тыс. стойко-мест. Доля остальных регионов составила 14,8 %, или 9,61 тыс. стойко-мест. Однако спрос на региональные дата-центры растёт. Их развитие поддерживают «РТК-ЦОД», «Атомдата» и KeyPoint. Кроме того, распределённые сети ЦОД постепенно формируются крупнейшими цифровыми платформами, такими как «Яндекс», VK, Rutube и операторам связи. Формирование таких сетей позволит не только быть ближе к данным, но и повысить отказоустойчивость. В 2024 году рост регионального рынка ЦОД может составить порядка 27,1 %, тогда как в 2023 году он был на уровне 8,5 %. По словам Горкавенко, относительно небольшие объекты на 800–1200 стоек будут появляться в городах с населением от 500 тыс. человек. На столичном и петербургском рынках ЦОД ожидается более сдержанный рост — около 17 % против 26,1 % в 2023 году. В Петербурге в 2023 году ввели в эксплуатацию на 3,5 % стоек больше год к году, а в этом году прогнозируется рост на уровне 5 %. Наконец, респонденты ожидают рост спроса со стороны государства на ЦОД со специфическими требованиями к их физической и виртуальной защищённости. Кроме того, возможно ужесточение требований к этим параметрам, в том числе на уровне законов. Отечественная классификация физической защищённости ЦОД сейчас применяется добровольно, но позже может быть прописана в нормативных документах, приводят «Ведомости» слова Горкавенко.
18.09.2024 [11:23], Владимир Мироненко
Генеративный ИИ «оживляет» мейнфреймыМейнфреймы по-прежнему сохраняют актуальность, несмотря бурное развитие ИИ-технологий и облачных сервисов, пишет The Register со ссылкой на новое исследование State of Mainframe Modernization компании Kyndryl. Согласно данным опроса 500 топ-менеджеров ИТ-индустрии, многие организации интегрируют свои мейнфреймы с публичными и частными облачными платформами и совершенствуют свои программы модернизации, перемещая некоторые рабочие нагрузки с мейнфрейма и обновляя другие на месте, чтобы продолжать пользоваться такими преимуществами мейнфреймов, как безопасность и надёжность. Kyndryl сообщила, что 86 % респондентов развёртывают или планируют развёртывать инструменты и приложения генеративного ИИ в своей среде мейнфреймов. Исходя из этого Kyndryl назвала 2024 год «годом внедрения ИИ на мейнфреймах». Сама IBM заявила, что генеративный ИИ стал движущей силой в её бизнесе мейнфреймов, проносящим больше выручки в последние кварталы. Большая часть участников опроса (80 %) всё ещё находится на стадии изучения возможностей генеративного ИИ, но вместе с тем 41 % респондентов надеется использовать его для ускорения операций и снижения их подверженности человеческим ошибкам. Между тем, 33 % респондентов нацелены на улучшение клиентского опыта, например, за счёт повышения персонализации, а также разблокировании критически важных данных и преобразование неструктурированных данных в полезную информацию, в то время как треть участников опроса планирует использовать генеративный ИИ для извлечения бизнес-информации из своих данных, управляемых мейнфреймами, чтобы помочь в разработке новых продуктов или услуг. Согласно Kyndryl, генеративный ИИ также может помочь в модернизации, «проливая свет на внутреннюю работу монолитных приложений», что, как утверждается, может компенсировать нехватку навыков работы с мейнфреймами у нынешних сотрудников. Вместе с тем меньшая часть респондентов, чьи компании применяют мейнфреймы, не планирует использовать генеративный ИИ в какой-либо форме, ссылаясь на проблемы безопасности и регулирования в качестве причины своего нежелания или говоря о наличии других приоритетов. Опрос показал, что компании, продолжающие эксплуатировать мейнфреймы, стремятся использовать их с максимальной эффективностью, но также и пользоваться гибкостью облачных сервисов. Хотя 96 % респондентов заявили, что перемещают некоторые рабочие нагрузки с мейнфреймов (около трети), 89 % согласились, что эти системы по-прежнему чрезвычайно или очень важны для их бизнес-операций. В отчёте Kyndryl выделено три основных варианта модернизации мейнфреймов, причём большинство организаций использует их сочетания. Один из них — миграция, перенос некоторых или всех приложений и данных в облако или на локальную альтернативу. Второй вариант — интеграция данных и приложений мейнфрейма с другими платформами, что позволяет, например, новым облачным приложениям получать к ним доступ. Как ожидается, эта модель будет использоваться чаще с продолжающейся эволюцией генеративного ИИ, сообщила Kyndryl. Третий вариант — модернизация рабочих нагрузок на мейнфрейме, определение того, какие приложения следует сохранить, заменить или удалить, что подразумевает модернизацию исходного кода приложений или использование более современных языков, а также использование новых технологий, таких как ИИ и контейнеризация. Это уже второе исследование State of Mainframe Modernization компании Kyndryl, и в этом году больше респондентов заявили, что они сосредоточены в первую очередь на модернизации или интеграции с облаком, в то время как меньшее количество выбрали в качестве первоочередной задачи перенос рабочих нагрузок с мейнфрейма. Около 53 % респондентов заявили о росте использования мейнфреймов в этом году, а 49 % сообщили, что ожидают дальнейшего роста использования в течение следующих 12 месяцев. По словам Kyndryl, окупаемость инвестиций в проекты модернизации мейнфреймов составляет от 114 до 225 %. Что также важно, 66 % респондентов заявили, что уровень безопасности, предлагаемый мэйнфреймами, является для них самым важным фактором, и почти половина опрошенных назвала обеспечение безопасности основной причиной инвестиций в модернизацию. Один из руководителей ИТ-отдела оптовой компании в США сообщил, что был принят гибридный облачный подход, поскольку он позволяет хранить конфиденциальные данные в защищённой среде мейнфрейма, используя облако для менее важных рабочих нагрузок. Также в исследовании сообщается о сохранении проблемы с нехваткой персонала с соответствующим опытом работы с мейнфреймами. 18 % респондентов из компаний, интегрирующих мейнфреймы с другими платформами, заявили, что недостаточный опыт был основным препятствием для успеха проекта, в то время как более четверти участников опроса выразили обеспокоенность тем, что их организациям не хватает необходимого уровня навыков для эффективной модернизации мейнфреймов. IBM пытается решить проблему с кадрами, представив в начале этого года пару инициатив по решению проблемы нехватки инженеров. Также отмечено, что что 43 % респондентов указали, что у них нет навыков использования возможностей ИИ и генеративного ИИ, что заставляет всё больше организаций обращаться к внешним поставщикам, таким как Kyndryl, для реализации своих проектов модернизации. Подводя итоги, Kyndryl сделала вывод о том, что мейнфрейм остаётся важнейшей ИТ-средой для многих предприятий и даже становится всё более актуальным благодаря своей безопасности, надёжности и производительности.
06.09.2024 [14:03], Руслан Авдеев
Выбросы ЦОД к 2030 году составят 2,5 млрд т углекислого газа. Это откроет рынок для экобезопасных решенийРост индустрии дата-центров ведёт к крайне негативным последствиям для экологии. Datacenter Dynamics со ссылкой на исследование Morgan Stanley сообщает, что к 2030 году выбросы составят эквивалент 2,5 млрд метрических тонн CO2. В докладе сообщается, что гиперскейлеры вроде Google, Microsoft, Meta✴ и AWS несут основную ответственность за увеличение количества дата-центров, расширяя свои ИИ-проекты и наращивая облачную инфраструктуру. При этом компании обещают снизить выбросы своих ЦОД к концу десятилетия. В докладе добавляется, что к 2030 году мировые выбросы парниковых газов ЦОД составят около 40 % от годовых выбросов США. Но есть и хорошие для новости. Выбросы в подобных объёмах, весьма вероятно, обеспечат импульс рынку решений для декарбонизации, а рост дата-центров приведёт к росту инвестиций в технологии «чистой» энергетики, энергоэффективное оборудование и «зелёные» строительные материалы. Многие гиперскейлеры регулярно пытаются снизить углеродные выбросы, в том числе методами вроде заключения соглашений о покупке «чистой» энергии и внедрения новых технологий. Microsoft считается одним из крупнейших корпоративных покупателей возобновляемой энергии в мире — ранее компания сообщала о 34 ГВт. Более того, в 2024 году она подписала крупнейшее разовое соглашение на поставку «зелёной» энергии — 10 ГВт за $10 млрд. Amazon также является одним из крупнейших покупателей «зелёной» энергии. Более того, в отличие от других гиперскейлеров она даже умудрилась снизить выбросы в 2023 году, хотя к методам учёта экологических показателей есть вопросы. Дополнительно Microsoft, Google, Meta✴ и AWS не так давно согласились участвовать в проектах Open Compute Foundation по тестированию «зелёного» бетона для строительства ЦОД. А Meta✴ запустила специальную метрику, позволяющую оценивать выбросы серверов в режиме реального времени, в том числе связанные не только с их эксплуатацией, но и производством. Это позволит получать более точные данные о влиянии инфраструктуры компании на окружающую среду.
13.07.2024 [22:42], Владимир Мироненко
BlackRock: ИИ — это новая промышленная революция, которая подстегнёт быстрое развитие ЦОДСогласно исследованию 2024 Midyear Global Outlook инвестиционной компании BlackRock, опубликованному на прошлой неделе, в ближайшие годы ЦОД будут играть ключевую роль в развитии искусственного интеллекта (ИИ). BlackRock утверждает, что мир переживает технологическую трансформацию, сопоставимую с промышленной революцией, и ожидает, что ЦОД укрепят свои позиции в качестве важнейшего компонента инфраструктуры. Причём на фоне растущего спроса на ИИ потребность в них в ближайшем будущем резко возрастёт. Вэй Ли (Wei Li), главный глобальный инвестиционный стратег BlackRock, сообщил, что рост рынка ЦОД ИИ может составить в ближайшие годы 60–80% в годовом исчислении. Жан Буавен (Jean Boivin), глава Инвестиционного института BlackRock, отметил, что эта оценка во многом основана на ожиданиях отраслевых аналитиков. Ли подчеркнул, что в исследовании показано, как гонка за расширением возможностей ИИ уже стимулирует крупные капитальные расходы. «ИИ и переход к низкоуглеродным технологиям могут стимулировать исторически крупные капитальные расходы — и в гораздо более короткий промежуток времени, чем предыдущие технологические революции», — говорится в исследовании. По оценкам BlackRock, капитальные затраты на ИИ уже сопоставимы с крупнейшими вложениями в истории в рамках крупных глобальных преобразований, включая промышленную революцию. BlackRock тоже стремится извлечь выгоду из бума ИИ, поэтому вкладывает средства в развёртывание ЦОД в Северной Вирджинии (США) и во Франкфурте (Германия). В комментарии Data Center Knowledge главный аналитик Omdia Алан Ховард (Alan Howard) отметил, что бум строительства ЦОД начался давно. «Пандемия стала важным катализатором роста спроса на цифровую инфраструктуру, а затем появился новый спрос на ИИ, который снова увеличил спрос на ЦОД», — пояснил он. Ховард также заявил, что во II половине 2024 года появится ещё больше новостей о новых проектах и инициативах на рынке ЦОД. «Инвестсообщество, особенно фонды прямых инвестиций в инфраструктуру, уже давно вкладывает значительные средства в ЦОД, но возможности ИИ вдохнут новую жизнь в отрасль, поскольку капитала для хорошо проверенных проектов ЦОД предостаточно», — сказал Ховард, добавив, что сдержать взрывной рост ИИ могут проблемы в цепочках поставок оборудования, а также высокие затраты и доступность ЦОД. «Эти факторы могут побудить многих потребителей перейти на ИИ-сервисы гиперскейлеров или других облачных провайдеров уровня Tier 2. Эта эволюция займёт пару лет, и главным вопросом станет то, как производители ИИ-серверов будут конкурировать с NVIDIA», — говорит аналитик.
08.07.2024 [13:16], Владимир Мироненко
Слишком много затрат и слишком мало пользы: аналитики Goldman Sachs не уверены в будущем ИИСогласно данным Goldman Sachs, технологические компании планируют потратить в ближайшие годы около $1 трлн на развёртывание ИИ-технологий, включая инвестиции в ЦОД, чипы, энергетику и другую связанную инфраструктуру. Однако значительные расходы на ИИ-технологии до сих пор не принесли ничего «помимо сообщений о повышении эффективности» среди разработчиков, считают аналитики. Чего не скажешь о NVIDIA, оказавшейся главным бенефициаром бума ИИ. Общение аналитиков Goldman Sachs с рядом экспертов показало, что мнения по поводу дальнейшего развития ИИ-рынка разделились. В частности, Дарон Аджемоглу (Daron Acemoglu), профессор Массачусетского технологического института (MIT) занял в значительной степени скептическую позицию по поводу результатов притока капитала. Он считает, что ИИ будет выполнять менее 5 % всех задач. По словам учёного, за этот период ИИ повысит эффективность существующих производственных процессов благодаря автоматизации определённых задач или повышению продуктивности работников, выполняющих эти задачи. Он добавил, что оценка эффективности ИИ в более короткой перспективе зависит от количества производственных процессов, на которые технология повлияет, и от того, насколько вырастет производительность или сократятся затраты за этот период времени. Аджемоглу не думает, что в ближайшем будущем ИИ сможет повлиять на «огромное» количество задач, отметив, что большинство действий, выполняемых людьми в настоящее время, таких как производство или добыча полезных ископаемых, «многогранны и требуют взаимодействия в реальном мире». Учёный ожидает, что в ближайшие годы ИИ окажет наибольшее влияние на «чисто умственные задачи», и и оно не будет «огромным». Согласно прогнозу Аджемоглу, ИИ позволит увеличить производительность труда в США всего на 0,5 % и поддержит общий экономический рост на 0,9 % в течение следующего десятилетия. Также Аджемоглу не считает, что планы технологических компаний по значительному увеличению объёма данных и вычислительной мощности, которые они подключают к моделям ИИ, приведут к более быстрому улучшению этих систем. «Включение вдвое большего объёма данных с Reddit в следующую версию GPT может улучшить способность предсказывать следующее слово во время неформального разговора, но это не обязательно повысит качество обслуживания клиентов — способность службы поддержки помочь устранить проблемы», — сказал он. Качество данных также имеет решающее значение, при этом не ясно, откуда именно можно будет получать высококачественную информацию и насколько велика будет её доступность, в том числе в финансовом отношении. Он также предупредил, что нынешняя архитектура ИИ «может иметь ограничения». В Goldman Sachs нет единого мнения относительно расходов на ИИ. Некоторые из аналитиков утверждают, что технология ещё не доказала способность решать сложные задачи, необходимые для оправдания повышенных расходов. Они также заявили, что не ожидают, что затраты на ИИ когда-либо снизятся до такой степени, что компании смогут экономически эффективно автоматизировать большую часть задач, подразумевая. Развитие ИИ, которое привела к росту индекса S&P 500 в этом году, «вряд ли сохранится». Вместе с тем ряд аналитиков Goldman Sachs с оптимизмом смотрит в будущее, прогнозируя, что ИИ позволит оптимизировать 25 % всех рабочих процессов. Они считают нынешний рост капитальных затрат «более многообещающим», чем предыдущие циклы расходов, поскольку «лидируют действующие игроки с низкой стоимостью капитала и массивными сетями дистрибуции и клиентской базой». Согласно прогнозу этих аналитиков, ИИ позволит повысить производительность труда в США на 9 %, а экономическая активность в стране совокупно вырастет на 6,1 % в течение следующего десятилетия. В целом в Goldman Sachs пришли к выводу, что «ИИ ещё есть место для развития, либо потому, что ИИ начинает выполнять свои обещания, либо потому, что (финансовые) пузыри лопаются очень долго». Иными словами, аналитики Goldman Sachs не исключают, что ИИ может в итоге оказаться финансовым пузырём. Ранее к похожим выводам пришли в венчурном фонде Sequoia Capital.
03.07.2024 [17:25], Владимир Мироненко
Gartner: изменения в лицензировании VMware запустили процессы девиртуализации и ревиртуализацииАналитическая фирма Gartner опубликовала отчёт 2024 Hype Cycle for Data Center Infrastructure Technologies, в котором отметила, что изменения в лицензировании Broadcom не только ведут к кратному увеличению стоимости услуг и пересмотру стратегий развития инфраструктур, но и запускают процесс девиртуализации, пишет The Register. «Поскольку проекты локальной виртуализации переходят от [корпоративного лицензионного соглашения] ELA и бессрочных лицензий к новым пакетам ПО, иному соотношению количества ядер к сокетам и моделям потребления, затраты и цены могут увеличиться в два или три раза», — полагает Gartner. Для ряда крупных рабочих нагрузок, которые «не получают такого же увеличения плотности и экономии средств, как консолидация небольших рабочих нагрузок», подорожание лицензий сводит на нет всю выгоду от виртуализации. Девиртуализация может стать выходом в данной ситуации, утверждает Gartner, вместе с тем предупреждая о стоимости и сложности приобретения и эксплуатации платформ bare metal, для которых труднее добиться той же устойчивости, что у виртуализированных сред. На данный момент Gartner считает девиртуализацию применимой лишь к 1 % компаний, но считает, что в течение 5–10 лет технологии станут более зрелыми. Переезд на другие гипервизоры — ревиртуализация — оценивается Gartner как технология, достигшая зрелости, поскольку она применима для 5–20 % организаций. В качестве драйвера здесь тоже названы изменения в лицензировании VMware. «Ревиртуализация, как правило, проводится для устранения технических недостатков или для устранения рисков, связанных с жизнеспособностью систем, а также коммерческих рисков», — указала Gartner в отчёте, добавив, что она может «увеличить общую стоимость владения, привнести незрелые административные и управленческие инструменты, создать дополнительную операционную нагрузку или проблемы с надёжностью». Однако аналитики Gartner считают, что риск может быть оправданным. В отчёте Gartner также перечислены другие технологии, которые оцениваются как «находящиеся на подъёме»:
Среди технологий, которые, по оценкам Gartner, достигли пика, указаны экономика замкнутого цикла в ИТ, ЦОД с нулевым уровнем потребления, модели оплаты на основе потребления ресурсов для локальных и гибридных инфраструктур, а также прямое жидкостное охлаждение (D2C). По мнению Gartner, периферийные вычисления не оправдали ожиданий. Также исследователи отметили сокращение автоматизации инфраструктуры и использования погружного охлаждения. Гибридные серверы также разочаровали покупателей, как и компонуемая инфраструктура. Среди растущих технологий аналитики выделили программно определяемую и т.н. неизменяемую (immutable) инфраструктуры.
26.06.2024 [08:32], Владимир Мироненко
Данные стали «валютой» для ИИ, но для их обработки нужно немало реальной валютыВ эпоху ИИ данные рассматриваются как «валюта». Поэтому спрос на инструменты для интеграции, хранения и обработки данных становится растущим приоритетом среди предприятий, пишет IEEE ComSoc. Ожидается, что к 2025 году объём генерируемых в мире данных достигнет 180 Збайт по сравнению со 120 Збайт в 2023 году. И всё это потребует немало оборудования. Согласно оценкам BofA Global Research, средний размер наборов данных, необходимых для обучения моделей ИИ, увеличился с 5,9 млн записей в 2010 году до 750 млрд в 2023 году. В опросе BofA 150 IT-профессионалов в качестве ключевых вариантов использования ИИ были указаны потоковая обработка данных (44 %) и машинное обучение (37 %). Кроме того, ИИ подталкивает к переносу данных в облака. По оценкам Gartner, к 2027 году 74 % платформ управления данными будет развёрнуто в облаках по сравнению с 60 % в 2023 году. Затраты на инфраструктурное ПО для работы с данными представляют собой главную статью расходов ИТ-отделов. По оценкам участников опроса, на такое ПО приходится 35 % от общих расходов на ИТ. При этом ожидается, что бюджеты вырастут на 9 % в течение следующих 12 месяцев. Публичные облака вошли в тройку лидеров среди поставщиков таких решений. Они же получают и немало выручки. Согласно подсчётам BofA, оборот индустрии инфраструктурного ПО (хранилища и озёра, работа с неструктурированными данными и т. д.) в настоящее время составляет около $96 млрд, и он может вырасти до $153 млрд в 2028 году. Что касается «железа», то BofA прогнозирует стремительное увеличение капитальных затрат у Amazon, Alphabet/Google и Meta/Facebook — в 2024 году они вырастут на 43 % в годовом исчислении до $145 млрд. Большая часть увеличения придётся на серверы и оборудование:
Также исследователи отметили, что Meta✴ лидирует по соотношению капвложений и выручки (% от выручки), и с 2022 года компания постоянно наращивает капитальные затраты на ИИ (собственный суперкомпьютер, LLM и т. д.). Расходы Meta✴ по объёму сравнимы с расходами более крупных гиперскейлеров. Одним из возможных результатов может быть появления нового облачного решения для рекламодателей.
22.06.2024 [14:34], Сергей Карасёв
Галлюцинации от радиации: аппаратные сбои могут провоцировать ошибки в работе ИИ-системКомпания Meta✴, по сообщению The Register, провела исследование, результаты которого говорят о том, что ошибки в работе ИИ-систем могут возникать из-за аппаратных сбоев, а не только по причине несовершенства алгоритмов. Это может приводить к неточным, странным или просто плохим ответам ИИ. Говорится, что аппаратные сбои способны провоцировать повреждение данных. Речь идёт, в частности, о так называемом «перевороте битов» (bit flip), когда значение ячейки памяти может произвольно меняться с логического «0» на логическую «1» или наоборот. Это приводит к появлению ложных значений, что может обернуться некорректной работой ИИ-приложений. Одной из причин ошибок является космическое излучение, причём с ростом плотности размещения ресурсов его влияние нарастает. Впрочем, в современных комплексных системах такие ошибки по разным причинам могут возникать на любом из этапов хранения, передачи и обработки информации. Такие необнаруженные аппаратные сбои, которые не могут быть выявлены и устранены «на лету», называют тихими повреждениями данных (Silent Data Corruption, SDC). Подобные ошибки могут провоцировать изменения ИИ-параметров, что, в конечном счёте, приводит к некорректному инференсу. Утверждается, что в среднем 4 из 1000 результатов инференса неточны именно из-за аппаратных проблем. «Растущая сложность и неоднородность платформ ИИ делает их всё более восприимчивыми к аппаратным сбоям», — говорится в исследовании Meta✴. При этом изменение одного бита может привести к тому, что ошибки будут расти как снежный ком. Для оценки возможных неисправностей предлагается ввести новую величину — «коэффициент уязвимости параметров» (Parameter Vulnerability Factor, PVF). PVF показывает вероятность того, как повреждение конкретного параметра в конечном итоге приведёт к некорректному ответу ИИ-модели Эта метрика, как предполагается, позволит стандартизировать количественную оценку уязвимости модели ИИ к возможным аппаратным сбоям. Показатель PVF может быть оптимизирован под различные модели и задачи. Метрику также предлагается использовать на этапе обучения ИИ и для выявления параметров, целостность которых надо отслеживать. Производители аппаратного оборудования также принимают меры к повышению надёжности и устойчивости работы своих решений. Так, NVIDIA отдельно подчеркнула важность RAS в ускорителях Blackwell. Правда, делается это в первую очередь для повышения стабильности сверхкрупных кластеров, простой которых из-за ошибок обойдётся очень дорого.
07.04.2024 [13:22], Руслан Авдеев
Проблемы с питанием чаще всего становятся причиной сбоев ЦОД, но избавиться от них не позволяет человеческий факторЧастота и серьёзность сбоев в ЦОД постепенно снижается относительно общей ёмкости объектов. Тем не менее, сообщает The Register, нарушения работы могут очень дорого обойтись операторам и их клиентам, а проблемы с электропитанием ведут к особенно серьёзным последствиям. Ёмкость дата-центров постоянно увеличивается, так что общее количество инцидентов тоже растёт, но по данным Uptime Institute, частота и тяжесть происшествий увеличивается относительно медленными темпами. И хотя их стало больше в абсолютном значении, темпы прироста заметно упали в последние годы. На то имеется ряд причин, включая тот факт, что многие организации стали интенсивно вкладываться в обеспечение надёжности работы оборудования. Среди других причин называются переход клиентов в облака и внедрение новых технологий для соответствия требованиям регуляторов. Однако Uptime Institute предупреждает, что данные о перебоях могут оказаться не вполне точными, потому что операторы зачастую не желают раскрывать информацию об инцидентах из-за возможного репутационного ущерба, так что сведения приходится собирать из открытых источников. В докладе Annual Outage Analysis 2024 констатируется, что 55 % опрошенных представителей операторов подтвердили, что в последние три года в их ЦОД были перебои. С другой стороны, годом ранее речь шла о 60 %, а в 2021 году — о 69 %. В то же время только 10 % сбоев за последний год оценили как «серьёзные» или «тяжёлые», тогда как двумя годами ранее таковых было на 14 п.п. больше. 54 % респондентов отметили, что самые значимые происшествия в их компаниях обошлись более чем $100 тыс., а 16 % — более $1 млн. Главной причиной называлась проблема с системой распределения энергии на местах, в докладе эта тема отмечается в 52 % инцидентов. Исследователи говорят, что переход на более «динамичные» электросети с возобновляемыми источниками энергии сделал сети питания менее надёжными. При этом в ряде случаев ИБП/генераторы не смогли корректно отреагировать на отказ сети. Например, ровно это вызвало перебои с сервисами Microsoft Azure в Европе в 2023 году. Вторая из ключевых причин сбоев — поломка или недостаточная производительность охлаждающего оборудования. Эксперты отметили, что количество проблем со сторонними сервисами выросло с 2020 года вдвое — на них приходится порядка 10 % сбоев в 2023 году. Это связано с ростром популярности облачных сервисов, в том числе SaaS, услуг хостинга и колокации. Во многих случаях играют роль человеческие ошибки — на них приходится от ⅔ до ⅘ всех инцидентов. Виной некорректное соблюдение процедур по обслуживанию оборудования или некорректность самих процедур. Например, в прошлом году на Нью-йоркской фондовой бирже (NYSE) сотрудник не смог корректно восстановить работу систем после сбоя во вспомогательном ЦОД, что привело к неверному ценообразованию на следующий день. Предполагается, что количество сбоев можно будет уменьшить благодаря более интенсивным тренировкам персонала и аудиту вероятных слабых мест. По данным Uptime Institute, каждый год случается 10–20 крупных отказов оборудования ЦОД в мире, что ведёт к серьёзным финансовым потерям и перебоям в обслуживании клиентов, а во многих случаях и к репутационным издержкам. В любом случае недавно в Uptime Institute сообщали, что в ближайшие годы затраты на строительство и обслуживание дата-центров будут только расти. |
|