Материалы по тегу: сбой
07.08.2024 [16:00], Руслан Авдеев
Главы Microsoft и CrowdStrike лично предложили Delta Air Lines помощь в восстановлении IT-систем после сбоя, но та даже не ответила и решила подать искКомпания Microsoft заявила, что её руководитель Сатья Наделла (Satya Nadella) напрямую связался с руководителем авиакомпании Delta Air Lines во время глобального сбоя Windows-систем, вызванного проблемным обновлением защитного ПО CrowdStrike. Но, как передаёт The Register, ответа на предложение помощи он так и не дождался. Сейчас юристы Microsoft защищаются от выдвигаемых авиакомпанией обвинений — та намерена взыскать $500 млн с Microsoft и CrowdStrike. В прошлом месяце CrowdStrike выпустила обновление, вызвавшее «синий экран смерти» на 8,5 млн системах под управлением Windows. Позже Microsoft обвинила Евросоюз, законодательно определивший обязанность разработчика предоставлять создателям сторонних программ низкоуровневый доступ к ядру ОС, что в значительной степени и привело к катастрофическим сбоям. Delta пришлось вручную восстанавливать работу 40 тыс. серверов, а из-за сбоя пришлось отменить 5000 рейсов. Пострадали и другие авиалинии, а также железные дороги, банки, медицинские организации — но у Delta на восстановление работоспособности систем ушло очень много времени. Сбой CrowdStrike вскрыл и другие проблемы Delta в IT-сфере. Так, информационные системы компании оказались недостаточно гибкими в критический момент. ![]() Источник изображения: Miguel Ángel Sanz/unsplash.com Юристы CrowdStrike также сообщили о «вводящем в заблуждение нарративе» о том, что CrowdStrike ответственна за IT-решения Delta и её реакцию на сбой, передаёт DataCenter Dynamics. Сообщается, что CrowdStrike предлагала техническую помощь Delta — глава компании Джордж Куртц (George Kurtz) лично обратился к гендиректору Delta, но, как и Сатья Наделла, ответа удостоен не был. Crowdstrike ожидает, что Delta объяснит публике, акционерам и, возможно, суду, почему CrowdStrike должна отвечать за действия и поведение Delta во время инцидента. Представитель Microsoft заявил, что комментарии Delta «неполные, ложные, вводящие в заблуждение и разрушительные для Microsoft и её репутации». Подчёркивается, что Delta не пользовалась облачными сервисами Microsoft, вместо этого заключив сделку с IBM в 2021 году и Amazon (AWS) в 2022-м. Другими словами, обязанности по восстановлению систем официально лежали на других облачных операторах. По предварительным оценкам Microsoft, Delta, в отличие от её конкурентов, не модернизировала свою IT-инфраструктуру. Компании предлагается раскрыть, как именно она пользовалась сервисами IBM и AWS. Министерство транспорта США начало собственное расследование сбоя Delta и других компаний.
07.08.2024 [00:53], Владимир Мироненко
В третий раз за три недели: в Microsoft Azure снова произошёл глобальный сбойУ Microsoft пятого августа произошёл новый сбой в работе облака Azure, затронувший несколько сервисов для клиентов в Северной и Латинской Америке, пишет ресурс BleepingComputer. По словам компании, проблемы начались около 18:22 UTC (21:22 мск) и повлияли на сервисы, использующие облачную CDN-службу Azure Front Door (AFD). Как сообщила Microsoft, инцидент был вызван «изменением конфигурации». «Мы откатили это изменение, и с 19:25 UTC (22:25 мск) в большинстве сервисов наблюдается восстановление», — рассказала компания. BleepingComputer отметил, что в Великобритании клиенты также сообщали об ошибках при подключении к сервисам Azure (включая Azure DevOps), а на странице состояния Azure DevOps было отмечено, что проблемы коснулись и пользователей из Бразилии. На сайт Downdetector пришли тысячи сообщений пользователей о проблемах с подключением к серверам и входом в систему, хотя на странице состояния работоспособности службы (Service Health Status) не было указано никаких проблем с Azure на протяжении всего сбоя. ![]() Источник изображения: techcommunity.microsoft.com На прошлой неделе Microsoft столкнулась с более продолжительным сбоем, который был вызван DDoS-атакой, нацеленной на несколько сайтов Azure Front Door и CDN. «Хотя первоначальным событием-триггером послужила DDoS-атака, которая активировала наши механизмы защиты от DDoS, первоначальное расследование показало, что ошибка в реализации нашей защиты усилила воздействие атаки, а не смягчила его», — заявила Microsoft.
30.07.2024 [21:48], Владимир Мироненко
В облаке Microsoft Azure снова произошёл глобальный сбой, затронувший Microsoft 365, Teams, OneDrive, Minecraft и Xbox Live [Обновлено]Microsoft столкнулась с новым глобальным сбоем облака Azure, затронувшим целый ряд служб — от почтового сервиса Outlook до популярной игры Minecraft. Также пользователи по всему миру сообщают о трудностях с подключением к облачной платформе Azure и проблемах в работе с Microsoft 365, Teams, OneDrive и Xbox Live. «В настоящее время мы изучаем проблемы с доступом и снижение производительности нескольких сервисов и функций Microsoft 365», — отреагировали на обращения пользователей в Microsoft. Согласно странице статуса Azure, сбой начался в 11:45 UTC (14:45 мск), когда у целого ряда клиентов возникли проблемы с подключением к службам Microsoft по всему миру, включая Америку, Азиатско-Тихоокеанский регион, Европу и Ближний Восток. Компания сообщила, что внесла изменения в конфигурацию сети, а также задействовала альтернативные маршруты. ![]() Источник изображения: Downdetector Доступность служб повысилась примерно с 14:10 UTC (17:10 мск), но полностью сбои пока не устранены. В частности, сейчас по всему миру всё ещё наблюдаются проблемы с сервисами CDN и Azure Front Door. Напомним, что совсем недавно в облаке Microsoft Azure произошёл масштабный сбой, совпавший во времени с глобальным сбоем из-за неудачного обновления защитного ПО компании CrowdStrike для ПК на Windows, обрушившего работу многих компаний и служб. UPD 31.07.2024: Microsoft объяснила восьмичасовой сбой своего облака масштабной DDoS-атакой. Точнее говоря, проблемой в механизме защиты Azure от таких атак, который вместо того, чтобы отразить DDoS, только ухудшил ситуацию с доступностью сервисов.
30.07.2024 [11:48], Руслан Авдеев
Во Франции за одну ночь были перерезаны множество интернет-кабелей, что привело к ухудшению связи в странеВ ночь с воскресенья на понедельник во Франции были перерезаны многочисленные интернет-кабели. По данным The Register, это привело к сбоям связи по всей стране. По словам местных правоохранителей, речь идёт об «ограниченных последствиях» для интернет-соединений, а также линий наземной и мобильной телефонной связи. Пострадали крупные французские телеком-операторы. По версии одного из них, такую атаку можно было совершить разве что «топором или дисковыми шлифмашинками» (вроде «болгарок»). По данным Bloomberg, кабельная инфраструктура нарушена как минимум в девяти департаментах (Ардеше, Оде, Буш-дю-Роне, Дроме, Эро, Марне, Маасе, Уазе, Воклюзе), как на севере, так и на юге страны вдоль средиземноморского побережья. Функциональность сетей уже восстанавливается, а трафик на время пустили по резервным каналам, что может привести к падению скорости связи у некоторых пользователей, в том числе облачных сервисов французских операторов вроде OVHCloud. Статистика компании Zone ADSL&Fibre свидетельствует, что проблемы начались около 02:00 по местному времени 29 июля. Сильнее всего пострадала сеть оператора Free, а у пользователей SFR и Bouygues проблем зарегистрировано меньше. Похоже, результаты диверсии не устранены полностью. Впрочем, сеть Orange, основного оператора Олимпийских игр, практически не пострадала. Вряд ли речь идёт о случайном совпадении по времени с ещё одним инцидентом в минувшую пятницу, когда французская национальная железнодорожная сеть SNCF пострадала от атак на кабели, передающие операторам поездов информацию, в том числе связанную с обеспечением безопасности движения. Впрочем, о прямой связи между атаками на железнодорожную инфраструктуру и ВОЛС власти не говорят, хотя обе они могли повлиять на проводящиеся сейчас Олимпийские игры в Париже.
28.07.2024 [12:40], Сергей Карасёв
Oracle разрабатывает ИИ для выявления сбоев в дата-центрахКорпорация Oracle, по сообщению ресурса Datacenter Dynamics, разрабатывает систему на основе машинного обучения для точного прогнозирования возможных источников сбоев в ЦОД. Патент на соответствующую технологию (№12,045,123 B2) выдан 23 июля 2024 года Управлением по патентам и товарным знакам США (USPTO). Отмечается, что дата-центры становятся всё более крупными и сложными. В них используется большое количество разнообразного оборудования, а поэтому эффективное определение источника неполадок затрудняется. Новая платформа Oracle позволит выявлять причины проблем практически в реальном времени благодаря применению алгоритмов ИИ. Система получает данные из различных источников, включая серверы и сетевое оборудование, а также системы питания и датчики окружающей среды. Собранные показания анализируются с применением машинного обучения. В случае существования вероятности сбоя генерируется предупреждение с подробным описанием предполагаемой проблемы. Таким образом, операторы ЦОД могут своевременно предпринять необходимые меры и избежать длительных простоев оборудования. В патенте приводится пример отключения энергоснабжения, вызванный выходом из строя источника питания стойки. В такой ситуации ИИ-модель может определить, что уровень мощности источника питания падает ниже порогового уровня и отправить предупреждение. Предлагаемый подход даёт возможность оперативно осуществлять замену вышедших или выходящих из строя компонентов и тем самым повышать эффективность восстановительных работ. Создателями платформы значатся Алекс Гамильтон (Alex Hamilton), директор по разработке ПО Oracle, Амар Монга (Amar Monga), старший менеджер по проектированию софта, и инженер-программист Бин Чен (Bin Chen). В конце прошлого года основатель и технический директор Oracle Ларри Эллисон (Larry Ellison) сообщил, что корпорация намерена развернуть 100 новых ЦОД. Не исключено, что в некоторых из них будет внедрена запатентованная система выявления сбоев для повышения надёжности и стабильности.
27.07.2024 [00:25], Руслан Авдеев
Дешёвые сканеры штрихкодов помогли в кратчайшие сроки восстановить пострадавшие от CrowdStrike компьютеры
bitlocker
crowdstrike
microsoft
software
windows 11
австралия
автоматизация
администрирование
информационная безопасность
операционная система
сбой
шифрование
Вскоре после недавнего массового сбоя ПК на Windows, произошедшего по вине компании CrowdStrike, в австралийском подразделении консалтингового бизнеса Grant Thornton нашли удобный способ быстро избавиться от «синих экранов смерти» (BSOD). The Register сообщает, что один из технических специалистов компании вовремя вспомнил о том, что самые простые сканеры штрихкодов воспринимаются ПК как клавиатуры. ![]() Источник изображения: Grant Thornton Это совершенно бесполезное на первый взгляд знание приобрело большое значение, когда в компании попытались найти решение проблемы, созданной CrowdStrike. В австралийском филиале Grant Thornton в цикл бесконечной перезагрузки отправились сотни ПК и не менее ста серверов. При этом все они были защищены с помощью BitLocker, поэтому в процессе восстановления требовался ввод 48-символьного ключа для расшифровки раздела. Если работу серверов удалось восстановить вручную, то для ПК пришлось придумать инструмент автоматизации. Открыто рассылать ключи для BitLocker было бы слишком рискованно, да и зачитывать их по телефону или диктовать лично весьма затруднительно. Поэтому в компании сконвертировали ключи в штрихкоды, которые можно мгновенно отсканировать с экрана ноутбука администратора. ![]() Источник изображения: PublicDomainPictures/unsplash.com В результате все ПК заработали уже к обеду, на починку каждого из них ушло 3–5 минут, тогда как в случае серверов на ручное восстановление уходило по 20 минут. В Grant Thornton сожалеют лишь о том, что не догадались сразу использовать QR-коды, тогда зашифровать в них можно было бы больше данных, полностью автоматизировав процесс восстановления. Впрочем, в компании и без того в восторге, что отделались малой кровью в сравнении с другими бизнесами. Масштабный сбой стал последствием выпуска некорректного обновления системы защиты CrowdStrike. В самой Microsoft первопричиной недавнего масштабного сбоя назвали вынужденное соглашение 2009 года с Евросоюзом, согласно которому разработчикам защитных программ обеспечили низкоуровневый доступ к операционным системам Windows. В CrowdStrike признали собственную вину и сослались на баг в программе тестирования собственных апдейтов. Редакция со своей стороны желает системным администраторам никогда не сталкиваться с такими проблемами.
24.07.2024 [21:41], Руслан Авдеев
CrowdStrike обвинила в недавнем глобальном сбое ПК на Windows баг в ПО для тестирования апдейтовКомпания CrowdStrike, ставшая виновницей глобальных сбоев в работе 8,5 млн ПК с Windows, обновила страницу с инструкцией по устранению проблемы. Компания поделилась своим видением причин инцидента, а пострадавшим партнёрам она предложила купоны Uber Eats на сумму $10. При этом общий ущерб от сбоя, согласно предварительным оценкам, составил $4,5 млрд. Согласно разъяснениям, защитное ПО Falcon Sensor выпускается с набором правил Sensor Content, определяющих его функциональность. ПО также получает обновления Rapid Response Content, позволяющие своевременно распознавать новейшие угрозы и оперативно реагировать на них. Sensor Content основан на структурном коде Template Types, предусматривающем использование специальных полей, в которые вносятся данные для создания правил выявления угроз. В Rapid Response Content отмечаются конкретные варианты Template Types — Template Instances, описывающие определённые типы угроз, на которые необходимо реагировать, и их специфические признаки. В феврале 2024 года компания представила очередной вариант шаблона обнаружения угроз — IPC Template Type, специально созданный для распознавания новых методик атак, использующих т.н. «именованные каналы» (Named Pipes) в ОС. Шаблон успешно прошёл тесты 5 марта, поэтому для его использования выпустили новый вариант Template Instance. С 8 по 24 апреля компания внедрила ещё три варианта Template Instance, без малейшего видимого ущерба миллионам компьютеров на Windows — хотя в апреле отмечались проблемы с ПО компании CrowdStrike для Linux. ![]() Источник изображения: Johnyvino/unsplash.com 19 июля разработчик представил ещё два варианта IPC Template Instance, один из которых включал «проблемные данные». Тем не менее, CrowdStrike запустила ПО в релиз из-за «бага в Content Validator». Хотя функции Content Validator разработчиком не раскрываются, по названию можно предположить, что данный инструмент занимается валидацией готовящегося к релизу ПО. Так или иначе, валидатор не справился с фильтрацией некачественного кода и не предотвратил выпуск 19 июля фактически вредоносного Template Instance. В CrowdStrike предположили, что успешная проверка IPC Template Type мартовского образца означает, что варианты IPC Template Instance для июльского релиза тоже в порядке. Как показало время, это было трагической ошибкой — программа пыталась читать данные из области памяти, доступа к которой у неё быть не должно. В результате ошибка чтения вызвала сбой, от которого пострадало 8,5 млн компьютеров. В дальнейшем компания обещает более строго тестировать обновления Rapid Response Content и обеспечить пользователям больше контроля над процессом развёртывания обновления. Кроме того, планируется подробное описание релизов, чтобы дать пользователям возможность самостоятельно оценить риск установки обновлений. Компания обещает опубликовать полный анализ основной причины сбоя, как только расследование будет закончено. Ранее Microsoft поспешила снять с себя ответственность за инцидент, переложив вину на CrowdStrike и Евросоюз. По данным IT-гиганта именно последний ещё в 2009 году вынудил Microsoft обеспечить сторонним разработчикам антивирусного ПО вроде CrowdStrike низкоуровневый доступ к ядру операционных систем Windows.
23.07.2024 [16:32], Руслан Авдеев
Microsoft обвинила регулятора ЕС в глобальном сбое Windows — компанию вынудили открыть ядро ОС 15 лет назад
crowdstrike
microsoft
software
windows
евросоюз
закон
информационная безопасность
конкуренция
операционная система
сбой
ядро
Пока ИТ-инфраструктура по всему миру восстанавливается после критического сбоя, бизнес, эксперты и политики уже ищут виноватых в произошедшем. По данным The Wall Street Journal, в Microsoft заявили, что инцидент может оказаться результатом вынужденного соглашения 2009 года между IT-гигантом и Евросоюзом. Эксперты уже задаются вопросом, почему CrowdStrike, занимающейся решениями для обеспечения кибербезопасности, обеспечили доступ к ядру Windows на столь низком уровне, где ошибка может оказаться очень масштабной и дорого обойтись огромному числу пользователей. Хотя Microsoft нельзя напрямую обвинить в появлении дефекта после обновления ПО компании CrowdStrike, ставшего причиной хаоса во всех сферах жизнедеятельности по всему миру, программная архитектура, позволяющая третьим сторонам глубоко интегрировать своё ПО в операционные системы Microsoft, вызывает немало вопросов и требует более пристального рассмотрения. Как сообщает WSJ, в Microsoft отметили, что соглашение 2009 года компании с Еврокомиссией и стало причиной того, что ядро Windows не защищено так, как, например, ядро macOS компании Apple, прямой доступ к которому для разработчиков закрыт с 2020 года. Соглашение о совместимости фактически стало результатом повышенного внимания европейских регуляторов к деятельности Microsoft. ![]() Источник изображения: Sunrise King/unsplash.com В соответствии с одним из его пунктов, Microsoft обязана своевременно и на постоянной основе обеспечивать информацию об API, используемых её защитным ПО в Windows — пользовательских и серверных версиях. Соответствующая документация должна быть доступна и сторонним разработчикам антивирусного ПО для создания собственных решений, что должно способствовать честной конкуренции. Однако вместо использования API без доступа к ядру CrowdStrike и ей подобные предпочли работать напрямую с ядром ОС для максимизации возможностей своего защитного ПО. Правда, при этом велика вероятность, что в случае сбоя последствия могут быть чрезвычайно серьёзными — что и произошло. Windows — не единственная операционная система, предлагающая доступ к ядру с возможностью вывести его из строя в случае некорректной работы. Тем не менее, повсеместное присутствие продуктов Microsoft приводит в случае сбоев в сторонних приложениях к массовым проблемам и большой огласке событий, даже если прямой вины компании в произошедшем нет.
21.07.2024 [00:48], Владимир Мироненко
Глобальный сбой из-за обновления CrowdStrike затронул 8,5 млн ПК на Windows: Microsoft выпустила инструмент для починки пострадавших системMicrosoft опубликовала обновлённую информацию, касающуюся масштабного сбоя Windows-систем из-за защитного ПО CrowdStrike Falcon, и сообщила о мерах, которые были приняты для устранения последствий. Ошибка произошла из-за некорректного апдейта сведений об атаках, который приводит к краху драйвера и BSOD. Microsoft подчеркнула, что не имеет отношения к этой ошибке, но постаралась помочь клиентам и заказчикам справиться с ней. Компанией была поставлена задача — предоставить клиентам техническое руководство и поддержку для безопасного возобновления работы вышедших из строя систем. Принятые меры включали:
Работа ведётся круглосуточно с постоянным предоставлением обновлений и поддержки, сообщила компания. Кроме того, CrowdStrike помогла Microsoft разработать масштабируемое решение, которое позволит пользователям Microsoft Azure ускорить исправление проблемы. Также Microsoft работала с AWS и GCP над созданием наиболее эффективных подходов к устранению сбоя. Как отметила Microsoft, обновления ПО могут иногда вызывать сбои, но такие серьёзные инциденты, как нынешний сбой из-за обновления CrowdStrike, случаются редко. По оценкам Microsoft, фатальное обновление CrowdStrike затронуло 8,5 млн Windows-устройств или менее 1 % всех компьютеров под управлением Windows. Хотя инцидент затронул небольшой процент компьютерных систем, его широкие экономические и социальные последствия отражают широту использования CrowdStrike предприятиями, которые предоставляют множество критически важных услуг, отметила Microsoft. Этот инцидент также демонстрирует взаимосвязанный характер обширной экосистемы компании — глобальных поставщиков облачных услуг, программных платформ, поставщиков средств безопасности и других поставщиков ПО, а также клиентов. «Это также напоминание о том, насколько важно для всех нас в технологической экосистеме уделять первоочередное внимание безопасному развёртыванию и аварийному восстановлению с использованием существующих механизмов», — подчеркнула Microsoft. Некоторые апдейты от самой Microsoft тоже неоднократно вызывали сбои Windows вплоть до BSOD, равно как и обновления других продуктов, работающих на уровне ядра ОС, включая практически все антивирусы. Весеннее обновление CrowdStrike Falcon в некоторых случаях также приводило к краху ядра Linux. Кроме того, в Сети напомнили, что основатель CrowdStrike был техническим директором McAfee и именно при нём обновление баз антивируса привело к массовому отказу Windows XP SP3 в апреле 2010 года. Инцидент существенно повлиял на финансовое здоровье компании и, как предполагается, именно из-за него McAfee продала свой бизнес Intel. Обновление: Microsoft выпустила решение Microsoft Recovery Tool для создания загрузочного USB-накопителя, который поможет ИТ-администраторам ускорить процесс восстановления пострадавших ОС Windows.
19.07.2024 [13:20], Руслан Авдеев
Беда не приходит одна: многочасовой сбой Microsoft Azure совпал с неудачным обновлением CrowdStrike, приводящему к BSODМасштабный сбой в облаке Microsoft Azure, наложившийся на неудачное обновление защитного ПО компании CrowdStrike для ПК на Windows привели к нарушениям работы критически важной инфраструктуры по всему миру. По данным Datacenter Dynamics, в результате пришлось прекратить полёты некоторым авиалиниям, остановить работу банков, больниц, магазинов и других критически важных организаций и сервисов. В Сети в шутку предложили назначить 19 июля Международным днём Синего экрана смерти Windows. Эксперты уже назвали данное событие крупнейшим IT-сбоем за всю историю. В Microsoft объявили, что облачный регион Central US спустя пять часов после сбоя вернулся к работе, хотя клиентам облака на восстановление работоспособности может понадобиться больше времени. Компания CrowdStrike, занимающаяся обеспечением кибербезопасности, также подтвердила, что выпущенное её обновление вызывало появление «экранов смерти» на компьютерах или бесконечной перезагрузке, а совпадение по времени двух не связанных с собой сбоев привело к тому, что клиентам теперь трудно определить, какая именно из причин вызвала неполадки в их инфраструктуре. Возможно, в некоторых случаях оказали влияние оба фактора. Сбои привели к тому, что авиакомпании приостановили полёты, частично прекратили функционировать аэропорты, железные дороги, банковские приложения и даже сервис Xbox Live прекратил работу на несколько часов. Пострадали и некоторые телеком-операторы и СМИ. Проблемы коснулись жителей США, Великобритании и Австралии, а также других стран, от Европы до Индии и Японии. CrowdStrike «откатила» дефектное обновление ПО Falcon Sensor, включавшее некорректный драйвер. В качестве временной меры предлагается удалить файлы вида C-00000291*.sys в директории C:WindowsSystem32driversCrowdStrike, загрузив Windows в безопасном режиме или режиме восстановления. Для облачных инстансов предлагается сделать то же самое, отмонтировав тома и сняв резервную копию. При наличии BitLocker понадобится ключ для дешифровки данных. Причём это не первая массовая проблема с ПО компании за последний месяц — более ранний апдейт приводил к 100 % загрузке одного из ядер CPU. Акции компании в преддверии сегодняшних торгов в США уже упали на 19 %. Аналитики полагают, что CrowdStrike в её нынешнем виде, возможно, перестанет существовать. По некоторым оценкам, поражено до 15 % корпоративных Windows-систем. Ситуация осложняется тем, что при отсутствии OOB придётся вручную исправлять проблему на каждом ПК. По неподтверждённым данным, в некоторых случаях помогает многократная последовательная перезагрузка ПК (до 15 раз подряд). Microsoft в свою очередь пояснила, что автоматизированный процесс управления внёс изменения в конфигурацию серверов, в результате чего была заблокирована связь между некоторыми хранилищами данных и вычислительными ресурсами в регионе US Central. Это привело к тому, что инстансы потеряли связь с виртуальными дисками, уходя в циклическую перезагрузку. Большинство сервисов сейчас восстановлено, но некоторые ещё испытывают «остаточное воздействие», клиенты получат поддержку на профильном портале Azure. В частности, проблемы всё ещё могут быть у пользователей и администраторов Microsoft 365. |
|