Материалы по тегу: сбой
31.08.2023 [12:37], Сергей Карасёв
Затраты Rackspace на устранение последствий кибератаки превысят $10 млнКомпания Rackspace Technology, провайдер облачных услуг, по сообщению ресурса Dark Reading, столкнулась со значительными затратами в связи со сбоем, который произошёл в конце 2022 года в результате атаки программы-вымогателя. Напомним, из-за хакерского вторжения компании Rackspace пришлось навсегда отключить свою службу Microsoft Exchange. Причиной масштабного сбоя послужил эксплойт для уязвимости «нулевого дня». С последствиями атаки Rackspace не могла справиться в течение нескольких недель. Впоследствии калифорнийская Cole & Van Note подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Для расследования инцидента компании пришлось привлечь сторонних специалистов. Как теперь стало известно, расходы Rackspace на устранение последствий кибератаки составят приблизительно $10,8 млн. Говорится, что деньги пойдут в основном на оплату работы экспертов в области информационной безопасности, занимающихся расследованием инцидента, юридические и другие профессиональные услуги, а также на «дополнительные кадровые ресурсы», которые были задействованы для оказания поддержки клиентам. Кроме того, компенсацию от Rackspace требуют недовольные пользователи, которые не могли получить доступ к сервисам провайдера облачных услуг. Rackspace ожидает, что значительная часть затрат будет возмещена компаниями по киберстрахованию.
21.06.2023 [15:09], Руслан Авдеев
Проблемы с поставками комплектующих привели к всплеску сбоев в работе ЦОД во всём миреХотя проблемы с поставками электронных компонентов в последнее время постепенно отходят на второй план, в некоторых секторах IT-индустрии они так и не решены до конца. Как сообщает Network World со ссылкой на ассоциацию профессионалов рынка ЦОД (AFCOM), 44 % опрошенных операторов дата-центров сталкиваются с перебоями или отключениями, вызванными дефицитом самых необходимых запасных частей и компонентов. Примечательно, что в 2021 году о подобных проблемах говорили только 25 % опрошенных, причём ситуация усугубляется стремлением многих операторов ЦОД расширять свой бизнес ускоренными темпами. Как сообщает AFCOM в докладе State of the Data Center 2023, 94 % опрошенных столкнулись с теми или иными проблемами при организации поставок для своих ЦОД, 59 % — с дефицитом основного оборудования вроде серверов и коммутаторов, 51 % — систем энергоснабжения, включая генераторы и ИБП, 34 % жалуются на нехватку систем безопасности, в том числе защищённых дверей и камер, а 35 % — на дефицит строительных материалов вроде бетона. Некоторые операторы сталкиваются с несколькими проблемами сразу. По мнению экспертов, в последнее время многие инвестиционные компании приобрели дата-центры и теперь пытаются нарастить их мощности настолько быстро, насколько возможно, что тоже усугубляет дефицит. Иногда доходит до того, что почти готовые ЦОД не могут ввести в эксплуатацию из-за одного компонента. Например, в некоторых случаях ИБП и генераторы доставляют 50 недель вместо привычных ранее 8-10, а на поставку чиллеров может уйти и 70 недель — почти полтора года. При этом сами операторы превращают ситуацию на рынке из плохой в катастрофическую, скупая комплектующие на всякий случай и скапливая запасы фактически ненужного оборудования на складах. Дефицит больше затронул гиперскейлеров и колокейшн-сервисы, чем корпоративных заказчиков с локальными ЦОД. Последние настроены эксплуатировать оборудование как можно дольше и чаще готовы неспешно ожидать поставок. Впрочем, действительно рекомендуется иметь некоторый запас необходимых запчастей на случай экстренных ситуаций. Эксперты рекомендуют искать поставщиков-партнёров, которые имеют чёткий план на случай перебоев с поставками по воздуху или железным дорогам. Не стоит отказываться и от рынка б/у оборудования — даже устаревшее на несколько поколений и несущее другие проблемы «железо» во многих случаях лучше, чем полное отсутствие оборудования. Этот рынок тем более стоит рассматривать потому, что гиперскейлеры довольно часто поставляют на него оборудование. Наконец, одним из важнейших советов является приобретение схожего оборудования у разных вендоров. Известно, что многие предпочитают приобретать железо одного производителя, но в ситуации, когда выбирать не из чего, особо разборчивым быть не приходится.
15.06.2023 [23:20], Руслан Авдеев
Арктический лёд порвал подводный кабель, вызвав проблем с интернет-доступом на АляскеНаселение Аляски пострадало от масштабных отключений широкополосного интернет-доступа. Как сообщает DataCenter Dynamics, и без того почти отрезанный от остального мира регион лишился стабильного доступа в Сеть из-за обрыва подводного оптоволоконного кабеля, предположительно пострадавшего от арктических льдов. Местным жителям пришлось временно переключиться на спутниковый интернет и радиодоступ. По данным местного провайдера Quintillion, обрыв произошёл примерно в 55 км от мыса Оликток из-за «движения льдов» — на ликвидацию последствий аварии может уйти несколько недель. Дрейфующие льдины занесло на мелководье, где они буквально вспахали дно, что разрушило местную экосистему и, похоже, кабельную инфраструктуру. Специальная команда экспертов занята диагностикой и решением проблемы. К месту обрыва направлено специализированное ремонтное судно. В Quintillion подчеркнули, что продолжают следить за местом обрыва, используя рефлектометр. Местные СМИ сообщают о проблемах с телефонной связью и платежами с помощью банковских карт. В Quintillion рассчитывают, что ВОЛС будет восстановлена настолько быстро, насколько это возможно, хотя о точных сроках говорить не приходится. Вряд ли связь будет налажена ранее, чем через 6–8 недель. Ранее сообщалось, что только за последние пять лет обрывы подводных ВОЛС случались порядка 20 раз, один из последних — в конце февраля вблизи Тайваня, когда кабели были перерезаны (предполагается, что случайно) китайскими рыболовными судами. Великобритания уже приобрела корабль для защиты подводных кабелей, причём в его функции входит не только контроль и ремонт коммуникаций, но и, вероятно, силовая защита в случае необходимости.
14.06.2023 [18:45], Руслан Авдеев
Облако AWS пережило кратковременный, но крупный сбой, затронувший тысячи клиентов и сервисы самой AmazonОблачный провайдер Amazon Web Services (AWS) допустил крупный сбой своих сервисов, результатом которого стали отказы в обслуживании многочисленных компаний 13 июня. Как сообщает Network World, в самой Amazon причиной сбоя, коснувшегося тысяч клиентов, называют неполадки в ключевом облачном регионе us-east-1 в Северной Вирджинии, в результате были затронуты как минимум 104 сервиса компании. По данным самой Amazon, проблемы сохранялись около четырёх часов и коснулись, в частности, AWS Management Console, Amazon SageMaker, AWS Glue, Amazon Connect, AWS Fargate и Amazon GuardDuty. Далее по цепочке пострадали зависимые сервисы, что привело к крупномасштабному сбою систем и самой AWS, и её клиентов. Основной причиной названа проблема с подсистемой, отвечающей за управление мощностями AWS Lambda. Как сообщает Reuters, этим и подобными решениями, согласно данным Datadog, пользуются более половины организаций, использующих облачные площадки. Как сообщили в AWS, клиенты пострадали как напрямую, например, из-за проблем с API Gateway, так и из-за сбоев в работе других сервисов AWS. В результате пострадали ресурсы и сервисы многих крупнейших компаний, включая The Verge, авиакомпанию Southwest Airlines и Транспортное управление Нью-Йорка. Некоторое время не работали даже сайт самой AWS, Amazon Music и Alexa. Примечательно, что в конце апреля начался второй раунд массовых увольнений в облачном подразделении компании, а в начале июня неожиданно ушёл в отставку глава отдела проектирования, строительства и эксплуатации дата-центров AWS. Сейчас, как утверждают в компании, работа всех сервисов AWS вернулась к норме, но на пике портал Downdetector регистрировал до 12 тыс. жалоб. В целом, проблема оказалась не такой острой, как, например, в 2017 году во время сбоя Amazon S3. Последний крупный сбой в облачной инфраструктуре Amazon произошёл в декабре 2021 года, когда из-за нарушения работы сервисов временно перестали работать стриминговые платформы Netflix и Disney+, а также другие крупные порталы, включая сам маркетплейс Amazon — и всё это незадолго до Рождества.
30.05.2023 [20:49], Владимир Мироненко
Rackspace ведёт работы по восстановлению систем после масштабного сбоя SANПровайдер облачных услуг Rackspace Technology столкнулся со сбоем на объектах в Европе и Азиатско-Тихоокеанском регионе. «Rackspace известно о проблемах с подключением в наших центрах обработки данных SYD2, LON5, LON3 и HKG5. Инженеры привлечены и работают над решением проблемы», — сообщила компания на странице состояния системы 29 мая в 22:24 CDT (6:24 мск). Как пишет The Register, поначалу компания свзязала проблемы с DWDM-подключением в Лондоне, поскольку находящийся там объект относится к транспортной сети Rackspace. На затем она заявила, что сбой был связан с IO-лимитами в многопользовательской среде SAN, которые были некорректно настроены. «Инженеры успешно выполнили сценарий для восстановления значений по умолчанию для IO-лимитов. Пока идёт проверка, несколько клиентов подтвердили, что среды снова подключены к сети», — сообщила компания 30-го мая в 4:37 CDT (29-го мая в 23:37 мск). На момент подготовки материала на странице мониторинга показывалось, что у четырёх объектов компании всё ещё наблюдались проблемы. «У некоторых клиентов в центрах обработки данных LON3 и LO5 в это время могут возникнуть проблемы с резервным копированием», — предупредила компания своих клиентов. В декабре 2022 года Rackspace столкнулась с крупной кибератакой, из-за которой пришлось отключить сервис Hosted Exchange. Компания заявила, что инцидент был вызван эксплойтом «нулевого дня» и что она не будет возобновлять работу сервиса.
02.03.2023 [00:18], Руслан Авдеев
Причиной сбоя Oracle NetSuite в США стал взрыв аккумуляторов в ЦОД CyxteraВзрыв и задымление в дата-центре компании Cyxtera в массачусетском кампусе, вероятно, были вызваны неизвестным сбоем электросистемы, результатом которого стал инцидент в аккумуляторном отсеке. Как сообщает DataCenter Dynamics, экспертам до сих пор не удалось установить точную причину инцидента, который привёл к отключению сервисов Oracle NetSuite в США. Хотя одной из строений на территории кампуса было повреждено, серьёзные жертвы и разрушения не зарегистрированы. Кампус BOS1 мощностью 16 МВт включает три здания в пригороде Бостона. Инцидент произошёл 14 февраля, но по данным местного пожарного ведомства, точная причина происшествия пока «не определена». Известно, что пожарная команда прибыла на место происшествия в 11:34 по местному времени, через шесть минут после сигнала тревоги, а уже к 14:30 «инцидент был в целом улажен». Пожарные эвакуировали сотрудников, обесточили помещение и занялись удалением из помещений угарного газа и цианида водорода. На момент прибытия экстренной службы электроснабжение и резервное питание всё ещё были активны, поэтому дополнительно пришлось обесточить всё здание. Выяснилось, что аварийный выключатель сработал на одной из трёх линий электроснабжения. Возможно, это привело к включению резервного источника и последующему взрыву с дуговым разрядом, в свою очередь, ставшими причиной задымления и повреждений. Взрыв разрушил один из аккумуляторных отсеков и повредил близлежащие. В это же время в том же помещении проводились работы на соседней энерголинии, но они, похоже, никак не связаны с происшествием. К счастью, электрики ушли на обед пораньше, не застав взрыв. Единственным пострадавшим оказался охранник, совершавший обход. Его доставили в больницу, в первую очередь, чтобы убедиться в отсутствии отравления продуктами горения. На данный момент считается, что источник возгорания не представляется возможным установить. Вероятнее всего, инцидент был вызван неустановленным «электрическим событием» на линии B, что привело к отключению аварийного выключателя. После того как автоматически заработал аварийный генератор, произошло замыкание с возгоранием. Пока расследование прекращено, но его могут возобновить, если появятся новые факты. В целом ситуация оказалась намного проще, чем, например, страсбургский пожар в марте 2021 года, в результате которого один ЦОД OVH Cloud сгорел полностью, а второй был серьёзно повреждён. Там возгорание тоже началось с энергоотсеков, но с гораздо более серьёзными последствиями. В прошлом году, как считается, Li-Ion батареи в южнокорейском ЦОД Kakao привели к пожару, повлекшему за собой самый масштабный во всём мире сбой дата-центра. Как отмечает Uptime Institute, число сбоев IT-систем с годами не уменьшается, а главной их причиной стали перебои с электропитанием, в том числе из-за участивших пожаров.
22.02.2023 [14:42], Сергей Карасёв
У Вьетнама и Тайваня появились проблемы с подводными интернет-кабелями — в деле нашли китайский следВ обрыве подводных интернет-кабелей, связывающих тайваньские острова, как сообщает Datacenter Dynamics, виноваты суда. Между тем в ремонте также нуждаются четыре из пяти подводных ВОЛС, обеспечивающих подключение к интернету Вьетнама. Говорится, что кабель Taiwan-Matsu No. 2, соединяющий главный остров Тайвань и острова Мацзу, был перерезан китайским рыболовным судном. Такую информацию распространила Национальная комиссия по коммуникациям страны (NCC). Вторая подводная линия, Taiwan-Matsu No. 3, была перебита неопознанным грузовым судном. Chunghwa Telecom, тайваньская телекоммуникационная компания, которая эксплуатирует один из кабелей, принесла извинения за обрыв и сообщила, что организовала ремонтные работы в максимально сжатые сроки. При этом пропускная способность линий была увеличена с 2,2 до 3,8 Гбит/с. Планируется также прокладка двух новых подводных кабелей, которые на этот раз будут заглублены на полтора метра, а не просто проложены по морскому дну. Учитывая постоянную и растущую напряжённость между Тайванем и Китаем, есть опасения, что ситуация с подводными кабелями только ухудшит отношения между сторонами. В этой связи Тайвань уже занялся вопросами обеспечения безопасности подводной кабельной инфраструктуры, соединяющей страну с интернетом. Что касается вьетнамских кабелей, то причина их повреждения пока не установлена. Из пяти линий только одна — SeaMeWe-3 (SMW3) — работает в полную силу. Ещё две, Asia-Africa Europe 1 (AAE-1) и Intra Asia (IA), испытывают проблемы. Две другие, Asia-America Gateway (AAG) и Asia Pacific Gateway (APG), полностью отключены. На этом фоне планируется прокладка двух–трёх новых кабелей в ближайшие пять лет. Нужно отметить, что за последние пять лет подводные ВОЛС разрывались более 20 раз. Для защиты подводных оптоволоконных и силовых кабелей Великобритания приобрела специальный корабль. Вопросами защиты подводных интернет-кабелей также занимается Норвегия.
30.01.2023 [23:44], Владимир Мироненко
Минус £1,4 млн, 100 приёмов врачей и один орган для трансплантации: NHS подсчитала потери двух лондонских больниц из-за сбоя ЦОДОтключение доступа к IT-сервисам в двух лондонских больницах в связи со сбоем в работе ЦОД из-за аномальной жары в июле прошлого года принесло Национальной службе здравоохранения Великобритании (NHS) убытки в размере £1,4 млн, сообщил ресурс DatacenterDynamics со ссылкой на отчёт ведомства. Два дата-центра, которые обеспечивали поддержку компьютерных систем больниц фонда Guy's and St Thomas' NHS Foundation Trust, столкнулись с проблемами в функционировании оборудования из-за рекордной температуры в более чем +40 °C. О сбоях в системах охлаждения ЦОД и массовых отключениях сервисов тогда сообщили Google и Oracle. А из-за перегрева оборудования в некоторых ЦОД поливали водой из шлангов внешние модули систем кондиционирования на крыше, чтобы хоть как-то их охладить. В результате сбоя врачи были вынуждены перейти на бумажные медицинские карты, а более 100 приёмов пришлось отложить или отменить. Также не удалось получить орган для трансплантации одному из пациентов больницы. В отчёте NHS сообщается, что возникшие проблемы вызвали «усталость, стресс, а также оказали негативное влияние на моральный дух» персонала. На полное восстановление сервисов потребовалось шесть недель. NHS отметила, что этого можно было бы избежать, если бы дата-центры были должным образом подготовлены к подобной ситуации. В частности, дефектный разъем шланга стал причиной задержки в запуске системы охлаждения одного из ЦОД, в то время как в другом были обнаружены проблемы с водоснабжением.
09.01.2023 [17:39], Сергей Карасёв
Промедление смерти равно: масштабный сбой Rackspace Hosted Exchange произошёл из-за задержки с установкой патчей, но возобновлять работу сервиса компания не намеренаКомпания Rackspace Technology, провайдер облачных услуг, раскрыла причины масштабного инцидента, из-за которого пришлось отключить службу Microsoft Exchange. Как сообщает ресурс Datacenter Dynamics, причиной сбоя послужил эксплойт для уязвимости «нулевого дня». Хакерская атака была организована в начале декабря 2022 года. Компания заявила, что причиной послужило проникновение в IT-инфраструктуру программы-вымогателя. Справиться с последствиями инцидента Rackspace не может несколько недель, а службу Microsoft Exchange пришлось отключить. Калифорнийская Cole & Van Note уже подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Как теперь стало известно, для проведения атаки злоумышленник использовал ранее неизвестный эксплойт для уязвимости, описанной в бюллетене Microsoft CVE-2022-41080. Изначально говорилось, что брешь позволяет злоумышленнику повысить привилегии в атакуемой системе. Но затем выяснилось, что дыра может использоваться для удалённого выполнения произвольного кода (CVE-2022-41082) через Outlook Web Access (OWA). Атака было проведена с использованием зловредов семейства PLAY (PlayCrypt). Аналогичные атаки проводятся с лета 2022 года, нацелены они на организации в Латинской Америке, Европе и Индии. Rackspace опровергла предположения о том, что первопричиной инцидента стал эксплойт ProxyNotShell. Сторонний эксперт сообщил Dark Reading, что Rackspace воздерживалась от применения патча для ProxyNotShell из-за опасений по поводу возможных «ошибок аутентификации», которые, предположительно, могли вывести из строя её службы Exchange. В результате, это промедление обернулось масштабным сбоем, хотя компания в итоге и реализовала рекомендованные Microsoft меры безопасности. Что касается сервисов Hosted Exchange, то возобновлять их работу Rackspace не планирует. Компания всё ещё работает над восстановлением пользовательских данных. Говорится, что из почти 30 тыс. пользователей Hosted Exchange злоумышленник получил доступ к PST-файлам 27 клиентов. Для более половины пострадавших данные восстановлены частично или полностью, но возможностью их загрузки мало кто воспользовался. «Это указывает нам на то, что многие из наших клиентов имеют локальные резервные копии или архивы, а поэтому не нуждаются в восстановленной информации», — подчёркивается в сообщении.
07.01.2023 [22:27], Владимир Мироненко
Смайлики и немного денег: Kakao предложила компенсацию пострадавшим от самого масштабного в мире сбоя ЦОДЮжнокорейская интернет-компания Kakao анонсировала план компенсации пользователям её мессенджера KakaoTalk, пострадавшим из-за пожара в ЦОД SK C&C в октябре прошлого года. План предусматривает раздачу трёх пакетов смайлов в качестве общей компенсации всем пользователям мессенджера KakaoTalk. Следует отметить, что из трёх «подаренных» наборов эмодзи лишь один предоставлен в полностью бесплатное пользование, а срок бесплатного пользования остальных истекает через 90 дней. Компания также предложила 3 млн ваучеров на бесплатный доступ в течение одного месяца к своей службе резервного копирования данных Talk Drawer Plus. После окончания бесплатного периода пользователи будут автоматически подписаны на платную версию службы. Кроме того, предпринимателям, сообщившим об убытках из-за сбоя в размере менее 300 тыс. вон ($240), будет выплачена компенсация ущерба в размере 30 тыс. вон ($24), а если заявленный убыток составил менее 500 тыс. вон ($399,2), выплата составит 50 тыс. вон ($39,92). Те, кто сообщил о потере доходов из-за сбоя выше 500 тыс. вон, могут получить дополнительную компенсацию после того, как будет проведена проверка их заявлений. Также компания предоставит два купона для платформы Kakao Makers. Пожар привёл к остановке 32 тыс. серверов, прекратили работу ключевые сервисы Kakao, в том числе KakaoTalk с аудиторией в среднем 45 млн человек (население всей страны — почти 52 млн человек), произошли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. На полное восстановление работоспособности всех сервисов потребовалось пять дней. На текущий момент данный инцидент является крупнейшим в мире ЦОД. Предложенные Kakao варианты компенсации были раскритикованы пользователями. |
|