Материалы по тегу: сбой

30.05.2023 [20:49], Владимир Мироненко

Rackspace ведёт работы по восстановлению систем после масштабного сбоя SAN

Провайдер облачных услуг Rackspace Technology столкнулся со сбоем на объектах в Европе и Азиатско-Тихоокеанском регионе. «Rackspace известно о проблемах с подключением в наших центрах обработки данных SYD2, LON5, LON3 и HKG5. Инженеры привлечены и работают над решением проблемы»,сообщила компания на странице состояния системы 29 мая в 22:24 CDT (6:24 мск).

Как пишет The Register, поначалу компания свзязала проблемы с DWDM-подключением в Лондоне, поскольку находящийся там объект относится к транспортной сети Rackspace. На затем она заявила, что сбой был связан с IO-лимитами в многопользовательской среде SAN, которые были некорректно настроены.

 Источник изображения: Rackspace Technology

Источник изображения: Rackspace Technology

«Инженеры успешно выполнили сценарий для восстановления значений по умолчанию для IO-лимитов. Пока идёт проверка, несколько клиентов подтвердили, что среды снова подключены к сети», — сообщила компания 30-го мая в 4:37 CDT (29-го мая в 23:37 мск).

На момент подготовки материала на странице мониторинга показывалось, что у четырёх объектов компании всё ещё наблюдались проблемы. «У некоторых клиентов в центрах обработки данных LON3 и LO5 в это время могут возникнуть проблемы с резервным копированием»,предупредила компания своих клиентов.

В декабре 2022 года Rackspace столкнулась с крупной кибератакой, из-за которой пришлось отключить сервис Hosted Exchange. Компания заявила, что инцидент был вызван эксплойтом «нулевого дня» и что она не будет возобновлять работу сервиса.

Постоянный URL: http://servernews.kz/1087607
19.10.2022 [21:48], Сергей Карасёв

Пожар в южнокорейском дата-центре Kakao привёл к остановке 32 тыс. серверов, отказу в обслуживании 45 млн человек, падению акций и отставке топ-менеджера компании

Исполнительный содиректор южнокорейской интернет-компании Kakao Намкун Вон (Namkoong Whon) принял решение подать в отставку после массового сбоя в работе сервисов, спровоцированного пожаром в кампусе ЦОД SK C&C Data Center неподалёку от Сеула, принадлежащем SK Group. Возникшие проблемы вызвали недовольство как со стороны многочисленных пользователей, так и со стороны представителей бизнеса и власти.

Пожар начался 15 октября 2022 года с возгорания в аккумуляторной в одном из зданий ЦОД. В результате была нарушена работа мессенджера KakaoTalk, аудитория которого составляет 43–47 млн пользователей в Южной Корее (при населении всей страны в почти 52 млн человек). Кроме того, возникли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. Не был затронут только сервис Kakao Bank, который размещался в другом дата-центре. По состоянию на 17 октября работоспособность большинства функций KakaoTalk была восстановлена, однако доступность ряда служб всё же оставалась ограниченной.

 Источник изображения: Yonhap

Источник изображения: Yonhap

Инцидентом лично заинтересовался президент страны, а стоимость акций Kakao при этом рухнула на 9,5 % — до минимального значения с мая 2020 года. Нарушение работы KakaoTalk негативно сказалось на работе сотен предприятий малого бизнеса, использующих названный мессенджер. Kakao уже сообщила о намерении выплатить компенсации и выяснить причины медленного восстановления работы своих служб. Кроме того, Kakao намерена вложить $325 млн в открытие в 2023 году собственного ЦОД, а в 2024-м будет запущен второй дата-центр.

Любопытно, что в том же кампусе находился и дата-центр Naver, ещё одного южнокорейского IT-гиганта, на работу которого инцидент оказал намного меньшее влияние. Основная претензия к Kakao заключается в том, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, компания оказалась не готова к тому, что ЦОД будет быстро обесточен после начала пожара. При этом, вероятно, это самый крупный инцидент в ЦОД в мире, поскольку речь идёт об остановке сразу 32 тыс. серверов.

Нужно отметить, что в течение последнего времени пожары охватили сразу несколько крупных ЦОД. В частности, в марте прошлого года пожар уничтожил дата-центр французской компании OVHcloud в Страсбурге. В результате этого ЧП оказались недоступны в общей сложности 3,6 млн веб-сайтов, в том числе ресурсы ряда правительственных организаций, банков, интернет-магазинов и пр. А пожар, случившийся в ЦОД иранской Telecommunication Infrastructure Company (TIC), практически оставил без доступа в интернет всю страну.

Постоянный URL: http://servernews.kz/1076017
Система Orphus