Материалы по тегу: сбой
08.11.2023 [16:35], Руслан Авдеев
Австралийский оператор Optus оставил без связи почти полстраныПринадлежащий сингапурской компании Singtel австралийский телеком-оператор Optus с 04:00 среды (12:00 по московскому времени) страдает от масштабного сбоя, затронувшего информационную инфраструктуру по всей стране. По данным The Register, без телефонной связи и интернета остались миллионы австралийцев — компания является там вторым по величине национальным оператором. Граждане и организации понесли ущерб не только от отсутствия связи — временно перестали работать некоторые поезда, а также другие виды транспорта, включая такси или каршеринг. Также перестали функционировать платёжные терминалы. При этом наличность сегодня имеют не так много людей — после пандемии COVID-19 переход на безналичные расчёты привёл к тому, что уже в 2022 году в Австралии на наличность приходилось немногим более 10 % платежей. ![]() Источник изображения: Joey Csunyo/unsplash.com На этом неприятности австралийцев не закончились. Пострадали наземные линии связи и информационная инфраструктура критически важных объектов вроде больниц, пожарных служб и др. В Optus сообщили, что для вызова экстренных служб необходимо пользоваться мобильной связью, поскольку других операторов страны сбой не коснулся. По данным сервиса Netblocks, интернет-сервисы Optus частично восстановились на восьмой час с момента сбоя, но мобильная сеть оставалась нефункциональной. После этого сообщалось о начале постепенного восстановления всех сервисов, но на полное возобновление работы, вероятно, уйдут часы. Представитель Optus заявил журналистам, что главная причина всё ещё выясняется, но данных о возможной кибератаке пока нет. По некоторым сведениям, сбой могло вызвать некорректное обновление ПО, но точные данные отсутствуют. Всего Optus насчитывает 10,2 млн клиентов, т.е. около 40 % населения Австралии. В прошлом году Optus тоже «отличилась» — после кибератаки в Сеть утекли данные её пользователей, сведений оказалось достаточно для злоумышленников, чтобы открывать даже банковские аккаунты от их имени. Местные чиновники раскритиковали работу Optus, в частности заявив, что правительство Южной Австралии уже рассматривает переключение критически важных сервисов на других провайдеров. В этом месяце пострадали от отключения интернета и клиенты крупных банков в Сингапуре — перегрев оборудования и отказ резервных систем привёл к срыву 2,5 млн банковских транзакций, а власти призвали население и бизнесы позаботиться об альтернативных средствах платежей на случай подобных происшествий.
27.10.2023 [17:50], Руслан Авдеев
Пожар в IT-хабе столицы Бангладеша оставил десятки миллионов жителей без СетиВ результате начавшегося в четверг вечером пожара в 14-этажной башне Khawaja Tower в Дакке (Бангладеш) погибло минимум три человека. В здании располагались международные интернет-шлюзы (IIG), дата-центры и точки обмена трафиком (ICX), которые пострадали от пожара. Как сообщает Dhaka Tribune, из-за этого без стабильной связи остались 5 млн пользователей кабельного интернета, а у 23 млн абонентов сотовой связи наблюдаются проблемы с передачей данных и звонками. В результате возгорания проблемы со стационарным интернет-доступом возникли у 5 из 12,5 млн пользователей. Многие полностью потеряли доступ в Сеть, а у тех, у кого он остался, заметно упала скорость соединения. Проблема коснулась и пользователей мобильного интернета: из 119,79 млн пользователей около 24 млн не могут выйти в Сеть, а некоторые лишились и обычных телефонных звонков. Если в норме страна использует полосу порядка 5 Тбит/с, то с отключением многих IIG пропускная способность упала до 1,2 Тбит/с. ![]() Источник изображения: Bangladesh Fire Service and Civil Defence Комментируя ситуацию, представитель организации ISPAB, представляющей интернет-провайдеров страны, заявил, что ситуация под контролем (пожар полностью потушили сегодня к утру), но доступ операторов в помещения пока ограничен. Уже известно, что из двух расположенных в здании ЦОД один (NRB) пострадал от пожара, а состояние второго (Dhaka Cola) неизвестно. Власти подтверждают, что 9–10 из имевшихся в Khawaja Tower шлюзов не функционируют, при этом каждый обеспечивает транзит данных 50–70 интернет-провайдеров. Всего потеряли возможность предоставлять услуги около 500–700 провайдеров. По данным представителя IIG Forum, многие провайдеры, включая Level Three, Max Hub, Amra Networks, Earthnet, Vargo и Windstream пострадали от пожара и сейчас переключаются на резервные IIG. При этом часть из них обеспечивают подключения мобильным операторам — если некоторые полностью прекратили работу, то другие почти или совсем не пострадали. Впрочем, проблему связности это не решает, поскольку не все абоненты могут полноценно осуществлять даже голосовые звонки. Мобильные операторы совместно с операторами ICX-узлов сейчас формируют новую инфраструктуру в другом, безопасном месте. По мнению экспертов, работоспособность быстро восстановить не получится, поскольку имевшееся оборудование пострадало, а новое оперативно не купить из-за дефицита на рынке. Впрочем, по степени влияния инцидент в Дакке пока «проигрывает» самому масштабному на текущий момент сбою ЦОД в Южной Корее, который тоже возник из-за пожара. Как сообщает Datacenter Dynamics, руководство пожарных доложило об отсутствии в здании плана противопожарной безопасности. Точная причина возгорания пока не называется. С огнём, помимо пожарной службы, помогали бороться и другие государственные ведомства — от военных до полиции. Впрочем, это не единичный случай. Только весной зарегистрированы крупные возгорания ЦОД в США, Франции, Нигерии, а о более мелких инцидентах информация иногда не поступает вовсе.
15.10.2023 [23:05], Владимир Мироненко
Сбой в сингапурском ЦОД Equinix повлёк за собой остановку банковских сервисов в стране и проблемы с доступом к сервисам Meta✴ за её пределами [Обновлено]В минувшую субботу в дата-центре Equinix в Сингапуре произошёл сбой, повлекший за собой остановку банковских сервисов по всей стране, сообщил ресурс Data Center Dynamics. В настоящее время ведётся расследование «технической проблемы», вызвавшей повышение температуры в ЦОД, сообщили в Equinix. Сообщается, что из-за сбоя в ЦОД компании были отключены сервисы банков DBS и Citibank в Сингапуре. Также проблемы наблюдались в работе других сервисов на Филиппинах, в Гонконге, Индии, Южной Африке, Камбодже, Индонезии, Шри-Ланке, ОАЭ и на Мальдивах, где многие пользователи не смогли получить доступ к своим аккаунтам в Facebook✴, Instagram✴ и Whatsapp. ![]() Источник изображения: Equinix/Data Center Dynamics В валютном управлении Сингапура (MAS) сообщили о том, что им известно о сбое, в связи с чем проводится расследование, а к Equinix применены ограничительные меры. Ранее подобные ограничения были применены к Equinix в феврале 2022 года в связи с происшедшим тогда сбоем. «Отключения, подобные инциденту 14 октября, показывают, насколько важны ЦОД для нашей повседневной жизни, и поэтому организациям необходимо постоянно анализировать отдельные точки сбоев и принимать соответствующие меры для снижения этих рисков», — сообщил Эдвард ван Леент (Edward van Leent) председатель сингапурской компании Enterprise Products Integration (EPI). Количество сбоев ЦОД с годами не уменьшается. По данным Uptime Institute, основанным на анализе сбоев ЦОД в 2023 году, более двух третей всех сбоев обходятся более чем в $100 тыс., в том числе почти 25 % сбоев наносят убытки более чем в $1 млн. Патрик Чан (Patrick Chan), вице-президент Uptime Institute по азиатскому региону указал на важность проведения сертификации ЦОД с целью соблюдения стандартов и снижения рисков сбоев. UPD 24.10.2023: Equinix обвинила в сбое стороннего подрядчика, который подал сигнал на закрытие вентилей ёмкостей с теплоносителем во время запланированного обновления инфраструктуры, в результате чего температура в некоторых машинных залах поднялась, что и привело к проблемам у клиентов компании. Кроме того, валютное управление Сингапура предписало банкам DBS и Citibank провести тщательное расследование, почему их резервные ЦОД не смогли вовремя принять нагрузку на себя.
04.09.2023 [19:24], Руслан Авдеев
Нехватка рук и плохая автоматизация: Microsoft отчиталась о сбое в сиднейском ЦОДПроизошедший 30 августа сбой в работе австралийского дата-центра привёл к проблемам в работе с сервисами Azure, API, базами данных, а также облачным ПО. Пользователи более суток не имели доступа к Azure, сервисам Microsoft 365 и Power Platform. Как сообщает Network World, в Microsoft обвиняют в произошедшем недостаток персонала в ЦОД и неисправную систему автоматики. По данным экспертов компании, после падения напряжения в сети на юго-востоке страны отключилась часть охлаждающих систем в одном из ЦОД. Поскольку охлаждение не работало должным образом, рост температуры в машинных залах привёл к автоматическому отключению некоторого оборудования для сохранения инфраструктуры и данных. При этом в компании подчеркнули, что системы охлаждения можно было бы заново включить вручную, окажись для этого достаточно персонала в ЦОД. С учётом размеров кампуса и небольшого числа сотрудников ночной смены людей оказалось недостаточно для своевременного восстановления работоспособности. В компании подчеркнули, что временно увеличили команду с трёх до семи человек, пока не выяснили причины проблем и не приняли необходимые меры для их устранения. ![]() Источник изображения: Microsoft В Microsoft добавили, что компания работает над масштабными реформами, включая совершенствование системы автоматизации ЦОД для восстановления работоспособности в случае повторения инцидентов, в частности, связанных с перепадами напряжения. Поэтому ведётся оценка загруженности серверов, чтобы выяснить, какие именно системы охлаждения нужно «оживить» в первую очередь. В последние месяцы сбои в работе сервисов Microsoft уже случались, в первую очередь связанные с нарушением доступа к Microsoft 365. Например, в июле пострадали OneDrive для бизнеса и SharePoint Online, а месяцем ранее с проблемами на восемь часов столкнулись пользователи Outlook Web, Teams, OneDrive для бизнеса и SharePoint. А в начале года наблюдались глобальные сбои в работе сервисов компании.
31.08.2023 [12:37], Сергей Карасёв
Затраты Rackspace на устранение последствий кибератаки превысят $10 млнКомпания Rackspace Technology, провайдер облачных услуг, по сообщению ресурса Dark Reading, столкнулась со значительными затратами в связи со сбоем, который произошёл в конце 2022 года в результате атаки программы-вымогателя. Напомним, из-за хакерского вторжения компании Rackspace пришлось навсегда отключить свою службу Microsoft Exchange. Причиной масштабного сбоя послужил эксплойт для уязвимости «нулевого дня». С последствиями атаки Rackspace не могла справиться в течение нескольких недель. Впоследствии калифорнийская Cole & Van Note подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Для расследования инцидента компании пришлось привлечь сторонних специалистов. ![]() Источник изображения: Rackspace Как теперь стало известно, расходы Rackspace на устранение последствий кибератаки составят приблизительно $10,8 млн. Говорится, что деньги пойдут в основном на оплату работы экспертов в области информационной безопасности, занимающихся расследованием инцидента, юридические и другие профессиональные услуги, а также на «дополнительные кадровые ресурсы», которые были задействованы для оказания поддержки клиентам. Кроме того, компенсацию от Rackspace требуют недовольные пользователи, которые не могли получить доступ к сервисам провайдера облачных услуг. Rackspace ожидает, что значительная часть затрат будет возмещена компаниями по киберстрахованию.
19.10.2022 [21:48], Сергей Карасёв
Пожар в южнокорейском дата-центре Kakao привёл к остановке 32 тыс. серверов, отказу в обслуживании 45 млн человек, падению акций и отставке топ-менеджера компанииИсполнительный содиректор южнокорейской интернет-компании Kakao Намкун Вон (Namkoong Whon) принял решение подать в отставку после массового сбоя в работе сервисов, спровоцированного пожаром в кампусе ЦОД SK C&C Data Center неподалёку от Сеула, принадлежащем SK Group. Возникшие проблемы вызвали недовольство как со стороны многочисленных пользователей, так и со стороны представителей бизнеса и власти. Пожар начался 15 октября 2022 года с возгорания в аккумуляторной в одном из зданий ЦОД. В результате была нарушена работа мессенджера KakaoTalk, аудитория которого составляет 43–47 млн пользователей в Южной Корее (при населении всей страны в почти 52 млн человек). Кроме того, возникли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. Не был затронут только сервис Kakao Bank, который размещался в другом дата-центре. По состоянию на 17 октября работоспособность большинства функций KakaoTalk была восстановлена, однако доступность ряда служб всё же оставалась ограниченной. ![]() Источник изображения: Yonhap Инцидентом лично заинтересовался президент страны, а стоимость акций Kakao при этом рухнула на 9,5 % — до минимального значения с мая 2020 года. Нарушение работы KakaoTalk негативно сказалось на работе сотен предприятий малого бизнеса, использующих названный мессенджер. Kakao уже сообщила о намерении выплатить компенсации и выяснить причины медленного восстановления работы своих служб. Кроме того, Kakao намерена вложить $325 млн в открытие в 2023 году собственного ЦОД, а в 2024-м будет запущен второй дата-центр. Любопытно, что в том же кампусе находился и дата-центр Naver, ещё одного южнокорейского IT-гиганта, на работу которого инцидент оказал намного меньшее влияние. Основная претензия к Kakao заключается в том, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, компания оказалась не готова к тому, что ЦОД будет быстро обесточен после начала пожара. При этом, вероятно, это самый крупный инцидент в ЦОД в мире, поскольку речь идёт об остановке сразу 32 тыс. серверов. Нужно отметить, что в течение последнего времени пожары охватили сразу несколько крупных ЦОД. В частности, в марте прошлого года пожар уничтожил дата-центр французской компании OVHcloud в Страсбурге. В результате этого ЧП оказались недоступны в общей сложности 3,6 млн веб-сайтов, в том числе ресурсы ряда правительственных организаций, банков, интернет-магазинов и пр. А пожар, случившийся в ЦОД иранской Telecommunication Infrastructure Company (TIC), практически оставил без доступа в интернет всю страну.
20.07.2022 [15:56], Владимир Мироненко
Аномальная жара привела к сбоям в лондонских дата-центрах Google и Oracle
google cloud platform
hardware
oracle cloud infrastructure
великобритания
облако
охлаждение
сбой
цод
Во вторник, 19 июля, в ЦОД Google Cloud Platform (GCP) в Лондоне произошёл сбой в системе охлаждения, в связи с чем несколько сервисов компании временно вышло из строя. В лондонском регионе облака Oracle тоже возникли проблемы с охлаждением оборудования ЦОД. Сбои произошли из-за рекордной жары в Великобритании — температура превысила +40°C. Некоторые операторы дата-центров были вынуждены принять нестандартные меры, начав обрызгивать водой внешние модули систем кондиционирования, установленные на крыше. Отключение ряда сервисов Google произошло в 18:13 по местному времени (20:13 мск). В журнале статуса оборудования сбой описан как «связанный с охлаждением». Google заявила, что сбой затронул лишь небольшое количество клиентов. В частности, отключение коснулось сервисов Persistent Disk и Autoscaling. Хотя Google утверждает, что сбой продолжался до 22:00 BST (24:00 мск), в означенное время всё ещё поступали жалобы на ошибки в работе Persistent Disk. С подобными проблемами в Лондоне столкнулась и облачная служба Oracle. Проблемы с перегревом у неё начались примерно в 17:00 по местному времени (19:00 мск). Oracle ранее арендовала ресурсы в ЦОД Equinix в лондонском кампусе Слау, но сейчас не раскрывает местонахождение своих мощностей. «В результате несезонных температур в регионе возникла проблема с частью инфраструктуры охлаждения в центре обработки данных на юге Великобритании (в Лондоне), — говорится в сообщении компании. — Это привело к тому, что часть нашей сервисной инфраструктуры пришлось отключить, чтобы предотвратить неконтролируемые сбои оборудования». |
|