Материалы по тегу: rome

17.09.2024 [23:07], Игорь Осколков

Швейцария ввела в эксплуатацию гибридный суперкомпьютер Alps: 11 тыс. NVIDIA GH200, 2 тыс. AMD EPYC Rome и щепотка A100, MI250X и MI300A

Швейцарская высшая техническая школа Цюриха (ETH Zurich) провела церемонию официального запуска суперкомпьютера Alps в Швейцарском национальном суперкомпьютерном центре (CSCS) в Лугано. Система, построенная HPE, уже заняла шестую строчку в последнем рейтинге TOP500 и имеет устоявшеюся FP64-производительность 270 Пфлопс (теоретический пик — 354 Пфлопс). К ноябрю будут введены в строй остальные модули машины, и её максимальная производительность составит порядка 500 Пфлопс.

 Источник изображений: CSCS

Источник изображений: CSCS

В июньском рейтинге TOP500 участвовал раздел из 2688 узлов HPE Cray EX254n с «фантастической четвёркой» NVIDIA Quad GH200. Если точнее, это всё же «старый» вариант ускорителя с H100 (96 Гбайт HBM3), 72-ядерным Arm-процессором Grace и 128 Гбайт LPDDR5x — суммарно 10 752 Grace Hopper. Данный раздел потребляет 5,2 МВт и в Green500 находится на 14 месте. Узлы, конечно же, используют СЖО.

Это основной, но не единственный раздел суперкомпьютера. Ещё в 2020 году HPE развернула 1024 двухпроцессорных узла с 64-ядерными AMD EPYC 7742 (Rome) и 256/512 Гбайт RAM. Его производительность составляет 4,7 Пфлопс. Кроме того, в состав Alps входят 144 узла с одним 64-ядерным AMD EPYC, 128 Гбайт RAM и четырьмя NVIDIA A100 (80 или 96 Гбайт HBM2e).

Наконец, машина получит 24 узла с одним 64-ядерным AMD EPYC, 128 Гбайт RAM и четырьмя AMD Instinct MI250X (128 Гбайт HBM2e) и 128 узлов с четырьмя гибридными ускорителями AMD Instinct MI300A. Большая часть узлов будет объединена интерконнектом HPE Slingshot-11: 200G-подключение на узел или ускоритель. Более точную конфигурацию системы раскроют в ноябре.

Lustre-хранилище для будущей машины обновили ещё в прошлом году. Основной СХД является Cray ClusterStor E1000 с подключением Slingshot-11. Так, было добавлено 100 Пбайт полезной HDD-ёмкости (8480 × 16 Тбайт) с пропускной способностью 1 Тбайт/с (300 тыс. IOPS на запись, 1,5 млн IOPS на чтение) и 5 Пбайт SSD, а также резервные ёмкости. За архивное хранение отвечают две ленточные библиотеки объёмом 130 Пбайт каждая.

Особенностью системы является её геораспределённость (фактически узлы размещены в четырёх местах) и облачная модель использования. Так, метеослужба страны MeteoSwiss получила в своё распоряжение выделенный виртуальный кластер, что уже позволило перейти на использование метеомодели более высокого разрешения, которая лучше отражает сложный рельеф Швейцарии. Кроме того, для подстраховки часть узлов Alps размещена на территории Федеральной политехнической школы Лозанны (EPFL).

Alps приходит на смену суперкомпьютеру Piz Daint (Cray XC50/40, 21,2 Пфлопс), о завершении жизненного цикла которого было объявлено в конце июля 2024 года. В CSCS пока останутся машины Arolla + Tsa (для нужд MeteoSwiss) и Blue Brain 5 (решает задачи реконструкции и симуляции мозга). Alps же помимо традиционных HPC-нагрузок, будет использоваться для разработки ИИ-решений.

Постоянный URL: http://servernews.kz/1111113
05.06.2023 [12:28], Сергей Карасёв

Процессоры AMD EPYC Rome перестают функционировать через 1044 дня непрерывной работы

Серверные процессоры AMD EPYC 7002 (Rome), по сообщению ресурса Tom's Hardware, «зависают» спустя 1044 дня непрерывной работы — это приблизительно 2,86 года. После этого требуется перезагрузка сервера для восстановления его нормального функционирования.

Проблема связана с тем, что ядро названных чипов не может выйти из энергосберегающего режима CC6. Говорится, что конкретные сроки возникновения сбоя могут варьироваться: они зависят от функции Spread Spectrum и опорной частоты REFCLK (используется процессором для отслеживания времени).

 Источник изображения: AMD

Источник изображения: AMD

Однако пользователь Reddit с ником acid_migrain говорит, что на самом деле проблема проявляется через 1042 суток и примерно 12 часов, а не 1044 дня, как предупреждает сама AMD. Дело в том, что счётчик TSC (Time Stamp Counter), работающий на частоте 2800 МГц, зависает при значении 0x3800000000000000. Это 2800 × 106 × 1042,5, то есть, спустя 1042 дня и 12 часов после начала отсчёта. «Здесь слишком много нулей, чтобы это было совпадением», — отмечает acid_migrain.

AMD не планирует исправлять ошибку. Избежать сбоя, как уже отмечалось, можно путём периодической перезагрузки сервера. Второй вариант — отключить возможность перехода в состояние CC6. Наблюдатели говорят, что данная особенность EPYC Rome вряд ли будет критична для большинства пользователей: почти три года непрерывной работы — это большой срок, в течение которого, скорее всего, будут выполняться перезагрузки в связи с техническим обслуживанием или обновлениями.

Постоянный URL: http://servernews.kz/1087887
Система Orphus