Материалы по тегу: ascend

03.12.2023 [23:28], Сергей Карасёв

Одноплатный компьютер Orange Pi AIpro получил процессор Huawei Ascend с ИИ-ускорителем

Анонсирован одноплатный компьютер Orange Pi AIpro для создания всевозможных устройств с ИИ-функциями. Это могут быть дроны, системы видеонаблюдения и анализа естественного языка, AR/VR-гаджеты, средства автоматизации, робототехнические комплексы и пр.

Традиционно в одноплатных компьютерах Orange Pi применяются процессоры Rockchip или Allwinner. Однако в случае AIpro задействован неназванный чип Huawei Ascend с четырьмя 64-битными ядрами и встроенным ИИ-ускорителем, обеспечивающим производительность до 8/20 TOPS на операциях INT8 (FP16).

 Источник изображения: Orange Pi

Источник изображения: Orange Pi

Объём оперативной памяти LPDDR4X-3200 может составлять 8 или 16 Гбайт. Возможна установка флеш-модуля eMMC 5.1 вместимостью 32, 64, 128 или 256 Гбайт, карты microSD и SSD формата M.2 2280 (SATA или NVMe). В оснащение включены сетевой контроллер 1GbE, адаптеры Wi-Fi 5 (диапазоны 2,4 и 5 ГГц) и Bluetooth 4.2. Размеры составляют 107 × 68 мм, вес — 82 г.

 Источник изображения: Orange Pi

Источник изображения: Orange Pi

Присутствуют два интерфейса HDMI 2.0 с поддержкой видео 4K@60, два порта USB 3.0 Type-A, гнездо RJ-45, стандартный 3,5-мм аудиоразъём и два порта USB Type-C, один из которых служит для подачи питания. Могут быть задействованы интерфейсы MIPI DSI (2 линии) и MIPI CSI (2 × 2 линии). Кроме того, имеется 40-контактная колодка GPIO с поддержкой UART, I2C, SPI, I2S, PWM.

Для Orange Pi AIpro заявлена совместимость с Ubuntu и openEuler. Новинку можно заказать по цене около $126 за версию с 8 Гбайт ОЗУ и $162 за модификацию с 16 Гбайт памяти. Поставки начнутся 5 января 2024 года.

Постоянный URL: http://servernews.kz/1096882
08.11.2023 [02:13], Владимир Мироненко

Baidu закупила неанонсированные ИИ-ускорители Huawei Ascend 910B вместо решений NVIDIA из-за санкций США

В связи с введением новых экспортных ограничений США, лишивших китайские компании доступа даже к ускорителям A800 и H800, предназначенным для китайского рынка, им пришлось искать альтернативу у отечественных производителей. По данным Reuters, техногигант Baidu, один из ведущих игроков на китайском рынке ИИ, ещё в августе, то есть за месяц до запрета США, разместил заказ на поставку ИИ-ускорителей у Huawei Technologies.

По словам источника Reuters, Baidu заказала для установки в 200 серверах 1600 ИИ-ускорителей Ascend 910B, разработанных Huawei разработала в качестве альтернативы NVIDIA A100. Причём к октябрю Huawei поставила порядка 1000 ускорителей. По данным источника, стоимость контракта составляет ¥450 млн ($61,83 млн), срок выполнения — до конца года. Сумма контракта сравнительно небольшая по сравнению с обычными закупками чипов китайских компаний у NVIDIA, но это может превратиться в тенденцию, грозящую американскому чипмейкеру потерей крупных клиентов.

Впрочем, уже сейчас NVIDIA, по данным The Wall Street Journal, пришлось из-за введения санкций разорвать контракты на поставку ускорителей китайским фирмам в следующем году на сумму более $5 млрд. А для Huawei это открывает доступ к рынку объёмом $7 млрд. Как сообщается, чипы Huawei уступают по производительности ускорителям NVIDIA, но для китайского рынка считаются лучшим вариантом. «Они заказали 910B, чтобы подготовиться к будущему, когда у них, возможно, больше не будет возможности делать закупки у NVIDIA», — сообщил источник Reuters.

 Изображение: Huawei

Изображение: Huawei

Официально ускоритель Ascend 910B, представляющий собой следующее поколение 7-нм чипа Ascend 910, анонсирован не был, хотя некоторые упоминания о нём встречаются в публичных комментариях китайских компаний и учёных, а также в технических руководствах на веб-сайте Huawei. Председатель китайского IT-гиганта iFlyTek похвалил 910B, который, по его словам, «в основном такой же как NVIDIA A100», отметив, что iFlyTek сотрудничает с Huawei в деле разработки аппаратного обеспечения.

Постоянный URL: http://servernews.kz/1095616
27.08.2019 [11:00], Геннадий Детинич

Huawei Ascend 910: китайская альтернатива ИИ-платформам NVIDIA

Глубокое машинное обучение ― это сравнительно новая область приложения для вычислительных архитектур. Как всё новое, ML заставляет искать альтернативные пути решения задач. В этом поиске китайские разработчики оказались на равных и даже в привилегированных условиях, что привело к появлению в Китае мощнейших ИИ-платформ.

Как всем уже известно, на конференции Hot Chips 31 компания Huawei представила самый мощный в мире ИИ-процессор Ascend 910. Процессоры для ИИ каждый разрабатывает во что горазд, но все разработчики сравнивают свои творения с ИИ-процессорами компании NVIDIA (а NVIDIA с процессорами Intel Xeon). Такова участь пионера. NVIDIA одной из первых широко начала продвигать свои модифицированные графические архитектуры в качестве ускорителей для решения задач с машинным обучением.

Гибкость GPU звездой взошла над косностью x86-совместимой архитектуры, но во время появления новых подходов и методов тренировки машинного обучения, где пока много открытых дорожек, она рискует стать одной из немногих. Компания Huawei со своими платформами вполне способна стать лучшей альтернативой решениям NVIDIA. Как минимум, это произойдёт в Китае, где Huawei готовится выпускать и надеется найти сбыт для миллионов процессоров для машинного обучения.

Мы уже публиковали анонс наиболее мощного ускорителя для ML чипа Huawei Ascend 910. Сейчас посмотрим на это решение чуть пристальнее. Итак, Ascend 910 выпускается компанией TSMC с использованием второго поколения 7-нм техпроцесса (7+ EUV). Это техпроцесс характеризуется использованием сканеров EUV для изготовления нескольких слоёв чипа. На конференции Huawei сравнивала Ascend 910 с ИИ-решением NVIDIA на архитектуре Volta, выпущенном TSMC с использованием 12-нм FinFET техпроцесса. Выше на картинке приводятся данные для Ascend 910 и Volta, с нормализацией к 12-нм техпроцессу. Площадь решения Huawei на кристалле в 2,5 раза больше, чем у NVIDIA, но при этом производительность Ascend 910 оказывается в 4,7 раза выше, чем у архитектуры Volta.

Также на схеме видно, что Huawei заявляет о крайне высокой масштабируемости архитектуры. Ядра DaVinci, лежащие в основе Ascend 910, могут выпускаться в конфигурации для оперирования скалярными величинами (16), векторными (16 × 16) и матричными (16 × 16 × 16). Это означает, что архитектура и ядра DaVinci появятся во всём спектре устройств от IoT и носимой электроники до суперкомпьютеров (от платформ с принятием решений до машинного обучения). Чип Ascend 910 несёт матричные ядра, как предназначенный для наиболее интенсивной работы.

Ядро DaVinci в максимальной конфигурации (для Ascend 910) содержит 4096 блоков Cube для вычислений с половинной точностью (FP16). Также в ядро входят специализированные блоки для обработки скалярных (INT8) и векторных величин. Пиковая производительность Ascend с 32 ядрами DaVinci достигает 256 терафлопс для FP16 и 512 терафлопс для целочисленных значений. Всё это при потреблении до 350 Вт. Альтернатива от NVIDIA на тензорных ядрах способна максимум на 125 терафлопс для FP16. Для решения задач ML чип Huawei оказывается в два раза производительнее.

Помимо ядер DaVinci на кристалле Ascend 910 находятся несколько других блоков, включая контроллер памяти HBM2, 128-канальный движок для декодирования видеопотоков. Мощный чип для операций ввода/вывода Nimbus V3 выполнен на отдельном кристалле на той же подложке. Рядом с ним для механической прочности всей конструкции пришлось расположить два кристалла-заглушки, каждый из которых имеет площадь 110 мм2. С учётом болванок и четырёх чипов HBM2 площадь всех кристаллов достигает 1228 мм2.

Для связи ядер и памяти на кристалле создана ячеистая сеть в конфигурации 6 строк на 4 колонки со скоростью доступа 128 Гбайт/с на каждое ядро для одновременных операций записи и чтения. Для соединения с соседними чипами предусмотрена шина со скоростью 720 Гбит/с и два линка RoCE со скоростью 100 Гбит/с. К кеш-памяти L2 ядра могут обращаться с производительностью до 4 Тбайт/с. Скорость доступа к памяти HBM2 достигает 1,2 Тбайт/с.

В каждый полочный корпус входят по 8 процессоров Ascend 910 и блок с двумя процессорами Intel Xeon Scalable. Спецификации полки ниже на картинке. Решения собираются в кластер из 2048 узлов суммарной производительностью 512 петафлопс для операций FP16. Кластеры NVIDIA DGX Superpod обещают производительность до 9,4 петафлопс для сборки из 96 узлов. В сравнении с предложением Huawei это выглядит бледно, но создаёт стимул рваться вперёд.

Постоянный URL: http://servernews.kz/993066
Система Orphus