3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

NVIDIA DGX A100: дебютная платформа на базе Ampere предложила пять петафлопс быстродействия

NVIDIA начала поставки самой передовой ИИ-системы — NVIDIA DGX A100 — для борьбы с COVID-19; 3-е поколение DGX обеспечивает 5 петафлопс в задачах ИИ

14 мая 2020 NVIDIA представила NVIDIA DGX™ A100 – третье поколение самой передовой в мире ИИ-системы с 5 петафлопсами производительности в задачах ИИ, а также мощью и возможностями полноценного дата-центра на одной платформе.

Поставки систем DGX A100 уже начались, и первый заказ отправился в Аргоннскую национальную лабораторию Министерства энергетики США, где возможности ИИ и вычислительная мощь кластера будут направлены на борьбу с COVID-19.

«NVIDIA DGX A100 – это наилучший инструмент для развития ИИ, — говорит Дженсен Хуанг (Jensen Huang), основатель и генеральный директор NVIDIA. — NVIDIA DGX – это первая ИИ-система, построенная для ускорения машинного обучения на всех этапах – от анализа данных до обучения и инференса. Благодаря огромному приросту производительности в новом поколении DGX, специалисты по машинному обучению могут не бояться стремительного увеличения ИИ-моделей и объема данных.”

Система DGX A100 включает восемь новых графических процессоров NVIDIA A100 с тензорными ядрами, 320 ГБ памяти для обучения самых больших наборов данных и высокоскоростные интерконнекты NVIDIA Mellanox® HDR 200Gbps.

Технология MIG (Multi-Instance GPU) позволяет ускорить процессы, запустив решение небольших задач в параллели за счет разделения DGX A100 на отдельные инстансы, до 56 в системе. Благодаря таким возможностям компании смогут оптимизировать ресурсы и выделять их в соответствии с различными видами нагрузки, включая анализ данных, обучение и инференс на единой программно определяемой платформе.

Широкое применение и поддержка

Ряд крупных компаний, поставщиков услуг и правительственных учреждений уже разместили заказы на системы DGX A100. Первые системы DGX нового поколения отправлены в Аргоннскую национальную лабораторию для борьбы с COVID-19.

Университет Флориды станет первым высшим учебным заведением в США, который получит системы DGX A100, чтобы внедрить возможности ИИ в свой учебный процесс.

Первыми пользователями систем DGX A100 также стали Центр биомедицинского ИИ в Гамбурге, Университет Чулалонгкорна в Таиланде, Немецкий исследовательский центр ИИ, разработчик решений и услуг на базе ИИ Element AI из Монреаля, сиднейская медицинская компания Harrison.ai, компания Artificial Intelligence Office (ОАЭ), ведущая вьетнамская исследовательская лаборатория VinAI Research.

Во всем мире множество общественных и частных организаций успешно применяют тысячи DGX систем предыдущих поколений. Среди них и ведущие автопроизводители, поставщики медицинских услуг, ритейлеры, финансовые институты и логистические компании, способствующие распространению ИИ в своих областях.

NVIDIA создает 700-петафлопсный кластер DGX SuperPOD

NVIDIA также представила новое поколение DGX SuperPOD – кластера, созданного из 140 систем DGX A100, способного обеспечить 700 петафлопс в задачах ИИ. Объединив 140 систем DGX A100 с помощью интерконнета NVIDIA Mellanox HDR 200Gbps InfiniBand, NVIDIA создает собственный суперкомпьютер DGX SuperPOD AI для внутренних исследований в таких областях, как диалоговый ИИ, геномика и автономное вождение.

Новый кластер является одним из самых мощных суперкомпьютеров мира для работы с ИИ и обладает производительностью, которую раньше могли обеспечить только тысячи серверов. Продуманная архитектура корпоративного уровня и производительность DGX A100 позволили NVIDIA построить систему всего за месяц. Раньше на разработку специальных компонентов с подобными суперкомпьютерными возможностями ушли бы годы.

Чтобы помочь клиентам быстрее создавать собственные дата-центры на базе графических процессоров A100, NVIDIA также представила референсную архитектуру DGX SuperPOD, в которой описываются принципы проектирования, используемые при создании супервычислительных кластеров на базе DGX A100.

Программы DGXpert и DGX-Ready Software

NVIDIA также представила две программы: NVIDIA DGXpert, которая позволит ИИ-экспертам оказывать помощь заказчикам DGX-систем, и NVIDIA DGX-Ready Software, которая откроет клиентам преимущества сертифицированного корпоративного программного обеспечения для ИИ-задач.

В рамках первой программы DGX-эксперты смогут помогать клиентам разворачивать современные ИИ-инфраструктуры и непрерывно оптимизировать их.

Программа NVIDIA DGX-Ready Software позволит клиентам быстро определять и запускать протестированные NVIDIA сторонние MLOps-приложения, чтобы повысить продуктивность исследований, ускорить решение задач ИИ и улучшить доступность и использование ИИ-инфраструктуры. Первыми партнерами, получившими сертификацию NVIDIA, стали Allegro AI, cnvrg.io, Core Scientific, Domino Data Lab, Iguazio и Paperspace.

Спецификации DGX A100

  • Восемь GPU NVIDIA A100 с тензорными ядрами, с производительность в 5 петафлопс в задачах ИИ, с 320ГБ памяти и полосой пропускания в 12.4 ТБ/с.
  • Шесть интерфейсов NVIDIA NVSwitch™ с технологией NVIDIA NVLink® 3-го поколения с двунаправленной полосой пропускания в 4.8 ТБ/с.
  • Девять интерфейсов NVIDIA Mellanox ConnectX-6 HDR 200 Гб/с с суммарной двунаправленной полосой пропускания в 3.6 ТБ/с.
  • Технологии внутрисетевых вычислений и ускорений, такие, как RDMA, GPUDirect®, Scalable Hierarchical Aggregation и Reduction Protocol (SHARP)™, обеспечивают максимальную производительность и масштабируемость.
  • Программный стэк NVIDIA DGX, который включает оптимизированное ПО для ИИ и анализа данных, позволяет компаниям быстрее вернуть инвестиции в ИИ-инфраструктуру.

Одна стойка из пяти систем DGX A100 заменяет дата-центр для обучения нейросетей и инференса, с энергопотреблением в 20 раз меньше, размерами в 25 раз меньше и стоимостью в 10 раз ниже.

Системы NVIDIA DGX A100 уже доступны для заказа по цене от 199 000 долларов через NVIDIA Partner Network. Поставщики систем хранения DDN Storage, Dell Technologies, IBM, NetApp, Pure Storage и Vast панируют интегрировать DGX A100 в свой ассортимент, включая решения на базе референсных архитектур NVIDIA DGX POD и DGX SuperPOD.

Партнеры NVIDIA по программе DGX-Ready предлагают услуги по размещению серверов в 122 локациях в 26 странах, чтобы обеспечить экономическую эффективность при размещении DGX инфраструктур. Клиенты смогут размещать и использовать свои инфраструктуры DGX A100 в проверенных дата-центрах мирового класса.

NVIDIA DGX A100: дебютная платформа на базе Ampere предложила пять петафлопс быстродействия

В состав системы DGX A100, основу которой Дженсен Хуанг (Jen-Hsun Huang) на днях вынимал из духовки, входят восемь графических процессоров A100, шесть коммутаторов NVLink 3.0, девять сетевых контроллеров Mellanox, два процессора AMD EPYC поколения Rome с 64 ядрами, 1 Тбайт оперативной памяти и 15 Тбайт твердотельных накопителей с поддержкой NVMe.

Читать еще:  Хромбуки укрепляют позиции на мировом рынке портативных компьютеров

Источник изображения: NVIDIA

NVIDIA DGX A100 — это третье поколение вычислительных систем компании, предназначенных в первую очередь для решения задач искусственного интеллекта. Теперь такие системы строятся на самых современных графических процессорах A100 семейства Ampere, что обуславливает резкий рост их производительности, которая достигла 5 петафлопс. Благодаря этому DGX A100 способна обеспечить работу с гораздо более сложными моделями ИИ и с гораздо большими объёмами данных.

Для системы DGX A100 компания NVIDIA указывает только совокупный объём памяти типа HBM2, который достигает 320 Гбайт. Нехитрые арифметические вычисления позволяют определить, что на каждый графический процессор приходится по 40 Гбайт памяти, а изображения новинки позволяют однозначно судить, что этот объём распределён между шестью стеками. Упоминается и пропускная способность графической памяти — 12,4 Тбайт/с для всей системы DGX A100 в совокупности.

Если учесть, что система DGX-1 на базе восьми Tesla V100 выдавала один петафлопс в вычислениях смешанной точности, а для DGX A100 заявлено быстродействие на уровне пяти петафлопс, можно предположить, что в специфических вычислениях один графический процессор Ampere в пять раз быстрее своего предшественника с архитектурой Volta. В отдельных случаях преимущество становится двадцатикратным.

В общей сложности, в целочисленных операциях (INT8) система DGX A100 обеспечивает пиковое быстродействие на уровне 10 16 операций в секунду, в операциях с плавающей запятой половинной точности (FP16) — 5 петафлопс, в операциях двойной точности (FP64) — 156 терафлопс. Кроме того, в тензорных вычислениях TF32 пиковое быстродействие DGX A100 достигает 2,5 петафлопс. Напомним, один терафлопс — это 10 12 операций с плавающей запятой в секунду, один петафлопс — 10 15 операций с плавающей запятой в секунду.

Важной особенностью ускорителей NVIDIA A100 является способность разделять ресурсы одного графического процессора на семь виртуальных сегментов. Это позволяет значительно повысить гибкость конфигурирования в том же облачном сегменте. Например, одна система DGX A100 с восемью физическими графическими процессорами может выступать в качестве 56 виртуальных графических процессоров. Технология Multi-Instance GPU (MIG) позволяет выделить сегменты разной величины как среди вычислительных ядер, так и в составе кеш-памяти и памяти типа HBM2, причём они не будут соперничать друг с другом за пропускную способность.

Источник изображения: NVIDIA

Стоит заметить, что по сравнению с прошлыми системами DGX анатомия DGX A100 претерпела некоторые изменения. Количество тепловых трубок в радиаторах модулей SXM3, на которые установлены графические процессоры A100 с памятью HBM2, значительно увеличилось по сравнению с модулями Tesla V100 поколения Volta, хотя их концы и скрыты от взора обывателя верхними накладками. Практический предел для такого конструктивного исполнения — это 400 Вт тепловой энергии. Это же подтверждается и официальными характеристиками A100 в исполнении SXM3, опубликованными сегодня.

Рядом с графическими процессорами A100 на материнской плате разместились шесть коммутаторов интерфейса NVLink третьего поколения, которые в совокупности обеспечивают двухсторонний обмен данными со скоростью 4,8 Тбайт/с. Об их охлаждении NVIDIA тоже серьёзно позаботилась, если судить по полнопрофильным радиаторам с тепловыми трубками. На каждый графический процессор выделено по 12 каналов интерфейса NVLink, соседние графические процессоры могут обмениваться данными со скоростью 600 Гбайт/с.

Система DGX A100 разместила и девять сетевых контроллеров Mellanox ConnectX-6 HDR, способных передавать информацию со скоростью до 200 Гбит/с. В совокупности, DGX A100 обеспечивает двухсторонний обмен данными со скоростью 3,6 Тбайт/с. Система также использует фирменные технологии Mellanox, направленные на эффективное масштабирование вычислительных систем с такой архитектурой. Поддержку PCI Express 4.0 на уровне платформы определяют процессоры AMD EPYC поколения Rome, в итоге этот интерфейс используется не только графическими ускорителями A100, но и твердотельными накопителями с протоколом NVMe.

Источник изображения: NVIDIA

Помимо DGX A100, компания NVIDIA начала снабжать своих партнёров платами HGX A100, являющимися одним из компонентов серверных систем, которые прочие производители будут выпускать самостоятельно. На одной плате HGX A100 может находиться либо четыре, либо восемь графических процессоров NVIDIA A100. Кроме того, для собственных нужд NVIDIA уже собрала DGX SuperPOD — кластер из 140 систем DGX A100, обеспечивающий быстродействие на уровне 700 петафлопс при достаточно скромных габаритных размерах. Компания пообещала оказывать методологическую помощь партнёрам, желающим построить похожие вычислительные кластеры на базе DGX A100. К слову, на строительство DGX SuperPOD у NVIDIA ушло не более месяца вместо типичных для подобных задач нескольких месяцев или даже лет.

Источник изображения: NVIDIA

По словам NVIDIA, поставки DGX A100 уже начались по цене $199 000 за экземпляр, партнёры компании уже размещают эти системы в своих облачных кластерах, экосистема уже охватывает 26 стран, среди которых упоминаются Вьетнам и ОАЭ. Кроме того, графические решения с архитектурой Ampere вполне предсказуемо войдут в состав суперкомпьютерной системы Perlmutter, создаваемой Cray по заказу Министерства энергетики США. В её составе графические процессоры NVIDIA Ampere будут соседствовать с центральными процессорами AMD EPYC поколения Milan с архитектурой Zen 3. Узлы суперкомпьютера на основе NVIDIA Ampere доберутся до заказчика во втором полугодии, хотя первые экземпляры уже поступили в профильную лабораторию американского ведомства.

NVIDIA DGX A100: дебютная платформа на базе Ampere предложила пять петафлопс быстродействия

Все мы с нетерпением ждали новых анонсов от компании NVIDIA. И они произошли на виртуальной презентации, которая прошла 14 мая вместо отмененного выступления на GPU Technology Conference 2020. Глава компании, Дженсен Хуанг, анонсировал новую архитектуру Ampere и первое устройство на ее основе — ускоритель вычислений NVIDIA A100 (Tesla A100). Также были представлены новые инициативы в области высокопроизводительных HPC-систем, искусственного интеллекта и робототехники. Все это напрямую не касается игровых видеокарт, но NVIDIA A100 дает старт новому поколению GPU, и к концу года мы точно увидим GeForce следующего поколения. Поэтому интересно оценить изменения и преимущества нового графического чипа, который задает направление для развития игровых GPU.

Начнем с того, что NVIDIA A100 — это строго вычислительное устройство, которое будет применяться в серверных системах обработки данных и выпускается в соответствующем форм-факторе SXM4. В будущем вероятно будут представлены варианты под PCI-E, что позволит устанавливать их в обычные рабочие станции и ПК.

В последние годы наметился бурный рост облачный технологий с ускорением на GPU. Это глубокое обучение систем искусственного интеллекта, анализ данных, научные вычисления, геномика, видеоаналитика и услуги 5G, рендеринг графики, облачные игры и многое другое. Графические ускорители NVIDIA являются самыми передовыми устройствами для ускорения операций связанных с ИИ. Выпуск Tesla V100 в 2017 году стал новой вехой в развитии компании, позволив закрепиться в области устройств для центров обработки данных. При этом Tesla V100 так и осталась единственным устройством на процессоре Volta (не считая ограниченной серии TITAN V), поскольку более поздние игровые решения использовали оптимизированную архитектуру Turing. В случае Ampere уже заявлено, что новая архитектура будет актуальна и для игровых видеокарт, но там безусловно будут свои упрощения, оптимизации и обрезание лишних функций. Пока NVIDIA не раскрывает все архитектурные нюансы, отмечая основные особенности и те изменения, что важны непосредственно для вычислений.

Читать еще:  Huawei выпустит новые носимые устройства на процессоре Kirin A1

В дизайне нового GPU компания NVIDIA отмечает пять ключевых моментов:

  • Архитектура NVIDIA Ampere
  • Тензорные ядра третьего поколения TF32
  • Технология виртуализации Multi-instance GPU (MIG)
  • Шина NVLink третьего поколения
  • технология Structural Sparsity для удвоения производительности

Основой нового Tesla A100 является графический процессор GA100. Это первый 7-нм GPU от NVIDIA, выпущенный на заводах TSMC. И это крупнейший 7-нм процессор в мире, насчитывающий 54 миллиарда транзисторов, что в 2,5 раз больше количества транзисторов в GPU GV100 (Tesla V100). Площадь GA100 достигает 826 мм², что минимально отличается от 815 мм² у GV100. Количество ядер CUDA выросло до 6912 (у Volta было 5120). Ключевой особенностью старших GPU в ускорителях Tesla является использование стеков памяти HBM, которые расположены на одной подложке с графическим чипом. Используется уже шесть модулей памяти HBM2 , что позволяет обмениваться данными по общей шине разрядностью 5120 бит, а объем памяти достиг внушительных 40 ГБ! Для сравнения: в V100 32 ГБ видеопамяти с шиной 4096 бит. При частоте модулей памяти 2,4 ГГц пропускная способность памяти A100 достигает внушительного значения в 1,6 Тбайт/с вместо 900 Гбайт/с у V100.

Процессор GA100 состоит из 8 кластеров GPC, каждый из которых содержит 8 TPC по 2 SM. Итого получается 128 мультипроцессоров SM (у Volta GV100 их было 84). Такой гигантский GPU оперирует 8192 CUDA-ядрами FP32 и 512 тензорными ядрами для операций глубокого обучения. Однако для A100 заявлено 7 активных кластеров и 6912 ядер CUDA, плюс 432 тензорных ядра. То есть представленный ускоритель получил урезанный процессор, где деактивирован один кластер и несколько дополнительных SM. Это может быть связано с необходимостью повысить количество годных кристаллов. И нельзя исключать, что по мере совершенствования технологии производства когда-нибудь выйдет более мощный ускоритель с полной конфигурацией GPU GA100. У процессора 12 контроллеров памяти, которые обеспечивают работу с 6-ю модулями памяти HBM2. Объем кэш-памяти L2 достиг внушительных 40 МБ. Разделение памяти на два блока позволяет уменьшить задержки при обращении к L2, каждый раздел L2 кэширует данные для доступа к памяти от SM в GPC. Новая структура L2 обеспечивает рост пропускной способности в 2,3 раза при работе программной модели CUDA. А высокий объем кэша востребован для HPC-вычислений и ИИ. Поскольку для Tesla A100 заявлен объем памяти 40 ГБ, у нас работает 5 модулей из 6, что вполне логично. Управляет кластерами новый движок распределения вычислений MIG. Есть поддержка интерфейса PCI Espress 4.0, но Tesla A100 работают через более быстрый интерфейс NVLink третьего поколения. Эта версия NVLink обеспечивает скорость передачи данных до 50 Гбит/с в двух направлениях на один канал, и до 12 соединений с общей пропускной способностью 600 Гбайт/с.

Структура мультипроцессоров SM напоминает аналогичные блоки Turing, но с некоторыми дополнениями. Это 64 вычислительных ядра, которые одновременно выполняют операции INT32 и FP32. У Volta/Turing было по 8 тензорных ядер на SM, у Ampere это 4 усовершенствованных тензорных ядра. Объем кеш-памяти L1 достиг 196 КБ (у Turing 96 КБ, у Volta 128 КБ). Это комбинированный кэш данных и функций, что упрощает программный доступ. Также мы видим у SM 4 текстурных блока, и полноценный GA100 мог бы оперировать 512 блоками TMU. Нет блоков RT, которые вероятно вернутся в игровых GPU Ampere, ориентированых непосредственно на графику.

В итоге имеем процессор, значительно нарастивший количество вычислительных блоков и с увеличенным объемом кэша. Серьезно возросла пропускная способность памяти. Рабочая частота GPU была немного снижена — заявлен Boost Clock 1410 МГц вместо 1530 МГц у Volta. Такой прогресс не обошелся без роста энергопотребления. Для A100 заявлен TDP 400 Вт, что выше TDP прошлых продуктов семейства Tesla.

НОВОСТИ

NVIDIA объявила о выпуске процессора NVIDIA A100 на архитектуре Ampere, модуля DGX A100 и кластера DGX SuperPOD

Вчера NVIDIA объявила о начале производства и поставок своего первого графического процессора на базе архитектуре NVIDIA Ampere — NVIDIA A100. Как стало ясно из опубликованного компанией пресс-релиза, вся информация, которую THG.ru изложил во вчерашней новости, собрав полученную в сети из различных утечек информацию, полностью подтверждена.

Благодаря передовой архитектуре NVIDIA Ampere, на базе которой выстроен графический процессор A100, новый процессор обеспечивает значительный прирост производительности по сравнению с моделями предыдущих поколений. Прирост в скорости вычислений может составлять от 2,5 до 20 раз. NVIDIA отметила, что такой значительный скачок в производительности по сравнению с моделями предыдущего поколения был достигнут впервые. Отметим, что опыт у NVIDIA большой, вчера компания объявила о выпуске GPU NVIDIA уже восьмого поколения.

Новый графический процессор NVIDIA A100 создает единую платформу для обучения ИИ и инференса. Универсальный ускоритель A100 предназначен также для решения прикладных задач анализа данных, научных вычислений и облачной графики.

Первое промышленное решение, которое компания NVIDIA готова предложить рынку — это поставки ИИ-системы 3-го поколения NVIDIA DGX A100 с заявленной для задач ИИ производительностью в размере 5 петафлопс.

NVIDIA DGX A100

Анонс NVIDIA DGX A100 состоялся вчера вместе с запуском NVIDIA A100. Уже на старте NVIDIA заявила, что первый заказ NVIDIA DGX A100 уже отправлен в Аргоннскую национальную лабораторию Министерства энергетики США — там сейчас ведутся работы по разработке вакцины против COVID-19.

Система DGX A100 состоит из восьми графических процессоров NVIDIA A100 с тензорными ядрами, 320 Гбайт памяти и высокоскоростных интерконнектов NVIDIA Mellanox HDR 200Gbps.

Для ускорения процессов вычислений применяется технология MIG (Multi-Instance GPU). Она позволяет разделять машину DGX A100 на отдельные параллельные инстансы, количество которых может достигать 56 в системе. Благодаря этому, открывается возможность для оптимизации модели использования ресурсов для отдельных приложений. Путем программного управления и общей настройки системы можно выделять ресурсы, необходимые приложениям, с учетом вида их текущей нагрузки.

Предполагается, что основной вычислительной нагрузкой для таких систем станут прикладные расчеты для решения задач в области анализа данных, обучения и инференса (задач прикладного применения).

По имеющимся данным, вычислительный блок NVIDIA DGX A100 обеспечивает следующую производительность:

INT8 — до 10 PetaOPS — целочисленные вычисления (передача данных, телеком etc.)
FP16 — до 5 PFLOPS — вычисления c плавающей точкой (игры etc.)
TF32 — до 2,5 PFLOPS — матричные вычисления (ИИ etc.)
FP64 — до 156 PFLOPS — вычисления c плавающей точкой повышенной точности (научные вычисления etc.)

Прямые цены на новый серверный блок не озвучены, однако в качестве примера NVIDIA показала серверный комплект для обучения и инференса ИИ, выстроенный на базе 5 модулей DGX A100. Его мощность потребления составляет 28 кВт, а стоимость около $1 млн.

Читать еще:  Обзор XFX AMD Radeon R9 390X Double Dissipation Core Edition

Этот образец приблизительно в 10 раз дешевле, чем аналогичная система, которую можно было бы получить сегодня, если применять ныне существующие технологии. Для получения сравнимой вычислительной мощности потребуется собрать систему с уровнем потребляемой мощности около 630 кВт. Ее цена составит около $11 млн.

DGX SuperPOD

NVIDIA также представила новое поколение вычислительного кластера DGX SuperPOD с вычислительной мощностью 700 петафлопс в задачах ИИ. Он выстраивается на базе 140 систем DGX A100, объединенных в единый блок с помощью интерконнета NVIDIA Mellanox HDR 200Gbps InfiniBand.

Такой кластер был выстроен самой компанией NVIDIA. Он получил название DGX SuperPOD AI и применяется для внутренних исследований NVIDIA в таких областях, как диалоговый ИИ, геномика и автономное вождение.

NVIDIA DGX A100 — система для ускорения ИИ-вычислений с 8 ускорителями Tesla A100, производительностью 5 петафлопс и ценой $200 тыс.

Поделитесь в соцсетях:

Компания NVIDIA официально анонсировала систему DGX A100, которую недавно «приготовил» Дженсен Хуанг, попутно назвав её самой крупной графической картой. Фактически устройство получило сразу восемь графических ускорителей Tesla A100 на базе NVIDIA GA100 — это первый GPU на базе новой архитектуры Ampere.

Совокупная производительность NVIDIA DGX A100 достигает 5 петафлопс. По данным производителя, каждый ускоритель Tesla A100 способен обеспечить 20-кратный прирост пиковой производительности (в отдельных случаях) по сравнению с предыдущими решениями на базе архитектуры Volta. Более того, если системы предыдущего поколения были ориентированы исключительно на задачи искусственного интеллекта, то DGX A100 также могут использоваться в масштабируемых приложениях, таких как анализ данных и оценка интерференций. Технология Multi-instance GPU (MIG) позволяет разделить A100 на максимум семь отдельных виртуальных GPU для выполнения задач разной степени сложности.

Графический процессор NVIDIA GA100 является крупнейшим в мире GPU на текущий момент, изготовленным по нормам 7-нанометрового технологического процесса. Он содержит 54 млрд транзисторов. По этому показателю новинка более чем в 2 раза превосходит графический процессор Volta GV100, где было 21 млрд транзисторов. Площадь кристалла составляет 826 мм2. GPU Ampere GA100 разделён на 108 потоковых мультипроцессоров, включает 6912 ядер CUDA и 432 тензорных ядра. Частота достигает 1410 МГц. Устройство включает тензорные ядра третьего поколения с поддержкой TF32 (одиночная точность) и FP64 (двойная точность), которые позволяют обеспечить ускорение ИИ-вычислений до 20 и 2,5 раз, соответственно. Графический ускоритель Tesla A100 включает 40 ГБ памяти HBM2 с шиной доступа 5120 бит. Показатель TDP устройства составляет 400 Вт.

Помимо графических ускорителей система DGX A100 также включает 320 ГБ памяти типа HBM2 и высокоскоростные интерконнекты NVIDIA Mellanox HDR с пропускной способностью 200 Гбит/с. Система включает 6 коммутаторов интерфейса NVIDIA NVLink третьего поколения с удвоенной скоростью соединения между GPU. В совокупности они обеспечивают двухсторонний обмен данными с сервером со скоростью 4,8 ТБ/с, а скорость обмена данными между GPU составляет 600 ГБ/с. В устройстве реализована технология MIG, которая позволяет ускорить процессы, запустив решение небольших задач в параллели за счёт разделения DGX A100 на отдельные виртуальные графические процессоры – до 56 в системе. Отдельно упоминается технология Structural sparsity, которая позволяет удваивать производительность, используя разреженность данных в задачах ИИ.

Как отмечает производитель, в случае NVIDIA DGX A100 речь идёт не о бумажном анонсе. Поставки систем уже начались, и первый заказ отправился в Аргоннскую национальную лабораторию Министерства энергетики США, где вычислительная мощь кластера используется для борьбы с коронавирусной инфекцией COVID-19. Также начаты поставки и другим партнёрам, которые вскоре начнут использовать новые системы в своей инфраструктуре. Например, Университет Флориды станет первым высшим учебным заведением в США, который получит системы DGX A100, чтобы внедрить возможности ИИ в свой учебный процесс. Первыми пользователями систем DGX A100 также стали Центр биомедицинского ИИ в Гамбурге, Университет Чулалонгкорна в Таиланде, Немецкий исследовательский центр ИИ, разработчик решений и услуг на базе ИИ Element AI из Монреаля, сиднейская медицинская компания Harrison.ai, компания Artificial Intelligence Office (ОАЭ), ведущая вьетнамская исследовательская лаборатория VinAI Research. При этом цена каждого блока NVIDIA DGX A100 составляет внушительные $200 тыс.

NVIDIA также представила суперкомпьютер в виде кластера DGX SuperPOD, созданный из 140 систем DGX A100. Он способен обеспечить производительность 700 петафлопс в задачах ИИ. Этот суперкомпьютер будет использоваться компанией для внутренних исследований в таких областях, как диалоговый ИИ, геномика и автономное вождение. Отдельно отмечается, что используемая архитектура позволила NVIDIA построить систему всего за месяц. Раньше для таких проектов потребовалось бы значительно больше времени.

Чтобы помочь клиентам быстрее создавать собственные дата-центры на базе графических процессоров A100, NVIDIA также представила референсную архитектуру DGX SuperPOD, в которой описываются принципы проектирования, используемые при создании супервычислительных кластеров на базе DGX A100.

NVIDIA DGX A100: дебютная платформа на базе Ampere предложила пять петафлопс быстродействия

Суперкомпьютерная платформа Cray Shasta была представлена ещё в конце 2018 года, но в вычислительном центре NERSC в Беркли суперкомпьютер Perlmutter начнёт монтироваться только в конце текущего года. Помимо прочего, он интересен способностью объединить процессоры AMD Milan и графические процессоры NVIDIA Ampere.

Соответствующий контракт Национальный энергетический научно-исследовательский вычислительный центр (NERSC) заключил с Cray на этой неделе. По условиям контракта, монтаж системы Perlmutter, чей уровень быстродействия приблизится к эксафлопсу, будет проводиться в две фазы.

В следующем полугодии заказчик получит 12 стоек с узлами на основе графических процессоров NVIDIA следующего поколения, а также уникальную подсистему хранения данных на базе твердотельной памяти совокупным объёмом 35 петабайт, способную передавать информацию со скоростью более 5 Тбайт/с. К середине 2021 года будет поставлено 12 стоек с процессорами AMD EPYC семейства Milan.

Источник изображения: NERSC

В принципе, один процессор AMD Milan пропишется и в каждом вычислительном узле, сочетающем четыре графических процессора NVIDIA следующего поколения и 256 Гбайт памяти. В общей сложности, суперкомпьютер Perlmutter будет использовать более шести тысяч графических процессоров NVIDIA следующего поколения. Их условное обозначение не раскрывается, но принято считать, что речь идёт об Ampere с памятью типа HBM2.

Источник изображения: Twitter, Retired Engineer

Каждый узел «первой фазы» будет использовать по четыре канала интерконнекта Cray Slingshot, который обладает пропускной способностью 200 Гбит/с. Один «лезвийный» сервер разместит по два узла на базе GPU, либо по четыре узла на базе центральных процессоров AMD EPYC. В последнем случае пара процессоров будет соседствовать с 512 Гбайт памяти. Количество узлов на основе AMD EPYC в суперкомпьютере Perlmutter сможет превысить три тысячи штук.

Действующий суперкомпьютер Cori в NERSC используется более чем семью тысячами учёных для расчётов в сфере энергетики, материаловедения, физики, химии, биологии и предсказания климатических изменений. Perlmutter окажется в три или четыре раза производительнее Cori.

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector