3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Репортаж с NVIDIA GPU Technology Conference

Репортаж с NVIDIA GPU Technology Conference

Encore

Адекват

Encore

Адекват

Основные события конференции NVIDIA GPU Technology Conference, которая проходила с 24 по 27 марта в Сан-Хосе, штат Калифорния (один из наиболее известных городов Кремниевой долины), мы кратко освещали в новостных заметках. Главный пункт мероприятия — презентация CEO и основателя компании NVIDIA Дженсена Хуанга, в ходе которой было представлено четыре продукта: графическая архитектура Pascal, видеоадаптер GeForce GTX TITAN Z, платформа Jetson TK1 и рабочая станция для рендеринга Iray VCA.

Кроме того, пользуясь возможностью лично присутствовать на GTC, мы выяснили некоторые подробности об инициативах NVIDIA, которых не найти в официальных презентациях и пресс-релизах, участвовали в сессиях для разработчиков и партнеров NVIDIA, которые используют GPU в различных научных и практических задачах. Настало время свести воедино наиболее интересное из того, что мы видели и слышали на GTC.

Дженсен Хуанг продемонстрировал рабочий прототип модуля на основе архитектуры GPU, которая придет на смену использующимся ныне Kepler и Maxwell — Pascal. Название Volta, которое ранее было зарезервировано за преемником Maxwell, отошло более поздней итерации. Если судить по графику, Pascal принесет радикальное увеличение производительности на ватт по сравнению с Kepler и Maxwell.

Плата прототипа занимает немногим больше места, чем две кредитные карты. Отсутствие видимых разъемов на ней объясняется тем, что модуль соединяется с материнской платой при помощи переходника (riser card). Это означает, что форм-фактор прототипа отличается от существующих карт расширения для шины PCI-E. NVIDIA будет выпускать компактные модули Pascal для установки в серверные корпуса, для чего нужно будет заручиться поддержкой производителей такого оборудования.

Модуль Pascal предназначен для работы с шиной NVLINK, которая в данном случае заменяет PCI-Express как средство коммуникации между GPU и CPU, обещая увеличение пропускной способности в 5-12 раз по сравнению с PCI-E 3.0 и одновременно — трехкратное увеличение энергоэффективности. Топология NVLINK строится на базе блока из восьми линий двусторонней направленности. Отдельно взятый GPU Pascal имеет несколько таких Point-to-Point-соединений, которые можно сгруппировать вместе, образовав высокоскоростной канал связи с CPU, а можно выделить часть из них для коммуникации между графическими процессорами.

Связь GPU и CPU одновременно осуществляется по интерфейсу PCI-E, дабы сохранить преемственность с существующей моделью программирования. Посредством PCI-Express осуществляются транзакции, инициированные на стороне CPU, посредством NVLINK — напротив, транзакции, инициированные GPU. Сам протокол NVLINK, как было сказано представителями разработчика, не совместим с протоколом PCI-Express, но в случае отстутствия поддержки NVLINK со стороны CPU Pascal может работать в legacy-режиме — на PCI-Express. Планируется выпуск плат для профессионального рынка как в представленном компактном форм-факторе, так и в виде привычных плат расширения PCI-E.

NVIDIA уже заручилась поддержкой IBM, которая внедрит NVLINK в будущих поколениях процессоров Power. С другими производителями CPU ведутся переговоры по этому поводу.

Такж в архитектуре Pascal NVIDIA впервые применяет Stacked DRAM (или 3D Memory, в терминологии самой NVIDIA). Такие чипы представляют собой несколько микросхем DRAM, соединенных между собой еще на стадии производства полупроводниковой пластины (wafer). Согласно одному из слайдов, посвященных Pascal, его шина будет в два-четыре раза шире по сравнению с текущим поколением GPU, вплоть до тысяч бит. Кроме того, Stacked DRAM обладает в четыре раза меньшим энергопотреблением по сравнению с обычной памятью.

Чипы размещаются на одной подложке (interposer) с GPU, что облегчает разводку сложнейшей шины. NVIDIA, по всей видимости, будет поставлять партнерам interposer с заранее установленным GPU и видеопамятью. 18 чипов, окружающих подложку GPU на плате прототипа, представляют собой компоненты системы питания.

3DRAM будет применяться во всем диапазоне продуктов на базе архитектуры Pascal, включая мобильные GPU.

Отметим, что NVIDIA пока не раскрывает никаких подробностей о потребительских продуктах на базе GPU Pascal. Будет ли в десктопных видеоадаптерах применяться шина NVLINK, остается неизвестным, как и любые подробности касательно архитектуры самого графического процессора.

GeForce GTX TITAN Z

Вслед за Pascal была анонсирована «двухголовая» видеокарта, представляющая собой комбинацию двух чипов GK110 с полностью функциональным набором ядер CUDA — 2880. Впрочем, если судить по тому, что заявленная производительность TITAN Z составляет 8 TFOPS, а единственный адаптер GeForce TITAN Black имеет вычислительную мощность 5,1 TFLOPS, сдвоенный адаптер должен работать на пониженных частотах.

На GTC мы успели сделать несколько эксклюзивных кадров TITAN Z. Адаптер выполнен в симметричном корпусе с единственным вентилятором системы охлаждения — он напоминает GeForce GTX 690, за исключением того, что TITAN Z занимает не два, а три корпусных слота. В апреле ожидается более подробная информация об устройстве и возможность получить тестовый семпл для полноценного обзора.

Рекомендованная розничная цена GeForce GTX TITAN Z для рынка США составляет $2 999. Это практически в три раза больше, чем стоимость единственной платы GTX TITAN Black. По всей видимости, TITAN Z, как и вся линейка TITAN, предназначен не столько для геймеров, сколько для тех пользователей, которые требуют поддержки расчетов с двойной точностью (FP64), но по каким-либо причинам не согласны на покупку NVIDIA Tesla, которая является специализированным акселератором вычислений.

Третий из крупных анонсов GTC — платформа для разработчиков Jetson TK1 на базе SoC Tegra K1. Цель NVIDIA — подстегнуть разработку встраиваемых систем, использующих GPU для параллельных вычислений, включая те задачи, в которых ранее использовались чипы FPGA, ASIC и DSP.

GPU в составе чипа обладает архитектурой Kepler и содержит 192 ядра CUDA. Таким образом, Jetson TK1 является идейным наследником предыдущего комплекта для разработчиков под названием Kayla, который был представлен на прошлогодней GTC и представлял собой двухчиповое решение на базе Tegra 3 и дискретного GPU GK208. К слову, в следующей итерации платформы Tegra — Erista — будет использоваться GPU на архитектуре Maxwell.

На плате Jetson TK1 распаяно 2 Гбайт RAM, 16 Гбайт flash-памяти, слот для SD-карт и порт SATA. Для коммуникации с внешними устройствами предусмотрены разъемы USB 3.0, HDMI 1.4, Gigabit Ethernet и COM-порт. На SoC нет предустановленного кулера, но благодаря тому, что энергопотребление Tegra K1 не превышает 10 Вт, разработчики могут решить эту задачу самостоятельно.

Jetson поддерживает полный набор инструментов программирования под API CUDA 6.0. Платформа работает под управлением 32-битной версии Ubuntu 13.04 для архитектуры Tegra. Кроме того, NVIDIA портировала на ARM-библиотеки VisionWorks, которые содержат алгоритмы так называемого машинного зрения — оно применяется в робототехнике, автомобильных компьютерах, системах дополненной реальности и так далее.

Jetson TK1 предназначен для разработки приложений под Tegra K1, которые затем будут перенесены на готовые устройства произвольного форм-фактора. С другой стороны, многие готовы использовать Jetson TK1 как он есть, особенно в таких случаях, когда нет ограничений на габариты. Устройство можно заказать

за $192. Поставки начнутся в апреле. Тогда же, как можно предположить, партнеры NVIDIA получат первые партии SoC Tegra K1.

Помимо платы Jetson, представленной на GTC, NVIDIA выпустила аналогичный комплект Jetson Pro, предназначенный специально для установки в автомобили. В отличие от Jetson TK1, Jetson Pro комплектуется относительно старым SoC Tegra 3, но обладает слотом PCI-E для опциональной установки дискретного GPU.

В ходе GTC были продемонстрированы примеры практического применения Tegra K1 во встраиваемых компьютерах. NVIDIA переделала приборные панели нескольких авто, полностью заменив механические органы управления бортовыми системами огромным сенсорным дисплеем. Отдельный экран занимает место приборной панели.

К слову, электрокар Tesla Model S в штатной поставке оснащается бортовым компьютером на базе Tegra с 17-дюймовым экраном.

Но CUDA во встраиваемых решениях имеет и более интересные применения, нежели рендеринг пользовательского интерфейса. На GTC мы увидели модифицированную Audi, которая обладает возможностями автопилота. С помощью библиотек VisionWorks на Tegra K1 реализуются функции машинного зрения для помощи человеку в процессе вождения. Бортовой компьютер находит свободное место для парковки в ряду машин, может отслеживать разделительные полосы на дороге. Камера, обращенная внутрь салона, наблюдает за тем, не уснул ли водитель за рулем.

NVIDIA GTC 2020: пленарный доклад отменен, новости выйдут 24 марта (обновление: не выйдут)

Недавно NVIDIA решила отменить свою ежегодную конференцию GPU Technology Conference в традиционной форме. Все пленарные доклады и семинары планировалось провести в онлайне. После чего записи должны были появиться в открытом доступе. Таким образом, GTC 2020 должна была пройти в виде цифровой конференции.

NVIDIA анонсировала все новинки в сфере высокопроизводительных вычислений HPC на предыдущих GTC во время пленарных докладов, будь то архитектуры GPU, ускорители GPGPU, серверы или программное обеспечение. Кроме того, свои доклады обычно представляли партнеры NVIDIA. Пленарные доклады NVIDIA обычно читал CEO компании Дженсен Хуанг на протяжении 120 минут или даже дольше.

Но без «живой» аудитории NVIDIA уже не видит причин проводить пленарный доклад:

«NVIDIA today announced that, in light of the spread of the coronavirus, it is deferring plans to deliver a webcast keynote as part of the digital version of its GPU Technology Conference later this month.

The company will, instead, issue on Tuesday, March 24, news announcements that had been scheduled to be shared in the keynote. This will be followed by an investor call with NVIDIA founder and Chief Executive Officer Jensen Huang, which will be accessible to other listeners.»

Так что 24 марта NVIDIA проведет телефонную конференцию для инвесторов, на которой объявит новости и ответит на вопросы. У NVIDIA есть несколько анонсов, которые компания объявит. GTC пройдет параллельно в цифровой форме, семинары будут проведены в онлайне. Но пленарные доклады и лекции без «живой» аудитории отменены.

Читать еще:  Обзор электросамоката Ninebot Kickscooter ES1

Нас ждут большие анонсы?

Остается вопрос: будет ли NVIDIA делать какие-либо важные анонсы без пленарного доклада? По слухам, NVIDIA планировала представить новую архитектуру HPC под кодовым названием Ampere, и конференция под собственной эгидой была бы отличным местом для подобного анонса. У NVIDIA на этот год все же большие планы, которые связаны, в том числе, и с давлением конкурентов.

С анонсами AMD (суперкомпьютер El Capitan на 2 экзафлопа) и Intel (суперкомпьютер Aurora на Xe GPGPU) давление на NVIDIA усилилось. Бизнес-дата центров очень важен для NVIDIA, через Compute Unified Device Architecture (CUDA) компания построила экосистему, которая обусловила лидерство в сегментах HPC и искусственного интеллекта. Но самым большим недостатком NVIDIA является то, что компания не может предложить процессоров, то есть готовых систем, в отличие от AMD и Intel.

Обновление: новостей не будет

Как NVIDIA только что объявила, на онлайновой GTC не планируется делать каких-либо анонсов, касающихся программного или аппаратного обеспечения.

«We have exciting products and news to share with you. But this isn’t the right time. We’re going to hold off on sharing our GTC news for now.

That way, our employees, partners, the media and analysts who follow us, and our customers around the world can focus on staying safe and reducing the spread of the virus.»

То есть новостей о новой архитектуре HPC, а именно Ampere, пока не будет.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Забудьте про апгрейд: куда пропали новые видеокарты?

29 марта в калифорнийском городе Сан-Хосе завершилась конференция NVIDIA GPU Technology Conference — GTC 2018. На ней технологический гигант традиционно подвёл итоги года, рассказав о текущих и будущих разработках. Разумеется, с демонстрацией полученных достижений. И хотя анонс новых видеокарт не состоялся, понять ближайшие планы «зелёной» компании можно уже сейчас.

Гадание на технологии

Журналисты ещё за пару месяцев до GTC 2018 активно предсказывали, что NVIDIA анонсирует не то новую архитектуру, не то новые видеокарты на текущей. Результат гаданий вы и сами знаете — он нулевой. Что ж, зато другие партнёры оказались более разговорчивыми. Мы собрали все имеющиеся на данный момент сведения о том, когда ждать пополнение в линейке GeForce.

Трассировка лучей

За неделю до презентации в Сан-Хосе появился ролик, демонстрирующий технологию трассировки лучей в реальном времени (NVIDIA RTX). Позднее, во время конференции, Фрэнк Делиз — директор по развитию продуктов NVIDIA — рассказал, что начинал свою карьеру в киноиндустрии.

Он пояснил, что трассировка лучей активно применяется для достижения реалистичной симуляции освещения и отражений при видеомонтаже. Игропрому эта технология долгое время была недоступна — сказывалась высокая ресурсоёмкость алгоритмов. Многие игры до сих пор полагаются на всевозможные ухищрения и упрощённые технологии.

Подход NVIDIA заключается в кратном уменьшении количества лучей и последующей интерполяции результата с помощью различных фильтров — в результате разработчики смогут добиться реалистичного освещения, отображаемого в реальном времени. В качестве примера инженеры компании опубликовали ряд технических демонстраций, которые показывают преимущества и принципы работы RTX. Это и отрисованный на Unreal Engine шуточный эпизод из Star Wars, и вполне реальная технодемка грядущей Metro Exodus. Не отстаёт и Microsoft, которая уже представила API DirectX Raytracing (DXR). А значит, появление игр с поддержкой прорывной технологии — это лишь вопрос времени.

Новый тип памяти для всей линейки GPU

Изначально память типа GDDR5X была предложена как временное решение на пути перехода индустрии к перспективной GDDR6. По сравнению с нынешним поколением новая DRAM в два раза быстрее. А благодаря уменьшению рабочего напряжения с 1,5 до 1,35 вольт удалось повысить энергоэффективность. Следовательно, нас ждут гораздо более производительные, но по-прежнему холодные видеокарты. Что ещё нужно для счастья? Заядлых геймеров вряд ли остановит даже тот факт, что производство GDDR6 будет стоить примерно на 20% дороже, чем GDDR5 на момент запуска. Впрочем, цена должна снизиться по мере налаживания массового выпуска и переоснащения конвейеров линий.

Первой использование памяти HBM в графических ускорителях развернула AMD. И даже несмотря на дороговизну производства, перспективы скоростного решения не остались без внимания конкурента. Разработка HBM3, согласно данным Samsung, уже ведётся. Следовательно, флагманские продукты от NVIDIA на базе высокоскоростной памяти появятся, скорее всего, в 2019-2020 годах.

Благодаря стараниям инженеров тайваньского полупроводникового гиганта TSMC, размеры транзисторов и энергопотребление новых чипов значительно уменьшатся. Грядущие ускорители наверняка получат техпроцесс 12 нм. Большинство действующих флагманов базируются на 16-нм технологии, и лишь отдельные модели в порядке эксперимента получили 14-нанометровые GPU.

Теория большого видеочипа

«Это всё интересно, но где новые видеокарты?», — спросите вы. Прямого ответа на конференции озвучено не было. Впрочем, корреспонденты издания Gamers Nexus выведали любопытную деталь: Hynix начнёт массовое производство памяти GDDR6 через три месяца, и она будет использоваться в нескольких продуктах NVIDIA. И хотя на конференции речь шла о компонентах автомобильного автопилота, журналисты прогнозируют, что GDDR6 появится в большинстве видеокарт линейки GeForce.

Также удалось узнать, что чипы получат 180 контактов BGA против 170 у предшественника, — это обеспечит прирост пропускной способности. Ожидаемая скорость передачи данных — 16 Гбит/с. Планируется выпуск в вариантах ёмкостью 8 и 16 Гбайт (по 1 и 2 Гбайт на микросхему соответственно). Помимо нового типа памяти ускорители должны получить и архитектуру Volta, поддерживающую, среди прочего, упомянутые эффективные технологии трассировки лучей в реальном времени. Однако полноценная поддержка GameWorks RTX будет добавлена в движок Unreal Engine 4.20 не раньше июля. Это, пожалуй, самый недвусмысленный намёк на дату релиза графических ускорителей NVIDIA.

Однако недостаточно произвести одни лишь чипы — полный цикл создания GPU включает в себя проектирование референсного дизайна, доработки от вендоров, тестирование и работу над ошибками. Другими словами, ждать новых игровых видеокарт NVIDIA стоит — при самом оптимистичном раскладе — в конце июля. Или, что более вероятно, не раньше сентября 2018 года.

А что в итоге? Прогноз до безобразия предсказуемый. Долгожданные графические ускорители на прилавки поступят ближе к осени, а стоить будут дороже, чем предыдущие релизы NVIDIA на момент своего запуска в розницу. Да и майнеры пока что исчезать не собираются, так что проблема возможного дефицита уже нависает над прилавками. Стоит ли расстраиваться? Пожалуй, да. Остановит ли всё это истинных «пека-бояр»? Ответ на этот вопрос вы знаете не хуже нас.

Новый графический чип обошелся Nvidia в $3 млрд

Новое поколение производительной графики

Nvidia в рамках конференции GTC 2017 анонсировала новое поколение графической архитектуры Volta, первый графический процессор Volta GV100 на его основе, а также первый графический ускоритель на этом чипе – Tesla V100, предназначенный для работы в составе производительных дата-центров.

По словам Дженсена Хуанга (Jen-Hsun Huang), представившего новую архитектуру, разработка чипа обошлась компании примерно в $3 млрд. Новый чип содержит более 5000 потоковых процессоров, новые исполнительные блоки Tensor для увеличения производительности в матричных вычислениях. Процессор Volta GV100 также обладает кеш-памятью первого и второго уровней, текстурными блоками, контроллером VRAM, системным интерфейсом и по 8 блоков Tensor на мультипроцессорный кластер (SM), в сумме 672 блоков.

Как отметил в своем выступлении Дженсен Хуанг, архитектура Nvidia Volta призвана стать катализатором новой волны достижений в области искусственного интеллекта и высокопроизводительных вычислений. Первый процессор на базе Volta – GPU Tesla V100, разработан специально для дата-центров и обеспечивает высокую скорость и масштабируемость обучения и взаимодействия глубоких нейронных сетей, а также ускоряет высокопроизводительные и графические вычисления.

Подробности о новой архитектуре

Volta представляет собой седьмое поколение графических архитектур Nvidia. По данным компании, чип обеспечивает производительность задачах в глубокого обучения, эквивалентную производительности 100 современных процессоров.

Пиковая производительность Volta в 5 раз выше предыдущей архитектуры Nvidia Pascal и в 15 раз выше производительности представленной два года назад архитектуры Nvidia Maxwell. По данным компании, темпы роста производительности графических архитектур Nvidia вчетверо больше того, что предсказывал закон Мура.

Новый процессор содержит порядка 21,1 млрд транзисторов, площадь его кристалла составляет 815 кв. мм.

Выпуском графических процессоров Nvidia GV100 займется тайваньский производственный холдинг TSMC. Чипы будут производиться по технологическому процессу FFN с соблюдением норм 12-нм.

В Nvidia планируют, что архитектура Volta станет новым стандартом высокопроизводительных вычислений. Благодаря объединению ядер CUDA и нового ядра Volta Tensor в унифицированной архитектуре, один сервер на базе GPU Tesla V100 сможет заменить сотни центральных процессоров в высокопроизводительных вычислениях. Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс, быстродействие GV100 в вычислениях с точностью FP32 составляет 15 Тфлопс, FP64 7,5 Тфлопс.

Список ключевых технологий GPU Tesla V100, которые позволили преодолеть 100-терафлопсный рубеж в задачах глубокого обучения, включает специализированные ядра Tensor, созданные для ускорения работы искусственного интеллекта. Оснащенный 640 ядрами Tensor, процессор V100 обеспечивает производительность 120 терафлопс в глубоком обучении, что эквивалентно производительности 100 CPU.

Интерфейс NVLink поднимает на новый уровень скорость взаимодействия между графическими и центральным процессорами, вдвое увеличивая пропускную способность по сравнению с предыдущим поколением NVLink.

Читать еще:  Ноутбук Alienware M11x R3: личный звездолёт

Графическая память HBM2 DRAM с производительностью до 900 ГБ/с, разработанная совместно с Samsung, увеличивает полосу пропускания на 50% по сравнению с предыдущим поколением. Ядро Volta GV100 взаимодействует с буферной памятью HBM2 по 4096-битной шине.

Тактовая частота ядра Volta GV100 составляет 1455 МГц. Энергопотребление ускорителя Tesla V100 не превышает 300 Вт, что практически сравнимо с показателями ускорителя предыдущей архитектуры Tesla P100.

В рамках анонса также было представлено программное обеспечение с оптимизацией под архитектуру Volta, включая CUDA, cuDNN и TensorRT.

Новые суперкомпьютеры DGX на базе Volta

Вместе с новой архитектурой Nvidia также представила обновленную линейку суперкомпьютеров с искусственным интеллектом DGX AI. Системы построены на GPU Nvidia Tesla V100 и используют полностью оптимизированное для задач ИИ программное обеспечение.

Производительность такой системы втрое выше, чем у предыдущего поколения DGX, и соответствует мощности примерно 800 CPU в рамках всего одной системы.

Платформа Nvidia GPU Cloud

Новая Nvidia GPU Cloud (NGC) представляет собой облачную платформу с удобным удаленным доступом для разработчиков — с помощью ПК, системы DGX или облака, к полноценному набору инструментов внедрения ИИ.

Благодаря NGC, разработчики смогут получать доступ к новейшим оптимизированным фреймворкам и передовым ускорителям.

Nvidia и сотрудничество с Toyota

На GTC 2017 также было объявлено о сотрудничестве Nvidia и Toyota.

Toyota планирует начать внедрение автомобильной вычислительной платформы с поддержкой искусственного интеллекта Nvidia DRIVE PX в системы автономного вождения, запланированные к выводу на рынок в течение ближайших лет.

Команды инженеров обеих компаний уже работают над созданием программного обеспечения на ИИ-платформе Nvidia, которое позволит лучше понимать огромные объемы данных, получаемых с автомобильных датчиков, и автономно справляться с широким спектром ситуаций на дороге.

Для того чтобы справляться с задачами подобного уровня вычислительной сложности, в прототипах автомобилей зачастую используют мощные компьютеры, которые занимают весь багажник. Платформа Nvidia DRIVE PX на базе процессора нового поколения Xavier помещается в руке, обеспечивая при этом до 30 млрд операций глубокого обучения в секунду.

Проект SAP Brand Impact

На конференции был представлен проект SAP Brand Impact на базе решений Nvidia для глубокого обучения. Проект обеспечивает измерение атрибутов бренда – например, логотипов, практически в реальном времени.

Эффективный анализ видеоконтента стал возможен благодаря использованию для анализа глубоких нейросетей, обученных на Nvidia DGX-1 и TensorRT.

«С такими партнерами как Nvidia, наши возможности безграничны, — отметил CIO SAP Юрген Мюллер (Juergen Mueller). – Новые приложения, беспрецедентная производительность с нынешних приложениях и простой доступ к сервисам машинного обучения обеспечит вам высокий уровень интеллекта вашего собственного предприятия».

О конференции GTC 2017

Ежегодная конференция Nvidia по GPU-технологиям – GPU Technology Conference (GTC), проходит на этой неделе в Сан-Хосе, Калифорния.

В конференции принимают участие порядка 7000 специалистов, для которых будет представлено около 600 технических сессий, 150 стендов, 310 сессий по искусственному интеллекту и 67 лабораторий по технологиям глубокого обучения (Deep Learning).

NVIDIA GPU Tech Conference report

Posted by John Montgomery ON March 20, 2013

The GPU Technology Conference (GTC) has grown considerably over the years, a reflection of the increasing use of GPU processing. For the vfx and production community, this tech is has become an incredibly important part of the process — one could argue critical part — and its why fxguide is covering the event.

This holds especially true for NVIDIA GPUs, being widely adopted across numerous industries. In 2008, there were 100 million installed CUDA GPUs and 150,000 CUDA programming kit downloads. Today, there are over 430 million installed CUDA GPUs and 1.6 million downloads of CUDA

The conference itself has also grown in size and scope, with tracks in industries from design to medical, entertainment & media to finance. This is a high level professional conference for anything NVIDIA GPU. The second day of the conference opened today in San Jose with a keynote by Jen-Hsun Huang, Co-Founder, President and CEO of NVIDIA. There were several items of interest to the vfx and production community, including key demos and major product announcements.

GPU Roadmap

Huang laid out the GPU roadmap, which continues the trend of doubling the GFLOP performance per watt every two years. This is an important point to NVIDIA — they are very much focused on making the processing much more energy efficient over time. It’s a big deal and an important distinction for the future. This is something frankly you don’t see much in CPU development from Intel, especially on the desktop. As installations such as large render farms scale in size, this differentiation will become critically important (it already is). Especially if some of the shortcomings dealing with memory access can be addressed in the GPU in the future. And it looks like it will be dealt with.

The next iteration, Maxwell, is due in 2014 and aims to have “unified virtual memory”. This makes it possible for the GPU operations to read and see the CPU memory and the CPU to see the GPU memory.

What does this tech mean for you?

Effectively, the bottom line is that it should make it easier to program for the GPU, which means better and more efficient tools for artists.

Kepler GPU memory

The next step, Volta (due date was not given), is a nod to Alessandro Volta. Volta is credited with inventing the battery, and Huang says the name conveys the fact that they aim to make the architecture even more energy efficient. But the big news in Volta is the memory.

In the current Kepler architecture, the GPU chip is surrounded by the memory. And while the bandwidth of the memory on a GPU is greater than that on the CPU, there simply isn’t enough memory on the GPU for many of the tasks needed in vfx and post. Moving data from the GPU to the memory chip on the card is inefficient as the card itself has speed limitations due to its size and it actually takes (relatively) considerable power consumption to do the move.

Volta: Stacked DRAM

In Volta, the new generation will come with something new called “stacked DRAM”. This will solve having to get memory off the actual GPU chip and onto the surrounding board. The solution is to actually move the memory and stack multiple memory chips it on top of the GPU on a silicon substrate (a slice of silicon). They then cut through the memory, directly connecting the memory to the GPU.

What does that tech mean to you?

How does 1TB a second bandwidth through the GPU sound? Pretty damned fast ! However, getting the data to the GPU is another matter, – but at least it appears as though the GPU itself will no longer be a bottleneck.

FaceWorks

There was a bit of eye candy, with a demonstration of real-time GPU rendering of a talking human, utilizing a bit of tech NVIDIA calls “FaceWorks”.

FaceWorks render: realtime results

In partnership with Paul Debevec and the crew at ICT, the initial data was acquired on the LightStage. However, that data ends up being around 32GB in size, which is far too much to be dealt with by a GPU’s limited memory bandwidth (though stay tuned for info about upcoming tech).

The data is reduced in size by various methods, one way being to pare down the textures by breaking it into tiles and then discarding tiles which are nearly identical to one another. In the end, through texture and mesh reduction the data can be reduced to around 300MB. While it wasn’t explicitly mentioned, the final HD resolution of the renders also impacts the needed resolution of the data.

The actual rendering is done through an 8000 instruction program which handles articulating geometry to transition between poses, as well as pixel processing of the renders and comping over the various HDR backgrounds. All in all, it takes close to two teraflops of performance, which is actually only about half of the capacity of the recently introduced GTX Titan. The end result is impressive. Admittedly, it wouldn’t be considered final render for motion picture work, but this is a real time talking head that looks pretty damned good. It’s complete with special rendering tweaks for the eyes as well as the obligatory sub surface scattering.

GRID VCA

Huang also introduced a new bit of hardware called the GRID Virtual Computing Appliance, or GRID VCA . This is a four rack unit high system that comes in two varieties:

  • 8 GPU system with 16 threads of Xeon CPU and 192GB of system RAM ($24,900 + $2,400/year for software license).
  • 16 GPU system with 32 threads of Xeon CPU and 384GB of system RAM ($39,900 + $4,800/year for software license)

NVIDIA already has enterprise level GRID hardware intended for very large installations with major IT support. The new GRID VCA is intended for small to medium size installations, allowing 8 concurrent connections for the base level system and 16 concurrent for the larger system.

So what’s the idea behind it?

Читать еще:  Повышение спроса на дисплеи во втором квартале вряд ли сильно поможет LG Display

Basically the unit has a virtualized environment on the VCA hardware set up by NVIDA at shipping to run a software application of some kind, ideally a GPU-intensive application. The end user then uses a lightweight client app to connect over the network to the VCA from their Windows, Linux, or OSX-based system. With the client app, it appears to the end user as though they’re running the application on their local machine….but in reality it is running on the GRID VCA in the datacenter. What is happening is that the graphics card “output” in the VCA is being sent over the network to the client as data instead of driving a graphics card.

If you’re familiar with VNC (or screen sharing), this is quite similar to that. The benefit is that as an artist you could be using an underpowered computer such as a Mac Book Air, yet effectively running a full CUDA enabled version of After Effects and be able to take advantage of ray traced rendering. They demoed at the keynote, “running” 3dsMax on your MacBook Pro…an app which doesn’t run on OS X.

This kind of tech is often used at vfx facilities to more easily manage installs, version changes, and even remote collaboration. Servers in the machine room run production software in virtualized systems and the artists computers are simply viewing a display of the virtualized desktop and app. This also helps with a major concern at facilities: media security. Because artists don’t actually have direct access to clips on their system, facilities can more easily meet the stringent security requirements studios place on their footage.

In the max system, there are eight graphics cards, each with two GPUs. In the initial shipping version only one GPU may be assigned per session, so a user can’t take advantage of utilizing multiple GPUs in a single session. Storage is via a NAS, as there is no built in storage and connectivity to storage is through 10 GigE.

The appliance is specifically designed for GPU-heavy applications. The specs list up to 16 concurrent users, but that many concurrent users could be problematic for many applications in the vfx industry due to the limited available CPU cycles (16 or 32 threads). So even though Adobe Premiere was demoed on stage for the keynote, the VCA isn’t ideal for an app like Premiere because it uses a lot of CPU and also a lot of storage bandwidth. 3D applications are a more appropriate use case, as would setting up several render nodes for After Effects’ raytracing engine. NUKE also wouldn’t be appropriate due to it’s use of CPU.

In the enterprise version of GRID, several virtualization solutions can be used, such as Citrix, VMWare, and Microsoft. For the new appliance version, NVIDIA created their own custom connectivity which is designed to be used over a LAN. The system comes totally pre-configured for user sessions. The goal was to make it easier to install in a facility that didn’t have a large IT staff.

OTOY Octane Renderer

Jules Urbach, OTOY chief executive officer, took to the stage today at the GTC keynote to show off their cloud-based Octane rendering solution. He demoed using their new service, utilizing 122 GPUs to render a fully ray traced scene from a Hasbro Transformers commercial in a 3dsMax viewport. As he moved items in the scene, it would only take about a second to fully render the frame.

fxguide covered the Octane renderer in an article earlier this year, but in brief it is the first unbiased 3D ray traced renderer to work exclusively on the GPU and more specifically only on NVIDIA CUDA GPUs. It achieves phenomenal results, with ten to fifty time speed increase over CPU based unbiased systems….all without sacrificing quality.

The “new” news related to the presentation is that pricing for the cloud-based Octane renderer was announced today. Their initial data center will have room for ten racks and they’ll be able to fit 160 GPUs per rack, connected entirely by infiniband. When the cloud rendering service enters beta in a couple of weeks, the pricing model they’ll be starting with pegs a maximum cost of $1/hr for 1 GPU.

They admit this is all new and they’re very open to looking at other pricing methods. For instance, they might also look to a spot model like Amazon AWS. This means that GPUs which weren’t currently being used could be offered at a lower price point to the end user, but the user would get bumped back in a holding pattern if standard jobs came through. Looking towards the future, Urbach says he expects the price to drop and the performance to increase, saying that one could render a :30 HD scene for a few dollars by as soon as next year. In a session later in the day, he also showed their realtime research game renderer, Brigade, and it was quite impressive. It showed fast realtime ray-traced renders while a car was being driven through the scene, complete with game engine physics.

We’ll have more coverage this week from GTC, including notes from Douglas Trumbull’s HFR presentation, some non-vfx tech covering live graphics for The America’s cup, and GPU tech being used at Pixar.

Новости про Ampere

NVIDIA анонсирует самый крупный процессор — GPU Ampere A100

После нескольких небольших тизеров компания NVIDIA наконец-то представила новый графический процессор архитектуры Ampere под названием GA100, а также тензорный ускоритель A100.

Архитектура Ampere станет единой для всех типов ускорителей NVIDIA, при этом её реализация будет несколько отличаться в зависимости от назначения. Пока компания ведёт речь лишь о профессиональном применении, таком как ИИ, ЦОД и облачные вычисления. Для этих целей и предлагается новый GPU A100 с производительностью 20 терафлопс.

Чип A100 станет наследником Volta V100. Он производится по 7 нм нормам на заводах TSMC и содержит 54 миллиарда транзисторов, вдвое больше, чем у предшественника. В операциях обычной точности производительность составит 19,5 Тфлопс, 9,7 Тфлопс при двойной точности вычислений.

Если говорить о ядрах Tensor Core, применяемых в машинном обучении, то их производительность составляет 312 Тфлопс в задачах Tensor точности FP16. Что касается самой платформы ускорителя, то она содержит 40 ГБ памяти HBM2 с пропускной способностью в 1,6 ТБ/с. Количество ядер CUDA равно 6912 штукам. Тепловой пакет процессора A100 составляет 400 Вт, что на 50 Вт выше, чем у V100.

К сожалению, в ходе презентации, которую Дженсен Хуан вёл из дома, он ничего не сообщил о том, когда же новая архитектура найдёт себе место в игровых видеокартах GeForce.

NVIDIA отменила GTC

За последние пару недель компания NVIDIA меняла планы проведения конференции Graphics Technology Conference. Изначально, было решено провести мероприятие в цифровом формате, однако потом, по мере развития пандемии, компания заявила о серии информационных анонсов.

Теперь же, когда ситуация стала ещё хуже, было сказано, что «новости из GTC могут подождать». Людям по всему миру приходится отказываться от своих дел и ограничивать перемещение. Чтобы ограничить мобильность людей и обеспечить их концентрацию на собственной безопасности, фирма решила «придержать» распространение информации, подготовленной для GTC.

При этом ранее компания говорила об «удивительных продуктах и новостях», которыми она хочет поделиться. Теперь же она отметила, что «наступило время сфокусироваться на семье, наших друзьях и обществе». Таким образом, анонс новых GPU будет произведён позднее.

Также компания отметила, что её работники трудятся удалённо, находясь в своих безопасных домах. В то же время те люди, которые не могут так делать, на этот период останутся дома с сохранением полной заработной платы.

Появился бенчмарк двух новых видеокарт NVIDIA

В Сети опубликовали несколько бенчмарков неизвестных ускорителей от компании NVIDIA. Благодаря тому, что на скриншотах видны спецификации этих GPU , мы можем утверждать, что речь идёт о процессорах Ampere.

Итак, в тесте Geekbench появились спецификации двух ускорителей. В одном из них 108 вычислительных блоков. Учитывая, что NVIDIA обычно используется по 64 шейдера на один вычислительный блок, этот чип должен иметь 6912 шейдерных процессоров. Поскольку чип имеет тактовую частоту всего 1,01 ГГц и связан с памятью объёмом 46,8 ГБ, можно говорить, что речь идёт о некоем профессиональном решении. В тесте этот ускоритель показал 141 654 балла.

NVIDIA Ampere будет на 75% быстрее нынешних GPU

То, что NVIDIA готовит нечто грандиозное, ни у кого не вызывает сомнений. Ранее ходили слухи, что чипы Ampere будут в полтора раза быстрее GPU . Однако описание нового суперкомпьютера говорит, что Ampere будет ещё быстрее.

Готовящейся к запуску суперкомпьютер Big Red 200 будет содержать ускорители расчётов NVIDIA Ampere. В основе суперкомпьютера лежат невероятные 672 двухсокетных узла. В каждом из них будут работать процессоры AMD EPYC 7742 (по 64 ядра и 128 потоков), что всего составит 86 016 ядер и 172 032 потока.

Суперкомпьютер Big Red 200

На наш взгляд такое сравнение не совсем корректно, ведь апгрейд будет осуществлён не с GPU Turing, а с более старых решений Volta, которые практически не используются в бытовом сегменте.

Как бы то ни было, больше подтверждённой информации мы сможем узнать в марте, когда в ходе GPU Technology Conference (GTC) NVIDIA анонсирует процессоры архитектуры Ampere.

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector