Поиск по сайту

up
Banner

Компьютерные новости

Видеокарты

NVIDIA на GTC 2016: анонс микроархитектуры NVIDIA Pascal и ряд других инноваций

В калифорнийском городе Сан-Хосе успешно стартовала GPU Technology Conference (GTC), в рамках которой компания NVIDIA сделала ряд важных анонсов своих будущих продуктов. В первую очередь многих интересует микроархитектура NVIDIA Pascal, поэтому с нее и начнем.

NVIDIA Tesla P100

NVIDIA Tesla P100

Первым официальным анонсом новой микроархитектуры стали не массовые пользовательские видеокарты, а ускоритель для сверхмасштабируемых дата-центров − NVIDIA Tesla P100. С его помощью можно создавать новый класс серверов с производительностью уровня нескольких сотен классических серверов на базе CPU. Мощности подобных решений будет достаточно для нового поколения научных приложений и задач, связанных с искусственным интеллектом, для которых требуются сверхэффективные, ультраскоростные серверные узлы.

NVIDIA Tesla P100

Модель NVIDIA Tesla P100 использует пять передовых технологий для обеспечения высокой производительности и эффективности использования ресурсов:

  • Микроархитектура NVIDIA Pascal повышает скорость обучений нейронных сетей в 12 раз по сравнению с решениями на базе NVIDIA Maxwell.
  • Высокоскоростной интерфейс NVIDIA NVLink используется для связи между несколькими графическими процессорами. Он более эффективно распределяет нагрузку между GPU, увеличивая пропускную способность в 5 раз по сравнению с лучшими на сегодня решениями в данном классе. NVIDIA NVLink позволяет связать до восьми GPU NVIDIA Tesla P100. IBM уже внедрила этот интерфейс в свои процессоры POWER8 для высокоскоростной коммуникации между CPU и GPU.
  • 16-нм FinFET-технология позволила интегрировать в процессор 15,3 млрд. транзисторов, что гарантирует высочайшую производительность и энергоэффективность.
  • Инновационный подход к строению памяти Chip-on-Wafer-on-Substrate (CoWoS) с HBM2 повышает пропускную способность в 3 раза (до 720 ГБ/с) по сравнению с архитектурой NVIDIA Maxwell.
  • Новые алгоритмы искусственного интеллекта обеспечивают пиковую производительность свыше 21 TFLOPS в задачах глубокого обучения.

Использование ускорителя NVIDIA Tesla P100 позволяет достичь феноменальных результатов. Например, приложение молекулярной динамики AMBER работает быстрее на одном сервере с NVIDIA Tesla P100, чем на 48 обычных двухсокетных серверных узлах. А для обучения популярной глубокой нейронной сети AlexNet потребуется 250 двухсокетных серверных узлов, чтобы достичь производительности восьми GPU NVIDIA Tesla P100.

Ключевые характеристики NVIDIA Tesla P100:

Модель

NVIDIA Tesla P100

Тип памяти

CoWoS HBM2

Объем памяти

16 ГБ

Полоса пропускания

720 ГБ/с

Интерфейс

Двунаправленный NVIDIA NVLink

Пропускная способность интерфейса

160 ГБ/с

Скорость вычислений двойной точности

5,3 TFLOPS

Скорость вычислений одинарной точности

10,6 TFLOPS

Скорость вычислений половинной точности

21,2 TFLOPS

Дополнительные преимущества

Улучшенная программируемость с движком перехода по страницам и унифицированной памятью
Защита ECC для повышенной надежности
Оптимизация под сервер для высокой пропускной способности и надежности дата-центра

Обновления в NVIDIA SDK

Возросшая вычислительная мощность и расширенные функциональные возможности потребовали обновления платформы NVIDIA SDK. В число ключевых изменений входит NVIDIA CUDA 8. Новейшая версия платформы параллельных вычислений NVIDIA представляет разработчикам прямой доступ к новым возможностям микроархитектуры NVIDIA Pascal, включая унифицированную память и интерфейс NVIDIA NVLink. Кроме того, в актуальный релиз входит библиотека анализа графов nvGRAPH, которую можно использовать для расчета траекторий, информационной безопасности и анализа логистики, что включает в сферу применения GPU-ускоренных вычислений аналитику Big Data.

NVIDIA SDK

Для сетей глубокого обучения NVIDIA анонсировала GPU-ускоряемую библиотеку примитивов cuDNN версии 5. Она включает в себя поддержку GPU NVIDIA Pascal, ускорение рекуррентных нейронных сетей, используемых для видео и других последовательных данных, а также ряд улучшений, предназначенных для применения в медицинской, нефтегазовой и других областях промышленности. cuDNN ускоряет работу ведущих фреймворков глубокого обучения, включая TensorFlow от Google, Caffe от Университета Беркли, Theano от Университета Монреаля и Torch от Нью-Йоркского Университета, которые, в свою очередь, находятся в основе решений от Amazon, Facebook, Google и других компаний.

NVIDIA DGX-1

NVIDIA DGX-1 – это первый в мире суперкомпьютер для глубокого обучения, который обладает достаточной вычислительной мощью для развития искусственного интеллекта (ИИ). Он разработан специально для задач глубокого обучения (Deep Learning). Система NVIDIA DGX-1 оснащена всем необходимым аппаратным и программным обеспечением для глубокого обучения и инструментами разработки для быстрого и легкого развертывания.

NVIDIA DGX-1

В основе новинки находятся графические ускорители NVIDIA Tesla P100 с высокоскоростным интерфейсом NVIDIA NVLink и 16 ГБ памяти CoWoS HBM2. В результате вычислительную мощность NVIDIA DGX-1 можно сопоставить с 250 традиционными серверами на базе CPU.

В свою очередь набор комплектного ПО включает в себя NVIDIA Deep Learning GPU Training System (DIGITS), полноценную интерактивную систему для создания глубоких нейронных сетей (DNN), а также NVIDIA CUDA Deep Neural Network (cuDNN) версии 5 − GPU-ускоряемую библиотеку примитивов для создания DNN.

В США системы глубокого обучения NVIDIA DGX-1 будут доступны напрямую у NVIDIA и у некоторых партнеров в июне, в других регионах − в третьем квартале текущего года. Также ожидается, что ускоритель NVIDIA Tesla P100 появится в составе серверов от ведущих производителей в начале 2017 года.

Ключевые характеристики системы NVIDIA DGX-1:

Название

NVIDIA DGX-1

Используемые ускорители

8 х NVIDIA Tesla P100

Объем памяти каждого ускорителя

16 ГБ

Интерфейс

NVLink Hybrid Cube Mesh

Постоянная память

7 ТБ SSD

Пиковая производительность вычислений половинной точности

170 TFLOPS

Сетевые интерфейсы

Dual 10 GbE, Quad InfiniBand 100Gb

Формат

3U

Мощность

3200 Вт

http://www.nvidia.com
Сергей Будиловский

Постоянная ссылка на новость

AMD FirePro S9300 x2 – первый в мире серверный графический ускоритель с поддержкой HBM-памяти

Компания AMD с гордостью представила свой флагманский графический ускоритель для серверных систем – AMD FirePro S9300 x2. Он предназначен для использования в сложных вычислительных задачах, например, для анализа больших массивов данных, в сфере молекулярной динамики, при изучении астрономических процессов, в глубоких нейронных сетях и других.

AMD FirePro S9300 x2

Новинка построена на основе двух GPU AMD Fiji в максимальной их конфигурации (4096 потоковых процессоров в каждом), которые работают на частоте 850 МГц. Каждый из них использует собственные 4 ГБ HBM-памяти с эффективной частотой 1000 МГц и пропускной способностью 512 ГБ/с. Благодаря этому вычислительная мощность достигает 13,9 TFLOPS, что существенно выше конкурентных аналогов в виде NVIDIA Tesla K80 (5,6 TFLOPS) и NVIDIA Tesla M60 (7,4 TFLOPS).

AMD FirePro S9300 x2

Важным преимуществом AMD FirePro S9300 x2 является поддержка программного стека AMD GPUOpen, который реализует аппаратное ускорение программного кода, написанного на C++ или OpenCL. В продажу новинка поступит во втором квартале по ориентировочной стоимости $5999.

AMD FirePro S9300 x2

Сводная таблица технической спецификации графического адаптера AMD FirePro S9300 x2:

Модель

AMD FirePro S9300 x2

Используемая микроархитектура

AMD GCN

Количество графических процессоров

2

Тип графических процессоров

AMD Fiji

Количество потоковых процессоров

2 x 4096

Тактовая частота GPU, МГц

850

Тип видеопамяти

HBM

Объем, ГБ

2 x 4

Базовая / эффективная частота памяти, МГц

500 / 1000

Пропускная способность, ГБ/с

2 х 512

Максимальная вычислительная мощность (одиночная точность), TFLOPS

13,9

Максимальная вычислительная мощность (двойная точность), GFLOPS

870

Тип системы охлаждения

Двухслотовая, пассивная

Внутренний интерфейс

PCI Express 3.0 x16

Дополнительные разъемы питания

2 х 8-контактные

Потребляемая мощность, Вт

300

Ориентировочная стоимость, $

5999

http://www.techpowerup.com
http://www.amd.com
Сергей Будиловский

Постоянная ссылка на новость

Видеокарта ASUS Radeon R7 250 (R7250-2GD5) с поддержкой технологии AUTO-EXTREME

В данный момент бюджетный сегмент рынка графических адаптеров компании AMD представляет линейка AMD Radeon R7 200. Поэтому особого удивления дебют модели ASUS Radeon R7 250 (R7250-2GD5) не вызывает. Она построена на основе графического чипа AMD Oland XT и оснащена поддержкой 2 ГБ GDDR5-памяти, поэтому сможет использоваться даже нетребовательными геймерами.

ASUS Radeon R7 250 R7250-2GD5

Базовая тактовая частота графического процессора новинки составляет 725 МГц. В динамическом режиме она может повышаться до 925 МГц. В свою очередь видеопамять работает на эффективной частоте 4500 МГц. Для охлаждения внутренних компонентов используется достаточно компактная система на основе алюминиевого радиатора и одного осевого вентилятора с дизайном Dust-proof fan.

ASUS Radeon R7 250 R7250-2GD5

Особого внимания в ASUS Radeon R7 250 (R7250-2GD5) заслуживает использование технологии ASUS AUTO-EXTREME при ее производстве, а также применение надежной элементной базы Super Alloy Power II. А в комплект поставки новинки входит полезная фирменная утилита GPU Tweak II. Более подробная таблица технической спецификации видеокарты ASUS Radeon R7 250 (R7250-2GD5):

Модель

ASUS Radeon R7 250 (R7250-2GD5)

GPU

AMD Oland XT

Микроархитектура

AMD GCN

Техпроцесс, нм

28

Количество потоковых процессоров

384

Количество текстурных блоков

24

Количество растровых блоков

8

Базовая / динамическая тактовая частота GPU, МГц

725 / 925

Тип видеопамяти

GDDR5

Объем, ГБ

2

Номинальная / эффективная частота памяти, МГц

1125 / 4500

Ширина шины памяти, бит

128

Внешние интерфейсы

1 x DVI-I
1 x HDMI
1 x DisplayPort

Размеры, мм

168 x 121 x 37 мм

http://www.asus.com
Сергей Будиловский

Постоянная ссылка на новость

AMD Greenland – это AMD Vega 10 с 4096 потоковыми процессорами

Очередная порция неофициальной, но весьма любопытной информации поступила благодаря профилю одного из сотрудников компании AMD в сети LikenIn, который сообщил некоторые подробности о следующем флагманском графическом процессоре поколения v9.0. В нем будет использоваться 4096 потоковых процессоров архитектуры v15.

AMD Greenland

Очевидно, что «v9.0» и «v15» − это внутренние обозначения для нового флагманского GPU. Ранее он был известен как «AMD Greenland». Дата его релиза ожидалась в 2016 году. Но в свете новой дорожной карты многие предполагают, что это будет чип AMD Vega 10 с поддержкой памяти HBM2, который выйдет в начале 2017 года.

AMD Vega 10

В текущем же году на рынке появятся менее производительные модели линейки AMD Polaris. Речь идет о шести GPU серии AMD Polaris 11 (AMD Baffin), которые предположительно займут мейнстрим-сегмент (ранее предполагалось, что AMD Baffin будет высокопроизводительным чипом), и о двух графических процессорах серии AMD Polaris 10 (AMD Ellesmere), которые нацелены на рынок производительных систем. Одна из версий AMD Polaris 10 с кодовым обозначением «67DF» оснащена 2304 потоковыми процессорами и 8 ГБ GDDR5-памяти с эффективной частотой 6 ГГц и 256-битной шиной.

В результате именно AMD Vega 10 заменит модели серии AMD Fiji, в то время как серия AMD Polaris 10 придет на смену моделям серии AMD Radeon R9 390. Любопытно, что количество потоковых процессоров у них одинаковое, но использование улучшенной микроархитектуры должно обеспечить заметный прирост производительности.

http://videocardz.com
Сергей Будиловский

Постоянная ссылка на новость

Разработчики Hitman: технология Async Compute сложная в реализации и дает до 10% прироста

Как известно, одним из новых аргументов в ожесточенных спорах между ярыми поклонниками видеокарт AMD и NVIDIA является поддержка технологии Async Compute для API DirectX 12. Она хорошо реализована в микроархитектуре AMD GCN и не поддерживается в NVIDIA Maxwell, а возможно и в NVIDIA Pascal. Напомним, что суть ее работы состоит в более эффективном использовании вычислительных возможностей видеокарты путем параллельной обработки различных задач при просчете каждого кадра.

Hitman Async Compute

Одной из игр, в которых обеспечена поддержка Async Compute, является Hitman от компании IO Interactive. В рамках выставки GDC 2016 ведущий программист с рендеринга сцен в этой игре провел специальную дискуссию на тему использования новых технологий и поведал интересные подробности. В Hitman технология Async Compute используется для SSAA (Screen Space Anti Aliasing), SSAO (Screen Space Ambient Occlusion) и расчета некоторых световых эффектов. Видеокарты NVIDIA пока не получают от этого никаких преимуществ, а вот бонус для графических адаптеров AMD достигает 5-10%. Да, это не очень впечатляющие цифры, но для их достижения пользователям не нужно делать никаких манипуляций. С другой стороны, интеграция Async Compute в программный код крайне сложная и требует оптимизации для разных конфигураций ПК. Поэтому не все разработчики будут иметь необходимые ресурсы и желание тратить на ее интеграцию свое время.

http://www.tweaktown.com
Сергей Будиловский

Постоянная ссылка на новость

Видеокарта GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD) с RGB-подсветкой

Компания GIGABYTE представила новую видеокарту – GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD), в которой реализована система RGB-подсветки. В частности, вентиляторы системы охлаждения оснащены светодиодами, работу которых можно регулировать: пользователь может выбрать режим (постоянное свечение, пульсация или циклическая смена цвета) и оттенок из 16,8 млн. возможных комбинаций.

GIGABYTE GeForce GTX 960 GV-N960XTREME-4GD

В остальном GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD) полностью соответствует уже знакомым представителям серии GIGABYTE XTREME GAMING. Например, графический процессор выбирается с помощью фирменной технологии GPU Gauntlet, что и предполагает возможность его работы при повышенных частотах: вместо стандартных 1127 / 1178 МГц пользователь легко может активировать режим «OC» с показателями 1304 / 1367 МГц.

GIGABYTE GeForce GTX 960 GV-N960XTREME-4GD

Элементная база новинки набрана в соответствии с фирменным дизайном Ultra Durable VGA, а сама печатная плата обладает повышенной защитой от пыли и влаги. Для отвода излишков тепла используется фирменный кулер WINDFORCE 2X, конструкция которого состоит из нескольких медных тепловых трубок, алюминиевого радиатора и двух осевых вентиляторов, которые вращаются в разные стороны, что на 23% увеличивает приток прохладного воздуха.

GIGABYTE GeForce GTX 960 GV-N960XTREME-4GD

Сравнительная таблица технической спецификации видеокарты GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD) с эталонным аналогом:

Модель

NVIDIA GeForce GTX 960

GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD)

GPU

NVIDIA GM206-300

Микроархитектура

NVIDIA Maxwell

Техпроцесс, нм

28

Количество CUDA-ядер

1024

Количество текстурных блоков

64

Количество растровых блоков

32

Базовая / динамическая частота GPU, МГц

1127 / 1178

1279 / 1342 («Gaming»)
1304 / 1367 («OC»)

Тип видеопамяти

GDDR5

Объем, ГБ

2 / 4

4

Эффективная частота памяти, МГц

7010

Ширина шины памяти, бит

128

Внешние интерфейсы

1 x HDMI 2.0
1 x DVI-I
3 x DisplayPort 1.2

Размеры, мм

241 х 111

262 х 127

Дополнительные разъемы питания PCIe

1 х 6-контактный

1 х 6-контактный
1 х 8-контактный

http://www.gigabyte.com
http://www.techpowerup.com
Сергей Будиловский

Постоянная ссылка на новость

NVIDIA Pascal не имеет в своем распоряжении технологии Async Compute

До сентября 2015 года широкая общественность даже и не подозревала о технологии Async Compute. Однако первые результаты тестирования видеокарт в бенчмарке Ashes of the Singularity с использованием DirectX 12, которые продемонстрировали существенный перевес продукции компании AMD, создал настоящий ажиотаж вокруг нее. Именно полноценная аппаратная поддержка Async Compute, реализованная в микроархитектуре AMD GCN и отсутствующая в NVIDIA Maxwell, дала AMD новый и очень существенный аргумент, предъявляемый пользователям при покупке видеокарты. Компания NVIDIA попыталась оптимизировать драйвер для лучшей программной реализации Async Compute, но в конечном итоге отказалась от этой затеи, поскольку финальный результат оказался недостаточно хорошим.

Async Compute

Если же вы не знакомы с работой и предназначением технологии Async Compute, то лишь вкратце напомним, что она разработана специально для API DirectX 12. Суть ее работы кроется в следующем: при рендеринге игровой сцены компьютер просчитывает множество сложных эффектов (тени, свет, физику поведения объектов, алгоритм работы AI и другие). Многие из них проходят несколько стадий вычислений, перед формированием на экране финального кадра. В DirectX 11 и предыдущих версиях все эти вычисления осуществлялись последовательно, шаг за шагом. Поэтому задержка на одном из этапов приводила к неэффективному использованию ресурсов ПК, ведь без окончания предыдущего вычисления система не могла осуществлять дальнейшие расчеты (даже если были свободные аппаратные ресурсы). Поэтому в DirectX 12 реализовали возможность параллельного вычисления. Например, если одна часть системы требует очень сложного расчета эффектов света, то другая часть тем временем обрабатывает поведение AI или занимается другими стадиями. Эта технология и носит название Async Compute, позволяя эффективнее использовать ресурсы графического процессора и ПК в целом.

Async Compute

Многие пользователи рассчитывали, что компания NVIDIA обеспечит надлежащую поддержку Async Compute на аппаратном уровне уже в микроархитектуре NVIDIA Pascal. Однако неофициальные источники сообщают, что ее там не будет. Дело в том, что процесс разработки и создания микроархитектуры занимает несколько лет, поэтому у NVIDIA просто не было времени для надлежащей ее интеграции. Взамен NVIDIA поддерживает другие ценные функции (например, VXGI/VXAO и Hybrid Ray Traced Shadows), которых пока нет в продуктах AMD. А все дело в том, что в видеокартах NVIDIA интегрирована поддержка API DirecX 12 Level 12_1, в то время как AMD полагается на DirecX 12 Level 12_0. Как бы там ни было, состязание NVIDIA Pascal и AMD Polaris обещает быть очень интересным.

http://wccftech.com
Сергей Будиловский

Постоянная ссылка на новость

AMD Polaris 10 предположительно использует 2304 потоковых процессоров

Без особого анонса компания AMD обновила исходный код Linux-драйвера, включив в него поддержку двух GPU серии AMD Polaris 10 (AMD Ellesmere) и шести графических процессоров серий AMD Polaris 11 (AMD Baffin). Ранее выдвигались предположения, что AMD Polaris 10 (AMD Ellesmere) лягут в основу новых видеокарт мейнстрим-уровня, а AMD Polaris 11 (AMD Baffin) будут использоваться в высокопроизводительных моделях. Топовыми же будут решения серии AMD Greenland.

AMD Polaris 10

Дальнейшее исследование драйвера позволило узнать некоторые подробности одного из двух GPU серии AMD Polaris 10. Речь идет о модели, обозначенной как «67DF». В ее основе используется 36 вычислительных блоков или 2304 потоковых процессоров и 8 ГБ GDDR5-памяти с эффективной частотой 6 ГГц и 256-битной шиной. Если он действительно будет нацелен на рынок мейнстрим-решений, то может прийти на смену, например, модели AMD Radeon R7 370, которая характеризуется 16 вычислительными блоками (1024 потоковых процессоров) и 2 ГБ GDDR5-памяти с эффективной частотой 5,6 ГГц и 256-битной шиной. В результате мы действительно можем увидеть 2,5-кратное увеличение показателя производительность / ватт. Но пока подождем официального (пускай даже бумажного) анонса, который предположительно может произойти в рамках выставки Computex 2016.

AMD Polaris 10

http://videocardz.com
Сергей Будиловский

Постоянная ссылка на новость

Показать еще