Компьютерные новости
Видеокарты
NVIDIA на GTC 2016: анонс микроархитектуры NVIDIA Pascal и ряд других инноваций
В калифорнийском городе Сан-Хосе успешно стартовала GPU Technology Conference (GTC), в рамках которой компания NVIDIA сделала ряд важных анонсов своих будущих продуктов. В первую очередь многих интересует микроархитектура NVIDIA Pascal, поэтому с нее и начнем.
NVIDIA Tesla P100
Первым официальным анонсом новой микроархитектуры стали не массовые пользовательские видеокарты, а ускоритель для сверхмасштабируемых дата-центров − NVIDIA Tesla P100. С его помощью можно создавать новый класс серверов с производительностью уровня нескольких сотен классических серверов на базе CPU. Мощности подобных решений будет достаточно для нового поколения научных приложений и задач, связанных с искусственным интеллектом, для которых требуются сверхэффективные, ультраскоростные серверные узлы.
Модель NVIDIA Tesla P100 использует пять передовых технологий для обеспечения высокой производительности и эффективности использования ресурсов:
- Микроархитектура NVIDIA Pascal повышает скорость обучений нейронных сетей в 12 раз по сравнению с решениями на базе NVIDIA Maxwell.
- Высокоскоростной интерфейс NVIDIA NVLink используется для связи между несколькими графическими процессорами. Он более эффективно распределяет нагрузку между GPU, увеличивая пропускную способность в 5 раз по сравнению с лучшими на сегодня решениями в данном классе. NVIDIA NVLink позволяет связать до восьми GPU NVIDIA Tesla P100. IBM уже внедрила этот интерфейс в свои процессоры POWER8 для высокоскоростной коммуникации между CPU и GPU.
- 16-нм FinFET-технология позволила интегрировать в процессор 15,3 млрд. транзисторов, что гарантирует высочайшую производительность и энергоэффективность.
- Инновационный подход к строению памяти Chip-on-Wafer-on-Substrate (CoWoS) с HBM2 повышает пропускную способность в 3 раза (до 720 ГБ/с) по сравнению с архитектурой NVIDIA Maxwell.
- Новые алгоритмы искусственного интеллекта обеспечивают пиковую производительность свыше 21 TFLOPS в задачах глубокого обучения.
Использование ускорителя NVIDIA Tesla P100 позволяет достичь феноменальных результатов. Например, приложение молекулярной динамики AMBER работает быстрее на одном сервере с NVIDIA Tesla P100, чем на 48 обычных двухсокетных серверных узлах. А для обучения популярной глубокой нейронной сети AlexNet потребуется 250 двухсокетных серверных узлов, чтобы достичь производительности восьми GPU NVIDIA Tesla P100.
Ключевые характеристики NVIDIA Tesla P100:
|
Модель |
NVIDIA Tesla P100 |
|
Тип памяти |
CoWoS HBM2 |
|
Объем памяти |
16 ГБ |
|
Полоса пропускания |
720 ГБ/с |
|
Интерфейс |
Двунаправленный NVIDIA NVLink |
|
Пропускная способность интерфейса |
160 ГБ/с |
|
Скорость вычислений двойной точности |
5,3 TFLOPS |
|
Скорость вычислений одинарной точности |
10,6 TFLOPS |
|
Скорость вычислений половинной точности |
21,2 TFLOPS |
|
Дополнительные преимущества |
Улучшенная программируемость с движком перехода по страницам и унифицированной памятью |
Обновления в NVIDIA SDK
Возросшая вычислительная мощность и расширенные функциональные возможности потребовали обновления платформы NVIDIA SDK. В число ключевых изменений входит NVIDIA CUDA 8. Новейшая версия платформы параллельных вычислений NVIDIA представляет разработчикам прямой доступ к новым возможностям микроархитектуры NVIDIA Pascal, включая унифицированную память и интерфейс NVIDIA NVLink. Кроме того, в актуальный релиз входит библиотека анализа графов nvGRAPH, которую можно использовать для расчета траекторий, информационной безопасности и анализа логистики, что включает в сферу применения GPU-ускоренных вычислений аналитику Big Data.
Для сетей глубокого обучения NVIDIA анонсировала GPU-ускоряемую библиотеку примитивов cuDNN версии 5. Она включает в себя поддержку GPU NVIDIA Pascal, ускорение рекуррентных нейронных сетей, используемых для видео и других последовательных данных, а также ряд улучшений, предназначенных для применения в медицинской, нефтегазовой и других областях промышленности. cuDNN ускоряет работу ведущих фреймворков глубокого обучения, включая TensorFlow от Google, Caffe от Университета Беркли, Theano от Университета Монреаля и Torch от Нью-Йоркского Университета, которые, в свою очередь, находятся в основе решений от Amazon, Facebook, Google и других компаний.
NVIDIA DGX-1
NVIDIA DGX-1 – это первый в мире суперкомпьютер для глубокого обучения, который обладает достаточной вычислительной мощью для развития искусственного интеллекта (ИИ). Он разработан специально для задач глубокого обучения (Deep Learning). Система NVIDIA DGX-1 оснащена всем необходимым аппаратным и программным обеспечением для глубокого обучения и инструментами разработки для быстрого и легкого развертывания.
В основе новинки находятся графические ускорители NVIDIA Tesla P100 с высокоскоростным интерфейсом NVIDIA NVLink и 16 ГБ памяти CoWoS HBM2. В результате вычислительную мощность NVIDIA DGX-1 можно сопоставить с 250 традиционными серверами на базе CPU.
В свою очередь набор комплектного ПО включает в себя NVIDIA Deep Learning GPU Training System (DIGITS), полноценную интерактивную систему для создания глубоких нейронных сетей (DNN), а также NVIDIA CUDA Deep Neural Network (cuDNN) версии 5 − GPU-ускоряемую библиотеку примитивов для создания DNN.
В США системы глубокого обучения NVIDIA DGX-1 будут доступны напрямую у NVIDIA и у некоторых партнеров в июне, в других регионах − в третьем квартале текущего года. Также ожидается, что ускоритель NVIDIA Tesla P100 появится в составе серверов от ведущих производителей в начале 2017 года.
Ключевые характеристики системы NVIDIA DGX-1:
|
Название |
NVIDIA DGX-1 |
|
Используемые ускорители |
8 х NVIDIA Tesla P100 |
|
Объем памяти каждого ускорителя |
16 ГБ |
|
Интерфейс |
NVLink Hybrid Cube Mesh |
|
Постоянная память |
7 ТБ SSD |
|
Пиковая производительность вычислений половинной точности |
170 TFLOPS |
|
Сетевые интерфейсы |
Dual 10 GbE, Quad InfiniBand 100Gb |
|
Формат |
3U |
|
Мощность |
3200 Вт |
http://www.nvidia.com
Сергей Будиловский
AMD FirePro S9300 x2 – первый в мире серверный графический ускоритель с поддержкой HBM-памяти
Компания AMD с гордостью представила свой флагманский графический ускоритель для серверных систем – AMD FirePro S9300 x2. Он предназначен для использования в сложных вычислительных задачах, например, для анализа больших массивов данных, в сфере молекулярной динамики, при изучении астрономических процессов, в глубоких нейронных сетях и других.
Новинка построена на основе двух GPU AMD Fiji в максимальной их конфигурации (4096 потоковых процессоров в каждом), которые работают на частоте 850 МГц. Каждый из них использует собственные 4 ГБ HBM-памяти с эффективной частотой 1000 МГц и пропускной способностью 512 ГБ/с. Благодаря этому вычислительная мощность достигает 13,9 TFLOPS, что существенно выше конкурентных аналогов в виде NVIDIA Tesla K80 (5,6 TFLOPS) и NVIDIA Tesla M60 (7,4 TFLOPS).
Важным преимуществом AMD FirePro S9300 x2 является поддержка программного стека AMD GPUOpen, который реализует аппаратное ускорение программного кода, написанного на C++ или OpenCL. В продажу новинка поступит во втором квартале по ориентировочной стоимости $5999.
Сводная таблица технической спецификации графического адаптера AMD FirePro S9300 x2:
|
Модель |
AMD FirePro S9300 x2 |
|
Используемая микроархитектура |
AMD GCN |
|
Количество графических процессоров |
2 |
|
Тип графических процессоров |
AMD Fiji |
|
Количество потоковых процессоров |
2 x 4096 |
|
Тактовая частота GPU, МГц |
850 |
|
Тип видеопамяти |
HBM |
|
Объем, ГБ |
2 x 4 |
|
Базовая / эффективная частота памяти, МГц |
500 / 1000 |
|
Пропускная способность, ГБ/с |
2 х 512 |
|
Максимальная вычислительная мощность (одиночная точность), TFLOPS |
13,9 |
|
Максимальная вычислительная мощность (двойная точность), GFLOPS |
870 |
|
Тип системы охлаждения |
Двухслотовая, пассивная |
|
Внутренний интерфейс |
PCI Express 3.0 x16 |
|
Дополнительные разъемы питания |
2 х 8-контактные |
|
Потребляемая мощность, Вт |
300 |
|
Ориентировочная стоимость, $ |
5999 |
http://www.techpowerup.com
http://www.amd.com
Сергей Будиловский
Видеокарта ASUS Radeon R7 250 (R7250-2GD5) с поддержкой технологии AUTO-EXTREME
В данный момент бюджетный сегмент рынка графических адаптеров компании AMD представляет линейка AMD Radeon R7 200. Поэтому особого удивления дебют модели ASUS Radeon R7 250 (R7250-2GD5) не вызывает. Она построена на основе графического чипа AMD Oland XT и оснащена поддержкой 2 ГБ GDDR5-памяти, поэтому сможет использоваться даже нетребовательными геймерами.
Базовая тактовая частота графического процессора новинки составляет 725 МГц. В динамическом режиме она может повышаться до 925 МГц. В свою очередь видеопамять работает на эффективной частоте 4500 МГц. Для охлаждения внутренних компонентов используется достаточно компактная система на основе алюминиевого радиатора и одного осевого вентилятора с дизайном Dust-proof fan.
Особого внимания в ASUS Radeon R7 250 (R7250-2GD5) заслуживает использование технологии ASUS AUTO-EXTREME при ее производстве, а также применение надежной элементной базы Super Alloy Power II. А в комплект поставки новинки входит полезная фирменная утилита GPU Tweak II. Более подробная таблица технической спецификации видеокарты ASUS Radeon R7 250 (R7250-2GD5):
|
Модель |
ASUS Radeon R7 250 (R7250-2GD5) |
|
GPU |
AMD Oland XT |
|
Микроархитектура |
AMD GCN |
|
Техпроцесс, нм |
28 |
|
Количество потоковых процессоров |
384 |
|
Количество текстурных блоков |
24 |
|
Количество растровых блоков |
8 |
|
Базовая / динамическая тактовая частота GPU, МГц |
725 / 925 |
|
Тип видеопамяти |
GDDR5 |
|
Объем, ГБ |
2 |
|
Номинальная / эффективная частота памяти, МГц |
1125 / 4500 |
|
Ширина шины памяти, бит |
128 |
|
Внешние интерфейсы |
1 x DVI-I |
|
Размеры, мм |
168 x 121 x 37 мм |
http://www.asus.com
Сергей Будиловский
AMD Greenland – это AMD Vega 10 с 4096 потоковыми процессорами
Очередная порция неофициальной, но весьма любопытной информации поступила благодаря профилю одного из сотрудников компании AMD в сети LikenIn, который сообщил некоторые подробности о следующем флагманском графическом процессоре поколения v9.0. В нем будет использоваться 4096 потоковых процессоров архитектуры v15.
Очевидно, что «v9.0» и «v15» − это внутренние обозначения для нового флагманского GPU. Ранее он был известен как «AMD Greenland». Дата его релиза ожидалась в 2016 году. Но в свете новой дорожной карты многие предполагают, что это будет чип AMD Vega 10 с поддержкой памяти HBM2, который выйдет в начале 2017 года.
В текущем же году на рынке появятся менее производительные модели линейки AMD Polaris. Речь идет о шести GPU серии AMD Polaris 11 (AMD Baffin), которые предположительно займут мейнстрим-сегмент (ранее предполагалось, что AMD Baffin будет высокопроизводительным чипом), и о двух графических процессорах серии AMD Polaris 10 (AMD Ellesmere), которые нацелены на рынок производительных систем. Одна из версий AMD Polaris 10 с кодовым обозначением «67DF» оснащена 2304 потоковыми процессорами и 8 ГБ GDDR5-памяти с эффективной частотой 6 ГГц и 256-битной шиной.
В результате именно AMD Vega 10 заменит модели серии AMD Fiji, в то время как серия AMD Polaris 10 придет на смену моделям серии AMD Radeon R9 390. Любопытно, что количество потоковых процессоров у них одинаковое, но использование улучшенной микроархитектуры должно обеспечить заметный прирост производительности.
http://videocardz.com
Сергей Будиловский
Разработчики Hitman: технология Async Compute сложная в реализации и дает до 10% прироста
Как известно, одним из новых аргументов в ожесточенных спорах между ярыми поклонниками видеокарт AMD и NVIDIA является поддержка технологии Async Compute для API DirectX 12. Она хорошо реализована в микроархитектуре AMD GCN и не поддерживается в NVIDIA Maxwell, а возможно и в NVIDIA Pascal. Напомним, что суть ее работы состоит в более эффективном использовании вычислительных возможностей видеокарты путем параллельной обработки различных задач при просчете каждого кадра.
Одной из игр, в которых обеспечена поддержка Async Compute, является Hitman от компании IO Interactive. В рамках выставки GDC 2016 ведущий программист с рендеринга сцен в этой игре провел специальную дискуссию на тему использования новых технологий и поведал интересные подробности. В Hitman технология Async Compute используется для SSAA (Screen Space Anti Aliasing), SSAO (Screen Space Ambient Occlusion) и расчета некоторых световых эффектов. Видеокарты NVIDIA пока не получают от этого никаких преимуществ, а вот бонус для графических адаптеров AMD достигает 5-10%. Да, это не очень впечатляющие цифры, но для их достижения пользователям не нужно делать никаких манипуляций. С другой стороны, интеграция Async Compute в программный код крайне сложная и требует оптимизации для разных конфигураций ПК. Поэтому не все разработчики будут иметь необходимые ресурсы и желание тратить на ее интеграцию свое время.
http://www.tweaktown.com
Сергей Будиловский
Видеокарта GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD) с RGB-подсветкой
Компания GIGABYTE представила новую видеокарту – GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD), в которой реализована система RGB-подсветки. В частности, вентиляторы системы охлаждения оснащены светодиодами, работу которых можно регулировать: пользователь может выбрать режим (постоянное свечение, пульсация или циклическая смена цвета) и оттенок из 16,8 млн. возможных комбинаций.
В остальном GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD) полностью соответствует уже знакомым представителям серии GIGABYTE XTREME GAMING. Например, графический процессор выбирается с помощью фирменной технологии GPU Gauntlet, что и предполагает возможность его работы при повышенных частотах: вместо стандартных 1127 / 1178 МГц пользователь легко может активировать режим «OC» с показателями 1304 / 1367 МГц.
Элементная база новинки набрана в соответствии с фирменным дизайном Ultra Durable VGA, а сама печатная плата обладает повышенной защитой от пыли и влаги. Для отвода излишков тепла используется фирменный кулер WINDFORCE 2X, конструкция которого состоит из нескольких медных тепловых трубок, алюминиевого радиатора и двух осевых вентиляторов, которые вращаются в разные стороны, что на 23% увеличивает приток прохладного воздуха.
Сравнительная таблица технической спецификации видеокарты GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD) с эталонным аналогом:
|
Модель |
NVIDIA GeForce GTX 960 |
GIGABYTE GeForce GTX 960 (GV-N960XTREME-4GD) |
|
GPU |
NVIDIA GM206-300 |
|
|
Микроархитектура |
NVIDIA Maxwell |
|
|
Техпроцесс, нм |
28 |
|
|
Количество CUDA-ядер |
1024 |
|
|
Количество текстурных блоков |
64 |
|
|
Количество растровых блоков |
32 |
|
|
Базовая / динамическая частота GPU, МГц |
1127 / 1178 |
1279 / 1342 («Gaming») |
|
Тип видеопамяти |
GDDR5 |
|
|
Объем, ГБ |
2 / 4 |
4 |
|
Эффективная частота памяти, МГц |
7010 |
|
|
Ширина шины памяти, бит |
128 |
|
|
Внешние интерфейсы |
1 x HDMI 2.0 |
|
|
Размеры, мм |
241 х 111 |
262 х 127 |
|
Дополнительные разъемы питания PCIe |
1 х 6-контактный |
1 х 6-контактный |
http://www.gigabyte.com
http://www.techpowerup.com
Сергей Будиловский
NVIDIA Pascal не имеет в своем распоряжении технологии Async Compute
До сентября 2015 года широкая общественность даже и не подозревала о технологии Async Compute. Однако первые результаты тестирования видеокарт в бенчмарке Ashes of the Singularity с использованием DirectX 12, которые продемонстрировали существенный перевес продукции компании AMD, создал настоящий ажиотаж вокруг нее. Именно полноценная аппаратная поддержка Async Compute, реализованная в микроархитектуре AMD GCN и отсутствующая в NVIDIA Maxwell, дала AMD новый и очень существенный аргумент, предъявляемый пользователям при покупке видеокарты. Компания NVIDIA попыталась оптимизировать драйвер для лучшей программной реализации Async Compute, но в конечном итоге отказалась от этой затеи, поскольку финальный результат оказался недостаточно хорошим.
Если же вы не знакомы с работой и предназначением технологии Async Compute, то лишь вкратце напомним, что она разработана специально для API DirectX 12. Суть ее работы кроется в следующем: при рендеринге игровой сцены компьютер просчитывает множество сложных эффектов (тени, свет, физику поведения объектов, алгоритм работы AI и другие). Многие из них проходят несколько стадий вычислений, перед формированием на экране финального кадра. В DirectX 11 и предыдущих версиях все эти вычисления осуществлялись последовательно, шаг за шагом. Поэтому задержка на одном из этапов приводила к неэффективному использованию ресурсов ПК, ведь без окончания предыдущего вычисления система не могла осуществлять дальнейшие расчеты (даже если были свободные аппаратные ресурсы). Поэтому в DirectX 12 реализовали возможность параллельного вычисления. Например, если одна часть системы требует очень сложного расчета эффектов света, то другая часть тем временем обрабатывает поведение AI или занимается другими стадиями. Эта технология и носит название Async Compute, позволяя эффективнее использовать ресурсы графического процессора и ПК в целом.
Многие пользователи рассчитывали, что компания NVIDIA обеспечит надлежащую поддержку Async Compute на аппаратном уровне уже в микроархитектуре NVIDIA Pascal. Однако неофициальные источники сообщают, что ее там не будет. Дело в том, что процесс разработки и создания микроархитектуры занимает несколько лет, поэтому у NVIDIA просто не было времени для надлежащей ее интеграции. Взамен NVIDIA поддерживает другие ценные функции (например, VXGI/VXAO и Hybrid Ray Traced Shadows), которых пока нет в продуктах AMD. А все дело в том, что в видеокартах NVIDIA интегрирована поддержка API DirecX 12 Level 12_1, в то время как AMD полагается на DirecX 12 Level 12_0. Как бы там ни было, состязание NVIDIA Pascal и AMD Polaris обещает быть очень интересным.
http://wccftech.com
Сергей Будиловский
AMD Polaris 10 предположительно использует 2304 потоковых процессоров
Без особого анонса компания AMD обновила исходный код Linux-драйвера, включив в него поддержку двух GPU серии AMD Polaris 10 (AMD Ellesmere) и шести графических процессоров серий AMD Polaris 11 (AMD Baffin). Ранее выдвигались предположения, что AMD Polaris 10 (AMD Ellesmere) лягут в основу новых видеокарт мейнстрим-уровня, а AMD Polaris 11 (AMD Baffin) будут использоваться в высокопроизводительных моделях. Топовыми же будут решения серии AMD Greenland.

Дальнейшее исследование драйвера позволило узнать некоторые подробности одного из двух GPU серии AMD Polaris 10. Речь идет о модели, обозначенной как «67DF». В ее основе используется 36 вычислительных блоков или 2304 потоковых процессоров и 8 ГБ GDDR5-памяти с эффективной частотой 6 ГГц и 256-битной шиной. Если он действительно будет нацелен на рынок мейнстрим-решений, то может прийти на смену, например, модели AMD Radeon R7 370, которая характеризуется 16 вычислительными блоками (1024 потоковых процессоров) и 2 ГБ GDDR5-памяти с эффективной частотой 5,6 ГГц и 256-битной шиной. В результате мы действительно можем увидеть 2,5-кратное увеличение показателя производительность / ватт. Но пока подождем официального (пускай даже бумажного) анонса, который предположительно может произойти в рамках выставки Computex 2016.
http://videocardz.com
Сергей Будиловский
Показать еще



























