Компьютерные новости
Все разделы
Инструкции AMD RDNA 3 VOPD обеспечивают прирост производительности всего на 4% в сценах с трассировкой лучей, но AMD обещают, что результат со временем будет улучшаться
AMD немного перехвалила возможности своей архитектуры, а именно свой прирост в задачах с рейтрейсингом. Но, как всегда, пообещала все поправить в будущих обновлениях драйвера.
Одним из ключевых моментов графической архитектуры RDNA 3 является возможность работать с двойными инструкциями Wave32 для двойной пропускной способности с плавающей запятой (точнее, FMA). Однако, судя по результатам, маркетинговая команда AMD, возможно, чрезмерно разрекламировала эту функцию. Каждый вычислительный блок RDNA 3 состоит из 64 высокоточных/многоцелевых ALU, распределенных между двумя модулями SIMD32, а также ускорителем векторной матрицы и SIMD8 модулем.
Один из модулей SIMD32 способен производить вычисления как INT, так и FP, в дополнение к матрице, а другой может обрабатывать только инструкции FP и матрицы. Каждая из векторных единиц SIMD32 (пара) может выполнять одну группу инструкций Wave64 FMA или две группы инструкций Wave32 за один такт.
Однако, это абсолютный пик пропускной способности, и возможен он только на бумаге. В режиме Wave32 две 32-широкие инструкции FMA имеют доступ только к одному регистру операндов vGPR вместо двух и промежуточного общего значения. Даже в режиме Wave64 возможная пиковая производительность составляет всего 5/6 от теоретически предусмотренной цифры.
Hardwaretimes обратились к AMD на этот счет и получили такой ответ:
Wave64 может получить доступ к новым ALU для вдвое большей скорости выполнения, чтобы разблокировать производительность во время плотного выполнения кода ALU. Для режима Wave32 компилятор выполняет локализованное переупорядочение и упаковку инструкций по кодированию VOPD. Тестовая сцена RT с использованием кодировок VOPD обеспечила примерно 4% увеличения кадров в секунду благодаря устранению узкого места ALU. Мы ожидаем дальнейших усовершенствований по мере разработки компилятора с большим количеством оптимизации для сопоставления последовательностей кода с кодировками VOPD. И с прогрессом в использовании искусственного интеллекта, RT и методов визуализации, управляемых вычислениями, для более реалистичного рендеринга, мы ожидаем увидеть коды, связанные с ALU, которые будут все больше использовать эти новые ALU .”
AMD признает, что 64 ALU в вычислительном блоке могут удвоить пропускную способность в режиме Wave64 во время плотного выполнения кода ALU. В режиме Wave32 компилятор обрабатывает локализованное переупорядочивание и упаковку инструкций по кодированию VOPD. Однако сцена с трассировкой лучей с использованием кодирования VOPD обеспечивает увеличение частоты кадров на 4% за счет устранения узкого места ALU.
Команда красных ожидает, что преимущества от кодировок VOPD улучшатся со временем, поскольку компилятор все еще оптимизируется.