Паскаль (микроархитектура) - Pascal (microarchitecture)

Nvidia Pascal
NVIDIA-GTX-1070-FoundersEdition-FL.jpg
GTX 1070, вторая коммерчески доступная карта, использующая архитектуру Pascal.
Дата выхода5 апреля 2016 г.
Процесс изготовления
История
ПредшественникМаксвелл
Преемник

Паскаль это кодовое имя для GPU микроархитектура разработан Nvidia, как преемник Максвелл архитектура. Архитектура была впервые представлена ​​в апреле 2016 года с выпуском Tesla P100 (GP100) 5 апреля 2016 года и в основном используется в GeForce 10 серии, начиная с GeForce GTX 1080 и GTX 1070 (оба с графическим процессором GP104), которые были выпущены 17 мая 2016 г. и 10 июня 2016 г. соответственно. Паскаль был создан с использованием TSMC с 16 нм FinFET обработать,[1] и позже Samsung с 14 нм FinFET процесс.[2]

Архитектура названа в честь французского математика и физика 17 века. Блез Паскаль.

18 марта 2019 года Nvidia объявила, что в драйвере, выпущенном в апреле 2019 года, они включат Трассировка лучей DirectX на картах на базе Pascal начиная с GTX 1060 6 ГБ, а в 16 серии карты, функция, зарезервированная для серии RTX на основе Тьюринга до этого момента.[3]

подробности

Снимок графического процессора GP102 внутри видеокарт GeForce GTX 1080 Ti
Снимок графического процессора GP106 внутри карт GTX 1060

В марте 2014 года Nvidia объявила, что преемник Максвелл будет микроархитектура Паскаля; объявлено 6 мая 2016 г. и выпущено 27 мая того же года. Tesla P100 (чип GP100) имеет другую версию архитектуры Pascal по сравнению с графическими процессорами GTX (чип GP104). В шейдерные блоки в GP104 есть Максвелл -подобный дизайн.[4]

Архитектурные улучшения архитектуры GP100 включают следующее:[5][6][7]

  • В Паскале SM (потоковый мультипроцессор) состоит из 64-128 ядер CUDA, в зависимости от того, GP100 это или GP104. Максвелл упаковал 128, Kepler 192, Fermi 32 и Tesla только 8 ядер CUDA в SM; GP100 SM разделен на два блока обработки, каждый из которых имеет 32 ядра CUDA одинарной точности, буфер команд, планировщик деформации, 2 модуля отображения текстуры и 2 модуля диспетчеризации.
  • CUDA Вычислительные возможности 6.1.
  • Память с высокой пропускной способностью 2 - некоторые карты содержат 16 ГиБ HBM2 в четырех стеках с общей 4096-битной шиной с пропускной способностью памяти 720 ГБ / с.
  • Унифицированная память - это архитектура памяти, в которой ЦП и ГП могут получать доступ как к основной системной памяти, так и к памяти видеокарты с помощью технологии, называемой «Механизм миграции страниц».
  • NVLink - шина с высокой пропускной способностью между процессором и графическим процессором, а также между несколькими графическими процессорами. Обеспечивает гораздо более высокие скорости передачи, чем те, которые достигаются при использовании PCI Express; по оценкам, обеспечивает от 80 до 200 ГБ / с.[8][9]
  • 16-битный (FP16 ) операции с плавающей запятой (в просторечии «половинная точность») могут выполняться с удвоенной скоростью 32-битных операций с плавающей запятой («одинарная точность»)[10] и 64-битные операции с плавающей запятой (в просторечии «двойная точность»), выполняемые на половине скорости 32-битных операций с плавающей запятой.[11]
  • Больше регистров - вдвое больше регистров на ядро ​​CUDA по сравнению с Maxwell.
  • Больше общей памяти.
  • Система планирования динамической балансировки нагрузки.[12] Это позволяет планировщику динамически регулировать количество графического процессора, назначенного нескольким задачам, гарантируя, что графический процессор остается загруженным работой, кроме случаев, когда больше нет работы, которую можно безопасно распределить для распределения.[12] Поэтому Nvidia безопасно включила асинхронные вычисления в драйвере Паскаля.[12]
  • Вытеснение на уровне инструкций и потоков.[13]

Архитектурные улучшения архитектуры GP104 включают следующее:[4]

  • Возможности вычислений CUDA 6.1.
  • GDDR5X - новый стандарт памяти с поддержкой скорости передачи данных 10 Гбит / с, обновленный контроллер памяти.[14]
  • Одновременная мульти-проекция - создание нескольких проекций одного геометрического потока, когда он поступает в движок SMP из вышестоящих этапов шейдера.[15]
  • DisplayPort 1.4, HDMI 2.0b.
  • Четвертое поколение Delta Color Compression.
  • Улучшенный интерфейс SLI - интерфейс SLI с большей пропускной способностью по сравнению с предыдущими версиями.
  • PureVideo Набор функций H аппаратное декодирование видео HEVC Main10 (10 бит), Main12 (12 бит) и аппаратное декодирование VP9.
  • HDCP 2.2 поддержка воспроизведения и потоковой передачи контента с защитой 4K DRM (Maxwell GM200 и GM204 не поддерживают HDCP 2.2, GM206 поддерживает HDCP 2.2).[16]
  • NVENC Аппаратное кодирование HEVC Main10 10 бит.
  • GPU Boost 3.0.
  • Вытеснение на уровне инструкций.[13] В графических задачах драйвер ограничивает вытеснение на уровне пикселей, потому что пиксельные задачи обычно заканчиваются быстро, а накладные расходы на выполнение вытеснения на уровне пикселей ниже, чем вытеснение на уровне команд (что дорого).[13] Вычислительные задачи получают приоритетное прерывание на уровне потоков или инструкций,[13] потому что для их завершения может потребоваться больше времени, и нет никаких гарантий, когда завершится вычислительная задача. Поэтому драйвер позволяет выполнять эти задачи с помощью дорогостоящего прерывания на уровне инструкций.[13]

Обзор

Кластер графического процессора

Чип разделен на кластеры графических процессоров (GPC). Для микросхем GP104 GPC включает в себя 5 SM.

Потоковый мультипроцессор "Паскаль"

«Потоковый мультипроцессор» соответствует AMD Вычислительный блок. SMP включает 128 ALU одинарной точности («ядра CUDA») на микросхемах GP104 и 64 ALU одинарной точности на микросхемах GP100.

То, что AMD называет CU (вычислительная единица), можно сравнить с тем, что Nvidia называет SM (потоковый мультипроцессор). В то время как все версии CU состоят из 64 шейдерных процессоров (то есть 4 векторных модуля SIMD (каждый шириной 16 полос) = 64), Nvidia (регулярно называя шейдерные процессоры «ядрами CUDA») экспериментировала с очень разными числами:

  • На Тесла 1 SM объединяет 8 одинарная точность (FP32) шейдерные процессоры
  • На Ферми 1 SM объединяет 32 шейдерных процессора одиночной точности (FP32)
  • На Кеплер 1 SM объединяет 192 шейдерных процессора одиночной точности (FP32), а также 64 модуля двойной точности (по крайней мере, графические процессоры GK110)
  • На Максвелл 1 SM объединяет 128 шейдерных процессоров с одинарной точностью (FP32)
  • На Паскале это зависит:
    • На GP100 1 SM объединяет 64 шейдерных процессора одиночной точности (FP32), а также 32 с двойной точностью (FP64) обеспечивая соотношение производительности одинарной и двойной точности 2: 1. GP100 использует более гибкие ядра FP32, которые способны обрабатывать одно или два числа половинной точности в двухэлементном векторе.[17] Nvidia намеревается решить с их помощью вычисление алгоритмов, связанных с глубоким обучением.
    • На GP104 1 SM объединяет 128 ALU одинарной точности, 4 ALU двойной точности, обеспечивающих соотношение 32: 1, и один ALU половинной точности, который содержит вектор из двух чисел с плавающей запятой половинной точности, которые могут выполнять одну и ту же инструкцию для обоих чисел с плавающей запятой, обеспечивая соотношение 64: 1, если для обоих элементов используется одна и та же инструкция.

Полиморф-двигатель 4.0

Версия 4.0 Polymorph Engine - это подразделение, отвечающее за Мозаика. Функционально соответствует AMD Геометрический процессор. Он был перемещен из модуля шейдера в TPC, чтобы позволить одному движку Polymorph передавать несколько SM в TPC.[18]

Чипсы

  • GP100: графический ускоритель Nvidia Tesla P100 нацелен на ГПГПУ такие приложения, как вычисления двойной точности FP64 и обучение глубокому обучению, использующее FP16. Оно использует Память HBM2.[19] Quadro GP100 также использует графический процессор GP100.
  • GP102: этот графический процессор используется в TITAN Xp,[20] Титан Х[21] и GeForce GTX 1080 Ti. Он также используется в Quadro P6000.[22] И Tesla P40.[23]
  • GP104: Этот графический процессор используется в GeForce GTX 1070, GTX 1070 Ti и GTX 1080. GTX 1070 имеет 15/20, а GTX 1070 Ti - 19/20 задействованных SM. Оба подключены к памяти GDDR5, а GTX 1080 - это полноценный чип, подключенный к памяти GDDR5X. Он также используется в Quadro P5000, Quadro P4000 и Tesla P4.
  • GP106: этот графический процессор используется в GeForce GTX 1060 с GDDR5 / GDDR5X[24] объем памяти.[25][26] Он также используется в Quadro P2000.
  • GP107: этот графический процессор используется в GeForce GTX 1050 Ti и GeForce GTX 1050. Он также используется в Quadro P1000, Quadro P600, Quadro P620 и Quadro P400.
  • GP108: этот графический процессор используется в GeForce GT 1030.

На микросхеме GP104 SM состоит из 128 ALU одинарной точности («ядра CUDA»), на GP100 - из 64 ALU одинарной точности. Из-за разной организации микросхем, например количества ALU двойной точности, теоретическая производительность GP100 при двойной точности составляет половину от теоретической производительности одинарной точности; соотношение 1/32 для микросхемы GP104.

Таблица сравнения некоторых чипов Kepler, Maxwell и Pascal
GK104GK110GM204 (GTX 970)GM204 (GTX 980)GM200GP104GP100
Выделенный кеш текстур на SM48 КБНет данныхНет данныхНет данныхНет данныхНет данныхНет данных
Кэш текстуры (графики или вычислений) или данных только для чтения (только вычисления) на SMНет данных48 КБ[27]Нет данныхНет данныхНет данныхНет данныхНет данных
Общая память, выбираемая программистом / разделы L1 на SM48 КБ разделяемой памяти + 16 КБ кеш-памяти L1 (по умолчанию)[28]48 КБ разделяемой памяти + 16 КБ кеш-памяти L1 (по умолчанию)[28]Нет данныхНет данныхНет данныхНет данныхНет данных
32 КБ общей памяти + 32 КБ кэш-памяти L1[28]32 КБ общей памяти + 32 КБ кэш-памяти L1[28]
16 КБ общей памяти + 48 КБ кэш-памяти L1[28]16 КБ общей памяти + 48 КБ кэш-памяти L1[28]
Единый кэш L1 / кеш текстуры для каждого SMНет данныхНет данных48 КБ[29]48 КБ[29]48 КБ[29]48 КБ[29]24 КБ[29]
Выделенная общая память на SMНет данныхНет данных96 КБ[29]96 КБ[29]96 КБ[29]96 КБ[29]64 КБ[29]
Кэш L2 на чип512 КБ[29]1536 КБ[29]1792 КБ[30]2048 КБ[30]3072 КБ[29]2048 КБ[29]4096 КБ[29]

Спектакль

Теоретическая мощность обработки одинарной точности графического процессора Pascal в GFLOPS вычисляется как 2 X (операций на инструкцию FMA на ядро ​​CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в ГГц).

Теоретическая мощность обработки с двойной точностью графического процессора Pascal составляет 1/2 от производительности одинарной точности на Nvidia GP100 и 1/32 от производительности Nvidia GP102, GP104, GP106, GP107 и GP108.

Теоретическая мощность обработки половинной точности графического процессора Pascal в 2 раза выше производительности одинарной точности на GP100.[11] и 1/64 на GP104, GP106, GP107 и GP108.[17]

Преемник

На смену архитектуре Pascal в 2017 г. Вольта в HPC, облачные вычисления, и беспилотный автомобиль рынков, а в 2018 г. Тьюринг на потребительском и деловом рынке.[31]

Смотрите также

использованная литература

  1. ^ "7-нм графические процессоры NVIDIA следующего поколения будут построены TSMC". Wccftech. 24 июн 2018. Получено 6 июля 2019.
  2. ^ «Samsung использует оптическое сжатие NVIDIA« Паскаль »до 14 нм». Получено 13 августа, 2016.
  3. ^ «Ускорение экосистемы трассировки лучей в реальном времени: DXR для GeForce RTX и GeForce GTX». NVIDIA.
  4. ^ а б «NVIDIA GeForce GTX 1080» (PDF). International.download.nvidia.com. Получено 2016-09-15.
  5. ^ Гупта, Сумит (21 марта 2014 г.). «NVIDIA обновляет план развития графических процессоров; объявляет о выпуске Pascal». Blogs.nvidia.com. Получено 2014-03-25.
  6. ^ "Параллельный форалл". Зона разработчиков NVIDIA. Devblogs.nvidia.com. Архивировано из оригинал на 2014-03-26. Получено 2014-03-25.
  7. ^ «NVIDIA Tesla P100» (PDF). International.download.nvidia.com. Получено 2016-09-15.
  8. ^ "nside Pascal: новейшая вычислительная платформа NVIDIA". 2016-04-05.
  9. ^ Денис Фоли (25.03.2014). "NVLink, Pascal и Stacked Memory: удовлетворение аппетита к большим данным". nvidia.com. Получено 2014-07-07.
  10. ^ «Архитектура графического процессора Pascal нового поколения от NVIDIA, обеспечивающая 10-кратное ускорение приложений для глубокого обучения». Официальный блог NVIDIA. Получено 23 марта 2015.
  11. ^ а б Смит, Райан (2015-04-05). «NVIDIA представляет ускоритель Tesla P100 - мощность Pascal GP100 для высокопроизводительных вычислений». АнандТех. Получено 2016-05-27. Каждый из этих SM также содержит 32 ядра FP64 CUDA - что дает нам 1/2 скорости для FP64 - и новинка архитектуры Pascal - это возможность упаковать 2 операции FP16 внутри одного ядра FP32 CUDA при правильных обстоятельствах.
  12. ^ а б c Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 9. Получено 21 июля, 2016.
  13. ^ а б c d е Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 10. Получено 21 июля, 2016.
  14. ^ «Видеокарта GTX 1080». GeForce. Получено 2016-09-15.
  15. ^ Карботт, Кевин (17 мая 2016 г.). «Nvidia GeForce GTX 1080 Одновременное мультипроекционное и асинхронное вычисление». Tomshardware.com. Получено 2016-09-15.
  16. ^ «Nvidia Pascal HDCP 2.2». Страница оборудования Nvidia. Получено 2016-05-08.
  17. ^ а б Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 5. Получено 21 июля, 2016.
  18. ^ Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 4. Получено 21 июля, 2016.
  19. ^ Харрис, Марк (5 апреля 2016 г.). «Inside Pascal: новейшая вычислительная платформа NVIDIA». Параллельный Форалл. Nvidia. Получено 3 июня, 2016.
  20. ^ «Графическая карта NVIDIA TITAN Xp с архитектурой Pascal». NVIDIA.
  21. ^ «Графическая карта NVIDIA TITAN X с Паскалем». GeForce. Получено 2016-09-15.
  22. ^ «Новая графика Quadro, построенная на архитектуре Pascal». NVIDIA. Получено 2016-09-15.
  23. ^ «Ускорение рабочих нагрузок центра обработки данных с помощью графических процессоров». NVIDIA. Получено 2016-09-15.
  24. ^ https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1060/
  25. ^ «NVIDIA GeForce GTX 1060 выйдет 7 июля». VideoCardz.com. Получено 2016-09-15.
  26. ^ «Видеокарты GTX 1060». GeForce. Получено 2016-09-15.
  27. ^ Смит, Райан (12 ноября 2012 г.). «NVIDIA представляет Tesla K20 и K20X: GK110 наконец-то прибыл». АнандТех. п. 3. Получено 24 июля, 2016.
  28. ^ а б c d е ж Nvidia (1 сентября 2015 г.). "Руководство по программированию CUDA C". Получено 24 июля, 2016.
  29. ^ а б c d е ж г час я j k л м п о Триоле, Дэмиен (24 мая 2016 г.). «Nvidia GeForce GTX 1080, лучший графический процессор 16 нм в тесте!». Hardware.fr (На французском). п. 2. Получено 24 июля, 2016.
  30. ^ а б Смит, Райан (26 января 2015 г.). «GeForce GTX 970: исправление характеристик и изучение распределения памяти». АнандТех. п. 1. Получено 24 июля, 2016.
  31. ^ «Дата выпуска NVIDIA Turing». Техрадар.