Паскаль (микроархитектура) - Pascal (microarchitecture)
GTX 1070, вторая коммерчески доступная карта, использующая архитектуру Pascal. | |
Дата выхода | 5 апреля 2016 г. |
---|---|
Процесс изготовления | |
История | |
Предшественник | Максвелл |
Преемник |
Паскаль это кодовое имя для GPU микроархитектура разработан Nvidia, как преемник Максвелл архитектура. Архитектура была впервые представлена в апреле 2016 года с выпуском Tesla P100 (GP100) 5 апреля 2016 года и в основном используется в GeForce 10 серии, начиная с GeForce GTX 1080 и GTX 1070 (оба с графическим процессором GP104), которые были выпущены 17 мая 2016 г. и 10 июня 2016 г. соответственно. Паскаль был создан с использованием TSMC с 16 нм FinFET обработать,[1] и позже Samsung с 14 нм FinFET процесс.[2]
Архитектура названа в честь французского математика и физика 17 века. Блез Паскаль.
18 марта 2019 года Nvidia объявила, что в драйвере, выпущенном в апреле 2019 года, они включат Трассировка лучей DirectX на картах на базе Pascal начиная с GTX 1060 6 ГБ, а в 16 серии карты, функция, зарезервированная для серии RTX на основе Тьюринга до этого момента.[3]
подробности
В марте 2014 года Nvidia объявила, что преемник Максвелл будет микроархитектура Паскаля; объявлено 6 мая 2016 г. и выпущено 27 мая того же года. Tesla P100 (чип GP100) имеет другую версию архитектуры Pascal по сравнению с графическими процессорами GTX (чип GP104). В шейдерные блоки в GP104 есть Максвелл -подобный дизайн.[4]
Архитектурные улучшения архитектуры GP100 включают следующее:[5][6][7]
- В Паскале SM (потоковый мультипроцессор) состоит из 64-128 ядер CUDA, в зависимости от того, GP100 это или GP104. Максвелл упаковал 128, Kepler 192, Fermi 32 и Tesla только 8 ядер CUDA в SM; GP100 SM разделен на два блока обработки, каждый из которых имеет 32 ядра CUDA одинарной точности, буфер команд, планировщик деформации, 2 модуля отображения текстуры и 2 модуля диспетчеризации.
- CUDA Вычислительные возможности 6.1.
- Память с высокой пропускной способностью 2 - некоторые карты содержат 16 ГиБ HBM2 в четырех стеках с общей 4096-битной шиной с пропускной способностью памяти 720 ГБ / с.
- Унифицированная память - это архитектура памяти, в которой ЦП и ГП могут получать доступ как к основной системной памяти, так и к памяти видеокарты с помощью технологии, называемой «Механизм миграции страниц».
- NVLink - шина с высокой пропускной способностью между процессором и графическим процессором, а также между несколькими графическими процессорами. Обеспечивает гораздо более высокие скорости передачи, чем те, которые достигаются при использовании PCI Express; по оценкам, обеспечивает от 80 до 200 ГБ / с.[8][9]
- 16-битный (FP16 ) операции с плавающей запятой (в просторечии «половинная точность») могут выполняться с удвоенной скоростью 32-битных операций с плавающей запятой («одинарная точность»)[10] и 64-битные операции с плавающей запятой (в просторечии «двойная точность»), выполняемые на половине скорости 32-битных операций с плавающей запятой.[11]
- Больше регистров - вдвое больше регистров на ядро CUDA по сравнению с Maxwell.
- Больше общей памяти.
- Система планирования динамической балансировки нагрузки.[12] Это позволяет планировщику динамически регулировать количество графического процессора, назначенного нескольким задачам, гарантируя, что графический процессор остается загруженным работой, кроме случаев, когда больше нет работы, которую можно безопасно распределить для распределения.[12] Поэтому Nvidia безопасно включила асинхронные вычисления в драйвере Паскаля.[12]
- Вытеснение на уровне инструкций и потоков.[13]
Архитектурные улучшения архитектуры GP104 включают следующее:[4]
- Возможности вычислений CUDA 6.1.
- GDDR5X - новый стандарт памяти с поддержкой скорости передачи данных 10 Гбит / с, обновленный контроллер памяти.[14]
- Одновременная мульти-проекция - создание нескольких проекций одного геометрического потока, когда он поступает в движок SMP из вышестоящих этапов шейдера.[15]
- DisplayPort 1.4, HDMI 2.0b.
- Четвертое поколение Delta Color Compression.
- Улучшенный интерфейс SLI - интерфейс SLI с большей пропускной способностью по сравнению с предыдущими версиями.
- PureVideo Набор функций H аппаратное декодирование видео HEVC Main10 (10 бит), Main12 (12 бит) и аппаратное декодирование VP9.
- HDCP 2.2 поддержка воспроизведения и потоковой передачи контента с защитой 4K DRM (Maxwell GM200 и GM204 не поддерживают HDCP 2.2, GM206 поддерживает HDCP 2.2).[16]
- NVENC Аппаратное кодирование HEVC Main10 10 бит.
- GPU Boost 3.0.
- Вытеснение на уровне инструкций.[13] В графических задачах драйвер ограничивает вытеснение на уровне пикселей, потому что пиксельные задачи обычно заканчиваются быстро, а накладные расходы на выполнение вытеснения на уровне пикселей ниже, чем вытеснение на уровне команд (что дорого).[13] Вычислительные задачи получают приоритетное прерывание на уровне потоков или инструкций,[13] потому что для их завершения может потребоваться больше времени, и нет никаких гарантий, когда завершится вычислительная задача. Поэтому драйвер позволяет выполнять эти задачи с помощью дорогостоящего прерывания на уровне инструкций.[13]
Обзор
Кластер графического процессора
Чип разделен на кластеры графических процессоров (GPC). Для микросхем GP104 GPC включает в себя 5 SM.
Потоковый мультипроцессор "Паскаль"
«Потоковый мультипроцессор» соответствует AMD Вычислительный блок. SMP включает 128 ALU одинарной точности («ядра CUDA») на микросхемах GP104 и 64 ALU одинарной точности на микросхемах GP100.
То, что AMD называет CU (вычислительная единица), можно сравнить с тем, что Nvidia называет SM (потоковый мультипроцессор). В то время как все версии CU состоят из 64 шейдерных процессоров (то есть 4 векторных модуля SIMD (каждый шириной 16 полос) = 64), Nvidia (регулярно называя шейдерные процессоры «ядрами CUDA») экспериментировала с очень разными числами:
- На Тесла 1 SM объединяет 8 одинарная точность (FP32) шейдерные процессоры
- На Ферми 1 SM объединяет 32 шейдерных процессора одиночной точности (FP32)
- На Кеплер 1 SM объединяет 192 шейдерных процессора одиночной точности (FP32), а также 64 модуля двойной точности (по крайней мере, графические процессоры GK110)
- На Максвелл 1 SM объединяет 128 шейдерных процессоров с одинарной точностью (FP32)
- На Паскале это зависит:
- На GP100 1 SM объединяет 64 шейдерных процессора одиночной точности (FP32), а также 32 с двойной точностью (FP64) обеспечивая соотношение производительности одинарной и двойной точности 2: 1. GP100 использует более гибкие ядра FP32, которые способны обрабатывать одно или два числа половинной точности в двухэлементном векторе.[17] Nvidia намеревается решить с их помощью вычисление алгоритмов, связанных с глубоким обучением.
- На GP104 1 SM объединяет 128 ALU одинарной точности, 4 ALU двойной точности, обеспечивающих соотношение 32: 1, и один ALU половинной точности, который содержит вектор из двух чисел с плавающей запятой половинной точности, которые могут выполнять одну и ту же инструкцию для обоих чисел с плавающей запятой, обеспечивая соотношение 64: 1, если для обоих элементов используется одна и та же инструкция.
Полиморф-двигатель 4.0
Версия 4.0 Polymorph Engine - это подразделение, отвечающее за Мозаика. Функционально соответствует AMD Геометрический процессор. Он был перемещен из модуля шейдера в TPC, чтобы позволить одному движку Polymorph передавать несколько SM в TPC.[18]
Чипсы
- GP100: графический ускоритель Nvidia Tesla P100 нацелен на ГПГПУ такие приложения, как вычисления двойной точности FP64 и обучение глубокому обучению, использующее FP16. Оно использует Память HBM2.[19] Quadro GP100 также использует графический процессор GP100.
- GP102: этот графический процессор используется в TITAN Xp,[20] Титан Х[21] и GeForce GTX 1080 Ti. Он также используется в Quadro P6000.[22] И Tesla P40.[23]
- GP104: Этот графический процессор используется в GeForce GTX 1070, GTX 1070 Ti и GTX 1080. GTX 1070 имеет 15/20, а GTX 1070 Ti - 19/20 задействованных SM. Оба подключены к памяти GDDR5, а GTX 1080 - это полноценный чип, подключенный к памяти GDDR5X. Он также используется в Quadro P5000, Quadro P4000 и Tesla P4.
- GP106: этот графический процессор используется в GeForce GTX 1060 с GDDR5 / GDDR5X[24] объем памяти.[25][26] Он также используется в Quadro P2000.
- GP107: этот графический процессор используется в GeForce GTX 1050 Ti и GeForce GTX 1050. Он также используется в Quadro P1000, Quadro P600, Quadro P620 и Quadro P400.
- GP108: этот графический процессор используется в GeForce GT 1030.
На микросхеме GP104 SM состоит из 128 ALU одинарной точности («ядра CUDA»), на GP100 - из 64 ALU одинарной точности. Из-за разной организации микросхем, например количества ALU двойной точности, теоретическая производительность GP100 при двойной точности составляет половину от теоретической производительности одинарной точности; соотношение 1/32 для микросхемы GP104.
GK104 | GK110 | GM204 (GTX 970) | GM204 (GTX 980) | GM200 | GP104 | GP100 | |
---|---|---|---|---|---|---|---|
Выделенный кеш текстур на SM | 48 КБ | Нет данных | Нет данных | Нет данных | Нет данных | Нет данных | Нет данных |
Кэш текстуры (графики или вычислений) или данных только для чтения (только вычисления) на SM | Нет данных | 48 КБ[27] | Нет данных | Нет данных | Нет данных | Нет данных | Нет данных |
Общая память, выбираемая программистом / разделы L1 на SM | 48 КБ разделяемой памяти + 16 КБ кеш-памяти L1 (по умолчанию)[28] | 48 КБ разделяемой памяти + 16 КБ кеш-памяти L1 (по умолчанию)[28] | Нет данных | Нет данных | Нет данных | Нет данных | Нет данных |
32 КБ общей памяти + 32 КБ кэш-памяти L1[28] | 32 КБ общей памяти + 32 КБ кэш-памяти L1[28] | ||||||
16 КБ общей памяти + 48 КБ кэш-памяти L1[28] | 16 КБ общей памяти + 48 КБ кэш-памяти L1[28] | ||||||
Единый кэш L1 / кеш текстуры для каждого SM | Нет данных | Нет данных | 48 КБ[29] | 48 КБ[29] | 48 КБ[29] | 48 КБ[29] | 24 КБ[29] |
Выделенная общая память на SM | Нет данных | Нет данных | 96 КБ[29] | 96 КБ[29] | 96 КБ[29] | 96 КБ[29] | 64 КБ[29] |
Кэш L2 на чип | 512 КБ[29] | 1536 КБ[29] | 1792 КБ[30] | 2048 КБ[30] | 3072 КБ[29] | 2048 КБ[29] | 4096 КБ[29] |
Спектакль
Теоретическая мощность обработки одинарной точности графического процессора Pascal в GFLOPS вычисляется как 2 X (операций на инструкцию FMA на ядро CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в ГГц).
Теоретическая мощность обработки с двойной точностью графического процессора Pascal составляет 1/2 от производительности одинарной точности на Nvidia GP100 и 1/32 от производительности Nvidia GP102, GP104, GP106, GP107 и GP108.
Теоретическая мощность обработки половинной точности графического процессора Pascal в 2 раза выше производительности одинарной точности на GP100.[11] и 1/64 на GP104, GP106, GP107 и GP108.[17]
Преемник
На смену архитектуре Pascal в 2017 г. Вольта в HPC, облачные вычисления, и беспилотный автомобиль рынков, а в 2018 г. Тьюринг на потребительском и деловом рынке.[31]
Смотрите также
использованная литература
- ^ "7-нм графические процессоры NVIDIA следующего поколения будут построены TSMC". Wccftech. 24 июн 2018. Получено 6 июля 2019.
- ^ «Samsung использует оптическое сжатие NVIDIA« Паскаль »до 14 нм». Получено 13 августа, 2016.
- ^ «Ускорение экосистемы трассировки лучей в реальном времени: DXR для GeForce RTX и GeForce GTX». NVIDIA.
- ^ а б «NVIDIA GeForce GTX 1080» (PDF). International.download.nvidia.com. Получено 2016-09-15.
- ^ Гупта, Сумит (21 марта 2014 г.). «NVIDIA обновляет план развития графических процессоров; объявляет о выпуске Pascal». Blogs.nvidia.com. Получено 2014-03-25.
- ^ "Параллельный форалл". Зона разработчиков NVIDIA. Devblogs.nvidia.com. Архивировано из оригинал на 2014-03-26. Получено 2014-03-25.
- ^ «NVIDIA Tesla P100» (PDF). International.download.nvidia.com. Получено 2016-09-15.
- ^ "nside Pascal: новейшая вычислительная платформа NVIDIA". 2016-04-05.
- ^ Денис Фоли (25.03.2014). "NVLink, Pascal и Stacked Memory: удовлетворение аппетита к большим данным". nvidia.com. Получено 2014-07-07.
- ^ «Архитектура графического процессора Pascal нового поколения от NVIDIA, обеспечивающая 10-кратное ускорение приложений для глубокого обучения». Официальный блог NVIDIA. Получено 23 марта 2015.
- ^ а б Смит, Райан (2015-04-05). «NVIDIA представляет ускоритель Tesla P100 - мощность Pascal GP100 для высокопроизводительных вычислений». АнандТех. Получено 2016-05-27.
Каждый из этих SM также содержит 32 ядра FP64 CUDA - что дает нам 1/2 скорости для FP64 - и новинка архитектуры Pascal - это возможность упаковать 2 операции FP16 внутри одного ядра FP32 CUDA при правильных обстоятельствах.
- ^ а б c Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 9. Получено 21 июля, 2016.
- ^ а б c d е Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 10. Получено 21 июля, 2016.
- ^ «Видеокарта GTX 1080». GeForce. Получено 2016-09-15.
- ^ Карботт, Кевин (17 мая 2016 г.). «Nvidia GeForce GTX 1080 Одновременное мультипроекционное и асинхронное вычисление». Tomshardware.com. Получено 2016-09-15.
- ^ «Nvidia Pascal HDCP 2.2». Страница оборудования Nvidia. Получено 2016-05-08.
- ^ а б Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 5. Получено 21 июля, 2016.
- ^ Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET». АнандТех. п. 4. Получено 21 июля, 2016.
- ^ Харрис, Марк (5 апреля 2016 г.). «Inside Pascal: новейшая вычислительная платформа NVIDIA». Параллельный Форалл. Nvidia. Получено 3 июня, 2016.
- ^ «Графическая карта NVIDIA TITAN Xp с архитектурой Pascal». NVIDIA.
- ^ «Графическая карта NVIDIA TITAN X с Паскалем». GeForce. Получено 2016-09-15.
- ^ «Новая графика Quadro, построенная на архитектуре Pascal». NVIDIA. Получено 2016-09-15.
- ^ «Ускорение рабочих нагрузок центра обработки данных с помощью графических процессоров». NVIDIA. Получено 2016-09-15.
- ^ https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1060/
- ^ «NVIDIA GeForce GTX 1060 выйдет 7 июля». VideoCardz.com. Получено 2016-09-15.
- ^ «Видеокарты GTX 1060». GeForce. Получено 2016-09-15.
- ^ Смит, Райан (12 ноября 2012 г.). «NVIDIA представляет Tesla K20 и K20X: GK110 наконец-то прибыл». АнандТех. п. 3. Получено 24 июля, 2016.
- ^ а б c d е ж Nvidia (1 сентября 2015 г.). "Руководство по программированию CUDA C". Получено 24 июля, 2016.
- ^ а б c d е ж г час я j k л м п о Триоле, Дэмиен (24 мая 2016 г.). «Nvidia GeForce GTX 1080, лучший графический процессор 16 нм в тесте!». Hardware.fr (На французском). п. 2. Получено 24 июля, 2016.
- ^ а б Смит, Райан (26 января 2015 г.). «GeForce GTX 970: исправление характеристик и изучение распределения памяти». АнандТех. п. 1. Получено 24 июля, 2016.
- ^ «Дата выпуска NVIDIA Turing». Техрадар.