Быстрый обратный квадратный корень - Fast inverse square root

Расчеты освещения и отражения (показаны здесь в шутер от первого лица OpenArena ) используйте быстрый код обратного квадратного корня для вычисления углы падения и отражение.

Быстрый обратный квадратный корень, иногда называемый Быстрый InvSqrt () или шестнадцатеричный постоянный 0x5F3759DF, это алгоритм, оценивающий 1Икс, то взаимный (или мультипликативный обратный) квадратный корень 32-битного плавающая точка номер Икс в Формат IEEE 754 с плавающей запятой. Эта операция используется в цифровая обработка сигналов к нормализовать вектор, т.е. масштабировать его до длины 1. Например, компьютерная графика программы используют обратные квадратные корни для вычисления углы падения и отражение за освещение и затенение. Алгоритм наиболее известен своей реализацией в 1999 г. в исходном коде Quake III Arena, а шутер от первого лица видеоигра, в которой активно использовались 3D графика. Алгоритм только начал появляться на публичных форумах, таких как Usenet в 2002 или 2003 годах.[1][примечание 1] В то время это вообще было вычислительно дорогой для вычисления обратного числа с плавающей запятой, особенно в больших масштабах; быстрый обратный квадратный корень обошел этот шаг.

Алгоритм принимает на вход 32-битное число с плавающей запятой и сохраняет уменьшенное вдвое значение для последующего использования. Затем, рассматривая биты, представляющие число с плавающей запятой, как 32-битное целое число, логический сдвиг справа на один бит выполняется, и результат вычитается из числа 0x 5F3759DF, который представляет собой представление с плавающей запятой приближения 2127.[3] Это приводит к первому приближению обратного квадратного корня из входных данных. Снова обрабатывая биты как число с плавающей запятой, он выполняет одну итерацию Метод Ньютона, что дает более точное приближение.

Первоначально алгоритм был приписан Джон Кармак, но расследование показало, что этот код имеет более глубокие корни как в аппаратной, так и в программной части компьютерной графики. Корректировки и переделки прошли через оба Силиконовая Графика и 3dfx Интерактивный, с реализацией Гэри Таролли для SGI Индиго как самое раннее известное использование. Неизвестно, как изначально была получена константа, хотя исследование пролило свет на возможные методы.

С последующим усовершенствованием аппаратного обеспечения, особенно x86 SSE инструкция rsqrtss, этот метод обычно неприменим к современным вычислениям,[4] хотя это остается интересным примером как исторически, так и для более ограниченных машин.

Мотивация

Нормали поверхности широко используются при расчетах освещения и затенения, требующих расчета норм векторов. Здесь показано поле векторов, нормальных к поверхности.
Двумерный пример использования нормального C найти угол отражения по углу падения; в данном случае при отражении света от изогнутого зеркала. Быстрый обратный квадратный корень используется для обобщения этого вычисления на трехмерное пространство.

Обратный квадратный корень из числа с плавающей запятой используется при вычислении нормализованный вектор.[5] Программы могут использовать нормализованные векторы для определения углов падения и отражение. 3D графика программы должны выполнять миллионы этих вычислений каждую секунду для имитации освещения. Когда код был разработан в начале 1990-х годов, большая часть вычислительной мощности с плавающей запятой отставала от скорости обработки целых чисел.[1] Это было проблемой для программ 3D-графики до появления специализированного оборудования для обработки трансформация и освещение.

Длина вектора определяется вычислением его Евклидова норма: квадратный корень из суммы квадратов компоненты вектора. Когда каждый компонент вектора делится на эту длину, новый вектор будет единичный вектор указывая в том же направлении. В программе трехмерной графики все векторы находятся в трехразмерный пространство, так что v будет вектор (v1, v2, v3).

- евклидова норма вектора.

- нормализованный (единичный) вектор, используя ||v||2 представлять v2
1
+ v2
2
+ v2
3
.

который связывает единичный вектор с обратным квадратным корнем из компонентов расстояния. Обратный квадратный корень можно использовать для вычисления потому что это уравнение эквивалентно

где дробный член - это обратный квадратный корень из ||v||2.

В то время деление с плавающей запятой было обычно дорого по сравнению с умножением; быстрый алгоритм обратного извлечения квадратного корня обходит этап деления, что дает ему преимущество в производительности. Quake III Arena, а шутер от первого лица видеоигра, использовала быстрый алгоритм обратного квадратного корня для ускорения графических вычислений, но с тех пор этот алгоритм был реализован на некотором специализированном оборудовании вершинные шейдеры с помощью программируемые вентильные матрицы (ПЛИС).[6]

Обзор кода

Следующий код - это быстрая реализация метода вычисления обратного квадратного корня из Quake III Arena, лишенный Препроцессор C директивы, но включая точный исходный текст комментария:[7]

плавать Q_rsqrt( плавать номер ){	длинный я;	плавать x2, у;	const плавать три половины = 1.5F;	x2 = номер * 0,5F;	у  = номер;	я  = * ( длинный * ) &у;                       // злой взлом на уровне битов с плавающей запятой	я  = 0x5f3759df - ( я >> 1 );               // что за хрень? 	у  = * ( плавать * ) &я;	у  = у * ( три половины - ( x2 * у * у ) );   // 1-я итерация// y = y * (три половины - (x2 * y * y)); // 2-я итерация, это можно удалить	возвращаться у;}

В то время общий метод вычисления обратного квадратного корня заключался в вычислении приближения для 1Икс, затем пересмотрите это приближение с помощью другого метода, пока оно не окажется в пределах допустимого диапазона ошибок фактического результата. Общие программные методы в начале 1990-х годов прибегали к Справочная таблица.[8] Ключом к быстрому вычислению обратного квадратного корня было прямое вычисление приближения с использованием структуры чисел с плавающей запятой, что оказалось быстрее, чем поиск в таблице. Алгоритм был примерно в четыре раза быстрее, чем вычисление квадратного корня другим методом и вычисление обратной величины с помощью деления с плавающей запятой.[9] Алгоритм был разработан с IEEE 754-1985 Имеется в виду 32-битная спецификация с плавающей запятой, но исследование Криса Ломонта показало, что она может быть реализована в других спецификациях с плавающей запятой.[10]

Преимущества в скорости быстрого обратного квадратного корня кладж пришел из обращения с 32-битным плавающая точка слово[заметка 2] как целое число, затем вычитая его из "магия " постоянный, 0x 5F3759DF.[1][11][12][13] Это целочисленное вычитание и битовый сдвиг приводит к битовому шаблону, который при повторномВ ролях как число с плавающей запятой, является грубым приближением обратного квадратного корня входного числа. Выполняется одна итерация метода Ньютона для получения некоторой точности, и код готов. Алгоритм генерирует достаточно точные результаты с использованием уникального первого приближения для Метод Ньютона; однако он намного медленнее и менее точен, чем использование SSE инструкция rsqrtss на процессорах x86 также выпущенных в 1999 году.[4][14]

В соответствии со стандартом C считается, что переинтерпретация значения с плавающей запятой как целого числа путем разыменования приведенного указателя на него неопределенное поведение. Эту проблему можно было обойти, используя memcpy, уход порядок байтов как основная проблема переносимости. Следующий код соответствует стандартам, хотя и за счет объявления дополнительной переменной: значение с плавающей запятой помещается в анонимный союз содержащий дополнительный 32-битовый целочисленный элемент без знака, и доступ к этому целому числу обеспечивает побитовое представление содержимого значения с плавающей запятой.

#включают <stdint.h>плавать Q_rsqrt( плавать номер ){		const плавать x2 = номер * 0,5F;	const плавать три половины = 1.5F;	союз {		плавать ж;		uint32_t я;	} Конв  = { .ж = номер };	Конв.я  = 0x5f3759df - ( Конв.я >> 1 );	Конв.ж  *= три половины - ( x2 * Конв.ж * Конв.ж );	возвращаться Конв.ж;}

Рабочий пример

Например, число Икс = 0.15625 можно использовать для расчета 1Икс ≈ 2.52982. Первые шаги алгоритма проиллюстрированы ниже:

0011_1110_0010_0000_0000_0000_0000_0000 Битовая комбинация как для x, так и для i0001_1111_0001_0000_0000_0000_0000_0000 Сдвиг на одну позицию вправо: (i >> 1) 0101_1111_0011_0111_0101_1001_1101_1111 (0x5F3759DF101101_1111) - магическое число 0x5F3759DF101101_111

Интерпретация как 32-битное представление IEEE:

0_01111100_01000000000000000000000  1.25 × 2−30_00111110_00100000000000000000000  1.125 × 2−650_10111110_01101110101100111011111  1.432430... × 2630_10000000_01001110101100111011111  1.307430... × 21

Повторная интерпретация этого последнего битового шаблона как числа с плавающей запятой дает приближение у = 2.61486, что имеет погрешность около 3,4%. После одной итерации Метод Ньютона, окончательный результат у = 2.52549, погрешность всего 0,17%.

Алгоритм

Алгоритм вычисляет 1Икс выполнив следующие шаги:

  1. Псевдоним аргумента Икс к целому числу как способ вычисления приближения бревно2(Икс)
  2. Используйте это приближение, чтобы вычислить приближение бревно2(​1Икс) = −1/2 журнал2(Икс)
  3. Псевдоним обратно в число с плавающей точкой, как способ вычисления приближения экспоненты с основанием 2
  4. Уточните приближение, используя одну итерацию метода Ньютона.

Представление с плавающей точкой

Поскольку этот алгоритм в значительной степени полагается на представление чисел одинарной точности с плавающей запятой на битовом уровне, здесь представлен краткий обзор этого представления. Чтобы закодировать ненулевое действительное число Икс как число с плавающей запятой одинарной точности, первым делом нужно написать Икс как нормализованный двоичное число:[15]

где показатель еИкс целое число, мИкс ∈ [0, 1), и 1.б1б2б3... является двоичным представлением "мантиссы" (1 + мИкс). Поскольку единственный бит перед точкой в ​​мантиссе всегда равен 1, его не нужно сохранять. Из этой формы вычисляются три целых числа без знака:[16]

Затем эти поля упаковываются слева направо в 32-битный контейнер.[17]

В качестве примера снова рассмотрим число Икс = 0.15625 = 0.001012. Нормализация Икс дает:

Икс = +2−3(1 + 0.25)

и, таким образом, три беззнаковых целочисленных поля:

  • S = 0
  • E = −3 + 127 = 124 = 011111002
  • M = 0.25 × 223 = 2097152 = 010000000000000000000002

эти поля упакованы, как показано на рисунке ниже:

Значение с плавающей запятой 2.svg

Преобразование в целое число как приблизительный логарифм

Если 1Икс должен был быть рассчитан без компьютера или калькулятора, таблица логарифмов пригодится вместе с тож бревноб(​1Икс) = −1/2 бревноб(Икс), что справедливо для любой базы б. Быстрый обратный квадратный корень основан на этом тождестве и на том факте, что преобразование float32 в целое число дает грубое приближение его логарифма. Вот как:

Если Икс положительный нормальный номер:

тогда

и с тех пор мИкс ∈ [0, 1), логарифм в правой части может быть аппроксимирован выражением[18]

куда σ - свободный параметр, используемый для настройки приближения. Например, σ = 0 дает точные результаты на обоих концах интервала, а σ ≈ 0.0430357 дает оптимальное приближение (лучший в смысле единая норма ошибки).

Целое число с псевдонимом числа с плавающей запятой (синим цветом) по сравнению с масштабированным и сдвинутым логарифмом (серым цветом).

Таким образом, существует приближение

Интерпретация битового шаблона с плавающей запятой Икс как целое число яИкс дает[примечание 5]

Затем оказывается, что яИкс является масштабированной и сдвинутой кусочно-линейной аппроксимацией бревно2(Икс), как показано на рисунке справа. Другими словами, бревно2(Икс) приблизительно

Первое приближение результата

Расчет у = ​1Икс основан на личности

Используя приближение логарифма выше, примененное к обоим Икс и у, приведенное выше уравнение дает:

Таким образом, приближение яу является:

который записывается в коде как

я  = 0x5f3759df - ( я >> 1 );

Первый член выше - это магическое число

из чего можно сделать вывод, что σ ≈ 0.0450466. Второй срок, 1/2яИкс, вычисляется сдвигом битов яИкс на одну позицию вправо.[19]

Метод Ньютона

Относительная погрешность между быстрым обратным извлечением квадратного корня при выполнении 3-х итераций метода поиска корня Ньютона и прямым вычислением. Обратите внимание, что принята двойная точность.
Наименьшая представимая разница между двумя числами двойной точности достигается после выполнения 4 итераций.

С у как обратный квадратный корень, ж(у) = 1/у2Икс = 0. Приближение, полученное на предыдущих шагах, можно уточнить, используя метод поиска корней, метод, который находит ноль функции. Алгоритм использует Метод Ньютона: если есть приближение, уп за у, то лучшее приближение уп+1 можно рассчитать, взяв упж(уп)/f ′(уп), куда f ′(уп) это производная из ж(у) в уп.[20] Для вышеуказанного ж(у),

куда ж(у) = 1/у2Икс и f ′(у) = −2/у3.

Лечение у как число с плавающей запятой, y = y * (три половины - x2 * y * y); эквивалентно

Повторяя этот шаг, используя вывод функции (уп+1) на входе следующей итерации алгоритм вызывает у к сходиться к обратному квадратному корню.[21] Для целей Землетрясение III двигатель, использовалась только одна итерация. Вторая итерация осталась в коде, но была закомментировано.[13]

Точность

График, показывающий разницу между эвристическим быстрым обратным квадратным корнем и прямым обращением квадратного корня, предоставляемым libstdc.[нужна цитата ] (Обратите внимание на шкалу журнала по обеим осям.)

Как отмечалось выше, приближение на удивление точное. График справа отображает ошибку функции (то есть ошибку аппроксимации после того, как она была улучшена путем выполнения одной итерации метода Ньютона) для входных данных, начинающихся с 0,01, где стандартная библиотека дает в результате 10,0, в то время как InvSqrt () дает 9,982522, что составляет разницу 0,017479, или 0,175% от истинного значения, 10. С этого момента абсолютная ошибка только уменьшается, в то время как относительная ошибка остается в тех же границах во всех порядках величины.

История

Исходный код для Землетрясение III не был выпущен до QuakeCon 2005, но копии кода быстрого обратного квадратного корня появились на Usenet и другие форумы еще в 2002 или 2003 годах.[1] Первоначальное предположение указывало на Джона Кармака как на вероятного автора кода, но он возразил и предположил, что он был написан Терье Матисеном, опытным программистом на ассемблере, который ранее помогал id Software с Землетрясение оптимизация. Матисен написал реализацию аналогичного фрагмента кода в конце 1990-х годов, но первоначальные авторы оказались намного дальше в истории компьютерной 3D-графики с реализацией Гэри Таролли для SGI Индиго как возможное самое раннее известное использование. Рис Соммефельдт пришел к выводу, что оригинальный алгоритм был разработан Грегом Уолшем в Пылкий компьютер в консультации с Клив Молер, создатель MATLAB.[22] Клив Молер узнал об этом трюке из кода, написанного Уильям Кахан и К. Ng в Беркли около 1986 года[23] Джим Блинн также продемонстрировал простую аппроксимацию обратного квадратного корня в столбце 1997 года для Компьютерная графика и приложения IEEE.[24][25] Пол Кинни реализовал быстрый метод для компьютера серии FPS T[26] примерно в 1986 году. Система включала аппаратное обеспечение векторных вычислений с плавающей запятой, которое не было богато целочисленными операциями. Значения с плавающей запятой были перемещены, чтобы можно было манипулировать для создания начального приближения.

Последующие улучшения

Точно неизвестно, как было определено точное значение магического числа. Крис Ломонт разработал функцию минимизации ошибка приближения выбрав магическое число р в диапазоне. Сначала он вычислил оптимальную константу для шага линейного приближения как 0x5F37642F, рядом с 0x5F3759DF, но эта новая константа дала немного меньшую точность после одной итерации метода Ньютона.[27] Затем Ломонт искал оптимальную константу даже после одной и двух итераций Ньютона и нашел 0x5F375A86, что на каждой итерации точнее оригинала.[27] В заключение он спросил, было ли выбрано точное значение исходной константы путем вывода или методом проб и ошибок.[28] Ломонт сказал, что магическим числом для 64-битного типа double IEEE754 является 0x5FE6EC85E7DE30DA, но позже Мэтью Робертсон показал, что 0x5FE6EB50C7B537A9.[29]

Ян Кадлец уменьшил относительную ошибку еще в 2,7 раза, изменив константы в одной итерации метода Ньютона,[30] прибыв после тщательного поиска в

	Конв.я = 0x5F1FFFF9 - ( Конв.я >> 1 );	Конв.ж *= 0,703952253f * ( 2,38924456f - Икс * Конв.ж * Конв.ж );	возвращаться Конв.ж;

Полный математический анализ для определения магического числа теперь доступен для чисел с плавающей запятой одинарной точности.[31]

Смотрите также

Примечания

  1. ^ Еще в 2000 году на китайском форуме разработчиков CSDN шла дискуссия.[2]
  2. ^ Использование типа длинный снижает переносимость этого кода в современных системах. Чтобы код выполнялся правильно, sizeof (длинный) должно быть 4 байта, иначе могут возникнуть отрицательные результаты. Во многих современных 64-битных системах sizeof (длинный) составляет 8 байтов. Более портативная замена int32_t.
  3. ^ EИкс должно быть в диапазоне [1, 254] за Икс быть представленным как нормальный номер.
  4. ^ Единственные реальные числа, которые можно представить точно с плавающей запятой - те, для которых MИкс целое число. Остальные числа можно представить только приблизительно путем их округления до ближайшего точно представимого числа.
  5. ^ SИкс = 0 поскольку Икс > 0.

Рекомендации

  1. ^ а б c d Соммефельдт, Рысь (29 ноября 2006 г.). "Происхождение быстрого InvSqrt () из Quake3". Beyond3D. Получено 2009-02-12.
  2. ^ «Обсуждение на CSDN». Архивировано из оригинал на 2015-07-02.
  3. ^ Мунафо, Роберт. «Примечательные свойства определенных чисел». mrob.com. В архиве из оригинала 16 ноября 2018 г.
  4. ^ а б Раскин, Элан (16.10.2009). "Время квадратный корень". Требуется некоторая сборка. Получено 2015-05-07.
  5. ^ Блинн 2003, п. 130.
  6. ^ Миддендорф 2007 С. 155–164.
  7. ^ "quake3-1.32b / code / game / q_math.c". Quake III Arena. id Программное обеспечение. Получено 2017-01-21.
  8. ^ Эберли 2001, п. 504.
  9. ^ Ломонт 2003, п. 1.
  10. ^ Ломонт 2003.
  11. ^ Ломонт 2003, п. 3.
  12. ^ МакЭнири 2007, п. 2, 16.
  13. ^ а б Эберли 2001, п. 2.
  14. ^ Туман, Агнер. «Списки задержек инструкций, пропускной способности и сбоев микроопераций для процессоров Intel, AMD и VIA» (PDF). Получено 2017-09-08.
  15. ^ Гольдберг 1991, п. 7.
  16. ^ Гольдберг 1991 С. 15–20.
  17. ^ Гольдберг 1991, п. 16.
  18. ^ МакЭнири 2007, п. 3.
  19. ^ Хеннесси и Паттерсон 1998, п. 305.
  20. ^ Харди 1908, п. 323.
  21. ^ МакЭнири 2007, п. 6.
  22. ^ Соммефельдт, Рысь (19 декабря 2006 г.). "Происхождение быстрого InvSqrt () в Quake3 - Часть вторая". Beyond3D. Получено 2008-04-19.
  23. ^ Молер, Клив. "Симплектическая космическая война". MATLAB Central - угол Клива. MATLAB. Получено 2014-07-21.
  24. ^ Блинн 1997 С. 80–84.
  25. ^ "реализация sqrt в fdlibm".
  26. ^ Фаззари, Род; Майлз, Дуг; Карлайл, Брэд; Грошонг, Джадсон (1988). «Новое поколение аппаратного и программного обеспечения для серии FPS T». Труды конференции по массивам 1988 г.: 75–89.
  27. ^ а б Ломонт 2003, п. 10.
  28. ^ Ломонт 2003 С. 10–11.
  29. ^ Мэтью Робертсон (24 апреля 2012 г.). «Краткая история InvSqrt» (PDF). UNBSJ.
  30. ^ Кадлец, янв (2010). "Řrřlog :: Улучшение быстрого обратного квадратного корня" (личный блог). Получено 2020-12-14.
  31. ^ Мороз 2018.

Библиография

дальнейшее чтение

внешняя ссылка