Оптимизация цикла - Loop optimization

В теория компилятора, оптимизация цикла - это процесс увеличения скорости выполнения и снижения накладных расходов, связанных с петли. Это играет важную роль в улучшении тайник производительность и эффективное использование параллельная обработка возможности. Наибольшее время выполнения научная программа тратится на петли; как таковые, многие оптимизация компилятора были разработаны методы, чтобы сделать их быстрее.

Представление вычислений и преобразований

Поскольку инструкции внутри циклов могут выполняться многократно, часто невозможно установить ограничение на количество выполнений инструкций, на которые повлияет оптимизация цикла. Это создает проблемы при рассуждении о правильности и преимуществах оптимизации цикла, в частности, о представлении оптимизируемых вычислений и выполняемых оптимизаций.[1]

Оптимизация с помощью последовательности преобразований цикла

Оптимизацию цикла можно рассматривать как применение последовательности конкретных преобразования цикла (указаны ниже или в Преобразования компилятора для высокопроизводительных вычислений[2]) к исходному коду или промежуточное представление, с каждым трансформация наличие соответствующего теста на законность. Преобразование (или последовательность преобразований) обычно должно сохранять временную последовательность всех зависимости если это необходимо для сохранения результата программы (т. е. для легального преобразования). Оценка преимущества преобразования или последовательности преобразований может быть довольно сложной в рамках этого подхода, так как применение одного полезного преобразования может потребовать предварительного использования одного или нескольких других преобразований, которые сами по себе приведут к снижению производительности.

Общие преобразования цикла включают в себя:

  • Деление или распределение - деление цикла пытается разбить цикл на несколько циклов в одном диапазоне индексов, но каждый новый цикл занимает только часть тела исходного цикла. Это может улучшить местонахождение ссылки, как данные, к которым осуществляется доступ в цикле, так и код в теле цикла.
  • Слияние или объединение - это объединяет тела двух смежных циклов, которые будут повторяться одинаковое количество раз (независимо от того, известно это число во время компиляции), пока они не ссылаются на данные друг друга.
  • Обмен или перестановка - эти оптимизации меняют внутренние циклы на внешние. Когда переменные цикла индексируются в массиве, такое преобразование может улучшить локальность ссылки в зависимости от макета массива.
  • Инверсия - эта техника меняет стандарт пока петля в делать пока (a.k.a. повторять / пока ), завернутый в если условный, уменьшающий количество переходов на два для случаев, когда цикл выполняется. Это дублирует проверку состояния (увеличивает размер кода), но более эффективно, поскольку переходы обычно вызывают ошибку. стойло трубопровода. Кроме того, если начальное условие известно во время компиляции и известно как побочный эффект -бесплатно, начальная если-гвардеец можно пропустить.
  • Циклически инвариантное движение кода - это может значительно повысить эффективность, перемещая вычисление изнутри цикла за его пределы, вычисляя значение только один раз перед началом цикла, если результирующее количество вычислений будет одинаковым для каждой итерации цикла (т. Е. Цикл- инвариантная величина). Это особенно важно для выражений вычисления адресов, генерируемых циклами по массивам. Для правильной реализации этот метод должен использоваться с инверсией, потому что не весь код можно безопасно вывести за пределы цикла.
  • Распараллеливание - это частный случай автоматическое распараллеливание сосредоточение внимания на циклах, реструктуризация их для эффективной работы в многопроцессорных системах. Это может быть сделано автоматически компиляторами (автоматическое распараллеливание ) или вручную (вставка параллельных директив, например OpenMP ).
  • Разворот - тонкая оптимизация, которая меняет порядок, в котором значения присваиваются индексной переменной. Это может помочь устранить зависимости и таким образом включить другие оптимизации. Определенные архитектуры используют конструкции цикла в сборка уровень, который считается только в одном направлении (например, декремент-скачок-если-не-ноль [DJNZ][3]).
  • Планирование - это делит цикл на несколько частей, которые могут выполняться одновременно на нескольких процессорах.
  • Перекос - этот метод применяется к вложенному циклу, повторяющему многомерный массив, где каждая итерация внутренний цикл зависит от предыдущих итераций и переупорядочивает обращения к своему массиву так, чтобы зависимости были только между итерациями внешнего цикла.
  • Конвейерная обработка программного обеспечения - тип внеочередное исполнение итераций цикла, чтобы скрыть задержки функциональных блоков процессора.
  • Расщепление или пилинг - это попытка упростить петлю или устранить зависимости разбив его на несколько циклов, которые имеют одинаковые тела, но повторяются по разным частям диапазона индексов. Особый случай пилинг петли, который может упростить цикл с проблемной первой итерацией, выполняя эту итерацию отдельно перед входом в цикл.
  • Плитка или блокирование - реорганизует цикл для перебора блоков данных, размер которых соответствует размерам кэша.
  • Векторизация - пытается выполнить как можно больше итераций цикла одновременно на SIMD система.
  • Разворачивание - многократно дублирует тело цикла, чтобы уменьшить количество проверок условия цикла и количество переходов, которые могут ухудшить производительность из-за нарушения конвейера команд. Полное развертывание цикла устраняет все накладные расходы (за исключением выборки нескольких инструкций и увеличения времени загрузки программы), но требует, чтобы количество итераций было известно во время компиляции (за исключением случая Своевременная компиляция ). Также необходимо позаботиться о том, чтобы многократное повторное вычисление индексированных переменных не привело к большим накладным расходам, чем продвижение указателей в исходном цикле.
  • Выключение - перемещает условное выражение изнутри цикла за его пределы, дублируя тело цикла и помещая его версию внутри каждого из если и еще статьи условного.
  • Разделение или открытая добыча - введена для векторные процессоры, секционирование петель - это метод преобразования петель, позволяющий SIMD (одна инструкция, несколько данных) -кодирование циклов и повышение производительности памяти. При этом каждая векторная операция выполняется для размера, меньшего или равного максимальной длине вектора на данной векторной машине.[4][5]

Каркас унимодулярного преобразования

Подход унимодулярного преобразования[6] использует один унимодулярная матрица для описания объединенного результата последовательности многих из перечисленных выше преобразований. Центральным в этом подходе является представление набора всех выполнений оператора в п циклы как набор целочисленных точек в п-мерное пространство, точки выполняются в лексикографический порядок. Например, выполнение инструкции, вложенной во внешний цикл с индексом я и внутренний цикл с индексом j можно связать с парами целых чисел . Применение унимодулярного преобразования соответствует умножению точек в этом пространстве на матрицу. Например, чередованию двух петель соответствует матрица .

Унимодулярное преобразование допустимо, если оно сохраняет временную последовательность всех зависимости; измерить влияние унимодулярного преобразования на производительность сложнее. Неправильно вложенные циклы и некоторые преобразования (например, мозаика) не вписываются в эту структуру.

Многогранный каркас или каркас на основе ограничений

В многогранная модель[7] обрабатывает более широкий класс программ и преобразований, чем унимодулярная структура. Набор выполнений набора операторов в возможно несовершенно вложенном наборе циклов рассматривается как объединение набора многогранников, представляющих выполнение операторов. Аффинные преобразования применяются к этим многогранникам, создавая описание нового порядка выполнения. Границы многогранников, зависимости данных и преобразования часто описываются с помощью систем ограничений, и этот подход часто называют на основе ограничений подход к оптимизации цикла. Например, один оператор во внешнем цикле 'для i: = от 0 до n'и внутренний цикл'для j: = от 0 до i + 2'выполняется один раз для каждого (я, j) пара такая, что 0 <= i <= n и 0 <= j <= i + 2.

Еще раз, преобразование допустимо, если оно сохраняет временную последовательность всех зависимости. Оценка преимуществ преобразования или поиск наилучшего преобразования для данного кода на данном компьютере остаются предметом текущих исследований на момент написания этой статьи (2010 г.).

Смотрите также

Рекомендации

  1. ^ В книге Рассуждения о преобразованиях программ Жан-Франсуа Коллар подробно обсуждает общий вопрос представления выполнения программ, а не текста программы в контексте статической оптимизации.
  2. ^ Дэвид Ф. Бэкон, Сьюзан Л. Грэм и Оливер Дж. Шарп. Преобразования компилятора для высокопроизводительных вычислений. Отчет № UCB / CSD 93/781, Отдел компьютерных наук-EECS, Калифорнийский университет, Беркли, Беркли, Калифорния, 94720, ноябрь 1993 г. (доступно по адресу CiteSeer [1] ). Представляет анализ компилятора, такой как анализ зависимости данных и межпроцедурный анализ, а также очень полный список преобразований цикла.
  3. ^ "Набор инструкций 8051". www.win.tue.nl. Получено 2019-12-09.
  4. ^ [2]
  5. ^ [3]
  6. ^ Стивен С. Мучник, Расширенный дизайн и реализация компилятора, 1997 Морган Кауфманн. В разделе 20.4.2 обсуждается оптимизация цикла.
  7. ^ Р. Аллен и К. Кеннеди. Оптимизация компиляторов для современных архитектур. Морган Кауфманн, 2002.