Форматы обмена амбизонными данными - Ambisonic data exchange formats

Форматы обмена данными для Амбисоника претерпели радикальные изменения с момента появления четырехдорожечной магнитной ленты. Исследователи, работающие над системами очень высокого порядка, не нашли прямого способа расширить традиционные форматы под свои нужды. Кроме того, не существовало общепринятой формулировки сферические гармоники для акустики, поэтому один был заимствован из химии, квантовой механики, компьютерной графики или других областей, каждая из которых имела несколько разные соглашения. Это привело к прискорбному распространению взаимно несовместимых специальных форматов и множеству головных болей.

Эта страница пытается задокументировать различные существующие форматы, их обоснование и историю для неизлечимо любопытных и тех, кто достаточно неудачлив, чтобы иметь дело с ними подробно.

Сферические гармоники в амбизонике

Общая формулировка сферических гармоник в контексте амбисоники:[1]

куда обозначает сферическую гармонику степени и индекс с рядом .

(Обратите внимание, что если , тогда .)

коэффициент нормализации (см. ниже ), и это связанный многочлен Лежандра степени и заказать .Азимутальный угол равен нулю прямо вперед и увеличивается против часовой стрелки. Угол возвышения равна нулю в горизонтальной плоскости и положительна в верхней полусфере.

К сожалению, «амбисонический порядок» называется степень на математическом языке, который использует порядок для «Индекса амбисоника» .

Связь сферических гармоник и сигналов B-формата

Для исходного сигнала в направлении , компоненты Ambisonic даны

.

Если мы протянем вектор направления от начала координат к источнику до тех пор, пока он не пересечет соответствующую сферическую гармонику, длина этого вектора будет коэффициентом, который умножается на сигнал источника. Повторите эти действия для всех сферических гармоник до желаемого порядка Ambisonic.

Предпосылки для успешного обмена данными

Для успешного обмена материалами Ambisonic некоторые программы требуют, чтобы отправитель и получатель согласовали заказ компонентов, их нормализация или же взвешивание, а относительный полярность гармоник.

Поскольку можно опустить части мультипольного расширения сферической гармоники для контента, который имеет неоднородное разрешение, зависящее от направления (известное как смешанный ), также может потребоваться определить, как обращаться с недостающие компоненты.

В случае передачи «по проводам», будь то фактическая цифровая многоканальная связь или любое количество виртуальных коммутационных шнуров в механизме обработки звука, эти свойства должны быть явно согласованы на обоих концах, поскольку обычно нет возможности для обмена метаданными и параметров. Переговоры. В случае файлов возможна некоторая гибкость в зависимости от формата файла и выразительности его набора метаданных.

Однако на практике широко используются всего два формата. Первый Формат высшего порядка Ферса-Малхама, который является продолжением традиционный B-формат, и более современные SN3D, в ACN порядок каналов. Ни в том, ни в другом случае нет двусмысленности в отношении порядка, нормализации, взвешивания или полярности, и редко можно увидеть случаи с отсутствующими компонентами. Третий формат используется ограниченно: N3D, также в порядке каналов ACN.

Заказ компонентов

В традиционный B-формат () занимался только нулевым и первым порядком Ambisonic. Из-за сильного соответствия между сферическими гармониками и диаграммами направленности микрофона и того факта, что эти диаграммы направленности имеют четко определенные направления, казалось естественным упорядочить и назвать компоненты таким же образом, как оси правой системы координат.

Сферические гармоники до Амбисонный порядок 5, как обычно отображается, отсортированные по возрастанию номера Ambisonic Channel Number (ACN), выровненные для симметрии.

Для более высоких порядков этот прецедент становится неудобным, потому что сферические гармоники наиболее интуитивно симметрично расположены вокруг единственного z-осесимметричного элемента. т = 0 каждого порядка, с горизонтальными синусоидальными членами т <0 слева, а члены косинусат> 0 вправо (см. иллюстрацию).

Furse-Malham

В Формат высшего порядка Ферса-Малхама, расширение традиционного B-формата до третьего порядка,[2] заказы 2 () и 3 () начинаются с их z-осесимметричного элемента, а затем выпрыгивают вправо и влево (см. таблицу) с горизонтальными компонентами в конце.

SID

0
231
57864
1012141513119

В своей основополагающей диссертации 2001 г.[3] Дэниел использовал трехиндексную номенклатуру для сферических гармоник, что соответствует в используемых здесь обозначениях.[примечание 1] Он подразумевал еще один порядок каналов, который впоследствии превратился в явное предложение под названием SID за Обозначение единого индекса[4] который был принят рядом исследователей. Эта схема совместима с B-форматом первого порядка и продолжает пересекать высшие сферические гармоники таким же образом, при этом осесимметричный компонент по оси z в конце проходит сначала через горизонтальные компоненты.

Это делает порядок Даниэля несовместимым с Фурс-Малхамом. Порядок SID не получил широкого распространения.

ACN

0
123
45678
9101112131415

Для будущих систем более высокого порядка принятие Номер канала Ambisonic (ACN)[5]достиг широкого консенсуса. Он определяется алгоритмически как .

ACN широко используется с SN3D и N3D, см. Ниже.

Нормализация

Для успешного восстановления звукового поля важно согласовать метод нормализации сферических гармонических составляющих. Распространены следующие подходы:

maxN

Схема maxN нормализует каждый отдельный компонент, чтобы никогда не превышал коэффициент усиления 1,0 для панорамированного монофонического источника. Малхам заявляет, что "[w] потому что этот подход не является строго" правильным "с математической точки зрения[Почему? ], он имеет значительные инженерные преимущества, так как ограничивает максимальные уровни, которые панорамированный моно источник будет генерировать в некоторых каналах более высокого порядка ».[6]Это свойство особенно интересно для цифровых интерфейсов с фиксированной точкой.

MaxN используется в формате Furse-Malham (за исключением поправочного коэффициента -3 дБ для , что делает его напрямую совместимым с традиционным B-форматом). В противном случае он не получил широкого распространения.

SN3D

SN3D означает полунормализацию Шмидта и обычно используется в геологии и магнетике. Весовые коэффициенты:

.[сомнительный ][7]

Первоначально введенный в использование Амбисоником Дэниелом, он отмечает: «Высокая степень общности - коэффициенты кодирования рекурсивно вычисляются, а компоненты первого порядка являются единичными векторами в своих соответствующих направлениях падения».[8]

С SN3D, в отличие от N3D, ни один компонент никогда не превысит пиковое значение компонента 0-го порядка для одноточечных источников.[1]Эта схема была принята предложенным AmbiX формат.

SN3D (в порядке каналов ACN) широко используется и часто используется при разработке нового программного обеспечения.

В документе спецификации Ambix 2 минус дельта m делятся на 4pi.

N3D

N3D или полная трехмерная нормализация - наиболее очевидный подход к нормализации. Даниил описывает это следующим образом: "Ортонормированный базис для трехмерной декомпозиции. Простое отношение к SN3D [..]. Обеспечивает равную мощность закодированных компонентов в случае идеально рассеянного 3D-поля. [..] Очевидное значение для решения задач декодирования [..] (3D-реконструкция) ».[9]

Отношение к SN3D таково:

.[10]

Эта нормализация является стандартной для физико-математических наук и поддерживается некоторыми программными пакетами Ambisonic. Он используется в MPEG-H. Однако теперь SN3D гораздо более распространен.

Поскольку N3D и SN3D различаются только коэффициентами масштабирования, необходимо соблюдать осторожность при работе с обоими, поскольку при первом прослушивании может быть неочевидно, была ли сделана ошибка, особенно в системе с небольшим количеством динамиков.

N2D / SN2D

Кроме того, существуют две схемы, в которых учитываются только горизонтальные компоненты. Это имеет практические преимущества для сред с фиксированной точкой в ​​обычной ситуации, когда источники сосредоточены в горизонтальной плоскости, но нормализация несколько произвольна, и ее предположения не верны для сильно рассеянных звуковых полей и звуковых сцен с сильными возвышенными источниками. Поскольку Ambisonics предназначена для изотропный а 2D-схемы определенно нет, их использование не рекомендуется.

Полярность

Третья сложность связана с квантово-механической формулировкой сферических гармоник, которая была принята некоторыми исследователями амбисоники. Он включает фактор , соглашение называется Фаза Кондона-Шортли, что инвертирует относительное полярность всех остальных компонентов в заданном порядке Ambisonic. Термин может быть использован как в формулировке связанных полиномов Лежандра, так и в нормировочном коэффициенте, поэтому он не всегда может быть очевидным.

MATLAB и GNU Octave обе включают Фаза Кондона-Шортли в ее legendre (,ИКС) функции, но отменить это путем повторного применения множителя в полунормализованной форме Шмидта legendre (, X, 'сч').[11][12]

Язык Wolfram Language также включает Фаза C-S в ее legendreP (,ИКС) выполнение,[13] и сохраняет это внутри SphericalHarmonicY [], который полностью нормализован.[14] Обратите внимание, что эта функция возвращает комплексные значения и использует физическое соглашение для сферических координат, где - зенитный угол (угол от положительной оси Z) и - азимут (угол против часовой стрелки вокруг положительной оси Z).

Присутствие фазы Кондона-Шортли в частях сигнальной цепи обычно проявляется в беспорядочном поведении панорамирования и увеличении видимой ширины источника при переходе к более высоким порядкам, что может быть довольно сложно диагностировать и гораздо труднее устранить. Следовательно, его использование категорически не рекомендуетсяв контексте амбисоники.

Ни в одном из описанных выше амбизонных форматов обмена не используется фаза Кондона-Шортли. Полярность обычно вызывает беспокойство только при попытке согласовать теоретические формулировки сферических гармоник из других академических дисциплин.

Справочная таблица раскладок и нормализаций

В следующей таблице представлен обзор всех опубликованных форматов Ambisonic.

  • Для Furse-Malham (и традиционного B-формата) отсортируйте по столбцу FuMa и умножьте сферическую гармонику на maxN *[заметка 2] фактор.
  • Для SID, согласно Даниэлю, отсортируйте по SID и примените соответствующий коэффициент нормализации, как указано в метаданных файла.
  • Для базового AmbiX выполните сортировку по ACN и используйте коэффициент SN3D.
  • Удачи с расширенным AmbiX и всеми другими комбинациями!

Коэффициенты пересчета могут применяться к компонентам Ambisonic. или сферические гармоники .

Данные взяты из Chapman (2008).[15]

Не полагайтесь на эту таблицу до тех пор, пока она не будет тщательно проверена и не будет удалено уведомление «В стадии разработки».

Однако обратите внимание, что широко используются только кодировки Furse-Malham и SN3D / ACN. (Традиционный B-формат является подмножеством Furse-Malham.) Для обоих этих кодировок уравнения могут быть выражены напрямую, без отдельных коэффициентов нормализации или преобразования, и нет двусмысленности в отношении порядка.

Форматы файлов и метаданные

Для файлового хранения и передачи необходимо определить дополнительные свойства, такие как основной формат файла и, при желании, сопутствующие метаданные.

AMB

В .amb формат файла был предложен и определен Ричардом Добсоном в 2001 году,[16] на основе Microsoft WAVE_FORMAT_EXTENSIBLE поправка к WAV формат аудиофайла. Он требует использования кодирования Фёрса-Малхама.

От своего родителя он наследует максимальный размер файла 4 ГБ, что является серьезным ограничением для прямой записи более высокого порядка.

.amb Файлы отличаются от другого многоканального содержимого суффиксом и установкой подтипа файла. Глобальный уникальный идентификатор в их данных заголовка к любому из следующих значений:

  • SUBTYPE_AMBISONIC_B_FORMAT_PCM {00000001-0721-11d3-8644-C8C1CA000000} для целочисленных выборок или
  • SUBTYPE_AMBISONIC_B_FORMAT_IEEE_FLOAT {00000003-0721-11d3-8644-C8C1CA000000} для чисел с плавающей запятой.

Определение требует, чтобы WAVE_EX dwChannelMask должен быть установлен на ноль. Кроме того, он рекомендует, чтобы файл содержал ВЕРШИНА ГОРЫ блок, содержащий значение и позицию самого высокого отсчета в каждом канале.

Каналы внутри .amb файлы чередуются, а все неиспользуемые каналы опускаются. Это позволяет выявить традиционные # H # P смешанный порядок содержание по количеству имеющихся каналов, согласно следующей таблице:[16]

В бесплатный и открытый исходный код Библиотека C libsndfile включил .amb поддержка с 2007 года.

Формат Добсона сыграл важную роль в обеспечении легкого доступа энтузиастов к исходному контенту Ambisonic и проложил путь для исследований и внедрения Ambisonic более высокого порядка. Хотя он не может масштабироваться дальше третьего порядка и не вмещает # H # V комплекты смешанного заказа, его возможностей более чем достаточно для большинства существующего сегодня контента Ambisonic, а его обратная совместимость с .amb - важная особенность любого реального рабочего процесса Ambisonic.

AmbiX

AmbiX[1] принимает формат Apple Core Audio или .caf. Он масштабируется до произвольно высокого порядка и не имеет практически значимых ограничений на размер файла. Файлы AmbiX содержат линейные данные PCM с длиной слова 16, 24 или 32 бит с фиксированной точкой или 32 бит с плавающей запятой при любой частоте дискретизации, допустимой для .caf. Он использует упорядочение каналов ACN с нормализацией SN3D.

В основной формат AmbiX требует полного набора полносферных сигналов, порядок которого может быть однозначно и тривиально выведен из количества каналов. Только минимальная информация заголовка, требуемая .caf спецификации присутствуют, и никакие другие метаданные не включены.

В расширенный формат отмечен наличием определяемого пользователем блока с UUID

1AD318C3-00E5-5576-BE2D-0DCA2460BC89.

(Использованы исходные спецификации 49454D2E-4154-2F41-4D42-49582F584D4C, который является недопустимым UUID[17]Кроме того, теперь заголовок содержит матрица адаптера коэффициентов, которые необходимо применить к потокам данных перед их воспроизведением. Эта матрица обеспечивает общий способ сопоставления полезных данных в любом предыдущем формате и любом сочетании заказов с канонической периферией, упорядочиванием ACN и нормализацией SN3D. Теоретически он может обрабатывать даже звуковые поля, охватывают только подмножества сферы.

AmbiX был первоначально предложен на Ambisonic Symposium 2011 на основе предыдущей работы Трэвиса.[18] и Chapman et al.[5]

Примечания

  1. ^ sgn (x) - это Функция знака.
  2. ^ а б MaxN * (отмечен звездочкой) обозначает нормализацию maxN с дополнительным поправочным коэффициентом -3 дБ для W.
  3. ^ Обычное обозначение каналов FuMa - это всего лишь одна буква. Префикс надстрочного индекса - это всего лишь специальная уловка, позволяющая обеспечить правильную сортировку, поскольку лексическая сортировка будет перемешивать амбисонные порядки.
  4. ^ Добсон (2001) использует «1», что означает полный набор горизонтальных компонентов WXY.

Рекомендации

  1. ^ а б c Кристиан Нахбар; Франц Цоттер; Этьен Делефли; Алоис Сонтаччи (2–3 июня 2011 г.). AmbiX - рекомендуемый формат Ambisonics (PDF). Симпозиум Ambisonics 2011. Лексингтон (Кентукки).
  2. ^ Дэйв Малхэм, Системы Ambisonic высшего порядка, Йорк 2003
  3. ^ Жером Даниэль, Репрезентация champs acoustiques, приложение для передачи и воспроизведения звуковых сцен в контексте мультимедийного контекста, Париж 2001, стр.151.
  4. ^ Жером Даниэль, Кодирование пространственного звука, включая эффект ближнего поля: введение фильтров кодирования расстояния и жизнеспособного нового формата Ambisonic, 23-я конференция AES, Копенгаген, 2003 г., стр. 13
  5. ^ а б Майкл Чапман и др., Стандарт обмена сигналами Ambisonic, Симпозиум по амбисонике, Грац, 2009 г.
  6. ^ Малхэм, Дэвид (апрель 2003 г.). «Амбисонические системы высшего порядка» (PDF). Космос в музыке - Музыка в космосе (диссертация Мфила). Йоркский университет. стр. 2–3. Получено 2 ноября 2007.
  7. ^ Nachbar, Zotter, Deleflie, and Sontacchi (2011) lc, p.3, eq (3)
  8. ^ Daniel (2001), lc, p.156, перевод с французского "Grande généricité: calc récursif des coefficients d'encodage, les composantes d'ordre 1 étant celles du vecteur incidence (unitaire) ."
  9. ^ Daniel (2001) lc, p.156, перевод с французского "Base orthonormée pour la décomposition 3D. Relation simple á SN3D (facteur ). Обеспечьте непревзойденное исполнение кодовых композиций в 3D-формате (intérêt dans le domaine analogique). Intérêt évident pour la résolution (ru 3.3) проблем decodage (реституция 3D) ".
  10. ^ Daniel (2001), lc, p.150 eq (3.9)
  11. ^ Документация MathWorks: Legendre
  12. ^ Документация GNU Octave: Legendre
  13. ^ Документация на языке Wolfram: LegendreP
  14. ^ Документация на языке Wolfram: СферическийГармонический
  15. ^ Майкл Чепмен, Последовательность амбизонных каналов (предлагаемый стандарт) В архиве 2012-09-30 в Wayback Machine
  16. ^ а б Ричард Добсон Формат файла AMB Ambisonic В архиве 2014-04-22 в Wayback Machine
  17. ^ IEM, Эталонная реализация AmbiX (документация по API)
  18. ^ Трэвис, Крис, Новая схема смешанного порядка для сигналов Ambisonic В архиве 2009-10-04 на Wayback Machine, Симпозиум по амбисонике, Грац, 2009 г.

внешняя ссылка