Преобразование фазы мощности с управляемым откликом - Steered-Response Power Phase Transform

Преобразование фазы мощности с управляемым откликом (SRP-PHAT) это популярный алгоритм для локализация акустического источника,^[1] хорошо известен своей надежной работой в неблагоприятных акустических средах.^[2] Алгоритм можно интерпретировать как формирование луча -основанный подход, который ищет позицию кандидата, которая максимизирует выход управляемой формирователь луча с задержкой и суммой.

Алгоритм

Управляемая мощность отклика

Рассмотрим систему ${ displaystyle M}$ микрофоны, где каждый микрофон обозначен субиндексом ${ Displaystyle м в {1, точки, М }}$ . Выходной сигнал с дискретного времени с микрофона равен ${ Displaystyle s_ {m} (п)}$ . (Невзвешенная) мощность управляемого отклика (SRP) в пространственной точке ${ Displaystyle mathbf {x} = [х, y, z] ^ {T}}$ можно выразить как

{ Displaystyle P_ {0} ( mathbf {x}) треугольник сумма _ {п in mathbb {Z}} left vert sum _ {m = 1} ^ {M} s_ {m} ( n- tau _ {m} ( mathbf {x})) right vert ^ {2},}

куда ${ Displaystyle mathbb {Z}}$ обозначает набор целых чисел и ${ Displaystyle тау _ {м} ( mathbf {х})}$ было бы запаздыванием из-за распространения от источника, расположенного в ${ displaystyle mathbf {x}}$ к ${ displaystyle m}$ -й микрофон.

(Взвешенный) SRP можно переписать как

{ Displaystyle P ( mathbf {x}) = { frac {1} {2 pi}} sum _ {m_ {1} = 1} ^ {M} sum _ {m_ {2} = 1} ^ {M} int _ {- pi} ^ { pi} Phi _ {m_ {1}, m_ {2}} (e ^ {j omega}) S_ {m_ {1}} (e ^ {j omega}) S_ {m_ {2}} ^ {*} (e ^ {j omega}) e ^ {j omega tau _ {m_ {1}, m_ {2}} ( mathbf { x})} d omega,}

куда ${ displaystyle () ^ {*}}$ обозначает комплексное сопряжение, ${ Displaystyle S_ {м} (е ^ {j omega})}$ представляет преобразование Фурье с дискретным временем из ${ Displaystyle s_ {m} (п)}$ и ${ displaystyle Phi _ {m_ {1}, m_ {2}} (e ^ {j omega})}$ является весовой функцией в частотной области (обсуждается позже). Период, термин ${ Displaystyle тау _ {м_ {1}, м_ {2}} ( mathbf {x})}$ это дискретная разница во времени прибытия (TDOA) сигнала, излучаемого в позиции ${ displaystyle mathbf {x}}$ к микрофонам ${ displaystyle m_ {1}}$ и ${ displaystyle m_ {2}}$ , данный

{ Displaystyle тау _ {м_ {1}, м_ {2}} ( mathbf {x}) треугольник left lfloor f_ {s} { frac { | mathbf {x} - mathbf {x } _ {m_ {1}} | - | mathbf {x} - mathbf {x} _ {m_ {2}} |} {c}} right rceil,}

куда ${ displaystyle f_ {s}}$ частота дискретизации системы, ${ displaystyle c}$ это скорость распространения звука, ${ displaystyle mathbf {x} _ {m}}$ позиция ${ displaystyle m}$ -й микрофон, ${ displaystyle | cdot |}$ это 2-норма и ${ Displaystyle lfloor cdot rceil}$ обозначает оператор округления.

Обобщенная кросс-корреляция

Вышеупомянутая целевая функция SRP может быть выражена как сумма обобщенных кросс-корреляций (GCC) для разных пар микрофонов с запаздыванием по времени, соответствующим их TDOA.

{ Displaystyle P ( mathbf {x}) = sum _ {m_ {1} = 1} ^ {M} sum _ {m_ {2} = 1} ^ {M} R_ {m_ {1}, m_ {2}} ( tau _ {m_ {1}, m_ {2}} ( mathbf {x})),}

где GCC для пары микрофонов ${ Displaystyle (м_ {1}, м_ {2})}$ определяется как

{ displaystyle R_ {m_ {1}, m_ {2}} ( tau) треугольникq { frac {1} {2 pi}} int _ {- pi} ^ { pi} Phi _ { m_ {1}, m_ {2}} (e ^ {j omega}) S_ {m_ {1}} (e ^ {j omega}) S_ {m_ {2}} ^ {*} (e ^ { j omega}) e ^ {j omega tau} d omega.}

Фазовое преобразование (PHAT) - это эффективное взвешивание GCC для оценки временной задержки в реверберирующих средах, которое заставляет GCC учитывать только фазовую информацию задействованных сигналов:

{ displaystyle Phi _ {m_ {1}, m_ {2}} (e ^ {j omega}) треугольник { frac {1} { vert S_ {m_ {1}} (e ^ {j omega}) S_ {m_ {2}} ^ {*} (e ^ {j omega}) vert}}.}.

Оценка местоположения источника

Алгоритм SRP-PHAT состоит из процедуры поиска по сетке, которая оценивает целевую функцию ${ Displaystyle Р ( mathbf {x})}$ в сетке возможных местоположений источников ${ Displaystyle { mathcal {G}}}$ для оценки пространственного расположения источника звука, ${ displaystyle { textbf {x}} _ {s}}$ , как точка сетки, обеспечивающая максимальное SRP:

{ displaystyle { hat { mathbf {x}}} _ {s} = arg max _ { mathbf {x} in { mathcal {G}}} P ( mathbf {x}).}

Модифицированный SRP-PHAT

Были предложены модификации классического алгоритма SRP-PHAT для уменьшения вычислительных затрат на этапе поиска по сетке алгоритма и повышения устойчивости метода. В классическом SRP-PHAT для каждой пары микрофонов и для каждой точки сетки выбирается уникальное целочисленное значение TDOA как акустическая задержка, соответствующая этой точке сетки. Эта процедура не гарантирует, что все TDOA связаны с точками на сетке, а также что пространственная сетка непротиворечива, поскольку некоторые точки могут не соответствовать пересечению гиперболоидов. Эта проблема становится более проблематичной с грубыми сетками, поскольку при уменьшении количества точек часть информации TDOA теряется, поскольку большинство задержек больше не связаны с какой-либо точкой сетки.

Модифицированный SRP-PHAT^[3] собирает и использует информацию TDOA, относящуюся к объему, окружающему каждую пространственную точку поисковой сетки, с учетом модифицированной целевой функции:

{ displaystyle P '( mathbf {x}) = sum _ {m_ {1} = 1} ^ {M} sum _ {m_ {2} = 1} ^ {M} sum _ { tau = L_ {m_ {1}, m_ {2}} ^ {l} ( mathbf {x})} ^ {L_ {m_ {1}, m_ {2}} ^ {u} ( mathbf {x})} R_ {m_ {1}, m_ {2}} ( tau),}

куда ${ Displaystyle L_ {м_ {1}, м_ {2}} ^ {l} ( mathbf {x})}$ и ${ Displaystyle L_ {м_ {1}, м_ {2}} ^ {и} ( mathbf {x})}$ - нижний и верхний пределы накопления задержек GCC, которые зависят от пространственного расположения ${ displaystyle mathbf {x}}$ .

Пределы накопления

Пределы накопления можно точно рассчитать заранее, исследуя границы, разделяющие области, соответствующие точкам сетки. В качестве альтернативы их можно выбрать, учитывая пространственные градиент TDOA ${ displaystyle nabla _ { tau _ {m_ {1}, m_ {2}}} ( mathbf {x}) = [ nabla _ {x tau _ {m_ {1}, m_ {2}} } ( mathbf {x}), nabla _ {y tau _ {m_ {1}, m_ {2}}} ( mathbf {x}), nabla _ {z tau _ {m_ {1} , m_ {2}}} ( mathbf {x})] ^ {T}}$ , где каждый компонент ${ Displaystyle гамма в влево {х, у, г вправо }}$ градиента:

{ displaystyle nabla _ { gamma tau _ {m_ {1}, m_ {2}}} ( mathbf {x}) = { frac {1} {c}} left ({ frac { гамма - gamma _ {m_ {1}}} { | mathbf {x} - mathbf {x} _ {m_ {1}} |}} - { frac { gamma - gamma _ {m_ {2}}} { | mathbf {x} - mathbf {x} _ {m_ {2}} |}} right).}

Для прямоугольной сетки, где соседние точки разделены расстоянием ${ displaystyle r}$ , нижний и верхний пределы накопления определяются как:

{ displaystyle L_ {m_ {1}, m_ {2}} ^ {l} ( mathbf {x}) = tau _ {m_ {1}, m_ {2}} ( mathbf {x}) - | nabla _ { tau _ {m_ {1}, m_ {2}}} ( mathbf {x}) | cdot d}

{ Displaystyle L_ {m_ {1}, m_ {2}} ^ {u} ( mathbf {x}) = tau _ {m_ {1}, m_ {2}} ( mathbf {x}) + | набла _ { тау _ {м_ {1}, м_ {2}}} ( mathbf {x}) | cdot d,}

куда ${ displaystyle d = (r / 2) min left ({ frac {1} { vert sin ( theta) cos ( phi) vert}}, { frac {1} { vert sin ( theta) sin ( phi) vert}}, { frac {1} { vert cos ( theta) vert}} right)}$ а углы направления градиента определяются выражением

{ displaystyle theta = cos ^ {- 1} left ({ frac { nabla _ {z tau _ {m_ {1}, m_ {2}}} ( mathbf {x})} { | nabla _ { tau _ {m_ {1}, m_ {2}}} ( mathbf {x}) |}} right),}

{ displaystyle phi = arctan _ {2} left ( nabla _ {y tau _ {m_ {1}, m_ {2}}} ( mathbf {x}), nabla _ {x tau _ {m_ {1}, m_ {2}}} ( mathbf {x}) right).}