Сегментация временных рядов - Time-series segmentation
Сегментация временных рядов это метод анализ временных рядов в котором входной временной ряд разделен на последовательность дискретных сегментов, чтобы выявить основные свойства его источника. Типичное применение сегментации временных рядов: дневник спикера, в котором аудиосигнал разбивается на несколько частей в зависимости от того, кто в какое время говорит. Алгоритмы на основе обнаружение точки изменения включают скользящие окна, методы снизу вверх и сверху вниз.[1] Вероятностные методы на основе скрытые марковские модели также оказались полезными в решении этой проблемы.[2]
Обзор проблемы сегментации
Часто бывает, что Временные ряды можно представить в виде последовательности дискретных отрезков конечной длины. Например, траектория фондовый рынок могут быть разделены на регионы, которые лежат между важными мировыми событиями, входом в распознавание почерка Приложение могло быть сегментировано на различные слова или буквы, из которых оно, как предполагалось, состояло, или аудиозапись конференции могла быть разделена в зависимости от того, кто и когда говорит. В последних двух случаях можно воспользоваться тем фактом, что присвоение ярлыков отдельным сегментам может повторяться (например, если человек выступает в нескольких разных случаях во время конференции), пытаясь кластер сегменты в соответствии с их отличительными свойствами (например, спектральный содержание голоса каждого говорящего). Есть два общих подхода к этой проблеме. Первый предполагает поиск изменить точки во временном ряду: например, можно назначить границу сегмента всякий раз, когда есть большой скачок среднего значения сигнала. Второй подход предполагает предположение, что каждый сегмент во временном ряду генерируется системой с различными параметрами, а затем определение наиболее вероятных местоположений сегментов и параметров системы, которые их описывают. В то время как первый подход имеет тенденцию искать изменения только в короткий промежуток времени, второй подход обычно учитывает весь временной ряд при принятии решения, какую метку присвоить данной точке.
Алгоритмы сегментации
Скрытые марковские модели
Под скрытая марковская модель, временной ряд предполагается, что они были сгенерированы при переходе системы между набором дискретных скрытых состояний . Каждый раз , образец берется из распределения наблюдения (или излучения), индексированного текущим скрытым состоянием, т. е. . Задача задачи сегментации состоит в том, чтобы каждый раз вывести скрытое состояние, а также параметры, описывающие распределение излучения, связанного с каждым скрытым состоянием. Скрытые параметры последовательности состояний и распределения выбросов можно узнать с помощью Алгоритм Баума-Велча, который является вариантом максимизация ожидания применяется к HMM. Обычно в задаче сегментации предполагается, что вероятность самоперехода между состояниями высока, так что система остается в каждом состоянии в течение значительного времени. Более надежные методы обучения параметрам включают размещение иерархический процесс Дирихле априоры над матрицей перехода HMM.[3]
Смотрите также
Рекомендации
- ^ Keogh, Eamonn и др. "Сегментирование временных рядов: обзор и новый подход. "Интеллектуальный анализ данных в базах данных временных рядов 57 (2004): 1-22.
- ^ Фокс, Эмили Б. и др. "HDP-HMM для систем с сохранением состояния. »Материалы 25-й международной конференции по машинному обучению. ACM, 2008.
- ^ Тех, Йи Уай и др. "Иерархические процессы дирихле. »Журнал Американской статистической ассоциации 101.476 (2006).