Построение древа навыков - Constructing skill trees

Построение деревьев навыков (CST) - это иерархическая обучение с подкреплением алгоритм, который может строить деревья навыков из набора траекторий примерных решений, полученных при демонстрации. CST использует инкрементную MAP (максимум апостериори ) изменить алгоритм обнаружения точки, чтобы сегментировать каждую демонстрационную траекторию на навыки и интегрировать результаты в дерево навыков. CST был представлен Георгий Конидарис, Скотт Куиндерма, Эндрю Барто и Родерик Групп в 2010.

Алгоритм

CST состоит в основном из трех частей: обнаружение точки изменения, выравнивание и объединение. Основное внимание в CST уделяется обнаружению точек изменения в режиме онлайн. Алгоритм обнаружения точки изменения используется для сегментирования данных по навыкам и использует сумму дисконтированного вознаграждения. в качестве целевой регрессионной переменной. Каждому навыку соответствует соответствующая абстракция. А фильтр твердых частиц используется для управления вычислительной сложностью CST.

Алгоритм обнаружения точки смены реализован следующим образом. Данные за раз и модели Q с предварительным даны. Предполагается, что алгоритм может соответствовать отрезку времени к используя модель с подходящей вероятностью . Модель линейной регрессии с гауссовым шумом используется для вычисления . Априорный гауссов шум имеет нулевое среднее, а следующая за ним дисперсия . Приор для каждого веса следует .

Вероятность соответствия вычисляется по следующему уравнению.

Затем CST вычисляет вероятность точки изменения в момент времени j с помощью модели q, и используя Алгоритм Витерби.

Ниже приведены описания параметров и переменных;

: вектор из m базисных функций, вычисленных в состоянии

: Гамма-функция

: Количество базисных функций q.

: матрица m на m с по диагонали и нули еще где

Длина навыка предполагается, что подчиняется геометрическому распределению с параметром p

Ожидаемая длина навыка

Используя описанный выше метод, CST может сегментировать данные в цепочку навыков. Временная сложность обнаружения точки изменения составляет и размер хранилища , куда - количество частиц, время вычислений , и здесь изменить точки.

Следующий шаг - выравнивание. CST необходимо согласовать навыки компонентов, потому что точка изменения не происходит в одних и тех же местах. Таким образом, при сегментировании второй траектории после сегментации первой траектории он имеет смещение в отношении местоположения точки изменения на второй траектории. Это предубеждение следует за смесью гауссианцев.

Последний шаг - слияние. CST объединяет цепочки навыков в дерево навыков. CST объединяет пару сегментов траектории, выделяя один и тот же навык. Все траектории имеют одну и ту же цель, и она объединяет две цепочки, начиная с их последних сегментов. Если два сегмента статистически похожи, он объединяет их. Эта процедура повторяется до тех пор, пока не удастся объединить пару сегментов навыков. используются для определения того, лучше ли моделировать пару траекторий как один навык или как два разных навыка.

Псевдокод

Следующее псевдокод описывает алгоритм обнаружения точки изменения:

частицы: = []; Обработка каждой входящей точки данныхза t = 1: Т делать    // Вычислить вероятности соответствия для всех частиц за  делать        p_tjq: = (1 - G (t - p.pos - 1)) × p.fit_prob × model_prior (p.model) × p.prev_MAP p.MAP: = p_tjq × g (t − p.pos) / (1 - Г (т - п.пос - 1)) конец    // При необходимости фильтруем    если количество частиц ≥ N тогда        частицы: = фильтр_частиц (p.MAP, M) конец    // Определяем путь Витерби    за t = 1 делать        max_path: = [] max_MAP: = 1 / | Q | еще        max_particle: = p.MAP max_path: = max_particle.path  max_particle max_MAP: = max_particle.MAP конец    // Создаем новые частицы для точки изменения в момент времени t    за  делать        new_p: = create_particle (модель = q, pos = t, prev_MAP = max_MAP, path = max_path) p: = p  new_p конец    // Обновляем все частицы    за  делать        частицы: = update_particle (current_state, current_reward, p) конецконец// Возвращаем наиболее вероятный путь к конечной точкевозвращаться max_path
функция update_particle (текущее_состояние, текущее_назначение, частица) является    p: = частица r_t: = current_reward // Инициализация    если t = 0 тогда        p.A: = нулевая матрица (p.m, p.m) p.b: = нулевой вектор (p.m) p.z: = нулевой вектор (p.m) p.sum r: = 0 p.tr1: = 0 p.tr2: = 0 конец, если    // Вычислить вектор базисной функции для текущего состояния     : = стр.(Текущее состояние) // Обновляем достаточную статистику    p.A: = p.A +    p.z: = p.z +    p.b: = p.b + p.z p.tr1: = 1+  p.tr1 p.sum r: = сумма p.r +  p.tr1 + 2 p.tr2 p.tr2: = p.tr2 + p.tr1 p.fit_prob: = compute_fit_prob (p, v, u, delta, )

Предположения

CTS предполагает, что продемонстрированные навыки образуют дерево, функция вознаграждения в предметной области известна и лучшая модель для объединения пары навыков - это модель, выбранная для представления обоих по отдельности.

Преимущества

CST - намного более быстрый алгоритм обучения, чем цепочка навыков. CST может применяться для изучения политик более высокого измерения. Даже неудачный эпизод может улучшить навыки. Навыки, приобретенные с использованием ориентированных на агента функций, можно использовать для решения других задач.

Использует

CST использовался для приобретения навыков в результате демонстрации людьми в PinBall домен. Он также использовался для приобретения навыков во время демонстрации человека на мобильном манипуляторе.

Рекомендации

  • Конидарис, Джордж; Скотт Куиндерма; Эндрю Барто; Родерик Групп (2010). «Построение деревьев навыков для агентов обучения с подкреплением по демонстрационным траекториям». Достижения в системах обработки нейронной информации 23.
  • Конидарис, Джордж; Эндрю Барто (2009). «Открытие навыков в областях непрерывного обучения с подкреплением с использованием цепочки навыков». Достижения в системах обработки нейронной информации 22.
  • Fearnhead, Пол; Чжэнь Лю (2007). «Он-лайн вывод для множественных точек изменения». Журнал Королевского статистического общества.