Составные данные - Compositional data
В статистика, композиционные данные количественные описания частей некоторого целого, передающие относительную информацию. Математически композиционные данные представлен точками на симплекс. Измерения, включающие вероятности, пропорции, проценты и промилле все можно рассматривать как композиционные данные.
Тернарный сюжет
В трех переменных, композиционные данные в трех переменных могут быть построены с помощью тройные участки. Использование барицентрический участок на трех переменных графически изображает отношения трех переменных как позиции в равносторонний треугольник.
Симплициальное пространство отсчетов
В целом, Джон Эйтчисон определил композиционные данные как пропорции некоторого целого в 1982 году.[1] В частности, точка композиционных данных (или сочинение для краткости) может быть представлен вещественным вектором с положительными компонентами. Пространство выборки композиционных данных представляет собой симплекс:
Единственная информация дается соотношениями между компонентами, поэтому информация о композиции сохраняется при умножении на любую положительную константу. Следовательно, выборочное пространство композиционных данных всегда можно считать стандартным симплексом, т.е. . В этом контексте нормализация к стандартному симплексу называется закрытие и обозначается :
куда D количество деталей (компонентов) и обозначает вектор-строку.
Геометрия Эйчисона
Симплексу можно придать структуру реального векторного пространства несколькими способами. Следующая структура векторного пространства называется Геометрия Эйчисона или Симплекс Эйчисона и имеет следующие операции:
- Возмущение
- Питание
- Внутренний продукт
Одних только этих операций достаточно показать, что симплекс Эйчисона образует -мерное евклидово векторное пространство.
Ортонормированные базы
Поскольку симплекс Эйчисона образует конечномерное гильбертово пространство, можно построить ортонормированные базисы в симплексе. Каждая композиция можно разложить следующим образом
куда образует ортонормированный базис в симплексе.[2] Ценности - координаты (ортонормированные и декартовы) по данному основанию. Они называются изометрическими логарифмическими координатами. .
Линейные преобразования
Есть три хорошо охарактеризованных изоморфизмы которые превращаются из симплекса Эйтчисона в реальное пространство. Все эти преобразования удовлетворяют линейности и, как указано ниже
Аддитивное преобразование логарифмического отношения
Преобразование аддитивного логарифмического отношения (alr) является изоморфизмом, где . Это дается
Компонент знаменателя выбирается произвольно и может быть любым заданным компонентом. Это преобразование обычно используется в химии при измерениях, таких как pH. Кроме того, это преобразование чаще всего используется для полиномиальная логистическая регрессия. Преобразование alr не является изометрией, то есть расстояния в преобразованных значениях не будут эквивалентны расстояниям в исходных композициях в симплексе.
Преобразование центрального логарифмического отношения
Преобразование центрально-логарифмического отношения (clr) является одновременно изоморфизмом и изометрией, где
Где среднее геометрическое . Обратная функция этой функции также известна как функция softmax обычно используется в нейронных сетях.
Изометрическое преобразование логарифмического отношения
Преобразование изометрического логарифмического отношения (ilr) является одновременно изоморфизмом и изометрией, где
Существует несколько способов построения ортонормированных базисов, включая использование Ортогонализация Грама – Шмидта или же сингулярное разложение преобразованных данных clr. Другой альтернативой является построение бревенчатых контрастов из разветвляющегося дерева. Если дано бифуркационное дерево, мы можем построить основу из внутренних узлов в дереве.
Каждый вектор в базисе будет определяться следующим образом
Элементы в каждом векторе задаются следующим образом
куда - соответствующее количество подсказок в соответствующих поддеревьях, показанных на рисунке. Можно показать, что полученный базис ортонормирован.[3]
Когда-то основа построено, преобразование ilr может быть вычислено следующим образом
где каждый элемент в данных, преобразованных ilr, имеет следующую форму
куда и - набор значений, соответствующих подсказкам в поддеревьях и
Примеры
- В химия, композиции могут быть выражены как молярные концентрации каждого компонента. Поскольку сумма всех концентраций не определена, весь состав D частей необходимы и, таким образом, выражаются как вектор D молярные концентрации. Эти составы можно перевести в массовые проценты, умножив каждый компонент на соответствующую константу.
- В демография, город может быть точкой композиционных данных в выборке городов; город, в котором 35% населения - христиане, 55% - мусульмане, 6% - евреи, а оставшиеся 4% - другие, соответствует четверке [0,35, 0,55, 0,06, 0,04]. Набор данных будет соответствовать списку городов.
- В геология, горная порода, состоящая из различных минералов, может быть точкой данных о составе в образце горных пород; горная порода, из которой 10% является первым минералом, 30% - вторым, а оставшиеся 60% - третьим, соответствует тройному [0,1, 0,3, 0,6]. А набор данных будет содержать по одной такой тройке для каждого камня в образце горных пород.
- В высокопроизводительное секвенирование полученные данные обычно преобразуются в относительную численность, что делает их композиционными.
- В вероятность и статистика, разделение пространства выборки на непересекающиеся события описывается вероятностями, присвоенными таким событиям. Вектор D вероятности можно рассматривать как композицию D части. Когда они прибавляются к одному, одна вероятность может быть подавлена, и состав полностью определен.
- В опрос, пропорции людей, положительно ответивших на разные вопросы, можно выразить в процентах. Поскольку общее количество определено как 100, композиционный вектор D компоненты могут быть определены с использованием только D - 1 компонент, предполагая, что оставшийся компонент - это процент, необходимый для прибавления всего вектора к 100.
Смотрите также
Примечания
- ^ Эйчисон, Джон (1982). «Статистический анализ композиционных данных». Журнал Королевского статистического общества. Серия B (Методологическая). 44 (2): 139–177. Дои:10.1111 / j.2517-6161.1982.tb01195.x.
- ^ Egozcue et al.
- ^ Egozcue & Pawlowsky-Glahn 2005
Рекомендации
- Эйчисон, Дж. (2011) [1986], Статистический анализ композиционных данных, Монографии по статистике и прикладной вероятности, Springer, ISBN 978-94-010-8324-9
- ван ден Богаарт, К. Джеральд; Толосана-Дельгадо, Раймон (2013), Анализ композиционных данных с помощью R, Спрингер, ISBN 978-3-642-36809-7
- Эгозкуэ, Хуан Хосе; Павловски-Глан, Вера; Матеу-Фигерас, Глория; Барсело-Видаль, Карлес (2003), "Изометрические преобразования логарифмического отношения для анализа композиционных данных", Математическая геология, 35 (3): 279–300, Дои:10.1023 / А: 1023818214614, S2CID 122844634
- Эгозкуэ, Хуан Хосе; Павловски-Глан, Вера (2005), «Группы частей и их балансы в композиционном анализе данных», Математическая геология, 37 (7): 795–828, Дои:10.1007 / s11004-005-7381-9, S2CID 53061345
- Павловски-Глан, Вера; Эгозкуэ, Хуан Хосе; Толосана-Дельгадо, Раймон (2015), Моделирование и анализ композиционных данных, Wiley, Дои:10.1002/9781119003144, ISBN 9781119003144
внешняя ссылка
- CoDaWeb - Веб-сайт композиционных данных
- Pawlowsky-Glahn, V .; Egozcue, J.J .; Толосана-Дельгадо Р. (2007). «Конспект лекций по анализу композиционных данных». HDL:10256/297. Цитировать журнал требует
| журнал =
(помощь) - Почему и как геологи должны использовать анализ композиционных данных (викибук)