Составные данные - Compositional data

В статистика, композиционные данные количественные описания частей некоторого целого, передающие относительную информацию. Математически композиционные данные представлен точками на симплекс. Измерения, включающие вероятности, пропорции, проценты и промилле все можно рассматривать как композиционные данные.

Тернарный сюжет

В трех переменных, композиционные данные в трех переменных могут быть построены с помощью тройные участки. Использование барицентрический участок на трех переменных графически изображает отношения трех переменных как позиции в равносторонний треугольник.

Симплициальное пространство отсчетов

В целом, Джон Эйтчисон определил композиционные данные как пропорции некоторого целого в 1982 году.[1] В частности, точка композиционных данных (или сочинение для краткости) может быть представлен вещественным вектором с положительными компонентами. Пространство выборки композиционных данных представляет собой симплекс:

Иллюстрация симплекса Эйтчисона. Здесь есть 3 части, представляют собой значения разных пропорций. A, B, C, D и E - это 5 разных композиций в симплексе. Все A, B и C эквивалентны, а D и E эквивалентны.

Единственная информация дается соотношениями между компонентами, поэтому информация о композиции сохраняется при умножении на любую положительную константу. Следовательно, выборочное пространство композиционных данных всегда можно считать стандартным симплексом, т.е. . В этом контексте нормализация к стандартному симплексу называется закрытие и обозначается :

куда D количество деталей (компонентов) и обозначает вектор-строку.

Геометрия Эйчисона

Симплексу можно придать структуру реального векторного пространства несколькими способами. Следующая структура векторного пространства называется Геометрия Эйчисона или Симплекс Эйчисона и имеет следующие операции:

Возмущение
Питание
Внутренний продукт

Одних только этих операций достаточно показать, что симплекс Эйчисона образует -мерное евклидово векторное пространство.

Ортонормированные базы

Поскольку симплекс Эйчисона образует конечномерное гильбертово пространство, можно построить ортонормированные базисы в симплексе. Каждая композиция можно разложить следующим образом

куда образует ортонормированный базис в симплексе.[2] Ценности - координаты (ортонормированные и декартовы) по данному основанию. Они называются изометрическими логарифмическими координатами. .

Линейные преобразования

Есть три хорошо охарактеризованных изоморфизмы которые превращаются из симплекса Эйтчисона в реальное пространство. Все эти преобразования удовлетворяют линейности и, как указано ниже

Аддитивное преобразование логарифмического отношения

Преобразование аддитивного логарифмического отношения (alr) является изоморфизмом, где . Это дается

Компонент знаменателя выбирается произвольно и может быть любым заданным компонентом. Это преобразование обычно используется в химии при измерениях, таких как pH. Кроме того, это преобразование чаще всего используется для полиномиальная логистическая регрессия. Преобразование alr не является изометрией, то есть расстояния в преобразованных значениях не будут эквивалентны расстояниям в исходных композициях в симплексе.

Преобразование центрального логарифмического отношения

Преобразование центрально-логарифмического отношения (clr) является одновременно изоморфизмом и изометрией, где

Где среднее геометрическое . Обратная функция этой функции также известна как функция softmax обычно используется в нейронных сетях.


Изометрическое преобразование логарифмического отношения

Преобразование изометрического логарифмического отношения (ilr) является одновременно изоморфизмом и изометрией, где

Существует несколько способов построения ортонормированных базисов, включая использование Ортогонализация Грама – Шмидта или же сингулярное разложение преобразованных данных clr. Другой альтернативой является построение бревенчатых контрастов из разветвляющегося дерева. Если дано бифуркационное дерево, мы можем построить основу из внутренних узлов в дереве.

Представление дерева через его ортогональные компоненты. l представляет собой внутренний узел, элемент ортонормированного базиса. Это предшественник использования дерева в качестве основы для преобразования ilr.

Каждый вектор в базисе будет определяться следующим образом

Элементы в каждом векторе задаются следующим образом

куда - соответствующее количество подсказок в соответствующих поддеревьях, показанных на рисунке. Можно показать, что полученный базис ортонормирован.[3]

Когда-то основа построено, преобразование ilr может быть вычислено следующим образом

где каждый элемент в данных, преобразованных ilr, имеет следующую форму

куда и - набор значений, соответствующих подсказкам в поддеревьях и

Примеры

  • В химия, композиции могут быть выражены как молярные концентрации каждого компонента. Поскольку сумма всех концентраций не определена, весь состав D частей необходимы и, таким образом, выражаются как вектор D молярные концентрации. Эти составы можно перевести в массовые проценты, умножив каждый компонент на соответствующую константу.
  • В демография, город может быть точкой композиционных данных в выборке городов; город, в котором 35% населения - христиане, 55% - мусульмане, 6% - евреи, а оставшиеся 4% - другие, соответствует четверке [0,35, 0,55, 0,06, 0,04]. Набор данных будет соответствовать списку городов.
  • В геология, горная порода, состоящая из различных минералов, может быть точкой данных о составе в образце горных пород; горная порода, из которой 10% является первым минералом, 30% - вторым, а оставшиеся 60% - третьим, соответствует тройному [0,1, 0,3, 0,6]. А набор данных будет содержать по одной такой тройке для каждого камня в образце горных пород.
  • В высокопроизводительное секвенирование полученные данные обычно преобразуются в относительную численность, что делает их композиционными.
  • В вероятность и статистика, разделение пространства выборки на непересекающиеся события описывается вероятностями, присвоенными таким событиям. Вектор D вероятности можно рассматривать как композицию D части. Когда они прибавляются к одному, одна вероятность может быть подавлена, и состав полностью определен.
  • В опрос, пропорции людей, положительно ответивших на разные вопросы, можно выразить в процентах. Поскольку общее количество определено как 100, композиционный вектор D компоненты могут быть определены с использованием только D - 1 компонент, предполагая, что оставшийся компонент - это процент, необходимый для прибавления всего вектора к 100.

Смотрите также

Примечания

  1. ^ Эйчисон, Джон (1982). «Статистический анализ композиционных данных». Журнал Королевского статистического общества. Серия B (Методологическая). 44 (2): 139–177. Дои:10.1111 / j.2517-6161.1982.tb01195.x.
  2. ^ Egozcue et al.
  3. ^ Egozcue & Pawlowsky-Glahn 2005

Рекомендации

внешняя ссылка