Тип статистических данных - Statistical data type
Эта статья нужны дополнительные цитаты для проверка.Июнь 2014 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В статистика, группы индивидуальных данные точки могут быть отнесены к любому из различных типы статистических данных, например категоричный («красный», «синий», «зеленый»), настоящий номер (1,68, -5, 1,7e + 6), нечетное число (1,3,5) и т. Д. Тип данных является фундаментальным компонентом семантического содержания переменной и определяет, какие виды распределения вероятностей может логически использоваться для описания переменной, допустимых операций с переменной, типа регрессивный анализ используется для прогнозирования переменной и т. д. Концепция типа данных аналогична концепции уровень измерения, но более конкретно: например, подсчитывать данные требуется другое распределение (например, распределение Пуассона или же биномиальное распределение ) чем неотрицательный ценный данные требуются, но оба относятся к одному уровню измерения (шкала отношений).
Были предприняты различные попытки составить таксономию уровни измерения. Психофизик Стэнли Смит Стивенс определены номинальная, порядковая, интервальная шкала и шкала отношения. Номинальные измерения не имеют значимого порядка ранжирования среди значений и допускают любое однозначное преобразование. Порядковые измерения имеют неточные различия между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования с сохранением порядка. Для интервальных измерений определены значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с долгота и температура измерения в градусах Цельсия или степень Фаренгейт ) и допускают любое линейное преобразование. Измерения соотношения имеют как значимое нулевое значение, так и заданные расстояния между различными измерениями, а также допускают любое преобразование масштабирования.
Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются вместе как категориальные переменные, тогда как измерения отношения и интервалы сгруппированы вместе как количественные переменные, который может быть либо дискретный или же непрерывный, из-за их числовой природы. Такие различия часто слабо соотносятся с тип данных в информатике, дихотомические категориальные переменные могут быть представлены Логический тип данных, политомические категориальные переменные с произвольно назначенными целые числа в интегральный тип данных, и непрерывные переменные с реальный тип данных с участием плавающая точка вычисление. Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних реализуется.
Были предложены и другие категории. Например, Mosteller и Tukey (1977)[1] отличительные оценки, ранги, счетные дроби, подсчеты, суммы и остатки. Нелдер (1990)[2] описаны непрерывные подсчеты, непрерывные отношения, отношения подсчета и категориальные режимы данных. Также Chrisman (1998),[3] ван ден Берг (1991).[4]
Вопрос о том, уместно ли применять разные виды статистических методов к данным, полученным с помощью различных процедур измерения, осложняется проблемами, связанными с преобразованием переменных и точной интерпретацией вопросов исследования. "Связь между данными и тем, что они описывают, просто отражает тот факт, что некоторые виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. "(Hand, 2004, стр. 82).[5]
Простые типы данных
В следующей таблице классифицируются различные простые типы данных, связанные распределения, допустимые операции и т. Д. Независимо от логических возможных значений, все эти типы данных обычно кодируются с использованием действительные числа, потому что теория случайные переменные часто явно предполагает, что они содержат действительные числа.
Тип данных | Возможные значения | Пример использования | Уровень измерения | Распределение | Шкала относительных различий | Допустимая статистика | Регрессивный анализ |
---|---|---|---|---|---|---|---|
двоичный | 0, 1 (произвольные метки) | двоичный результат («да / нет», «истина / ложь», «успех / неудача» и т. д.) | номинальная шкала | Бернулли | несравненный | Режим, Хи-квадрат | логистика, пробит |
категоричный | 1, 2, ..., K (произвольные метки) | категоричный исход (конкретный группа крови, политическая партия, слово и т. д.) | категоричный | полиномиальный логит, полиномиальный пробит | |||
порядковый | целое число или же настоящий номер (произвольный масштаб) | относительная оценка, важная только для создания рейтинга | порядковая шкала | категоричный | относительное сравнение | порядковая регрессия (заказанный логит, заказал пробит ) | |
биномиальный | 0, 1, ..., N | количество успехов (например, голосов за) из N возможный | шкала интервалов | биномиальный, бета-бином, так далее. | добавка | иметь в виду, медиана, Режим, стандартное отклонение, корреляция | биномиальная регрессия (логистика, пробит ) |
считать | неотрицательный целые числа (0, 1, ...) | Количество предметов (телефонные звонки, люди, молекулы, рождения, смерти и т. д.) в заданном интервале / площади / объеме | шкала отношений | Пуассон, отрицательный бином, так далее. | мультипликативный | Вся статистика разрешена для интервальных шкал плюс следующее: среднее геометрическое, гармоническое среднее, коэффициент вариации | Пуассон, отрицательная биномиальная регрессия |
ценный добавка | настоящий номер | температура в градусах Цельсия или градусах Фаренгейта, относительное расстояние, параметр местоположения и т. д. (или примерно то, что не меняется в больших масштабах) | шкала интервалов | нормальный и т. д. (обычно симметрично относительно иметь в виду ) | добавка | иметь в виду, медиана, Режим, стандартное отклонение, корреляция | стандарт линейная регрессия |
ценный мультипликативный | положительный настоящий номер | температура в кельвин, цена, доход, размер, параметр масштаба и т. д. (особенно при изменении в большом масштабе) | шкала отношений | лог-нормальный, гамма, экспоненциальный и т. д. (обычно перекошенный распределение) | мультипликативный | Вся статистика разрешена для интервальных шкал плюс следующее: среднее геометрическое, гармоническое среднее, коэффициент вариации | обобщенная линейная модель с логарифмический связь |
Многовариантные типы данных
Данные, которые невозможно описать одним числом, часто включаются в случайные векторы реальных случайные переменные, хотя растет тенденция лечить их самостоятельно. Некоторые примеры:
- Случайные векторы. Отдельные элементы могут быть или не быть коррелированный. Примеры распределений, используемых для описания коррелированных случайных векторов: многомерное нормальное распределение и многомерное t-распределение. В общем, между любыми элементами и любыми другими могут быть произвольные соотношения; однако это часто становится неуправляемым при превышении определенного размера, что требует дополнительных ограничений на коррелированные элементы.
- Случайные матрицы. Случайные матрицы можно расположить линейно и рассматривать как случайные векторы; однако это может быть неэффективным способом представления корреляций между различными элементами. Некоторые распределения вероятностей специально разработаны для случайных матриц, например в матричное нормальное распределение и Распределение Уишарта.
- Случайные последовательности. Иногда они считаются такими же, как случайные векторы, но в других случаях этот термин применяется специально к случаям, когда каждая случайная величина коррелирует только с соседними переменными (как в Марковская модель ). Это частный случай Сеть Байеса и часто используется для очень длинных последовательностей, например последовательности генов или длинные текстовые документы. Ряд моделей специально разработан для таких последовательностей, например скрытые марковские модели.
- Случайные процессы. Они похожи на случайные последовательности, но в которых длина последовательности неопределенная или бесконечная, а элементы в последовательности обрабатываются один за другим. Это часто используется для данных, которые можно описать как Временные ряды, например цена акции в последующие дни. Случайные процессы также используются для моделирования значений, которые изменяются непрерывно (например, температура в последовательные моменты времени), а не через дискретные интервалы.
- Байесовские сети. Они соответствуют совокупности случайных величин, описываемых с помощью графические модели, где отдельные случайные величины связаны в график структура с условные распределения связь переменных с соседними переменными.
- Многоуровневые модели являются подклассами байесовских сетей, которые можно рассматривать как имеющие несколько уровней линейная регрессия.
- Случайные деревья. Это подкласс байесовской сети, где переменные связаны в древовидная структура. Примером может служить проблема разбор предложение, когда используются методы статистического анализа, такие как вероятностные контекстно-свободные грамматики (PCFG).
- Случайные поля. Они представляют собой продолжение случайные процессы к нескольким измерениям и распространены в физика, где они используются в статистическая механика для описания свойств, таких как сила или же электрическое поле которые могут непрерывно меняться в трех измерениях (или четырех измерениях, если учитывать время).
Эти концепции происходят из различных научных областей и часто совпадают в использовании. В результате очень часто к одной и той же проблеме можно применить несколько концепций.
Рекомендации
- ^ Мостеллер, Ф., & Тьюки, Дж. У. (1977). Анализ данных и регрессия. Бостон: Эддисон-Уэсли.
- ^ Нелдер, Дж. А. (1990). Знания, необходимые для компьютеризации анализа и интерпретации статистической информации. В Экспертные системы и искусственный интеллект: потребность в информации о данных. Отчет библиотечной ассоциации, Лондон, 23–27 марта.
- ^ Крисман, Николас Р. (1998). Переосмысление уровней измерения для картографии. Картография и географическая информатика, т. 25 (4), стр. 231–242
- ^ ван ден Берг, Г. (1991). Выбор метода анализа. Лейден: DSWO Press
- ^ Рука, Д. Дж. (2004). Теория и практика измерения: мир через количественную оценку. Лондон, Великобритания: Арнольд.