Тип статистических данных - Statistical data type

В статистика, группы индивидуальных данные точки могут быть отнесены к любому из различных типы статистических данных, например категоричный («красный», «синий», «зеленый»), настоящий номер (1,68, -5, 1,7e + 6), нечетное число (1,3,5) и т. Д. Тип данных является фундаментальным компонентом семантического содержания переменной и определяет, какие виды распределения вероятностей может логически использоваться для описания переменной, допустимых операций с переменной, типа регрессивный анализ используется для прогнозирования переменной и т. д. Концепция типа данных аналогична концепции уровень измерения, но более конкретно: например, подсчитывать данные требуется другое распределение (например, распределение Пуассона или же биномиальное распределение ) чем неотрицательный ценный данные требуются, но оба относятся к одному уровню измерения (шкала отношений).

Были предприняты различные попытки составить таксономию уровни измерения. Психофизик Стэнли Смит Стивенс определены номинальная, порядковая, интервальная шкала и шкала отношения. Номинальные измерения не имеют значимого порядка ранжирования среди значений и допускают любое однозначное преобразование. Порядковые измерения имеют неточные различия между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования с сохранением порядка. Для интервальных измерений определены значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с долгота и температура измерения в градусах Цельсия или степень Фаренгейт ) и допускают любое линейное преобразование. Измерения соотношения имеют как значимое нулевое значение, так и заданные расстояния между различными измерениями, а также допускают любое преобразование масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются вместе как категориальные переменные, тогда как измерения отношения и интервалы сгруппированы вместе как количественные переменные, который может быть либо дискретный или же непрерывный, из-за их числовой природы. Такие различия часто слабо соотносятся с тип данных в информатике, дихотомические категориальные переменные могут быть представлены Логический тип данных, политомические категориальные переменные с произвольно назначенными целые числа в интегральный тип данных, и непрерывные переменные с реальный тип данных с участием плавающая точка вычисление. Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних реализуется.

Были предложены и другие категории. Например, Mosteller и Tukey (1977)[1] отличительные оценки, ранги, счетные дроби, подсчеты, суммы и остатки. Нелдер (1990)[2] описаны непрерывные подсчеты, непрерывные отношения, отношения подсчета и категориальные режимы данных. Также Chrisman (1998),[3] ван ден Берг (1991).[4]

Вопрос о том, уместно ли применять разные виды статистических методов к данным, полученным с помощью различных процедур измерения, осложняется проблемами, связанными с преобразованием переменных и точной интерпретацией вопросов исследования. "Связь между данными и тем, что они описывают, просто отражает тот факт, что некоторые виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. "(Hand, 2004, стр. 82).[5]

Простые типы данных

В следующей таблице классифицируются различные простые типы данных, связанные распределения, допустимые операции и т. Д. Независимо от логических возможных значений, все эти типы данных обычно кодируются с использованием действительные числа, потому что теория случайные переменные часто явно предполагает, что они содержат действительные числа.

Тип данныхВозможные значенияПример использованияУровень измеренияРаспределениеШкала относительных различийДопустимая статистикаРегрессивный анализ
двоичный0, 1 (произвольные метки)двоичный результат («да / нет», «истина / ложь», «успех / неудача» и т. д.)номинальная шкалаБернуллинесравненныйРежим, Хи-квадратлогистика, пробит
категоричный1, 2, ..., K (произвольные метки)категоричный исход (конкретный группа крови, политическая партия, слово и т. д.)категоричныйполиномиальный логит, полиномиальный пробит
порядковыйцелое число или же настоящий номер (произвольный масштаб)относительная оценка, важная только для создания рейтингапорядковая шкалакатегоричныйотносительное сравнениепорядковая регрессия (заказанный логит, заказал пробит )
биномиальный0, 1, ..., Nколичество успехов (например, голосов за) из N возможныйшкала интерваловбиномиальный, бета-бином, так далее.добавкаиметь в виду, медиана, Режим, стандартное отклонение, корреляциябиномиальная регрессия (логистика, пробит )
считатьнеотрицательный целые числа (0, 1, ...)Количество предметов (телефонные звонки, люди, молекулы, рождения, смерти и т. д.) в заданном интервале / площади / объемешкала отношенийПуассон, отрицательный бином, так далее.мультипликативныйВся статистика разрешена для интервальных шкал плюс следующее: среднее геометрическое, гармоническое среднее, коэффициент вариацииПуассон, отрицательная биномиальная регрессия
ценный добавканастоящий номертемпература в градусах Цельсия или градусах Фаренгейта, относительное расстояние, параметр местоположения и т. д. (или примерно то, что не меняется в больших масштабах)шкала интерваловнормальный и т. д. (обычно симметрично относительно иметь в виду )добавкаиметь в виду, медиана, Режим, стандартное отклонение, корреляциястандарт линейная регрессия
ценный мультипликативныйположительный настоящий номертемпература в кельвин, цена, доход, размер, параметр масштаба и т. д. (особенно при изменении в большом масштабе)шкала отношенийлог-нормальный, гамма, экспоненциальный и т. д. (обычно перекошенный распределение)мультипликативныйВся статистика разрешена для интервальных шкал плюс следующее: среднее геометрическое, гармоническое среднее, коэффициент вариацииобобщенная линейная модель с логарифмический связь

Многовариантные типы данных

Данные, которые невозможно описать одним числом, часто включаются в случайные векторы реальных случайные переменные, хотя растет тенденция лечить их самостоятельно. Некоторые примеры:

Эти концепции происходят из различных научных областей и часто совпадают в использовании. В результате очень часто к одной и той же проблеме можно применить несколько концепций.

Рекомендации

  1. ^ Мостеллер, Ф., & Тьюки, Дж. У. (1977). Анализ данных и регрессия. Бостон: Эддисон-Уэсли.
  2. ^ Нелдер, Дж. А. (1990). Знания, необходимые для компьютеризации анализа и интерпретации статистической информации. В Экспертные системы и искусственный интеллект: потребность в информации о данных. Отчет библиотечной ассоциации, Лондон, 23–27 марта.
  3. ^ Крисман, Николас Р. (1998). Переосмысление уровней измерения для картографии. Картография и географическая информатика, т. 25 (4), стр. 231–242
  4. ^ ван ден Берг, Г. (1991). Выбор метода анализа. Лейден: DSWO Press
  5. ^ Рука, Д. Дж. (2004). Теория и практика измерения: мир через количественную оценку. Лондон, Великобритания: Арнольд.