Аккуратные данные - Tidy data
Эта статья возможно содержит оригинальные исследования.Ноябрь 2020) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Аккуратные данные является альтернативным названием общей статистической формы, называемой матрица модели или же матрица данных. А матрица данных определяется в [1] следующее:
Стандартный метод отображения многомерного набора данных - это матрица данных, в которой строки соответствуют выборочным лицам, а столбцы - переменным, так что запись в яй ряд и j-й столбец дает значение jth варьируются, измеренные или наблюдаемые на яй особ.
Хэдли Уикхэм позже определил "аккуратные данные" как наборы данных которые расположены так, что каждая переменная представляет собой столбец, а каждое наблюдение (или дело) является строкой.[2] (Первоначально с дополнительными условиями для таблицы, которые делали определение эквивалентным 3-я нормальная форма Бойса – Кодда.)
Организация данных является важным фактором при обработке данных, но ее не следует путать с также важной задачей очистка данных.
Другие соответствующие составы включают: денормализация до моделирования машинного обучения (неформально обозначающего перемещение данных в "широкую форму", где все возможные измерения находятся в заданной строке) и использование семантические тройки как промежуточное представление (неформально «высокая» или «длинная» форма, где измерения одного экземпляра распределены по многим строкам).
Рекомендации
- ^ Кшановски, У. Дж., Ф. Х. К. Марриотт, Многомерный анализ, часть 1, Эдвард Арнольд, 1994
- ^ Уикхэм, Хэдли (20 февраля 2013 г.). «Чистые данные» (PDF). Журнал статистического программного обеспечения.