Мозаичный сюжет - Mosaic plot

Мозаичный сюжет, показывающий поперечное распределение во времени различных музыкальных тем в списке Guardian «1000 песен, которые стоит послушать перед смертью».

А мозаичный сюжет (также известный как Диаграмма Маримекко) - это графический метод визуализации данных из двух или более качественных переменных.[1] Это многомерное расширение спайнплотов, которые графически отображают одну и ту же информацию только для одной переменной.[2] Он дает обзор данных и позволяет распознать отношения между различными переменными. Например, независимость проявляется, когда квадраты по категориям имеют одинаковые области.[3] Мозаичные сюжеты были введены Хартиганом и Кляйнером в 1981 году и расширены Friendly в 1994 году.[4] Мозаичные сюжеты еще называют Графики Mekko из-за их сходства с Маримекко Распечатать.

Как и с гистограммы и spineplots, площадь плиток, также известная как размер ячейки, пропорциональна количеству наблюдений в этой категории.[5]

Пример

Классический пример мозаичного изображения использует данные пассажиров на Титаник. Данные, используемые для этого примера, включают 2201 наблюдение и 3 переменные. Переменные:

  • пол человека (мужчина / женщина)
  • класс (1-й, 2-й и 3-й класс или экипаж)
  • пережил ли этот человек затопление (да / нет)?

Наблюдения были сведены в следующую таблицу:

ПолВыжил1-й класс2-й класс3-й классЭкипаж
МужскойНет118154422670
да622588192
женскийНет4131063
да141939020

Строительство участка из мозаики

ЗаказПеременнаяОсь
1.ПолВертикальный
2.Учебный классПо горизонтали
3.ВыжилВертикальный

Сначала упорядочиваются категориальные переменные. Затем каждой переменной присваивается ось. В таблице справа представлены последовательность и классификация этого набора данных. Другое упорядочение приведет к другому мозаичному графику, то есть порядок переменных имеет значение, как и для всех многомерных графиков.

Слева от первой переменной мы сначала наносим «Пол», что означает, что мы разделяем данные по вертикали на два блока: нижние блоки соответствуют женщинам, а верхние (намного большие) - мужчинам. Сразу видно, что примерно четверть пассажиров составляли женщины, а остальные три четверти - мужчины.

Затем к верхнему краю применяется вторая переменная «Класс». Таким образом, четыре вертикальных столбца отмечают четыре значения этой переменной (1-е, 2-е, 3-е и экипаж). Эти столбцы имеют переменную толщину, поскольку ширина столбца указывает относительную долю соответствующего значения в генеральной совокупности. Экипаж явно представляет собой самую многочисленную группу мужчин, тогда как пассажиры третьего класса - самую большую группу женщин. Количество женщин-членов экипажа также было незначительным.

Наконец, применяется последняя переменная («Выжившие»), на этот раз по левому краю, результат выделен затемнением: темно-серые прямоугольники представляют людей, которые не пережили катастрофу, светло-серые - люди, которые пережили катастрофу. Сразу видно, что женщины из первого класса имеют самую высокую вероятность выживания. Вероятность выживания у женщин выше, чем у мужчин (маргинализированных по всем классам). Точно так же маргинализация по признаку пола определяет пассажиров первого класса как наиболее вероятных выживших. В целом выжило около 1/3 всех людей (доля светло-серых участков).

Мозаика Титаник Независимый.png

Характеристики

  • Отображаемые переменные представляют собой категориальные или порядковые шкалы.
  • Сюжет состоит как минимум из двух переменных. Верхнего предела нет, но слишком много переменных могут сбивать с толку в графической форме.
  • Количество наблюдений не ограничено, но не читается на картинке.
  • Поверхности прямоугольных полей, доступных для комбинации функций, пропорциональны количеству наблюдений, которые имеют эту комбинацию функций.
  • В отличие, например, от ящик или же График QQ, для мозаичного графика невозможно построить доверительный интервал. Поэтому значимость различных частот различных характеристических значений не может быть прослежена визуально.

Смотрите также

Рекомендации

  1. ^ Сандра Д. Шлотцхауэр (1 апреля 2007 г.). Элементарная статистика с использованием JMP. Институт САС. п. 407. ISBN  978-1-59994-428-9.
  2. ^ Новые методы и технологии для статистики II: материалы второго Боннского семинара. IOS Press. 1 января 1997 г. с. 254. ISBN  978-90-5199-326-4.
  3. ^ Майкл Френдли (1 января 1991 г.). Система SAS для статистической графики. Институт САС. С. 512–. ISBN  978-1-55544-441-9.
  4. ^ Институт SAS (6 сентября 2013 г.). JMP 11 Базовый анализ. Институт САС. С. 251–. ISBN  978-1-61290-684-3.
  5. ^ Мартин Теус; Саймон Урбанек (23 марта 2011 г.). Интерактивная графика для анализа данных: принципы и примеры. CRC Press. ISBN  978-1-4200-1106-7.

дальнейшее чтение

  • Джон Хартиган, Бит Кляйнер: Мозаика для таблиц непредвиденных обстоятельств. В: Информатика и статистика: материалы 13-го симпозиума по интерфейсу. 1981, С. 268–273.