Вменение (статистика) - Imputation (statistics)

В статистика, вменение идет процесс замены отсутствующие данные с подставленными значениями. При подстановке точки данных это известно как «единичное вменение»; при замене компонента точки данных это известно как «вменение элемента». Отсутствие данных приводит к трем основным проблемам: отсутствие данных может привести к значительному смещению, затруднить обработку и анализ данных и снизить эффективность.[1] Поскольку отсутствующие данные могут создать проблемы для анализа данных, вменение рассматривается как способ избежать ошибок, связанных с удаление по списку случаев, в которых отсутствуют значения. То есть, когда одно или несколько значений для случая отсутствуют, большинство статистические пакеты по умолчанию отбрасывается любой случай с пропущенным значением, что может привести к предвзятость или повлиять на репрезентативность результатов. Вменение сохраняет все случаи, заменяя отсутствующие данные оценочным значением, основанным на другой доступной информации. После того, как все пропущенные значения были вменены, набор данных можно затем проанализировать с использованием стандартных методов для получения полных данных.[2] Ученые выдвигали множество теорий, объясняющих недостающие данные, но большинство из них вносят предвзятость. Некоторые из хорошо известных попыток справиться с отсутствующими данными включают: условное исчисление hot deck и cold deck; списочное и попарное удаление; среднее вменение; неотрицательная матричная факторизация;[3] регрессионное вменение; последнее наблюдение перенесено; стохастическое вменение; и множественное вменение.

Удаление по списку (полный регистр)

Безусловно, наиболее распространенным средством работы с отсутствующими данными является удаление по списку (также известное как полный регистр), когда все наблюдения с отсутствующим значением удаляются. Если данные отсутствует полностью случайно, то удаление по списку не добавляет смещения, но уменьшает мощность анализа путем уменьшения эффективного размера выборки. Например, если собрано 1000 случаев, но 80 имеют пропущенные значения, эффективный размер выборки после удаления по списку составляет 920. Если случаи не пропущены полностью случайным образом, то удаление по списку приведет к смещению, поскольку подвыборка случаев, представленных отсутствующие данные не являются репрезентативными для исходной выборки (и если исходная выборка сама была репрезентативной выборкой для генеральной совокупности, полные случаи также не являются репрезентативными для этой генеральной совокупности). Хотя удаление по списку является беспристрастным, когда отсутствующие данные отсутствуют полностью случайным образом, на самом деле это случается редко.[4]

Попарное удаление (или «анализ доступного случая») включает удаление случая, когда отсутствует переменная, необходимая для конкретного анализа, но включение этого случая в анализы, для которых присутствуют все необходимые переменные. Когда используется попарное удаление, общее N для анализа не будет согласованным для оценок параметров. Из-за неполных значений N в некоторые моменты времени при сохранении полного сравнения наблюдений для других параметров попарное удаление может привести к невозможным математическим ситуациям, например, корреляциям, превышающим 100%.[5]

Одно из преимуществ полного удаления кейсов перед другими методами состоит в том, что его легко реализовать. Это большая причина, по которой полный регистр является наиболее популярным методом обработки недостающих данных, несмотря на многие его недостатки.

Единичное вменение

Горячая колода

Некогда распространенным методом вменения было вменение по методу «горячей колоды», когда отсутствующее значение вменялось из случайно выбранной аналогичной записи. Термин «горячая дека» восходит к хранению данных на перфокарты, и указывает, что доноры информации происходят из того же набора данных, что и получатели. Стопка карточек была «горячей», поскольку в данный момент обрабатывалась.

Одна из форм условного исчисления называется «перенесенным последним наблюдением» (или сокращенно LOCF), которая включает в себя сортировку набора данных по любой из нескольких переменных, создавая таким образом упорядоченный набор данных. Затем метод находит первое отсутствующее значение и использует значение ячейки непосредственно перед отсутствующими данными для вменения отсутствующего значения. Процесс повторяется для следующей ячейки с пропущенным значением, пока все пропущенные значения не будут вычислены. В распространенном сценарии, в котором случаи являются повторными измерениями переменной для человека или другого объекта, это представляет собой уверенность в том, что если измерение отсутствует, лучше всего предположить, что оно не изменилось с момента последнего измерения. Известно, что этот метод увеличивает риск увеличения предвзятости и потенциально ложных выводов. По этой причине LOCF не рекомендуется использовать.[6]

Холодная дека

Напротив, вменение методом «холодной колоды» выбирает доноров из другого набора данных. Благодаря достижениям в области вычислительной техники, более сложные методы вменения, как правило, вытеснили оригинальные методы случайного и отсортированного вменения. Это метод замены аналогичных вопросов в прошлых опросах на значения ответов. Он доступен в опросах, измеряющих временные интервалы.

Среднее замещение

Другой метод вменения включает замену любого пропущенного значения средним значением этой переменной для всех других случаев, что позволяет не изменять выборочное среднее для этой переменной. Однако среднее вменение ослабляет любые корреляции, связанные с вмененными переменными. Это связано с тем, что в случаях с условным исчислением гарантируется отсутствие связи между вмененной переменной и любыми другими измеряемыми переменными. Таким образом, среднее вменение имеет некоторые привлекательные свойства для одномерного анализа, но становится проблематичным для многомерного анализа.

Среднее вменение может выполняться внутри классов (т. Е. Категорий, таких как пол), и может быть выражено как где вмененное значение для записи и выборочное среднее данных респондентов в некотором классе . Это частный случай вменения обобщенной регрессии:

Здесь значения оцениваются из регрессии на в не исчисленных данных, это фиктивная переменная для членства в классе, и данные делятся на респондентов () и отсутствует ().[7][8]

Неотрицательная матричная факторизация

Неотрицательная матричная факторизация (NMF) может принимать недостающие данные, сводя к минимуму свою функцию затрат, вместо того, чтобы обрабатывать эти недостающие данные как нули, которые могут привести к смещению.[3] Это делает его математически доказанным методом вменения данных.[3] Сначала доказав, что отсутствующие данные игнорируются в функции стоимости, а затем доказав, что влияние отсутствующих данных может быть таким же небольшим, как эффект второго порядка, Ren et al. (2020)[3] изучил и применил такой подход в области астрономии. Их работа сосредоточена на двумерных матрицах (т. Е. Изображениях), в частности, она включает математический вывод, моделирование вменения данных и применение к данным, полученным с неба.

В зависимости от того, как получены компоненты NMF, процедура вменения с помощью NMF может состоять из двух этапов. С одной стороны, когда компоненты NMF известны, Ren et al. (2020) доказали, что влияние отсутствующих данных во время вменения данных («целевое моделирование» в их исследовании) является эффектом второго порядка. С другой стороны, когда компоненты NMF неизвестны, авторы доказали, что влияние отсутствующих данных во время создания компонента является эффектом первого-второго порядка.

В зависимости от способа получения компонентов NMF, предыдущий этап может быть независимым или зависеть от последнего. Кроме того, качество вменения можно повысить, если использовать больше компонентов NMF, см. Рисунок 4 Рена и др. (2020) за их иллюстрацию.[3]

Регресс

Регрессионное вменение имеет противоположную проблему вменения среднего. Предполагается, что регрессионная модель предсказывает наблюдаемые значения переменной на основе других переменных, а затем эта модель используется для условного исчисления значений в случаях, когда значение этой переменной отсутствует. Другими словами, доступная информация для полных и неполных случаев используется для прогнозирования значения конкретной переменной. Затем для вменения недостающих значений используются подобранные значения из регрессионной модели. Проблема в том, что условно исчисленные данные не содержат члена ошибки, включенного в их оценку, поэтому оценки идеально соответствуют линии регрессии без какой-либо остаточной дисперсии. Это приводит к переопределению взаимосвязей и предполагает большую точность вмененных значений, чем это требуется. Модель регрессии предсказывает наиболее вероятное значение отсутствующих данных, но не дает неопределенности относительно этого значения.

Стохастическая регрессия была довольно успешной попыткой исправить отсутствие члена ошибки в вменении регрессии путем добавления средней дисперсии регрессии к вменениям регрессии, чтобы ввести ошибку. Стохастическая регрессия показывает гораздо меньшую систематическую ошибку, чем вышеупомянутые методы, но все же упускает одну вещь - если данные рассчитываются, то интуитивно можно было бы подумать, что в проблему следует внести больше шума, чем простая остаточная дисперсия.[5]

Множественное вменение

Чтобы справиться с проблемой повышенного шума из-за вменения, Рубин (1987)[9] разработал метод усреднения результатов по множеству вмененных наборов данных, чтобы учесть это. Все методы множественного вменения включают три этапа.

  1. Вменение - аналогично единственному вменению, вменяются пропущенные значения. Однако условно исчисленные значения нарисованы м раз из распределения, а не один раз. В конце этого шага должно быть м завершенные наборы данных.
  2. Анализ - Каждый из м наборы данных анализируются. В конце этого шага должно быть м анализы.
  3. Объединение - The м результаты объединяются в один результат путем вычисления среднего значения, дисперсии и доверительного интервала рассматриваемой переменной.[10][11] или путем объединения симуляций из каждой отдельной модели.[12]

Так же, как существует несколько методов единственного вменения, существует также несколько методов множественного вменения. Одно из преимуществ множественного вменения по сравнению с методами единого вменения и полного случая состоит в том, что множественное вменение является гибким и может использоваться в самых разных сценариях. Множественное вменение может использоваться в случаях, когда данные отсутствует полностью случайно, отсутствует наугад, и даже когда данные отсутствует не случайно. Однако основным методом множественного вменения является множественное вменение с помощью связанных уравнений (MICE). Это также известно как «полностью условная спецификация» и «последовательная регрессия с множественным вменением». [13] Было показано, что MICE очень хорошо работает с отсутствующими случайными данными, хотя есть свидетельства, позволяющие предположить, с помощью моделирования, что либо с достаточным количеством вспомогательных переменных, он также может работать с данными, которые отсутствуют не случайно; использование скрытой переменной (полученной с помощью метода анализа скрытых классов, дает более точные оценки по MICE).[14]

Как упоминалось в предыдущем разделе, однократное вменение не принимает во внимание неопределенность вменений. После вменения данные обрабатываются так, как если бы они были фактическими реальными значениями при единственном вменении. Пренебрежение неопределенностью при вменении может и приведет к излишне точным результатам и ошибкам в любых сделанных выводах.[15] При многократном вменении учитывается неопределенность и диапазон значений, которые могло бы принять истинное значение.

Кроме того, хотя единичное вменение и полное дело реализовать проще, множественное вменение не очень сложно. В различном статистическом программном обеспечении существует широкий спектр различных статистических пакетов, которые позволяют легко выполнять множественное вменение. Например, пакет MICE позволяет пользователям в R выполнять множественное вменение с помощью метода MICE.[16]

Смотрите также

Рекомендации

  1. ^ Barnard, J .; Мэн, X. Л. (1999-03-01). «Применение множественного вменения в медицинских исследованиях: от СПИДа до NHANES». Статистические методы в медицинских исследованиях. 8 (1): 17–36. Дои:10.1177/096228029900800103. ISSN  0962-2802. PMID  10347858. S2CID  11453137.
  2. ^ Гельман, Эндрю и Дженнифер Хилл. Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Издательство Кембриджского университета, 2006. Глава 25.
  3. ^ а б c d е Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование данных для разделения сигналов в высококонтрастной визуализации». Астрофизический журнал. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ ... 892 ... 74R. Дои:10.3847 / 1538-4357 / ab7024. S2CID  209531731.
  4. ^ Кенвард, Майкл Дж. (26 февраля 2013 г.). «Обработка недостающих данных в клинических испытаниях». Клинические исследования. 3 (3): 241–250. Дои:10.4155 / cli.13.7. ISSN  2041-6792.
  5. ^ а б Эндерс, К. К. (2010). Прикладной анализ отсутствующих данных. Нью-Йорк: Guilford Press. ISBN  978-1-60623-639-0.
  6. ^ Мольнар, Франк Дж .; Хаттон, Брайан; Фергюссон, декан (2007-10-07). «Вносит ли анализ с использованием« перенесенного последнего наблюдения »систематическую ошибку в исследования деменции?». Журнал Канадской медицинской ассоциации. 179 (8): 751–753. Дои:10.1503 / cmaj.080820. ISSN  0820-3946. ЧВК  2553855. PMID  18838445.
  7. ^ Калтон, Грэм (1986). «Обработка отсутствующих данных обследования». Методология исследования. 12: 1–16.
  8. ^ Калтон, Грэм; Каспршик, Даниэль (1982). «Обвинение в отсутствии ответов на опрос» (PDF). Материалы секции по методам опросных исследований. Американская статистическая ассоциация. 22. S2CID  195855359.
  9. ^ Рубин, Дональд (9 июня 1987 г.). Множественное вменение за неполучение ответов в опросах. Серия Уайли по вероятности и статистике. Вайли. Дои:10.1002/9780470316696. ISBN  9780471087052.
  10. ^ Юань, Ян С. (2010). «Множественное вменение недостающих данных: концепции и новые разработки» (PDF). SAS Institute Inc., Роквилл, Мэриленд. 49: 1–11.
  11. ^ Ван Бюрен, Стеф (29 марта 2012 г.). «2. Множественное вменение». Гибкое вменение отсутствующих данных. Chapman & Hall / CRC Interdisciplinary Statistics Series. 20125245. Чепмен и Холл / CRC. Дои:10.1201 / b11826. ISBN  9781439868249.
  12. ^ Кинг, Гэри; Хонакер, Джеймс; Джозеф, Энн; Шеве, Кеннет (март 2001 г.). «Анализ неполных данных политологии: альтернативный алгоритм множественного вменения». Обзор американской политической науки. 95 (1): 49–69. Дои:10.1017 / S0003055401000235. ISSN  1537-5943.
  13. ^ Азур, Мелисса Дж .; Стюарт, Элизабет А .; Франгакис, Константин; Лист, Филип Дж. (2011-03-01). «Множественное вменение посредством связанных уравнений: что это такое и как это работает?». Международный журнал методов психиатрических исследований. 20 (1): 40–49. Дои:10.1002 / mpr.329. ISSN  1557-0657. ЧВК  3074241. PMID  21499542.
  14. ^ Сулис, Изабелла; Порку, Мариано (июль 2017 г.). «Обработка отсутствующих данных в теории ответа элемента. Оценка точности процедуры множественного вменения на основе анализа скрытого класса». Журнал классификации. 34 (2): 327–359. Дои:10.1007 / s00357-017-9220-3. ISSN  0176-4268. S2CID  6040710.
  15. ^ Грэм, Джон В. (01.01.2009). «Анализ недостающих данных: заставить его работать в реальном мире». Ежегодный обзор психологии. 60: 549–576. Дои:10.1146 / annurev.psych.58.110405.085530. ISSN  0066-4308. PMID  18652544.
  16. ^ Хортон, Николас Дж .; Клейнман, Кен П. (2007-02-01). «Много шума из ничего: сравнение методов недостающих данных и программного обеспечения для соответствия неполным моделям регрессии данных». Американский статистик. 61 (1): 79–90. Дои:10.1198 / 000313007X172556. ISSN  0003-1305. ЧВК  1839993. PMID  17401454.

внешняя ссылка