Конфигурационный частотный анализ - Configural frequency analysis

Конфигурационный частотный анализ (CFA) это метод разведочный анализ данных, представлен Густав А. Линерт в 1969 г.[1] Целью частотного анализа конфигурации является обнаружение закономерностей в данных, которые возникают существенно подробнее (такие узоры называются Типы) или значительно реже (такие шаблоны называются Антитипы), чем ожидалось случайно. Таким образом, идея CFA состоит в том, чтобы с помощью идентифицированных типов и антитипов дать некоторое представление о структуре данных. Типы интерпретируются как концепции, состоящие из набора значений переменных. Антитипы интерпретируются как образцы значений переменных, которые, как правило, не встречаются вместе.

Основная идея алгоритма CFA

Мы объясним основную идею CFA на простом примере. Предположим, что у нас есть набор данных, описывающий для каждого из п пациенты, если у них проявляются определенные симптомы s1, ..., sм. Для простоты мы предполагаем, что симптом проявляется или нет, т.е. дихотомический набор данных.

Таким образом, каждая запись в наборе данных является м-температура (Икс1, ..., Иксм) где каждый Икся либо равно 0 (у пациента нет симптомовя) или 1 (у пациента действительно проявляются симптомыя) .Каждый такой м-набор называется конфигурация. Позволять C быть набором всех возможных конфигураций, т.е. набором всех возможных м-наборы на {0,1}м. Таким образом, набор данных можно описать, перечислив наблюдаемые частоты ж(c) всех возможных конфигураций в C.

Основная идея CFA - оценить частоту каждой конфигурации в предположении, что м симптомы статистически независимый. Позволять е(c) будет этой оценочной частотой в предположении независимости.

Позволять пя(1) вероятность того, что у члена исследуемой популяции проявятся симптомы sя и пя(0) - вероятность того, что у члена исследуемой популяции не будет симптомов sя. Предполагая, что все симптомы независимы, мы можем вычислить ожидаемую относительную частоту конфигурации c = (c1 , ..., cм) к:

Сейчас же ж(c) и е(c) можно сравнить с помощью статистического теста (типичные тесты, применяемые в CFA, Критерий хи-квадрат Пирсона, то биномиальный тест или гипергеометрический тест Лемахера).

Если статистический тест предлагает для данного -уровень, что разница между ж(c) и е(c) значителен c называется тип если ж(c) > е(c) и называется прообразом, если ж(c) < е(c) .Если нет существенной разницы между ж(c) и е(c), тогда c не является ни прообразом, ни прообразом. Таким образом, каждая конфигурация c в принципе может иметь три разных состояния. Это может быть прообраз, прообраз или неклассифицированный.

Типы и прообразы определяются симметрично. Но в практических приложениях исследователи в основном заинтересованы в обнаружении типов. Например, клинические исследования обычно заинтересованы в выявлении комбинаций симптомов, которые являются индикаторами заболевания. Это по определению комбинации симптомов, которые встречаются чаще, чем ожидалось случайно, то есть типы.

Контроль альфа-уровня

Поскольку в CFA тест значимости применяется параллельно для каждой конфигурации. c существует высокий риск совершить ошибку типа I (т.е. обнаружить тип или прообраз, когда нулевая гипотеза верна). Самый популярный в настоящее время способ контролировать это - использовать Коррекция Бонферрони для α-уровень.[2] Есть несколько альтернативных методов контроля α-уровень. Одна альтернатива, Метод Холма – Бонферрони представлен Стуре Хольм, считает количество уже завершенных тестов, когда яый тест выполняется.[3] Таким образом, в этом методе альфа-уровень не является постоянным для всех тестов.

Алгоритм в недихотомическом случае

В нашем примере выше мы для простоты предположили, что симптомы дихотомические. Однако это необязательное ограничение. CFA также может применяться для симптомов (или более общих атрибутов объекта), которые не являются дихотомическими, но имеют конечное число степеней. В этом случае конфигурация является элементом C = S1 х ... х Sм, куда Sя набор возможных степеней симптома sя.[2][4][5][6]

Случайная модель

Предположение о независимости симптомов можно заменить другим методом расчета ожидаемых частот. е(c) конфигураций. Такой метод называется случайная модель.

В большинстве приложений CFA предположение, что все симптомы независимы, используется как случайная модель. CFA, использующий эту случайную модель, называется CFA первого порядка. Это классический метод CFA, который во многих публикациях даже считается единственным методом CFA. Примером альтернативной случайной модели является предположение, что все конфигурации имеют одинаковую вероятность. CFA, использующий эту случайную модель, называется CFA нулевого порядка.

Рекомендации

  1. ^ Линерт, Г. А. (1969). "Die Konfigurationsfrequenzanalyse als Klassifikationsmethode in der klinischen Psychologie" [Конфигурационный частотный анализ как метод классификации в клинической психологии]. В Ирле, М. (ред.). Bericht über den 26. Kongress der Deutschen Gesellschaft für Psychologie in Tübingen 1968. Геттинген: Hogrefe. С. 244–253.
  2. ^ а б Krauth, J .; Линерт, Г. А. (1973). KFA. Die Konfigurationsfrequenzanalyse und ihre Anwendungen в Psychologie und Medizin [CFA. Конфигурационный частотный анализ и его применение в психологии и медицине]. Фрайбург: Альбер.
  3. ^ Холм, С. (1979). «Простая процедура последовательного множественного отклонения». Скандинавский статистический журнал. 6 (2): 65–70. JSTOR  4615733.
  4. ^ фон Ай, А. (1990). Введение в частотный анализ конфигурации: поиск типов и прообразов в кросс-классификациях. Кембридж, Великобритания: Издательство Кембриджского университета. ISBN  0521380901.
  5. ^ Lautsch, E .; Вебер, С. (1990). Конфигурационный анализ частоты (KFA). Берлин: Volk und Wissen.
  6. ^ Краут, Дж. (1993). Einführung in die Konfigurationsfrequenzanalyse (KFA) [Введение в анализ частотной конфигурации (CFA)]. Weinheim: Beltz, Psychologie Verlags Union. ISBN  3621271821.

дальнейшее чтение