Лифт (интеллектуальный анализ данных) - Lift (data mining)

В сбор данных и изучение правил ассоциации, поднимать это показатель эффективности таргетинга модель (правило ассоциации) при прогнозировании или классификации случаев как имеющих повышенный ответ (по отношению к населению в целом), измеренный по модели таргетинга со случайным выбором. Модель таргетинга работает хорошо, если ответ в рамках цели намного лучше, чем в среднем по населению в целом. Рост - это просто отношение этих значений: целевой отклик, деленный на средний отклик.

Например, предположим, что у населения средний уровень ответов 5%, но определенная модель (или правило) определила сегмент с уровнем ответов 20%. Тогда рост этого сегмента составил бы 4,0 (20% / 5%).

Обычно разработчик модели стремится разделить популяцию на квантили и ранжируйте квантили по росту. Затем организации могут рассмотреть каждый квантиль и, взвесив прогнозируемую скорость отклика (и связанную с этим финансовую выгоду) с затратами, они могут решить, следует ли продавать этот квантиль или нет.

Кривая подъемной силы также может рассматриваться как разновидность рабочая характеристика приемника (ROC) кривая, также известная в эконометрике как Лоренц или кривую мощности.[1]

Пример

Предположим, что добываемый набор данных:

ПредшествующийПоследующий
А0
А0
А1
А0
B1
B0
B1

где антецедент - это входная переменная, которую мы можем контролировать, а следствие - это переменная, которую мы пытаемся предсказать. Реальные проблемы добычи полезных ископаемых обычно имеют более сложные предпосылки, но обычно фокусируются на однозначных последствиях.

Большинство алгоритмов майнинга определяют следующие правила (модели таргетинга):

  • Правило 1: A означает 0
  • Правило 2: B означает 1

потому что это просто самые распространенные закономерности, обнаруживаемые в данных. Простой просмотр приведенной выше таблицы должен сделать эти правила очевидными.

В поддерживать для правила 1 - 3/7, потому что это количество элементов в наборе данных, в котором антецедент - A, а последующий 0. Поддержка правила 2 - 2/7, потому что две из семи записей соответствуют антецеденту B и следствие 1. Опоры можно записать как:

В уверенность для Правила 1 - 3/4, потому что три из четырех записей, которые соответствуют антецеденту A, соответствуют консеквенту 0. Доверие для Правила 2 составляет 2/3, потому что две из трех записей, которые соответствуют антецеденту B, соответствуют консеквенту 1. Доверие можно записать как:

Рост может быть найден путем деления уверенности на безусловную вероятность консеквента или путем деления поддержки на вероятность предшествующего, умноженную на вероятность консеквента, поэтому:

  • Подъем для Правила 1 равен (3/4) / (4/7) = (3 * 7) / (4 * 4) = 21/16 ≈ 1,31.
  • Подъем для Правила 2 равен (2/3) / (3/7) = (2 * 7) / (3 * 3) = 14/9 ≈ 1,56.

Если бы какое-то правило имело подъем 1, это означало бы, что вероятность появления антецедента и вероятности консеквента не зависит друг от друга. Когда два события независимы друг от друга, никакое правило не может быть составлено для этих двух событий.

Если подъем> 1, как здесь для правил 1 и 2, это позволяет нам узнать степень, в которой эти два вхождения зависят друг от друга, и делает эти правила потенциально полезными для прогнозирования последствий в будущих наборах данных.

Обратите внимание на то, что, хотя Правило 1 более достоверно, оно имеет меньшую подъемную силу. Интуитивно кажется, что Правило 1 более ценно из-за его большей достоверности - оно кажется более точным (лучше поддерживается). Но точность правила, не зависящего от набора данных, может вводить в заблуждение. Ценность подъема заключается в том, что он учитывает как достоверность правила, так и общий набор данных.

Рекомендации

  1. ^ Туфери, Стефан (2011); Интеллектуальный анализ данных и статистика для принятия решений, Чичестер, Великобритания: John Wiley & Sons, перевод с французского Data Mining и решения статистики (Издательство Technip, 2008 г.)
  • Коппок, Дэвид С. (21.06.2002). "Почему лифт?". Получено 2015-07-05.

Смотрите также