Индекс Дэвиса – Боулдина - Davies–Bouldin index

В Индекс Дэвиса – Болдина (DBI), введенный Дэвидом Л. Дэвисом и Дональдом В. Боулдином в 1979 году, является метрикой для оценки алгоритмы кластеризации.[1] Это внутренняя схема оценки, при которой проверка того, насколько хорошо была выполнена кластеризация, осуществляется с использованием количественных характеристик и характеристик, присущих набору данных. Это имеет недостаток, заключающийся в том, что хорошее значение, сообщаемое этим методом, не означает наилучшего поиска информации.[нужна цитата ]

Предварительные мероприятия

Данный п размерные точки, пусть Cя быть кластером точек данных. Позволять Иксj быть п-мерный вектор признаков, присвоенный кластеру Cя.

Здесь это центроид из Cя и Тя это размер кластера я. Sя - мера разброса внутри кластера. Обычно значение п равно 2, что делает это Евклидово расстояние функция между центроидом кластера и отдельными векторами признаков. Можно использовать многие другие метрики расстояния в случае коллекторы и данные более высокой размерности, где евклидово расстояние может быть не лучшим показателем для определения кластеров. Важно отметить, что эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации для получения значимых результатов.

мера разделения кластера и кластер .
это kй элемент , а таких элементов в А поскольку это n-мерный центроид.[непоследовательный ]

Здесь k индексирует особенности данных, и это, по сути, Евклидово расстояние между центрами скоплений я и j когда п равно 2.

Определение

Позволять ря, j быть мерой того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать Mя, j разделение между яth и jth кластер, который в идеале должен быть как можно больше, и Sя- разброс внутри кластера для кластера i, который должен быть как можно меньше. Следовательно, индекс Дэвиса – Боулдина определяется как отношение Sя и Mя, j так что эти свойства сохраняются:

  1. .
  2. .
  3. Когда и тогда .
  4. Когда и тогда .

При такой формулировке, чем ниже значение, тем лучше разделение кластеров и «герметичность» внутри кластеров.

Решение, удовлетворяющее этим свойствам:

Это используется для определения Dя:

Если N - количество кластеров:

БД называется индексом Дэвиса – Боулдина. Это зависит как от данных, так и от алгоритма. Dя выбирает наихудший сценарий, и это значение равно ря, j для наиболее похожего кластера на кластер я. У этой формулировки может быть много вариаций, таких как выбор среднего значения кластерного сходства, средневзвешенного значения и так далее.

Объяснение

Эти условия ограничивают индекс, определенный таким образом, симметричным и неотрицательным. Из-за способа его определения как функции отношения разброса внутри кластера к расстоянию между кластерами меньшее значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим кластером, усредненное по всем кластерам, где сходство определяется как Sя над. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса-Боулдина. Этот индекс, определенный таким образом, является средним по всем я кластеров, и, следовательно, хорошей мерой для определения того, сколько кластеров на самом деле существует в данных, является построение графика в сравнении с количеством кластеров, для которых они вычисляются. Номер я для которого это значение является наименьшим, является хорошей мерой количества кластеров, в которые можно идеально классифицировать данные. Это имеет применение при определении ценности k в kсредний алгоритм, где значение k неизвестно априори. Набор инструментов SOM содержит MATLAB выполнение.[2] Реализация MATLAB также доступна через MATLAB Statistics and Machine Learning Toolbox, используя команду «evalclusters».[3] А Ява реализация находится в ELKI, и его можно сравнить со многими другими индексами качества кластеризации.

Смотрите также

внешняя ссылка

Примечания и ссылки

  1. ^ Дэвис, Дэвид Л .; Боулдин, Дональд В. (1979). «Мера разделения кластеров». IEEE Transactions по анализу шаблонов и машинному анализу. ПАМИ-1 (2): 224–227. Дои:10.1109 / TPAMI.1979.4766909.
  2. ^ «Реализация Matlab». Получено 12 ноября 2011.
  3. ^ «Оцените решения кластеризации - MATLAB evalclusters».