Односвязная кластеризация - Single-linkage clustering

В статистика, одинарная кластеризация это один из нескольких методов иерархическая кластеризация. Он основан на группировании кластеров восходящим образом (агломеративная кластеризация), на каждом этапе объединяя два кластера, которые содержат ближайшую пару элементов, еще не принадлежащих к тому же кластеру, что и друг друга.

Недостатком этого метода является то, что он имеет тенденцию создавать длинные тонкие кластеры, в которых соседние элементы одного и того же кластера имеют небольшие расстояния, но элементы на противоположных концах кластера могут быть намного дальше друг от друга, чем два элемента других кластеров. Это может привести к трудностям при определении классов, которые могли бы с пользой разделить данные.[1]

Обзор методов агломеративной кластеризации

В начале процесса агломерационной кластеризации каждый элемент находится в собственном кластере. Затем кластеры последовательно объединяются в более крупные кластеры, пока все элементы не окажутся в одном кластере. На каждом шаге объединяются два кластера, разделенные кратчайшим расстоянием. Функция, используемая для определения расстояния между двумя кластерами, известная как функция связи, это то, что отличает методы агломерационной кластеризации.

При однократной кластеризации расстояние между двумя кластерами определяется одной парой элементов: теми двумя элементами (по одному в каждом кластере), которые находятся ближе всего друг к другу. Самое короткое из этих попарных расстояний, которые остаются на любом шаге, приводит к слиянию двух кластеров, элементы которых участвуют. Метод также известен как кластеризация ближайшего соседа. Результат кластеризации можно представить в виде дендрограмма, который показывает последовательность, в которой были объединены кластеры, и расстояние, на котором происходило каждое объединение.[2]

Математически функция сцепления - расстояние D(Икс,Y) между кластерами Икс и Y - описывается выражением

куда Икс и Y любые два набора элементов, рассматриваемые как кластеры, и d(Икс,у) обозначает расстояние между двумя элементами Икс и у.

Наивный алгоритм

Следующий алгоритм является агломеративный Схема, которая стирает строки и столбцы в матрице близости, когда старые кластеры объединяются в новые. В матрица близости содержит все расстояния . Кластеризациям присваиваются порядковые номера. и уровень -я кластеризация. Кластер с порядковым номером м обозначается (м) и близость кластеров и обозначается .

Алгоритм одиночной связи состоит из следующих шагов:

  1. Начнем с непересекающейся кластеризации уровня и порядковый номер .
  2. Найдите наиболее похожую пару кластеров в текущей кластеризации, скажем пару , в соответствии с где минимум - по всем парам кластеров в текущей кластеризации.
  3. Увеличьте порядковый номер: . Объединить кластеры и в один кластер, чтобы сформировать следующую кластеризацию . Установите уровень этой кластеризации на
  4. Обновите матрицу близости, , удалив строки и столбцы, соответствующие кластерам и и добавление строки и столбца, соответствующих вновь сформированному кластеру. Близость между новым кластером, обозначенная и старый кластер определяется как .
  5. Если все объекты находятся в одном кластере, остановитесь. В противном случае перейдите к шагу 2.

Рабочий пример

Этот рабочий пример основан на JC69 матрица генетических расстояний, вычисленная из 5S рибосомальная РНК выравнивание последовательностей пяти бактерий: Bacillus subtilis (), Bacillus stearothermophilus (), Лактобациллы viridescens (), Ахолеплазма хоть (), и Micrococcus luteus ().[3][4]

Первый шаг

  • Первая кластеризация

Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:

абcdе
а017213123
б170303421
c213002839
d313428043
е232139430

В этом примере это наименьшее значение , поэтому мы кластеризуем элементы и .

  • Оценка длины первой ветви

Позволять обозначим узел, к которому и теперь подключены. Параметр гарантирует, что элементы и равноудалены от . Это соответствует ожиданиям ультраметричность гипотеза. и к тогда имейте длину (см. финальную дендрограмму )

  • Первое обновление матрицы расстояний

Затем мы приступаем к обновлению исходной матрицы близости в новую матрицу близости (см. ниже), уменьшенного в размере на одну строку и один столбец из-за кластеризации с Значения жирным шрифтом в соответствуют новым расстояниям, рассчитанным с сохранением минимальное расстояние между каждым элементом первого кластера и каждый из оставшихся элементов:

Значения, выделенные курсивом в не затрагиваются обновлением матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.

Второй шаг

  • Вторая кластеризация

Теперь мы повторяем три предыдущих действия, начиная с новой матрицы расстояний.  :

(а, б)cdе
(а, б)0213121
c2102839
d3128043
е2139430

Здесь, и самые низкие значения , поэтому мы присоединяемся к кластеру с элементом и с элементом .

  • Оценка длины второй ветви

Позволять обозначим узел, к которому , и теперь подключены. Из-за ограничения ультраметричности ветви, соединяющиеся или же к , и к , а также к равны и имеют следующую общую длину:

Вычисляем недостающую длину ветки: (см. финальную дендрограмму )

  • Обновление матрицы второго расстояния

Затем мы приступаем к обновлению матрицу в новую матрицу расстояний (см. ниже), уменьшенного в размере на две строки и два столбца из-за кластеризации с и с  :

Заключительный этап

Финал матрица:

((а, б), в, д)d
((а, б), в, д)028
d280

Итак, мы присоединяемся к кластерам и .

Позволять обозначают (корневой) узел, к которому и подключены. и к тогда имейте длины:

Вычисляем оставшуюся длину ветки:

Дендрограмма одинарного сцепления

Данные 5S дендрограммы одиночной связи

Дендрограмма завершена. Он ультраметрический, потому что все наконечники (, , , , и ) равноудалены от  :

Таким образом, дендрограмма основана на , его самый глубокий узел.

Прочие связи

Наивный алгоритм для кластеризации единственной связи по сути такой же, как Алгоритм Краскала за минимальные остовные деревья. Однако при кластеризации с одной связью важен порядок, в котором кластеры формируются, в то время как для минимальных остовных деревьев важен набор пар точек, образующих расстояния, выбранные алгоритмом.

Альтернативные схемы связи включают полная кластеризация связей, средняя кластеризация связей (UPGMA и WPGMA ), и Метод Уорда. В наивном алгоритме агломеративной кластеризации реализация другой схемы связи может быть достигнута просто путем использования другой формулы для вычисления межкластерных расстояний в алгоритме. В приведенном выше описании алгоритма формула, которую необходимо изменить, была выделена жирным шрифтом. Однако более эффективные алгоритмы, такие как описанный ниже, не одинаково распространяются на все схемы связи.

Сравнение дендрограмм, полученных разными методами кластеризации из одного и того же матрица расстояний.
Простая ссылка-5S.svg
Полная привязка Dendrogram 5S data.svg
Дендрограмма WPGMA 5S data.svg
Дендрограмма UPGMA 5S data.svg
Односвязная кластеризация.Кластеризация с полной связью.Кластеризация средней связи: WPGMA.Кластеризация средней связи: UPGMA.

Более быстрые алгоритмы

Наивный алгоритм для кластеризации с одной связью прост для понимания, но медленный и требует временных затрат .[5] В 1973 г. Р. Сибсон предложил алгоритм с временной сложностью и космическая сложность (оба оптимальные), известные как SLINK. Алгоритм слинка представляет собой кластеризацию по набору пронумерованы по двум функциям. Обе эти функции определяются путем нахождения наименьшего кластера который содержит оба элемента и хотя бы один элемент с большим номером. Первая функция, , элемент карты к элементу с наибольшим номером в кластере Вторая функция, , элемент карты на расстояние, связанное с созданием кластера . Сохранение этих функций в двух массивах, которые сопоставляют каждый номер элемента с его значением функции, требует места , и этой информации достаточно для определения самой кластеризации. Как показывает Сибсон, когда новый элемент добавляется к набору элементов, обновленные функции, представляющие новую кластеризацию с одной связью для расширенного набора, представленные таким же образом, могут быть построены из старой кластеризации во времени. . Затем алгоритм SLINK перебирает элементы один за другим, добавляя их к представлению кластеризации.[6][7]

Альтернативный алгоритм, работающий в тех же оптимальных временных и пространственных ограничениях, основан на эквивалентности наивного алгоритма и алгоритма Крускала для минимальных остовных деревьев. Вместо использования алгоритма Крускала можно использовать Алгоритм Прима, в варианте без двоичных куч, который требует времени и космос для построения минимального остовного дерева (но не кластеризации) заданных элементов и расстояний. Затем применение алгоритма Крускала к разреженному графу, образованному ребрами минимального остовного дерева, производит кластеризацию за дополнительное время. и космос .[8]

Смотрите также

Рекомендации

  1. ^ Эверит Б (2011). Кластерный анализ. Чичестер, Западный Суссекс, Великобритания: Wiley. ISBN  9780470749913.
  2. ^ Лежандр П, Лежандр Л (1998). Числовая экология. Развитие экологического моделирования. 20 (Второе английское изд.). Амстердам: Эльзевир.
  3. ^ Эрдманн В.А., Вольтерс Дж. (1986). «Коллекция опубликованных последовательностей рибосомных РНК 5S, 5.8S и 4.5S». Исследования нуклеиновых кислот. 14 Suppl (Дополнение): r1-59. Дои:10.1093 / nar / 14.suppl.r1. ЧВК  341310. PMID  2422630.
  4. ^ Olsen GJ (1988). «Филогенетический анализ с использованием рибосомальной РНК». Методы в энзимологии. 164: 793–812. Дои:10.1016 / с0076-6879 (88) 64084-5. PMID  3241556.
  5. ^ Муртаг Ф, Контрерас П (2012). «Алгоритмы иерархической кластеризации: обзор». Междисциплинарные обзоры Wiley: интеллектуальный анализ данных и открытие знаний. Интернет-библиотека Wiley. 2 (1): 86–97. Дои:10.1002 / widm.53.
  6. ^ Сибсон Р. (1973). «SLINK: оптимально эффективный алгоритм для метода одноканального кластера» (PDF). Компьютерный журнал. Британское компьютерное общество. 16 (1): 30–34. Дои:10.1093 / comjnl / 16.1.30.
  7. ^ Ган Г (2007). Кластеризация данных: теория, алгоритмы и приложения. Филадельфия, Пенсильвания, Александрия, Вирджиния: SIAM, Общество промышленной и прикладной математики, Американская статистическая ассоциация. ISBN  9780898716238.
  8. ^ Гауэр Дж. К., Росс Дж. Дж. (1969). «Минимальные остовные деревья и кластерный анализ единой связи». Журнал Королевского статистического общества, серия C. 18 (1): 54–64. Дои:10.2307/2346439. JSTOR  2346439. МИСТЕР  0242315..

внешняя ссылка