Кластеризация с полной связью - Complete-linkage clustering
Эта статья нужны дополнительные цитаты для проверка.Сентябрь 2010 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Кластеризация с полной связью один из нескольких методов агломерации иерархическая кластеризация. В начале процесса каждый элемент находится в собственном кластере. Затем кластеры последовательно объединяются в более крупные кластеры, пока все элементы не окажутся в одном кластере. Метод также известен как кластеризация самых дальних соседей. Результат кластеризации можно представить в виде дендрограмма, который показывает последовательность слияния кластеров и расстояние, на котором происходило каждое слияние.[1][2][3]
Процедура кластеризации
На каждом шаге объединяются два кластера, разделенные кратчайшим расстоянием. Определение «кратчайшего расстояния» - это то, что отличает разные методы агломерационной кластеризации. При кластеризации с полной связью связь между двумя кластерами содержит все пары элементов, а расстояние между кластерами равно расстоянию между этими двумя элементами (по одному в каждом кластере), которые являются самый дальний друг от друга. Самое короткое из этих звеньев, которое остается на любом этапе, вызывает слияние двух кластеров, элементы которых задействованы.
Математически полная функция связи - расстояние между кластерами и - описывается следующим выражением:
куда
- расстояние между элементами и ;
- и представляют собой два набора элементов (кластеров).
Алгоритмы
Наивная схема
Следующий алгоритм является агломеративный Схема, которая стирает строки и столбцы в матрице близости, когда старые кластеры объединяются в новые. В матрица близости D содержит все расстояния d(я,j). Кластеризациям присваиваются порядковые номера 0,1, ......, (п - 1) и L(k) - уровень k-й кластеризации. Кластер с порядковым номером м обозначается (м) и близость кластеров (р) и (s) обозначается d[(р),(s)].
Полный алгоритм кластеризации связей состоит из следующих шагов:
- Начнем с непересекающейся кластеризации уровня и порядковый номер .
- Найдите наиболее похожую пару кластеров в текущей кластеризации, скажем пару , в соответствии с где минимум - по всем парам кластеров в текущей кластеризации.
- Увеличьте порядковый номер: . Объединить кластеры и в один кластер, чтобы сформировать следующую кластеризацию . Установите уровень этой кластеризации на
- Обновите матрицу близости, , удалив строки и столбцы, соответствующие кластерам и и добавление строки и столбца, соответствующих вновь сформированному кластеру. Близость между новым кластером, обозначенная и старый кластер определяется как .
- Если все объекты находятся в одном кластере, остановитесь. В противном случае перейдите к шагу 2.
Оптимально эффективная схема
Описанный выше алгоритм прост для понимания, но сложен. . В мае 1976 г. Д. Дефайс предложил оптимально эффективный алгоритм только сложности известный как CLINK (опубликовано в 1977 г.)[4] вдохновленный аналогичным алгоритмом SLINK для одинарная кластеризация.
Эта секция нуждается в расширении. Вы можете помочь добавляя к этому. (Октябрь 2011 г.) |
Рабочий пример
Рабочий пример основан на JC69 матрица генетических расстояний, вычисленная из 5S рибосомальная РНК выравнивание последовательностей пяти бактерий: Bacillus subtilis (), Bacillus stearothermophilus (), Лактобациллы viridescens (), Ахолеплазма хоть (), и Micrococcus luteus ().[5][6]
Первый шаг
- Первая кластеризация
Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:
а | б | c | d | е | |
---|---|---|---|---|---|
а | 0 | 17 | 21 | 31 | 23 |
б | 17 | 0 | 30 | 34 | 21 |
c | 21 | 30 | 0 | 28 | 39 |
d | 31 | 34 | 28 | 0 | 43 |
е | 23 | 21 | 39 | 43 | 0 |
В этом примере это наименьшее значение , поэтому мы соединяем элементы и .
- Оценка длины первой ветви
Позволять обозначим узел, к которому и теперь подключены. Параметр гарантирует, что элементы и равноудалены от . Это соответствует ожиданиям ультраметричность гипотеза. и к тогда имейте длину (увидеть окончательную дендрограмму )
- Первое обновление матрицы расстояний
Затем мы приступаем к обновлению исходной матрицы близости в новую матрицу близости (см. ниже), уменьшенного в размере на одну строку и один столбец из-за кластеризации с Значения жирным шрифтом в соответствуют новым расстояниям, рассчитанным с сохранением максимальное расстояние между каждым элементом первого кластера и каждый из оставшихся элементов:
Значения, выделенные курсивом в не затрагиваются обновлением матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.
Второй шаг
- Вторая кластеризация
Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний. :
(а, б) | c | d | е | |
---|---|---|---|---|
(а, б) | 0 | 30 | 34 | 23 |
c | 30 | 0 | 28 | 39 |
d | 34 | 28 | 0 | 43 |
е | 23 | 39 | 43 | 0 |
Здесь, это наименьшее значение , поэтому мы присоединяемся к кластеру с элементом .
- Оценка длины второй ветви
Позволять обозначим узел, к которому и теперь подключены. Из-за ограничения ультраметричности ветви, соединяющиеся или же к , и к , равны и имеют следующую общую длину:
Вычисляем недостающую длину ветки: (см. финальную дендрограмму )
- Обновление матрицы второго расстояния
Затем мы приступаем к обновлению матрицу в новую матрицу расстояний (см. ниже), уменьшенного в размере на одну строку и один столбец из-за кластеризации с :
Третий шаг
- Третья кластеризация
Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний. .
((а, б), д) | c | d | |
---|---|---|---|
((а, б), д) | 0 | 39 | 43 |
c | 39 | 0 | 28 |
d | 43 | 28 | 0 |
Здесь, это наименьшее значение , поэтому мы соединяем элементы и .
- Оценка длины третьей ветви
Позволять обозначим узел, к которому и подключены. и к тогда имейте длину (увидеть окончательную дендрограмму )
- Обновление третьей матрицы расстояний
Необходимо обновить одну запись:
Заключительный этап
Финал матрица:
((а, б), д) | (CD) | |
---|---|---|
((а, б), д) | 0 | 43 |
(CD) | 43 | 0 |
Итак, мы присоединяемся к кластерам и .
Позволять обозначают (корневой) узел, к которому и подключены. и к тогда имейте длины:
Вычисляем две оставшиеся длины ветвей:
Дендрограмма полного сцепления
Дендрограмма завершена. Он ультраметрический, потому что все наконечники ( к ) равноудалены от :
Таким образом, дендрограмма основана на , его самый глубокий узел.
Сравнение с другими связями
Альтернативные схемы связи включают кластеризацию единой связи и средняя связь кластеризация - реализация другой связи в наивном алгоритме - это просто вопрос использования другой формулы для вычисления межкластерных расстояний при начальном вычислении матрицы близости и на шаге 4 вышеуказанного алгоритма. Однако оптимально эффективный алгоритм недоступен для произвольных связей. Формула, которую необходимо изменить, выделена жирным шрифтом.
Полная кластеризация связей позволяет избежать недостатка альтернативы одинарная связь метод - так называемый явление цепочки, где кластеры, сформированные посредством кластеризации с одной связью, могут быть принудительно объединены из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом кластере могут быть очень удалены друг от друга. Полная связь имеет тенденцию находить компактные группы приблизительно равного диаметра.[7]
Односвязная кластеризация. | Кластеризация с полной связью. | Средняя кластеризация связей: WPGMA. | Средняя кластеризация связей: UPGMA. |
Смотрите также
- Кластерный анализ
- Иерархическая кластеризация
- Молекулярные часы
- Соседство
- Односвязная кластеризация
- UPGMA
- WPGMA
Рекомендации
- ^ Соренсен Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на датских территориях». Biologiske Skrifter. 5: 1–34.
- ^ Лежандр П, Лежандр Л (1998). Числовая экология (Второе английское изд.). п. 853.
- ^ Эверит Б.С., Ландау С., Лиз М (2001). Кластерный анализ (Четвертое изд.). Лондон: Арнольд. ISBN 0-340-76119-9.
- ^ Defays D (1977). «Эффективный алгоритм для метода полной ссылки» (PDF). Компьютерный журнал. Британское компьютерное общество. 20 (4): 364–366. Дои:10.1093 / comjnl / 20.4.364.
- ^ Эрдманн В.А., Вольтерс Дж. (1986). «Коллекция опубликованных последовательностей рибосомных РНК 5S, 5.8S и 4.5S». Исследования нуклеиновых кислот. 14 Suppl (Дополнение): r1-59. Дои:10.1093 / nar / 14.suppl.r1. ЧВК 341310. PMID 2422630.
- ^ Olsen GJ (1988). «Филогенетический анализ с использованием рибосомальной РНК». Методы в энзимологии. 164: 793–812. Дои:10.1016 / с0076-6879 (88) 64084-5. PMID 3241556.
- ^ Эверит, Ландау и Лиз (2001), стр. 62-64.
дальнейшее чтение
- Späth H (1980). Алгоритмы кластерного анализа. Чичестер: Эллис Хорвуд.