Точечный график (биоинформатика) - Dot plot (bioinformatics)
В биоинформатика а точечный график это графический метод сравнения двух биологические последовательности и выявление регионов близкого сходства после выравнивание последовательностей. Это тип сюжет повторения.
История
Один из способов визуализировать сходство между двумя последовательностями белка или нуклеиновой кислоты - использовать матрицу сходства, известную как точечная диаграмма. Они были введены Гиббсом и Макинтайром в 1970 году.[1] и представляют собой двумерные матрицы, в которых сравниваются последовательности белков по вертикальной и горизонтальной осям. Для простого визуального представления сходства между двумя последовательностями отдельные ячейки в матрице могут быть заштрихованы черным цветом, если остатки идентичны, чтобы совпадающие сегменты последовательности отображались как пробеги диагональных линий через матрицу.
Интерпретация
Некоторое представление о сходстве двух последовательностей можно почерпнуть из числа и длины совпадающих сегментов, показанных в матрице. Очевидно, что идентичные белки будут иметь диагональную линию в центре матрицы. Вставки и удаления между последовательностями приводят к нарушениям в этой диагонали. Области локального сходства или повторяющиеся последовательности приводят к дополнительным диагональным совпадениям в дополнение к центральной диагонали. Один из способов уменьшить этот шум - использовать только тени иликортежи 'остатков, например кортеж из 3 соответствует трем остаткам подряд. Это эффективно, потому что вероятность совпадения трех остатков в строке случайно намного ниже, чем совпадений с одним остатком.
Точечные графики сравнивают две последовательности, организуя одну последовательность по оси x, а другую по оси y графика. Когда остатки обеих последовательностей совпадают в одном и том же месте на графике, в соответствующем месте рисуется точка. Обратите внимание, что последовательности могут быть записаны назад или вперед, однако последовательности на обеих осях должны быть записаны в одном направлении. Также обратите внимание, что направление последовательностей на осях будет определять направление линии на точечной диаграмме. Как только точки будут нанесены, они объединятся в линии. Близость последовательностей в сходстве определит, насколько близка диагональная линия к графику, показывающему кривую, демонстрирующую прямые отношения является. На эту взаимосвязь влияют определенные особенности последовательности, такие как сдвиг кадров, прямые повторы и инвертированные повторы. Сдвиги кадра включают вставки, делеции и мутации. Присутствие одной из этих функций или наличие нескольких функций приведет к тому, что несколько линий будут построены в различных возможностях конфигурации, в зависимости от функций, присутствующих в последовательностях. Особенность, которая приведет к совершенно другому результату на точечной диаграмме, - это наличие области / областей низкой сложности. Регионы низкой сложности представляют собой области в последовательности только с несколькими аминокислотами, что, в свою очередь, вызывает избыточность в этой небольшой или ограниченной области. Эти области обычно находятся вокруг диагонали и могут иметь или не иметь квадрат в середине точечной диаграммы.
Программное обеспечение для создания точечных графиков
- АНАКОН - Контактный анализ точечных графиков.
- D-Genies[2] - Специализируется на интерактивных точечных графиках всего генома больших геномов
- Dotlet - Предоставляет программу, позволяющую вам построить точечный график с вашими собственными последовательностями.
- dotmatcher[3] - Веб-инструмент для создания точечных графиков (и часть пакета EMBOSS).
- Точечный график - простой (образовательный) инструмент HTML5 для создания точечных графиков из последовательностей РНК.
- точечный график - Пакет R для быстрого создания точечных графиков как традиционной графики, так и графики ggplot.
- Точка[4] - Автономная программа для создания точечных графиков.
- JDotter[5] - Java-версия Dotter.
- Flexidot[6] - Настраиваемый набор точечных графиков с учетом двусмысленности для эстетики, пакетного анализа и печати (реализован на Python).
- Гепард[7] - Инструмент построения точек, подходящий даже для масштабов генома.
- Genomdiff - Программа с открытым исходным кодом на Java для вирусов.
- ПОСЛЕДНИЙ для «сплит-выравнивания» всего генома.[8]
- Lastz[9] и Laj - Программы для подготовки и визуализации геномных выравниваний.
- yass[10] - Веб-инструмент для создания точечных диаграмм (как с прямым, так и с обратным дополнением) на основе геномных сопоставлений.
- seqinr - Пакет R для создания точечных графиков.
- SynMap - Простой в использовании веб-инструмент для создания точечных диаграмм для многих видов с доступом к обширной базе данных генома. Предлагается платформой сравнительной геномики CoGe.
- Просмотрщик UGENE Dot Plot - Визуализатор точечных графиков с открытым исходным кодом.
- Общее введение в точечные графики с примерами алгоритмов и программный инструмент для создания точечных графиков малого и среднего размера.
В дополнение к перечисленным выше инструментам сервер NCBI Blast по адресу https://blast.ncbi.nlm.nih.gov/Blast.cgi включает точечные графики в свой вывод.
Смотрите также
Рекомендации
- ^ Гиббс, Адриан Дж .; Макинтайр, Джордж А. (1970). «Схема, метод сравнения последовательностей. Его использование с аминокислотными и нуклеотидными последовательностями». Евро. J. Biochem. 16 (1): 1–11. Дои:10.1111 / j.1432-1033.1970.tb01046.x. PMID 5456129.
- ^ Клопп, Кристоф; Кабанетт, Флореаль (23 февраля 2018 г.). "D-GENIES: Постройте большие GENomes интерактивным, эффективным и простым способом". PeerJ. 6: e4958. Дои:10.7287 / peerj.preprints.26567v1. ЧВК 5991294. PMID 29888139.
- ^ Rice, P .; Longden, I .; Близби, А. (июнь 2000 г.). "EMBOSS: Открытый программный пакет европейской молекулярной биологии". Тенденции в генетике. 16 (6): 276–277. Дои:10.1016 / s0168-9525 (00) 02024-2. ISSN 0168-9525. PMID 10827456.
- ^ Sonnhammer, E.L .; Дурбин, Р. (1995-12-29). «Программа с точечной матрицей с динамическим контролем порога, подходящая для анализа геномной ДНК и последовательности белков». Ген. 167 (1–2): GC1–10. Дои:10.1016/0378-1119(95)00714-8. ISSN 0378-1119. PMID 8566757.
- ^ Броди, Райан; Ропер, Рэйчел Л .; Аптон, Крис (22 января 2004). "JDotter: интерфейс Java для нескольких точечных графиков, созданных dotter". Биоинформатика. 20 (2): 279–281. Дои:10.1093 / биоинформатика / btg406. ISSN 1367-4803. PMID 14734323.
- ^ Seibt, Kathrin M .; Шмидт, Томас; Хейткам, Тони (2018-10-15). «FlexiDot: хорошо настраиваемые точечные диаграммы с учетом неоднозначности для визуального анализа последовательности». Биоинформатика. 34 (20): 3575–3577. Дои:10.1093 / биоинформатика / bty395. PMID 29762645.
- ^ Крумзек, Ян; Арнольд, Роланд; Раттей, Томас (2007-04-15). «Гепард: быстрый и чувствительный инструмент для создания точечных графиков в масштабе генома». Биоинформатика. 23 (8): 1026–1028. Дои:10.1093 / биоинформатика / btm039. ISSN 1367-4803. PMID 17309896.
- ^ Frith MC. и Кавагути Р. (2015). «Сплит-выравнивание геномов более точно определяет ортологии». Геном Биол. 16: 106. Дои:10.1186 / s13059-015-0670-9. ЧВК 4464727. PMID 25994148.
- ^ Харрис, Р. С. (2007). Улучшенное попарное выравнивание геномной ДНК. Кандидат наук. Тезис. Пенсильвания: Государственный университет Пенсильвании.
- ^ Ной Л., Кучеров. Г. (2005). «ЯСС: повышение чувствительности поиска сходства ДНК». Исследования нуклеиновых кислот. 33 (2): W540 – W543. Дои:10.1093 / nar / gki478. ЧВК 1160238. PMID 15980530.