Мотив последовательности - Sequence motif

Мотив последовательности ДНК, представленный как логотип последовательности для LexA-связывающего мотива.

В генетика, а мотив последовательности это нуклеотид или же аминокислота последовательность паттерн, который широко распространен и имеет или предположительно имеет биологический значимость. Для белков мотив последовательности отличается от структурный мотив, мотив, образованный трехмерным расположением аминокислот, которые могут быть или не быть смежными.

Примером может служить N-гликозилирование мотив сайта:

Asn, за которым следует все, кроме Pro, затем Ser или Thr, а затем все, кроме Pro

где трехбуквенные сокращения - условные обозначения для аминокислоты (видеть генетический код ).

Обзор

Когда мотив последовательности появляется в экзон из ген, это может кодировать "структурный мотив "из белок; это стереотипный элемент общая структура белка. Тем не менее, мотивы не обязательно должны быть связаны с отличительным вторичная структура. "Некодирование "последовательности не переведено в белки и нуклеиновые кислоты с такими мотивами не обязательно отклоняться от типичной формы (например, «B-форма» Двойная спираль ДНК ).

Помимо экзонов генов, существуют регуляторная последовательность мотивы и мотивы в "хлам ", Такие как спутниковая ДНК. Некоторые из них, как полагают, влияют на форму нуклеиновых кислот (см., Например, Самосплайсинг РНК ), но это только иногда. Например, многие ДНК-связывающие белки которые имеют сходство с конкретными Сайты связывания ДНК связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы через контакт с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые метка белки для доставки в определенные части клетка, или отметьте их для фосфорилирование.

Внутри последовательности или база данных последовательностей, исследователи ищут и находят мотивы, используя компьютерные методы анализ последовательности, Такие как ВЗРЫВ. Такие техники относятся к дисциплине биоинформатика. Смотрите также консенсусная последовательность.

Представление мотива

Рассмотрим NУказанный выше мотив сайта гликозилирования:

Asn, за которым следует все, кроме Pro, затем Ser или Thr, а затем все, кроме Pro

Этот шаблон можно записать как N {P} [ST] {P} куда N = Asn, п = Pro, S = Ser, Т = Thr; {ИКС} означает любую аминокислоту кроме Икс; и [XY] означает либо Икс или же Y.

Обозначение [XY] не дает никаких указаний на вероятность Икс или же Y встречающиеся в шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью последовательность логотипов. Иногда паттерны определяются в терминах вероятностной модели, такой как скрытая марковская модель.

Мотивы и консенсусные последовательности

Обозначение [XYZ] средства Икс или же Y или же Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узора часто связаны с одним мотивом: определяющий узор и различные типичные узоры.

Например, определяющая последовательность для IQ мотив можно принять за:

[FILV] Qxxx [RK] Gxxx [RK] xx [FILVWY]

куда Икс означает любую аминокислоту, а квадратные скобки указывают на альтернативу (см. ниже для получения дополнительной информации об обозначениях).

Однако обычно первая буква я, и оба [РК] выбор решает р. Поскольку последний выбор настолько велик, узор IQxxxRGxxxR иногда приравнивают к самому мотиву IQ, но более точное описание было бы консенсусная последовательность для мотива IQ.

Обозначения описания паттернов

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений для обычные выражения и используйте эти соглашения:

  • существует алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
  • строка символов, взятых из алфавита, обозначает последовательность соответствующих аминокислот;
  • любая строка символов, взятых из алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например [abc] соответствует любой из аминокислот, представленных а или же б или же c.

Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:

последовательность элементов нотации шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, образец [AB] [CDE] F соответствует шести аминокислотным последовательностям, соответствующим АКФ, АПД, AEF, BCF, BDF, и BEF.

Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одним из таких обозначений является обозначение PROSITE, описанное в следующем подразделе.

Обозначение образца PROSITE

В PROSITE обозначение использует ИЮПАК однобуквенные коды и соответствует приведенному выше описанию, за исключением символа конкатенации, '-', используется между элементами шаблона, но часто опускается между буквами алфавита шаблона.

PROSITE позволяет использовать следующие элементы шаблона в дополнение к описанным ранее:

  • Строчная буква 'Икс'может использоваться как элемент шаблона для обозначения любой аминокислоты.
  • Строка символов, взятых из алфавита и заключенная в фигурные скобки (фигурные скобки), обозначает любую аминокислоту, кроме тех, что находятся в строке. Например, {ST} обозначает любую аминокислоту, кроме S или же Т.
  • Если шаблон ограничен N-концом последовательности, шаблон имеет префикс '<'.
  • Если шаблон ограничен C-концом последовательности, шаблон имеет суффикс '>'.
  • Характер '>'также может находиться внутри завершающего шаблона квадратной скобки, так что S [T>] соответствует обоим "ST" и "S>".
  • Если е является элементом шаблона, а м и п два десятичных целых числа с м <= п, тогда:
    • Эм) эквивалентно повторению е точно м раз;
    • е (м, п) эквивалентно повторению е точно k раз для любого целого числа k удовлетворение: м <= k <= п.

Некоторые примеры:

  • х (3) эквивалентно х-х-х.
  • х (2,4) соответствует любой последовательности, которая соответствует х-х или же х-х-х или же х-х-х-х.

Подпись типа C2H2 цинковый палец домен:

  • C-x (2,4) -C-x (3) - [LIVMFYWC] -x (8) -H-x (3,5) -H

Матрицы

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Есть два типа весовых матриц.

  • Матрица частоты положения (PFM) записывает зависимую от положения частоту каждого остатка или нуклеотида. PFM могут быть экспериментально определены из экспериментов SELEX или обнаружены с помощью вычислений с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
  • А матрица весов позиции (PWM) содержит логарифмические веса шансов для вычисления счета матча. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. PWM рассчитываются из PFM.

Пример PFM из ТРАНСФАК база данных по фактору транскрипции AP-1:

ПозАCграммТИЮПАК
016281р
023590S
0300017Т
0400170грамм
0517000А
0601601C
073239Т
084724N
099611M
104373N
116317W

Первый столбец указывает позицию, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит нотацию IUPAC для этой позиции. Обратите внимание, что суммы вхождений для A, C, G и T для каждой строки должны быть равны, поскольку PFM получены путем агрегирования нескольких консенсусных последовательностей.

Motif Discovery

Обзор

Открытие мотива последовательности было развито с 1990-х годов. В частности, большинство существующих исследований по открытию мотивов сосредоточено на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов сталкиваются как с проблемами вырожденности последовательностей, так и с проблемами масштабируемости вычислений, требующих больших объемов данных.

De novo открытие мотива

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является Множественные ЭМ для выявления мотивов (MEME) алгоритм, который генерирует статистическую информацию для каждого кандидата.[1] Есть более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch и другие. оценил многие связанные алгоритмы в тесте 2013 года.[2] В поиск мотивов растений - еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетических мотивов

Мотивы также были обнаружены путем взятия филогенетический подход и изучение сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, указанные в GCM (глиальные клетки отсутствуют) ген у человека, мыши и D. melanogaster, Акияма и другие открыли образец, который они назвали Мотив GCM в 1996 г.[3] Он состоит примерно из 150 аминокислотных остатков и начинается следующим образом:

WDIND *. * P .. * ... D.F. * W ***. **. IYS ** ... A. * H * S * WAMRNTNNHN

Здесь каждый . означает одну аминокислоту или пробел, и каждая * указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных белковый домен базы данных, такие как Pfam: кураторы-люди могли бы выбрать пул последовательностей, о которых известно, что они связаны, и использовать компьютерные программы для их выравнивания и создания профиля мотива, который можно использовать для идентификации других связанных белков. Филогенетический подход также может быть использован для улучшения de novo Алгоритм MEME, примером которого является PhyloGibbs.[4]

De novo открытие пары мотивов

В 2017 году MotifHyades был разработан как инструмент для поиска мотивов, который можно напрямую применять к парным последовательностям.[5]

De novo распознавание мотива из белка

В 2018 г. Марковское случайное поле был предложен подход к выводу мотивов ДНК из ДНК-связывающие домены белков.[6]

Чехлы с мотивами

Трехмерные цепные коды

В Кишечная палочка лактоза оперон репрессор LacI (PDB: 1lccЦепь A) и Кишечная палочка активатор гена катаболита (PDB: 3gapЦепь A) оба имеют спираль-поворот-спираль мотив, но их аминокислотные последовательности не имеют большого сходства, как показано в таблице ниже. В 1997 году Мацуда, и другие. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо яснее, чем аминокислотная последовательность (пример из статьи):[7] Код кодирует углы кручения между альфа-атомами углерода белковый каркас. «W» всегда соответствует альфа-спирали.

Трехмерный цепной кодАминокислотная последовательность
1lccATWWWWWWWKCLKWWWWWWGLYDVAEYAGVSYQTVSRVV
3gapAKWWWWWWGKCFKWWWWWWWRQEIGQIVGCSRETVGRIL


Примеры нуклеотидных мотивов

Пример белковых мотивов

  • Греческий ключевой мотив
  • Спираль-петля-спираль
  • Спираль-поворот-спираль

Смотрите также

Рекомендации

Вторичные и третичные источники

Основные источники

  1. ^ Бейли Т.Л., Уильямс Н., Мисле С., Ли В.В. (июль 2006 г.). «ЦМемы: обнаружение и анализ мотивов ДНК и белковых последовательностей». Исследования нуклеиновых кислот. 34 (Проблема с веб-сервером): W369-73. Дои:10.1093 / нар / gkl198. ЧВК  1538909. PMID  16845028.
  2. ^ Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR, et al. (Февраль 2013). «Оценка методов моделирования специфичности последовательностей факторов транскрипции». Природа Биотехнологии. 31 (2): 126–34. Дои:10.1038 / nbt.2486. ЧВК  3687085. PMID  23354101.
  3. ^ Акияма Ю., Хосоя Т., Пул А.М., Хотта Ю. (декабрь 1996 г.). «Мотив gcm: новый ДНК-связывающий мотив, консервативный у дрозофилы и млекопитающих». Труды Национальной академии наук Соединенных Штатов Америки. 93 (25): 14912–6. Bibcode:1996PNAS ... 9314912A. Дои:10.1073 / пнас.93.25.14912. ЧВК  26236. PMID  8962155.
  4. ^ Сиддхартан Р., Сиггиа Э.Д., ван Нимвеген Э. (декабрь 2005 г.). "PhyloGibbs: программа для поиска мотивов Гиббса, учитывающая филогению". PLOS вычислительная биология. 1 (7): e67. Bibcode:2005PLSCB ... 1 ... 67S. Дои:10.1371 / journal.pcbi.0010067. ЧВК  1309704. PMID  16477324.
  5. ^ Вонг KC (октябрь 2017 г.). «MotifHyades: максимальное ожидание открытия пары мотивов de novo на парных последовательностях». Биоинформатика (Оксфорд, Англия). 33 (19): 3028–3035. Дои:10.1093 / биоинформатика / btx381. PMID  28633280.
  6. ^ Wong KC (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК по белковым последовательностям». iScience. 7: 198–211. Bibcode:2018iSci .... 7..198W. Дои:10.1016 / j.isci.2018.09.003. ЧВК  6153143. PMID  30267681.
  7. ^ Мацуда Х., Танигучи Ф., Хашимото А (1997). «Подход к обнаружению структурных мотивов белков с использованием схемы кодирования конформаций остова» (PDF). Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу: 280–91. PMID  9390299.

дальнейшее чтение

Вторичные и третичные источники

Основные источники