Мотив последовательности - Sequence motif

Мотив последовательности ДНК, представленный как логотип последовательности для LexA-связывающего мотива.

В генетика, а мотив последовательности это нуклеотид или же аминокислота последовательность паттерн, который широко распространен и имеет или предположительно имеет биологический значимость. Для белков мотив последовательности отличается от структурный мотив, мотив, образованный трехмерным расположением аминокислот, которые могут быть или не быть смежными.

Примером может служить N-гликозилирование мотив сайта:

Asn, за которым следует все, кроме Pro, затем Ser или Thr, а затем все, кроме Pro

где трехбуквенные сокращения - условные обозначения для аминокислоты (видеть генетический код ).

Обзор

Когда мотив последовательности появляется в экзон из ген, это может кодировать "структурный мотив "из белок; это стереотипный элемент общая структура белка. Тем не менее, мотивы не обязательно должны быть связаны с отличительным вторичная структура. "Некодирование "последовательности не переведено в белки и нуклеиновые кислоты с такими мотивами не обязательно отклоняться от типичной формы (например, «B-форма» Двойная спираль ДНК ).

Помимо экзонов генов, существуют регуляторная последовательность мотивы и мотивы в "хлам ", Такие как спутниковая ДНК. Некоторые из них, как полагают, влияют на форму нуклеиновых кислот (см., Например, Самосплайсинг РНК ), но это только иногда. Например, многие ДНК-связывающие белки которые имеют сходство с конкретными Сайты связывания ДНК связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы через контакт с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые метка белки для доставки в определенные части клетка, или отметьте их для фосфорилирование.

Внутри последовательности или база данных последовательностей, исследователи ищут и находят мотивы, используя компьютерные методы анализ последовательности, Такие как ВЗРЫВ. Такие техники относятся к дисциплине биоинформатика. Смотрите также консенсусная последовательность.

Представление мотива

Рассмотрим NУказанный выше мотив сайта гликозилирования:

Asn, за которым следует все, кроме Pro, затем Ser или Thr, а затем все, кроме Pro

Этот шаблон можно записать как N {P} [ST] {P} куда N = Asn, п = Pro, S = Ser, Т = Thr; {ИКС} означает любую аминокислоту кроме Икс; и [XY] означает либо Икс или же Y.

Обозначение [XY] не дает никаких указаний на вероятность Икс или же Y встречающиеся в шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью последовательность логотипов. Иногда паттерны определяются в терминах вероятностной модели, такой как скрытая марковская модель.

Мотивы и консенсусные последовательности

Обозначение [XYZ] средства Икс или же Y или же Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узора часто связаны с одним мотивом: определяющий узор и различные типичные узоры.

Например, определяющая последовательность для IQ мотив можно принять за:

[FILV] Qxxx [RK] Gxxx [RK] xx [FILVWY]

куда Икс означает любую аминокислоту, а квадратные скобки указывают на альтернативу (см. ниже для получения дополнительной информации об обозначениях).

Однако обычно первая буква я, и оба [РК] выбор решает р. Поскольку последний выбор настолько велик, узор IQxxxRGxxxR иногда приравнивают к самому мотиву IQ, но более точное описание было бы консенсусная последовательность для мотива IQ.

Обозначения описания паттернов

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений для обычные выражения и используйте эти соглашения:

существует алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
строка символов, взятых из алфавита, обозначает последовательность соответствующих аминокислот;
любая строка символов, взятых из алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например [abc] соответствует любой из аминокислот, представленных а или же б или же c.

Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:

последовательность элементов нотации шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, образец [AB] [CDE] F соответствует шести аминокислотным последовательностям, соответствующим АКФ, АПД, AEF, BCF, BDF, и BEF.

Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одним из таких обозначений является обозначение PROSITE, описанное в следующем подразделе.

Обозначение образца PROSITE

В PROSITE обозначение использует ИЮПАК однобуквенные коды и соответствует приведенному выше описанию, за исключением символа конкатенации, '-', используется между элементами шаблона, но часто опускается между буквами алфавита шаблона.

PROSITE позволяет использовать следующие элементы шаблона в дополнение к описанным ранее:

Строчная буква 'Икс'может использоваться как элемент шаблона для обозначения любой аминокислоты.
Строка символов, взятых из алфавита и заключенная в фигурные скобки (фигурные скобки), обозначает любую аминокислоту, кроме тех, что находятся в строке. Например, {ST} обозначает любую аминокислоту, кроме S или же Т.
Если шаблон ограничен N-концом последовательности, шаблон имеет префикс '<'.
Если шаблон ограничен C-концом последовательности, шаблон имеет суффикс '>'.
Характер '>'также может находиться внутри завершающего шаблона квадратной скобки, так что S [T>] соответствует обоим "ST" и "S>".
Если е является элементом шаблона, а м и п два десятичных целых числа с м <= п, тогда:
- Эм) эквивалентно повторению е точно м раз;
- е (м, п) эквивалентно повторению е точно k раз для любого целого числа k удовлетворение: м <= k <= п.

Некоторые примеры:

х (3) эквивалентно х-х-х.
х (2,4) соответствует любой последовательности, которая соответствует х-х или же х-х-х или же х-х-х-х.

Подпись типа C2H2 цинковый палец домен:

C-x (2,4) -C-x (3) - [LIVMFYWC] -x (8) -H-x (3,5) -H

Матрицы

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Есть два типа весовых матриц.

Матрица частоты положения (PFM) записывает зависимую от положения частоту каждого остатка или нуклеотида. PFM могут быть экспериментально определены из экспериментов SELEX или обнаружены с помощью вычислений с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
А матрица весов позиции (PWM) содержит логарифмические веса шансов для вычисления счета матча. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. PWM рассчитываются из PFM.

Пример PFM из ТРАНСФАК база данных по фактору транскрипции AP-1:

Поз	А	C	грамм	Т	ИЮПАК
01	6	2	8	1	р
02	3	5	9	0	S
03	0	0	0	17	Т
04	0	0	17	0	грамм
05	17	0	0	0	А
06	0	16	0	1	C
07	3	2	3	9	Т
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

Первый столбец указывает позицию, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит нотацию IUPAC для этой позиции. Обратите внимание, что суммы вхождений для A, C, G и T для каждой строки должны быть равны, поскольку PFM получены путем агрегирования нескольких консенсусных последовательностей.

Motif Discovery

Обзор

Открытие мотива последовательности было развито с 1990-х годов. В частности, большинство существующих исследований по открытию мотивов сосредоточено на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов сталкиваются как с проблемами вырожденности последовательностей, так и с проблемами масштабируемости вычислений, требующих больших объемов данных.

De novo открытие мотива

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является Множественные ЭМ для выявления мотивов (MEME) алгоритм, который генерирует статистическую информацию для каждого кандидата.^[1] Есть более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch и другие. оценил многие связанные алгоритмы в тесте 2013 года.^[2] В поиск мотивов растений - еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетических мотивов

Мотивы также были обнаружены путем взятия филогенетический подход и изучение сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, указанные в GCM (глиальные клетки отсутствуют) ген у человека, мыши и D. melanogaster, Акияма и другие открыли образец, который они назвали Мотив GCM в 1996 г.^[3] Он состоит примерно из 150 аминокислотных остатков и начинается следующим образом:

WDIND *. * P .. * ... D.F. * W ***. **. IYS ** ... A. * H * S * WAMRNTNNHN

Здесь каждый . означает одну аминокислоту или пробел, и каждая * указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных белковый домен базы данных, такие как Pfam: кураторы-люди могли бы выбрать пул последовательностей, о которых известно, что они связаны, и использовать компьютерные программы для их выравнивания и создания профиля мотива, который можно использовать для идентификации других связанных белков. Филогенетический подход также может быть использован для улучшения de novo Алгоритм MEME, примером которого является PhyloGibbs.^[4]

De novo открытие пары мотивов

В 2017 году MotifHyades был разработан как инструмент для поиска мотивов, который можно напрямую применять к парным последовательностям.^[5]

De novo распознавание мотива из белка

В 2018 г. Марковское случайное поле был предложен подход к выводу мотивов ДНК из ДНК-связывающие домены белков.^[6]

Чехлы с мотивами

Трехмерные цепные коды

В Кишечная палочка лактоза оперон репрессор LacI (PDB: 1lccЦепь A) и Кишечная палочка активатор гена катаболита (PDB: 3gapЦепь A) оба имеют спираль-поворот-спираль мотив, но их аминокислотные последовательности не имеют большого сходства, как показано в таблице ниже. В 1997 году Мацуда, и другие. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо яснее, чем аминокислотная последовательность (пример из статьи):^[7] Код кодирует углы кручения между альфа-атомами углерода белковый каркас. «W» всегда соответствует альфа-спирали.

	Трехмерный цепной код	Аминокислотная последовательность
1lccA	`TWWWWWWWKCLKWWWWWWG`	`LYDVAEYAGVSYQTVSRVV`
3gapA	`KWWWWWWGKCFKWWWWWWW`	`RQEIGQIVGCSRETVGRIL`

Примеры нуклеотидных мотивов

Пример белковых мотивов

Греческий ключевой мотив
Спираль-петля-спираль
Спираль-поворот-спираль

Смотрите также

дальнейшее чтение

Вторичные и третичные источники

Кадаверу К., Вьяс Дж., Шиллер М.Р. (май 2008 г.). «Вирусная инфекция и болезни человека - идеи от minimotifs». Границы биологических наук. 13 (13): 6455–71. Дои:10.2741/3166. ЧВК 2628544. PMID 18508672.
Стормо GD (январь 2000 г.). «Сайты связывания ДНК: представление и открытие». Биоинформатика. 16 (1): 16–23. Дои:10.1093 / биоинформатика / 16.1.16. PMID 10812473.

Основные источники

Алтарави Д., Исмаил М.А., Ганем С. (2009). "MProfiler: метод на основе профиля для обнаружения мотивов ДНК". Распознавание образов в биоинформатике. Конспект лекций по информатике. 5780. С. 13–23. Дои:10.1007/978-3-642-04031-3_2. ISBN 978-3-642-04030-6. Отсутствует или пусто | название = (помощь)
Шиллер MR (2007). Minimotif miner: вычислительный инструмент для исследования функции белков, болезней и генетического разнообразия.. Curr Protoc Protein Sci. Глава 2. С. 2.12.1–2.12.14. Дои:10.1002 / 0471140864.ps0212s48. ISBN 978-0471140863. PMID 18429315. S2CID 10406520.
Балла С., Тапар В., Верма С., Луонг Т., Фагри Т., Хуанг С.Х. и др. (Март 2006 г.). «Minimotif Miner: инструмент для исследования функции белков». Методы природы. 3 (3): 175–7. Дои:10.1038 / nmeth856. PMID 16489333. S2CID 15571142.

[Bailey2006-1] Бейли Т.Л., Уильямс Н., Мисле С., Ли В.В. (июль 2006 г.). «ЦМемы: обнаружение и анализ мотивов ДНК и белковых последовательностей». Исследования нуклеиновых кислот. 34 (Проблема с веб-сервером): W369-73. Дои:10.1093 / нар / gkl198. ЧВК 1538909. PMID 16845028.

[Weirauch2013-2] Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR, et al. (Февраль 2013). «Оценка методов моделирования специфичности последовательностей факторов транскрипции». Природа Биотехнологии. 31 (2): 126–34. Дои:10.1038 / nbt.2486. ЧВК 3687085. PMID 23354101.

[Akiyama1996-3] Акияма Ю., Хосоя Т., Пул А.М., Хотта Ю. (декабрь 1996 г.). «Мотив gcm: новый ДНК-связывающий мотив, консервативный у дрозофилы и млекопитающих». Труды Национальной академии наук Соединенных Штатов Америки. 93 (25): 14912–6. Bibcode:1996PNAS ... 9314912A. Дои:10.1073 / пнас.93.25.14912. ЧВК 26236. PMID 8962155.

[Siddharthan2005-4] Сиддхартан Р., Сиггиа Э.Д., ван Нимвеген Э. (декабрь 2005 г.). "PhyloGibbs: программа для поиска мотивов Гиббса, учитывающая филогению". PLOS вычислительная биология. 1 (7): e67. Bibcode:2005PLSCB ... 1 ... 67S. Дои:10.1371 / journal.pcbi.0010067. ЧВК 1309704. PMID 16477324.

[pmid28633280-5] Вонг KC (октябрь 2017 г.). «MotifHyades: максимальное ожидание открытия пары мотивов de novo на парных последовательностях». Биоинформатика (Оксфорд, Англия). 33 (19): 3028–3035. Дои:10.1093 / биоинформатика / btx381. PMID 28633280.

[pmid30267681-6] Wong KC (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК по белковым последовательностям». iScience. 7: 198–211. Bibcode:2018iSci .... 7..198W. Дои:10.1016 / j.isci.2018.09.003. ЧВК 6153143. PMID 30267681.

[Matsuda1997-7] Мацуда Х., Танигучи Ф., Хашимото А (1997). «Подход к обнаружению структурных мотивов белков с использованием схемы кодирования конформаций остова» (PDF). Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу: 280–91. PMID 9390299.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Мотив последовательности - Sequence motif

Содержание

Обзор

Представление мотива

Мотивы и консенсусные последовательности

Обозначения описания паттернов

Обозначение образца PROSITE

Матрицы

Motif Discovery

Обзор

De novo открытие мотива

Открытие филогенетических мотивов

De novo открытие пары мотивов

De novo распознавание мотива из белка

Чехлы с мотивами

Трехмерные цепные коды

Примеры нуклеотидных мотивов

Пример белковых мотивов

Смотрите также

Рекомендации

Вторичные и третичные источники

Основные источники

дальнейшее чтение

Вторичные и третичные источники

Основные источники