Pfam - Pfam

Pfam
Pfam logo.gif
Содержание
ОписаниеБаза данных Pfam предоставляет выравнивания и скрытые марковские модели для белковых доменов.
Типы данных
захвачен
Семейства белков
Организмывсе
Контакт
Исследовательский центрEBI
Основное цитированиеPMID  19920124
Доступ
Формат данныхСтокгольмский формат
Интернет сайтpfam.xfam.org
Скачать URLFTP 1 FTP 2
Разное
ЛицензияСтандартная общественная лицензия ограниченного применения GNU
Версия33.1
Закладки
сущности
да

Pfam это база данных белковые семейства это включает их аннотации и множественное выравнивание последовательностей генерируется с использованием скрытые марковские модели.[1][2][3] Самая последняя версия, Pfam 33.1, была выпущена в мае 2020 года и содержит 18 259 семейств.[4]

Использует

Общая цель базы данных Pfam - предоставить полную и точную классификацию семейств и доменов белков.[5] Первоначально цель создания базы данных заключалась в том, чтобы иметь полуавтоматический метод сбора информации об известных семействах белков для повышения эффективности аннотирования геномов.[6] Классификация семейств белков Pfam была широко принята биологами из-за широкого охвата белков и разумных соглашений об именах.[7]

Он используется биологами-экспериментаторами, изучающими определенные белки, биологами-структурниками для определения новых целей для определения структуры, биологами-компьютерщиками для организации последовательностей и биологами-эволюционистами, отслеживающими происхождение белков.[8] Ранние проекты генома, такие как человек и муха, широко использовали Pfam для функциональной аннотации геномных данных.[9][10][11]

Веб-сайт Pfam позволяет пользователям отправлять последовательности белков или ДНК для поиска совпадений с семьями в базе данных. Если представлена ​​ДНК, шестикадровый перевод выполняется поиск каждого кадра.[12] Вместо того, чтобы выполнять типичный ВЗРЫВ поиск, Pfam использует профиль скрытые марковские модели, которые придают больший вес совпадениям на консервированный сайты, позволяющие лучше определять удаленную гомологию, что делает их более подходящими для аннотирования геномов организмов, не имеющих хорошо аннотированных близких родственников.[13]

Pfam также использовался при создании других ресурсов, таких как iPfam, который каталогизирует взаимодействия домен-домен внутри и между белками на основе информации в базах данных структур и картирования доменов Pfam на эти структуры.[14]

Функции

Для каждой семьи в Pfam можно:

  • Посмотреть описание семьи
  • Посмотрите на несколько выравниваний
  • Просмотр архитектур белковых доменов
  • Изучить распространение видов
  • Переходите по ссылкам на другие базы данных
  • Просмотр известных белковых структур

Записи могут быть нескольких типов: семейные, доменные, повторяющиеся или по мотивам. Семья - это класс по умолчанию, который просто указывает на то, что члены связаны между собой. Домены определяются как автономная структурная единица или единица последовательности многократного использования, которую можно найти во множестве белковых контекстов. Повторы обычно не стабильны по отдельности, а обычно требуются для образования тандемных повторов, чтобы сформировать домен или расширенную структуру. Мотивы обычно представляют собой более короткие единицы последовательности, обнаруживаемые вне глобулярных доменов.[9]

Описание семейств Pfam осуществляется широкой публикой с помощью Википедии (см. История ).

По состоянию на выпуск 29.0, 76,1% белковых последовательностей в УнипротКБ соответствует хотя бы одному домену Pfam.[15]

Создание новых записей

Новые семьи происходят из разных источников, в первую очередь из PDB и анализ полных протеомов для поиска генов без попадания Pfam.[16]

Для каждого семейства репрезентативное подмножество последовательностей выравнивается в высококачественное выравнивание семян. Последовательности для выравнивания семян берутся в основном из pfamseq (неизбыточная база данных эталонных протеомов) с некоторыми дополнениями из УнипротКБ.[15] Это начальное выравнивание затем используется для построения профильной скрытой марковской модели с использованием HMMER. Затем этот HMM просматривается в базах данных последовательностей, и все совпадения, которые достигают заданного порога сбора, классифицируются как члены семейства белков. Полученный набор элементов затем выравнивается по профилю HMM, чтобы произвести полное выравнивание.

Для каждого семейства назначается вручную подобранный порог сбора, который максимизирует количество истинных совпадений с семейством при исключении любых ложноположительных совпадений. Ложноположительные результаты оцениваются путем наблюдения совпадений между попаданиями в семейство Pfam, принадлежащих к разным кланам. Этот порог используется для оценки того, следует ли включать совпадение с семейством HMM в семейство белков. При каждом обновлении Pfam пороги сбора повторно оцениваются, чтобы предотвратить перекрытие между новыми и существующими семействами.[16]

Домены неизвестной функции

Домены неизвестной функции (DUF) представляют собой растущую часть базы данных Pfam. Семейства названы так потому, что было обнаружено, что они сохраняются у разных видов, но выполняют неизвестную роль. Каждый вновь добавленный DUF именуется в порядке добавления. Имена этих записей обновляются по мере определения их функций. Обычно, когда функция по крайней мере одного белка, принадлежащего к DUF, была определена, функция всего DUF обновляется, и семейство переименовывается. Некоторые названные семейства все еще являются доменами с неизвестной функцией, названными в честь репрезентативного белка, например YbbR. Ожидается, что количество DUF будет продолжать увеличиваться, поскольку в данных последовательностей продолжают идентифицироваться консервативные последовательности с неизвестной функцией. Ожидается, что DUF в конечном итоге превзойдут по численности семейства известных функций.[16]

Кланы

Со временем охват как последовательностей, так и остатков увеличился, и по мере роста семей было обнаружено больше эволюционных отношений, что позволило группировать семьи в кланы.[8] Кланы были впервые введены в базу данных Pfam в 2005 году. Они представляют собой группы связанных семейств, имеющих одно эволюционное происхождение, что подтверждается сравнениями структур, функций, последовательностей и HMM.[5] На момент выпуска 29.0 примерно треть семейств белков принадлежала клану.[15] К 2019 г. (версия 32.0) эта доля выросла примерно до трех четвертей.[17]

Чтобы определить возможные клановые отношения, кураторы Pfam используют программу простого сравнения результатов (SCOOP), а также информацию из базы данных ECOD.[17] ECOD - это полуавтоматическая иерархическая база данных семейств белков с известными структурами, с семействами, которые легко отображаются в записи Pfam, и уровнями гомологии, которые обычно отображаются в кланах Pfam.[18]

История

Pfam была основана в 1995 году Эриком Сонхаммером, Шоном Эдди и Ричардом Дурбином как набор часто встречающихся белковых доменов, которые можно использовать для аннотирования кодирующих белки генов многоклеточных животных.[6] Одна из его основных целей с самого начала заключалась в том, чтобы помочь в аннотации C. elegans геном.[6] Частично этот проект был вызван утверждением Сайруса Чотиа «Тысяча семейств для молекулярного биолога» о том, что существует около 1500 различных семейств белков и что большинство белков попадает только в 1000 из них.[5][19] Вопреки этому утверждению, база данных Pfam в настоящее время содержит 16 306 записей, соответствующих уникальным доменам и семействам белков. Однако многие из этих семейств содержат структурные и функциональные сходства, указывающие на общее эволюционное происхождение (см. Кланы ).[5]

Основным отличием между Pfam и другими базами данных на момент их создания было использование двух типов выравнивания для записей: меньшее выравнивание семян, проверяемое вручную, а также полное выравнивание, построенное путем выравнивания последовательностей по модели Маркова со скрытым профилем. построен из выравнивания семян. Это меньшее выравнивание семян было легче обновлять по мере выхода новых версий баз данных последовательностей, и, таким образом, представляло многообещающее решение дилеммы о том, как поддерживать базу данных в актуальном состоянии, поскольку секвенирование генома стало более эффективным и со временем необходимо было обрабатывать больше данных. . Дальнейшее улучшение скорости обновления базы данных произошло в версии 24.0 с введением HMMER3, который примерно в 100 раз быстрее, чем HMMER2, и более чувствителен.[8]

Поскольку записи в Pfam-A не охватывают все известные белки, была предоставлена ​​автоматически созданная добавка под названием Pfam-B. Pfam-B содержал большое количество небольших семейств, образованных из кластеров, созданных с помощью алгоритма ADDA.[20] Несмотря на более низкое качество, семейства Pfam-B могут быть полезны, когда не обнаружены семейства Pfam-A. Pfam-B был прекращен с выпуска 28.0.[21]

Изначально Pfam размещался на трех зеркальные сайты по всему миру, чтобы сохранить избыточность. Однако в период с 2012 по 2014 год ресурс Pfam был перемещен на EMBL-EBI, что позволило разместить сайт с одного домена (xfam.org), используя дублирующие независимые дата-центры. Это позволило улучшить централизацию обновлений и группировку с другими проектами Xfam, такими как Рфам, TreeFam, iPfam и другие, сохраняя при этом критическую устойчивость, обеспечиваемую хостингом из нескольких центров.[22]

За последние два года Pfam претерпела существенную реорганизацию, чтобы еще больше сократить ручные усилия, связанные с курированием, и обеспечить более частое обновление.[15]

Курирование сообщества

При курировании такой большой базы данных возникли проблемы с точки зрения количества новых семейств и обновленной информации, которую необходимо было добавить. Чтобы ускорить выпуск базы данных, разработчики запустили ряд инициатив, позволяющих активнее вовлекать сообщество в управление базой данных.

Критическим шагом в улучшении темпа обновления и улучшения записей было открытие функциональной аннотации доменов Pfam для сообщества Википедии в версии 26.0.[16] Для записей, у которых уже была запись в Википедии, она была связана со страницей Pfam, а для тех, у которых ее не было, сообществу было предложено создать ее и проинформировать кураторов, чтобы она была связана. Ожидается, что пока участие сообщества значительно повысит уровень аннотации этих семейств, некоторые останутся недостаточно примечательными для включения в Википедию, и в этом случае они сохранят свое исходное описание Pfam. Некоторые статьи Википедии касаются нескольких семейств, например Цинковый палец статья. Также была реализована автоматическая процедура создания статей на основе данных InterPro и Pfam, при которой страница заполняется информацией и ссылками на базы данных, а также доступными изображениями, а затем после того, как статья была просмотрена куратором, она перемещается из песочницы в Собственно Википедия. Чтобы предотвратить вандализм статей, каждая редакция Википедии проверяется кураторами перед тем, как она будет размещена на веб-сайте Pfam. Однако почти все случаи вандализма устраняются сообществом до того, как они доходят до кураторов.[16]

Pfam управляется международным консорциумом из трех групп. В более ранних версиях Pfam семейные записи могли быть изменены только на сайте Кембриджа, Великобритания, что ограничивало возможность членов консорциума участвовать в курировании сайта. В версии 26.0 разработчики перешли на новую систему, которая позволила зарегистрированным пользователям в любой точке мира добавлять или изменять семейства Pfam.[16]

Смотрите также

Рекомендации

  1. ^ Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Х.Р. Хотц, Церик Дж., Форслунд К., Эдди С.Р., Зоннхаммер Е.Л., Бейтман А. (2008). «База данных семейств белков Pfam». Нуклеиновые кислоты Res. 36 (Выпуск базы данных): D281–8. Дои:10.1093 / нар / гкм960. ЧВК  2238907. PMID  18039703.
  2. ^ Finn, R.D .; Mistry, J .; Schuster-Böckler, B .; Griffiths-Jones, S .; Hollich, V .; Lassmann, T .; Moxon, S .; Marshall, M .; Ханна, А .; Durbin, R .; Eddy, S. R .; Sonnhammer, E.L .; Бейтман, А. (январь 2006 г.). «Pfam: кланы, веб-инструменты и сервисы» (Бесплатный полный текст). Исследования нуклеиновых кислот. 34 (Проблема с базой данных): D247 – D251. Дои:10.1093 / nar / gkj149. ISSN  0305-1048. ЧВК  1347511. PMID  16381856.
  3. ^ Бейтман, А.; Монета, л .; Дурбин, Р.; Finn, R.D .; Hollich, V .; Griffiths-Jones, S .; Khanna, A .; Marshall, M .; Moxon, S .; Sonnhammer, E.L .; Studholme, D. J .; Йейтс, С .; Эдди, С. (2004). «База данных семейств белков Pfam». Исследования нуклеиновых кислот. 32 (Выпуск базы данных): 138D – 1141. Дои:10.1093 / нар / гх121. ISSN  0305-1048. ЧВК  308855. PMID  14681378. открытый доступ
  4. ^ Финн, Роб; Мистри, Джайна (8 марта 2017 г.). «Выпущен Pfam 31.0». Блог Xfam. Получено 13 марта 2017.
  5. ^ а б c d Саммут, Стивен; Финн, Роберт Д.; Бейтман, Алекс (2008). «Pfam 10 лет спустя: 10 000 семей, которые продолжают расти». Брифинги по биоинформатике. 9 (3): 210–219. Дои:10.1093 / bib / bbn010. PMID  18344544.
  6. ^ а б c Sonnhammer, Erik L.L .; Эдди, Шон Р .; Дурбин, Ричард (1997). «Pfam: комплексная база данных семейств белковых доменов на основе выравнивания семян». Белки. 28 (3): 405–420. Дои:10.1002 / (sici) 1097-0134 (199707) 28: 3 <405 :: aid-prot10> 3.0.co; 2-l. PMID  9223186.
  7. ^ Сюй, Цифан; Данбрак, Роланд Л. (2012). «Отнесение белковых последовательностей к существующим системам классификации доменов и семейств: Pfam и PDB». Биоинформатика. 28 (21): 2763–2772. Дои:10.1093 / биоинформатика / bts533. ЧВК  3476341. PMID  22942020.
  8. ^ а б c Finn, R.D .; Mistry, J .; Tate, J .; Coggill, P .; Heger, A .; Pollington, J. E .; Gavin, O.L .; Gunasekaran, P .; Ceric, G .; Forslund, K .; Holm, L .; Sonnhammer, E. L. L .; Eddy, S. R .; Бейтман, А. (2009). «База данных семейств белков Pfam». Исследования нуклеиновых кислот. 38 (База данных): D211 – D222. Дои:10.1093 / nar / gkp985. ISSN  0305-1048. ЧВК  2808889. PMID  19920124.
  9. ^ а б Бейтман А., Бирни Е., Черрути Л., Дурбин Р., Этвиллер Л., Эдди С. Р., Гриффитс-Джонс С., Хоу К. Л., Маршалл М., Зоннхаммер Е. Л. (2002). «База данных семейств белков Pfam». Нуклеиновые кислоты Res. 30 (1): 276–80. Дои:10.1093 / nar / 30.1.276. ЧВК  99071. PMID  11752314.
  10. ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, et al. (2000). «Последовательность генома Drosophila melanogaster». Наука. 287 (5461): 2185–95. Bibcode:2000Sci ... 287.2185.. CiteSeerX  10.1.1.549.8639. Дои:10.1126 / science.287.5461.2185. PMID  10731132.
  11. ^ Lander, Eric S .; Linton, Lauren M .; Биррен, Брюс; Нусбаум, Чад; Зоди, Майкл С .; и другие. (2001). "Начальная последовательность и анализ человеческого генома". Природа. 409 (6822): 860–921. Дои:10.1038/35057062. ISSN  0028-0836. PMID  11237011.
  12. ^ Финн, Роберт Д.; Бейтман, Алекс; Клементс, Джоди; Коггилл, Пенелопа; Eberhardt, Ruth Y .; Эдди, Шон Р .; Хегер, Андреас; Хетерингтон, Кирсти; Холм, Лийза; Мистри, Джайна; Sonnhammer, Erik L.L .; Тейт, Джон; Пунта, Марко (2014). «Pfam: база данных семейств белков». Исследования нуклеиновых кислот. 42 (D1): D222 – D230. Дои:10.1093 / nar / gkt1223. ISSN  0305-1048. ЧВК  3965110. PMID  24288371.
  13. ^ Зоннхаммер Э.Л., Эдди С.Р., Бирни Э., Бейтман А, Дурбин Р. (1998). «Pfam: множественное выравнивание последовательностей и HMM-профили белковых доменов». Нуклеиновые кислоты Res. 26 (1): 320–2. Дои:10.1093 / nar / 26.1.320. ЧВК  147209. PMID  9399864.
  14. ^ Finn, R.D .; Marshall, M .; Бейтман, А. (2004). «iPfam: визуализация белок-белковых взаимодействий в PDB при разрешении домена и аминокислот». Биоинформатика. 21 (3): 410–412. Дои:10.1093 / биоинформатика / bti011. ISSN  1367-4803. PMID  15353450.
  15. ^ а б c d Финн, Роберт Д.; Коггилл, Пенелопа; Eberhardt, Ruth Y .; Эдди, Шон Р .; Мистри, Джайна; Митчелл, Алекс Л .; Поттер, Саймон С .; Пунта, Марко; Куреши, Мэтлоб; Санградор-Вегас, Амайя; Салазар, Густаво А .; Тейт, Джон; Бейтман, Алекс (2016). «База данных семейств белков Pfam: к более устойчивому будущему». Исследования нуклеиновых кислот. 44 (D1): D279 – D285. Дои:10.1093 / нар / gkv1344. ISSN  0305-1048. ЧВК  4702930. PMID  26673716.
  16. ^ а б c d е ж Пунта, М .; Coggill, P.C .; Eberhardt, R. Y .; Mistry, J .; Tate, J .; Boursnell, C .; Pang, N .; Forslund, K .; Ceric, G .; Clements, J .; Heger, A .; Holm, L .; Sonnhammer, E. L. L .; Eddy, S. R .; Bateman, A .; Финн, Р. Д. (2011). «База данных семейств белков Pfam». Исследования нуклеиновых кислот. 40 (D1): D290 – D301. Дои:10.1093 / нар / gkr1065. ISSN  0305-1048. ЧВК  3245129. PMID  22127870.
  17. ^ а б Эль-Гебали, Сара; Мистри, Джайна; Бейтман, Алекс; Эдди, Шон Р.; Лучани, Орелиен; Поттер, Саймон С; Куреши, Мэтлоб; Ричардсон, Лорна Дж; Салазар, Густаво А; Умный, Альфредо; Sonnhammer, Erik L L; Хирш, Лейла; Паладин, Лисанна; Пиовезан, Дамиано; Тосатто, Сильвио Си Э; Финн, Роберт Д. (8 января 2019 г.). «База данных семейств белков Pfam в 2019 году». Исследования нуклеиновых кислот. 47 (D1): D427 – D432. Дои:10.1093 / нар / gky995. ЧВК  6324024. PMID  30357350.
  18. ^ «Эволюционная классификация белковых доменов». prodata.swmed.edu. Получено 18 мая 2019.
  19. ^ Чотия, Сайрус (1992). «Тысяча семей для молекулярного биолога». Природа. 357 (6379): 543–544. Bibcode:1992Натура 357..543С. Дои:10.1038 / 357543a0. ISSN  0028-0836. PMID  1608464. S2CID  4355476.
  20. ^ Heger, A .; Wilton, C.A .; Sivakumar, A .; Холм, Л. (январь 2005 г.). «ADDA: база данных предметной области с глобальным охватом белковой вселенной» (Бесплатный полный текст). Исследования нуклеиновых кислот. 33 (Проблема с базой данных): D188 – D191. Дои:10.1093 / nar / gki096. ISSN  0305-1048. ЧВК  540050. PMID  15608174.
  21. ^ «Примечания к выпуску Pfam 28.0». Получено 30 июн 2015.
  22. ^ «Переход на xfam.org». Получено 25 ноября 2016.
  23. ^ Данбрак, Роланд. «PDBfam». Онкологический центр Fox Chase. Получено 9 марта 2013.
  24. ^ Сюй, Цифан; Данбрак, Роланд (2012). «Отнесение белковых последовательностей к существующим системам классификации доменов и семейств: Pfam и PDB». Биоинформатика. 28 (21): 2763–72. Дои:10.1093 / биоинформатика / bts533. ЧВК  3476341. PMID  22942020.

внешняя ссылка

  • Pfam - База данных семейства белков на EBI Великобритания
  • iPfam - Взаимодействие доменов Pfam в PDB
  • PDBfam - Присвоение доменов Pfam последовательностям в PDB в Онкологический центр Fox Chase Соединенные Штаты Америки
  • ЗаводТФДБ - Правила присвоения семейств для факторов транскрипции растений на основе доменов Pfam