База данных надсемейства - Superfamily database
Содержание | |
---|---|
Описание | База данных SUPERFAMILY обеспечивает структурную и функциональную аннотацию для всех белков и геномов. |
Типы данных захвачен | Семейства белков, аннотация генома, выравнивания, Скрытые марковские модели (HMM) |
Организмы | все |
Связаться с нами | |
Исследовательский центр | Бристольский университет |
Лаборатория | |
Основное цитирование | PMID 19036790 |
Доступ | |
Формат данных | Формат FASTA |
Интернет сайт | supfam |
Скачать URL | supfam |
Разное | |
Лицензия | Стандартная общественная лицензия GNU |
Версия | 1.75 |
СУПЕРСЕМЬЯ представляет собой базу данных и платформу поиска структурных и функциональных аннотаций для всех белков и геномов.[1][2][3][4][5][6][7] Он классифицирует аминокислотные последовательности в известные структурные области, особенно в SCOP надсемейства.[8][9] Домены - это функциональные, структурные и эволюционные единицы, которые образуют белки. Домены общего предка сгруппированы в суперсемейства. Домены и суперсемейства доменов определены и описаны в SCOP.[8][10] Надсемейства представляют собой группы белков, которые имеют структурные доказательства в пользу общего эволюционного предка, но могут не иметь обнаруживаемой последовательности гомология.[11]
Аннотации
Аннотация SUPERFAMILY основана на коллекции скрытые марковские модели (HMM), которые представляют собой структурные белковые домены на SCOP надсемейство уровень.[12][13] Суперсемейство объединяется домены которые имеют эволюционный отношения. Аннотации производятся путем сканирования белковых последовательностей из полностью секвенированных геномы против скрытых марковских моделей.
Для каждого белка вы можете:
- Отправьте последовательности для классификации SCOP
- Просмотр доменной организации, выравнивание последовательностей и детали белковой последовательности
Для каждого генома вы можете:
- Изучите назначения надсемейства, филогенетические деревья, списки доменных организаций и сети
- Проверьте наличие чрезмерно или недостаточно представленных суперсемейств в геноме
Для каждого суперсемейства вы можете:
- Проверьте классификацию SCOP, функциональную аннотацию, Генная онтология аннотация,[6][14] InterPro аннотация и назначение генома
- Исследовать таксономический распределение надсемейства по древу жизни
Все аннотации, модели и дамп базы данных доступны для свободного скачивания всем желающим.
особенности
Последовательный поиск
Отправьте последовательность белка или ДНК для классификации SCOP на суперсемейство и на уровне семейства с помощью SUPERFAMILY HMM. Последовательности могут быть отправлены либо путем необработанного ввода, либо путем загрузки файла, но все они должны быть в Формат FASTA. Последовательности могут быть аминокислотами, нуклеотидной последовательностью с фиксированной рамкой или всеми рамками представленной нуклеотидной последовательности. Одновременно можно запускать до 1000 последовательностей.
Поиск по ключевым словам
Выполните поиск в базе данных, используя название суперсемейства, семейства или вида плюс последовательность, SCOP, PDB, или идентификаторы HMM. Успешный поиск дает класс, складки, суперсемейства, семейства и отдельные белки, соответствующие запросу.
Назначение домена
В базе данных есть назначения доменов, выравнивания и архитектуры для полных последовательностей эукариотических и прокариотических организмов, а также коллекции последовательностей.
Инструменты сравнительной геномики
Просматривайте необычные (чрезмерно и недостаточно представленные) суперсемейства и семейства, списки и графики пар смежных доменов, уникальные пары доменов, комбинации доменов, архитектуру доменов сети совместного возникновения и распределение доменов по таксономическим царствам для каждого организма.
Статистика генома
Для каждого генома: количество последовательностей, количество последовательностей с назначением, процент последовательностей с назначением, процент общего покрытия последовательностей, количество назначенных доменов, количество назначенных суперсемейств, количество назначенных семейств, средний размер суперсемейства, процент, полученный в результате дупликации, средний длина последовательности, средняя совпадающая длина, количество пар доменов и количество уникальных доменных архитектур.
Генная онтология
Домен-ориентированный Генная онтология (GO) автоматически аннотируется.
Из-за растущего разрыва между секвенированными белками и известными функциями белков становится все более важным разработать более автоматизированный метод функционального аннотирования белков, особенно для белков с известными доменами. SUPERFAMILY использует аннотации GO на уровне белков, взятые из проекта Genome Ontology Annotation (GOA), который предлагает высококачественные аннотации GO, напрямую связанные с белками в UniprotKB для широкого спектра видов.[15] SUPERFAMILY сгенерировал GO-аннотации для эволюционно закрытых доменов (на уровне семейства SCOP) и удаленных доменов (на уровне суперсемейства SCOP).
Онтология фенотипа
Домен-ориентированный фенотип / онтология анатомии, включая онтологию заболеваний, фенотип человека, фенотип мыши, фенотип червя, фенотип дрожжей, фенотип мух, анатомию мух, анатомию рыбок данио, анатомию ксенопусов и растение арабидопсис.
Аннотация надсемейства
InterPro представляет рефераты для более чем 1000 суперсемейств, а аннотации Gene Ontology (GO) - для более чем 700 суперсемейств. Эта функция позволяет напрямую аннотация ключевых характеристик, функций и структур суперсемейства.
Функциональная аннотация
Функциональная аннотация суперсемейства SCOP 1.73.
База данных SUPERFAMILY использует схему из 50 подробных категорий функций, которые сопоставляются с 7 общими категориями функций, аналогично схеме, используемой в базе данных COG.[16] Общая функция, назначенная суперсемейству, использовалась для отражения основной функции этого суперсемейства. Общие категории функций:
- Информация: хранение, поддержание генетического кода; Репликация и восстановление ДНК; Общее транскрипция и перевод.
- Регулирование: регулирование экспрессии генов и активности белков; обработка информации в ответ на воздействие окружающей среды; преобразование сигнала; общая регуляторная или рецепторная активность.
- Метаболизм: Анаболический и катаболический процессы; обслуживание клеток и гомеостаз; вторичный обмен веществ.
- Внутриклеточные процессы: подвижность и деление клеток; смерть клетки; внутриклеточный транспорт; секреция.
- Внеклеточные процессы: меж-, внеклеточные процессы, такие как клеточная адгезия; Органический процесс, такой как свертывание крови или иммунная система.
- Общие: Общие и множественные функции; взаимодействие с белки, липиды, маленькие молекулы, и ионы.
- Другое / Неизвестно: неизвестная функция, вирусные белки, или токсины.
Каждое суперсемейство доменов в SCOP-классах от a до g было вручную аннотировано с использованием этой схемы.[17][18][19] и использованная информация была предоставлена SCOP,[10] ИнтерПро,[20][21] Pfam,[22] Швейцарский Prot,[23] и различные литературные источники.
Филогенетические деревья
Создать индивидуальный филогенетические деревья выбрав 3 или более доступных генома на сайте SUPERFAMILY. Деревья генерируются с использованием методов эвристической экономии и основаны на данных об архитектуре белковых доменов для всех геномов в SUPERFAMILY. Комбинации геномов или определенные клады могут отображаться как отдельные деревья.
Подобные доменные архитектуры
Эта функция позволяет пользователю найти 10 доменных архитектур, наиболее похожих на интересующую доменную архитектуру.
Скрытые марковские модели
Создавайте назначения домена SCOP для последовательности, используя SUPERFAMILY скрытые марковские модели.
Сравнение профилей
Найдите совпадения удаленных доменов, когда поиск HMM не может найти значимого совпадения. Сравнение профилей (PRC)[24] для выравнивания и надрезания используются два профиля HMM.
Веб-сервисы
Распределенный сервер аннотаций и ссылка на SUPERFAMILY.
Загрузки
Последовательности, задания, модели, база данных MySQL и скрипты - обновляются еженедельно.
Использование в исследованиях
База данных SUPERFAMILY имеет множество исследовательских приложений и использовалась многими исследовательскими группами для различных исследований. Он может служить либо в качестве базы данных для белков, которые пользователь желает исследовать с помощью других методов, либо для определения функции и структуры нового или не охарактеризованного белка. Одно исследование показало, что SUPERFAMILY очень хорошо умеет правильно назначать соответствующую функцию и структуру большому количеству областей неизвестной функции, сравнивая их со скрытыми марковскими моделями баз данных.[25] Другое исследование использовало SUPERFAMILY для создания набора данных из 1733 складчатых доменов суперсемейства (FSF) с использованием сравнения протеомов и функциономов для определения происхождения клеточной диверсификации.[26]
использованная литература
- ^ Уилсон, Д.; Pethica, R; Чжоу, Y; Talbot, C; Vogel, C; Мадера, М; Chothia, C; Гоф, Дж (2009). «SUPERFAMILY - сложная сравнительная геномика, интеллектуальный анализ данных, визуализация и филогения». Исследования нуклеиновых кислот. 37 (Выпуск базы данных): D380–6. Дои:10.1093 / nar / gkn762. ЧВК 2686452. PMID 19036790.
- ^ Мадера, Мартин; Фогель, Кристина; Куммерфельд, Сара К .; Чотия, Сайрус; Гоф, Джулиан (2004-01-01). «База данных SUPERFAMILY в 2004 году: дополнения и улучшения». Исследования нуклеиновых кислот. 32 (приложение 1): D235 – D239. Дои:10.1093 / нар / гх117. ISSN 0305-1048. ЧВК 308851. PMID 14681402.
- ^ Wilson, D .; Madera, M .; Vogel, C .; Чотия, К.; Гоф, Дж. (2007). «База данных SUPERFAMILY в 2007 году: семьи и функции». Исследования нуклеиновых кислот. 35 (Проблема с базой данных): D308 – D313. Дои:10.1093 / нар / gkl910. ЧВК 1669749. PMID 17098927.
- ^ Гоф, Дж. (2002). «База данных SUPERFAMILY по структурной геномике». Acta Crystallographica Раздел D. 58 (Pt 11): 1897–1900. Дои:10.1107 / s0907444902015160. PMID 12393919.
- ^ Гоф, Дж.; Чотия, К. (2002). «СУПЕРСЕМЬЯ: HMM, представляющие все белки известной структуры. Поиск последовательностей SCOP, выравнивание и назначение генома». Исследования нуклеиновых кислот. 30 (1): 268–272. Дои:10.1093 / nar / 30.1.268. ЧВК 99153. PMID 11752312.
- ^ а б Де Лима Мораис, Д. А .; Fang, H .; Rackham, O.J. L .; Wilson, D .; Pethica, R .; Чотия, К.; Гоф, Дж. (2010). «SUPERFAMILY 1.75, включая доменно-ориентированный метод онтологии генов». Исследования нуклеиновых кислот. 39 (Проблема с базой данных): D427 – D434. Дои:10.1093 / нар / gkq1130. ЧВК 3013712. PMID 21062816.
- ^ Oates, M.E .; Stahlhacke, J; Вавулис, Д. В .; Смитерс, Б. Rackham, O.J .; Sardar, A.J .; Zaucha, J; Thurlby, N; Фанг, H; Гоф, Дж (2015). «База данных SUPERFAMILY 1.75 в 2014 году: удвоение данных». Исследования нуклеиновых кислот. 43 (Выпуск базы данных): D227–33. Дои:10.1093 / нар / gku1041. ЧВК 4383889. PMID 25414345.
- ^ а б Хаббард, Т. Дж.; Эйли, Б .; Бреннер, С.; Мурзин, А.Г .; Чотия, К. (1999). "SCOP: структурная классификация базы данных белков". Исследования нуклеиновых кислот. 27 (1): 254–256. Дои:10.1093 / nar / 27.1.254. ЧВК 148149. PMID 9847194.
- ^ Lo Conte, L .; Эйли, Б .; Hubbard, T. J .; Brenner, S.E .; Мурзин, А.Г .; Чотиа, К. (2000). «SCOP: структурная классификация базы данных белков». Исследования нуклеиновых кислот. 28 (1): 257–259. Дои:10.1093 / nar / 28.1.257. ЧВК 102479. PMID 10592240.
- ^ а б Андреева, Антонина; Ховорт, Дэйв; Бреннер, Стивен Э .; Hubbard, Tim J. P .; Чотия, Сайрус; Мурзин, Алексей Г. (2004-01-01). «База данных SCOP в 2004 году: уточнения включают данные о структуре и семействе последовательностей». Исследования нуклеиновых кислот. 32 (Проблема с базой данных): D226 – D229. Дои:10.1093 / нар / gkh039. ISSN 0305-1048. ЧВК 308773. PMID 14681400.
- ^ Dayhoff, M. O .; McLaughlin, P.J .; Barker, W. C .; Хант, Л. Т. (1975-04-01). «Эволюция последовательностей в суперсемействах белков». Naturwissenschaften. 62 (4): 154–161. Bibcode:1975NW ..... 62..154D. Дои:10.1007 / BF00608697. ISSN 0028-1042.
- ^ Gough, J .; Karplus, K .; Hughey, R .; Чотия, К. (2001). «Присвоение гомологии последовательностям генома с использованием библиотеки скрытых марковских моделей, которые представляют все белки известной структуры1». Журнал молекулярной биологии. 313 (4): 903–919. CiteSeerX 10.1.1.144.6577. Дои:10.1006 / jmbi.2001.5080. PMID 11697912.
- ^ Karplus, K .; Barrett, C .; Хьюи, Р. (1998-01-01). «Скрытые марковские модели для обнаружения удаленных гомологий белков». Биоинформатика. 14 (10): 846–856. Дои:10.1093 / биоинформатика / 14.10.846. ISSN 1367-4803. PMID 9927713.
- ^ Ботштейн, Д.; Cherry, J.M .; Эшбернер, М.; Ball, C.A .; Blake, J. A .; Батлер, H .; Дэвис, А. П .; Долинский, К .; Дуайт, С. С .; Eppig, J. T .; Harris, M. A .; Hill, D. P .; Issel-Tarver, L .; Касарскис, А .; Льюис, С.; Matese, J.C .; Richardson, J. E .; Ringwald, M .; Рубин, Г.М.; Шерлок, Г. (2000). «Генная онтология: инструмент для объединения биологии. Консорциум генных онтологий». Природа Генетика. 25 (1): 25–29. Дои:10.1038/75556. ЧВК 3037419. PMID 10802651.
- ^ Баррелл, Дэниел; Диммер, Эмили; Хантли, Рэйчел П .; Биннс, Дэвид; О’Донован, Клэр; Апвайлер, Рольф (01.01.2009). «База данных GOA в 2009 году - интегрированный ресурс аннотаций генных онтологий». Исследования нуклеиновых кислот. 37 (приложение 1): D396 – D403. Дои:10.1093 / nar / gkn803. ISSN 0305-1048. ЧВК 2686469. PMID 18957448.
- ^ Татусов, Роман Л; Федорова Натали Д; Джексон, Джон Д; Джейкобс, Авива Р.; Кирютин, Борис; Кунин, Евгений V; Крылов Дмитрий М; Мазумдер, Раджа; Мехедов, Сергей Л (11.09.2003). «База данных COG: обновленная версия включает эукариоты». BMC Bioinformatics. 4: 41. Дои:10.1186/1471-2105-4-41. ISSN 1471-2105. ЧВК 222959. PMID 12969510.
- ^ Фогель, Кристина; Берзуини, Карло; Баштон, Мэтью; Гоф, Джулиан; Тайхманн, Сара А. (20 февраля 2004 г.). «Супра-домены: эволюционные единицы больше, чем отдельные белковые домены». Журнал молекулярной биологии. 336 (3): 809–823. CiteSeerX 10.1.1.116.6568. Дои:10.1016 / j.jmb.2003.12.026. ISSN 0022-2836. PMID 15095989.
- ^ Фогель, Кристина; Тайхманн, Сара А .; Перейра-Леаль, Хосе (11 февраля 2005 г.). «Взаимосвязь между дупликацией домена и рекомбинацией». Журнал молекулярной биологии. 346 (1): 355–365. Дои:10.1016 / j.jmb.2004.11.050. ISSN 0022-2836. PMID 15663950.
- ^ Фогель, Кристина; Чотия, Сайрус (01.05.2006). «Расширение семейства белков и биологическая сложность». PLoS вычислительная биология. 2 (5): e48. Bibcode:2006PLSCB ... 2 ... 48 В. Дои:10.1371 / journal.pcbi.0020048. ISSN 1553-734X. ЧВК 1464810. PMID 16733546.
- ^ Малдер, Никола Дж .; Апвейлер, Рольф; Attwood, Teresa K .; Байрох, Амос; Баррелл, Дэниел; Бейтман, Алекс; Биннс, Дэвид; Бисвас, Маргарет; Брэдли, Пол (01.01.2003). «База данных InterPro, 2003 обеспечивает расширенный охват и новые функции». Исследования нуклеиновых кислот. 31 (1): 315–318. Дои:10.1093 / nar / gkg046. ISSN 0305-1048. ЧВК 165493. PMID 12520011.
- ^ Малдер, Никола Дж .; Апвейлер, Рольф; Attwood, Teresa K .; Байрох, Амос; Бейтман, Алекс; Биннс, Дэвид; Брэдли, Пол; Борк, Пер; Бучер, Филипп (01.01.2005). «ИнтерПро, прогресс и статус в 2005 году». Исследования нуклеиновых кислот. 33 (Проблема с базой данных): D201 – D205. Дои:10.1093 / нар / gki106. ISSN 0305-1048. ЧВК 540060. PMID 15608177.
- ^ Финн, Роберт Д.; Мистри, Джайна; Шустер-Бёклер, Бенджамин; Гриффитс-Джонс, Сэм; Холлих, Фолькер; Лассманн, Тимо; Моксон, Саймон; Маршалл, Мхайри; Ханна, Аджай (01.01.2006). «Pfam: кланы, веб-инструменты и сервисы». Исследования нуклеиновых кислот. 34 (Проблема с базой данных): D247 – D251. Дои:10.1093 / nar / gkj149. ISSN 0305-1048. ЧВК 1347511. PMID 16381856.
- ^ Бекманн, Бриджит; Блаттер, Мари-Клод; Фамильетти, Ливия; Хинц, Урсула; Лейн, Лидия; Рохерт, Бернд; Байрох, Амос (1 ноября 2005 г.). «Разнообразие белков и функциональное разнообразие: аннотация Swiss-Prot в биологическом контексте». Comptes Rendus Biologies. 328 (10–11): 882–899. Дои:10.1016 / j.crvi.2005.06.001. ISSN 1631-0691. PMID 16286078.
- ^ Мадера, Мартин (15 ноября 2008 г.). «Profile Comparer: программа для скоринга и выравнивания профилей скрытых марковских моделей». Биоинформатика. 24 (22): 2630–2631. Дои:10.1093 / биоинформатика / btn504. ISSN 1367-4803. ЧВК 2579712. PMID 18845584.
- ^ Мудгал, Рича; Сандхья, Шанкаран; Чандра, Нагасума; Шринивасан, Нараянасвами (31 июля 2015 г.). «De-DUFing DUFs: Расшифровка отдаленных эволюционных отношений Доменов неизвестной функции с использованием чувствительных методов обнаружения гомологии». Биология Директ. 10 (1): 38. Дои:10.1186 / s13062-015-0069-2. ЧВК 4520260. PMID 26228684.
- ^ Насир, Аршан; Каэтано-Аноллес, Густаво (2013). «Сравнительный анализ протеомов и функциономов позволяет понять истоки клеточной диверсификации». Археи. ЧВК 3892558.