Стокгольмский формат - Stockholm format

Стокгольмский формат
Расширения имени файла
.sto, .stk
Тип интернет-СМИ
текст / x-стокгольм-выравнивание
РазработанЭрик Зоннхаммерс
Тип форматаБиоинформатика
Открытый формат ?да
Интернет сайтSonnhammer.sbc.su.se/ Стокгольм.html

Стокгольмский формат это множественное выравнивание последовательностей формат, используемый Pfam и Рфам для распространения выравнивания последовательностей белков и РНК.[1][2] Редакторы выравнивания Рали[3], Белву и Jalview поддерживают Стокгольмский формат, как и вероятностные инструменты поиска в базе данных, Адский и HMMER, и инструмент филогенетического анализа Xrate. Файлы стокгольмского формата часто имеют расширение имени файла .sto или же .stk[4].

Синтаксис

А правильно сформированный файл stockholm всегда содержит заголовок, в котором указывается формат и идентификатор версии, в настоящее время '# СТОКГОЛЬМ 1.0'. Затем за заголовком следует несколько строк, представляющих собой смесь разметки (начиная с #) и последовательности. Наконец, "//Линия обозначает конец выравнивания.

Пример без разметки выглядит так:

# STOCKHOLM 1.0 # = ПРИМЕР GF ID  <выровненная последовательность>  <выровненная последовательность>  <выровненная последовательность> //

Последовательности записываются по одной в строке. Сначала записывается имя последовательности, а после любого количества пробелов записывается последовательность. Имена последовательностей обычно имеют форму «имя / начало-конец» или просто «имя». Буквы последовательности могут включать любые символы, кроме пробелов. Пробелы могут быть обозначены "." или же "-".

Строки наценки начинаются с #. «Параметры» разделяются пробелами, поэтому для разметки 1 символ на столбец следует использовать подчеркивание («_») вместо пробела. Определенные типы наценки включают:

# = GF <функция> <Общая аннотация для каждого файла, произвольный текст> # = GC <функция> <Общая аннотация для каждого столбца, ровно 1 символ на столбец> # = GS <имя> <функция> <Общая аннотация для каждой последовательности , свободный текст> # = GR   <Общая аннотация для каждого остатка, ровно 1 символ на остаток>

Рекомендуемые функции

Эти имена функций используются Pfam и Rfam для определенных типов аннотаций. (См. Pfam и Рфам документацию в разделе «Описание полей»)

# = GF

Pfam и Rfam могут использовать следующие теги:

   Обязательные поля: ------------------ Номер доступа AC: Регистрационный номер в форме PFxxxxx (Pfam) или RFxxxxx (Rfam). Идентификационный номер: одно слово для обозначения семьи. DE Определение: Краткое описание семьи. AU Автор: Авторы статьи. SE Источник семян: источник, предполагающий, что члены семян принадлежат к одной семье. SS Источник структуры: Источник (прогноз или публикация) вторичной структуры консенсусной РНК, используемый Rfam. Метод сборки BM: Командная строка, используемая для создания модели. Метод поиска SM: Командная строка, используемая для выполнения поиска. Порог сбора GA: Порог поиска для построения полного выравнивания. TC Trusted Cutoff: наименьшая оценка последовательности (и оценка домена для Pfam) совпадения при полном выравнивании. NC Noise Cutoff: Наивысшая оценка последовательности (и оценка домена для Pfam) совпадения не при полном совпадении. Тип TP: Тип семейства - в настоящее время Семья, Домен, Мотив или Повторение для Pfam. - дерево с корнями Ген, Интрон или Цис-рег для Rfam. Последовательность SQ: количество последовательностей в выравнивании. Необязательные поля: ---------------- Комментарий к базе данных DC: Комментарий к ссылке на базу данных. Ссылка на базу данных DR: Ссылка на внешнюю базу данных. Ссылка RC Комментарий: Комментарий к ссылке на литературу. Справочный номер РН: Справочный номер. Справочная медлайн RM: восьмизначный номер медлайн. Название ссылки RT: Название ссылки. RA. Автор ссылки: Автор ссылки. RL. Расположение ссылки: Местоположение журнала. PI Предыдущий идентификатор: запись всех предыдущих строк идентификатора. KW Ключевые слова: Ключевые слова. Комментарий CC: Комментарии. Присоединение NE Pfam: указывает на вложенный домен. NL Location: Расположение вложенных доменов - идентификатор последовательности, начало и конец вставки. WK Ссылка на Википедию: Страница Википедии CL Клан: Присоединение к клану Членство в MB: Используется для перечисления членства в клане Для встраивания деревьев: ---------------- NH New Hampshire Дерево в расширенном формате New Hampshire. TN Tree ID Уникальный идентификатор следующего дерева. Другое: ------ FR Частота ложного обнаружения: метод, используемый для установки порогового значения битовой оценки на основе отношения ожидаемых ложных срабатываний к истинным срабатываниям. Число с плавающей запятой от 0 до 1. CB Метод калибровки: командная строка, используемая для калибровки модели (только Rfam, выпуск 12.0 и новее)
  • Примечания: дерево может храниться в нескольких строках # = GF NH.
  • Если несколько деревьев хранятся в одном файле, каждому дереву должна предшествовать строка # = GF TN с уникальным идентификатором дерева. Если включено только одно дерево, строку # = GF TN можно не указывать.

# = GS

Rfam и Pfam могут использовать следующие функции:

      Описание функции --------------------- ----------- AC <доступ> Номер доступа DE <свободный текст> DEscription DR ; <присоединение>; Ссылка на базу данных ОС <организм> Организм (вид) OC <клад> Классификация организмов (клады и т. Д.) LO <внешний вид> Внешний вид (цвет и т. Д.)

# = GR

      Функция Описание Буквы разметки ------- ----------- -------------- Вторичная структура SS для РНК [.,; <> () { } [] AaBb.-_] - поддерживает псевдоузел и дополнительную разметку структуры (см. Документацию WUSS) Для белка [HGIEBTSCX] SA Surface Accessibility [0-9X] (0 = 0% -10%; ...; 9 = 90 % -100%) TM TransMembrane [Mio] Задняя вероятность PP [0-9 *] (0 = 0,00-0,05; 1 = 0,05-0,15; * = 0,95-1,00) Связывание LI-LIgand [*] AS Активный сайт [*] pAS AS - прогноз Pfam [*] sAS AS - от SwissProt [*] IN INtron (в или после) [0-2] Для третичных взаимодействий РНК: ----------------- ------------- tWW WC / WC в транс Для базовых пар: [<> AaBb ... Zz] Для непарных: [.] cWH WC / Hoogsteen в cis cWS WC / SugarEdge в cis tWSWC / SugarEdge в транс-примечаниях: (1) {c, t} {W, H, S} {W, H, S} для общего формата. (2) cWW эквивалентно SS.

# = GC

Список допустимых функций включает в себя те, которые показаны ниже, а также те же функции, что и для # = GR с добавлением «_cons», что означает «консенсус». Пример: «SS_cons».

      Функция Описание Описание ------- ----------- -------------- Аннотация RF Ссылка Часто в качестве ссылки используется консенсусная последовательность РНК или белка. Любой символ без пробела (например, x) может указывать на согласованные / сохраняемые / совпадающие столбцы. Символы или - указывают на вставку столбцов ~ s указывают на невыровненные вставки Верхний и нижний регистр могут использоваться для различения сильных и слабо сохраняемых остатков соответственно Модель ММ Маска Указывает, какие столбцы в выравнивании должны быть замаскированы, чтобы вероятности излучения для состояний совпадения, соответствующих этим столбцам, были фоновым распределением.

Примечания

  • Не используйте несколько строк с одинаковой меткой # = GC.
  • Для одной последовательности не используйте несколько строк с одинаковой меткой # = GR. Для каждой последовательности можно назначить только одно уникальное назначение.
  • «X» в SA и SS означает «остаток с неизвестной структурой».
  • Буквы SS белков взяты из DSSP: H = альфа-спираль, G = 3/10-спираль, I = p-спираль, E = удлиненная нить, B = остаток в изолированном b-мостике, T = поворот, S = изгиб, C = виток / петля.)
  • Буквы SS РНК взяты из обозначения WUSS (вторичная структура Вашингтонского университета). Соответствующие вложенные круглые скобки символы <>, (), [] или {} указывают базовую пару. Символы '.', ',' И ';' указать непарные регионы. Соответствующие символы верхнего и нижнего регистра из английский алфавит указывать псевдоузел взаимодействия. 5'-нуклеотид в узле должен быть в верхнем регистре, а 3'-нуклеотид в нижнем регистре.

Рекомендуемые места размещения

  • # = GF Выше выравнивания
  • # = GC Ниже выравнивания
  • # = GS Выше выравнивания или чуть ниже соответствующей последовательности
  • # = GR Чуть ниже соответствующей последовательности

Ограничения по размеру

Нет явных ограничений на размер любого поля. Однако простой синтаксический анализатор, который использует фиксированные размеры полей, должен безопасно работать при выравнивании Pfam и Rfam с этими ограничениями:

  • Длина строки: 10000.
  • <имя>: 255.
  • <функция>: 255.

Примеры

Простой пример выравнивания Rfam (УПСК РНК ) с псевдоузел в Стокгольмском формате показано ниже:[5]

# СТОКГОЛЬМ 1.0 # = GF ID UPSK # = GF SE прогнозируемый; Infernal # = GF SS опубликовано; PMID 9223489 # = GF RN [1] # = GF RM 9223489 # = GF RT Роль псевдоузла на 3'-конце мозаики желтой репы # = РНК вируса GF RT в синтезе минус-цепи вирусной РНК-зависимой РНК # = GF RT полимераза. # = GF RA Deiman BA, Kortlever RM, Pleij CW; # = GF RL J Virol 1997; 71: 5990-5996.AF035635.1 / 619-641 UGAGUUCGAUCUCUAAAAUCGM24804.1 / 82-104 UGAGUUCAUCAUAUC3.1 / 82-104 UGAGUUCAUCAUAUC3. / 6212-6234 UAAGUUCUCGAUCUUUAAAAUCGM24803.1 / 1-23 UAAGUUCUCGAUCUCUAAAAUCG # = GC SS_cons .AAA .... <<<< aaa .... >>>> //

Вот немного более сложный пример, показывающий Pfam CBS домен:

# STOCKHOLM 1.0 # = GF ID CBS # = GF AC PF00571 # = GF DE CBS domain # = GF AU Bateman A # = GF CC Домены CBS - это небольшие внутриклеточные модули, которые чаще всего встречаются # = GF CC в 2 или четырех копиях внутри белка. = GF SQ 5 # = GS O31698 / 18-71 AC O31698 # = GS O83071 / 192-246 AC O83071 # = GS O83071 / 259-312 AC O83071 # = GS O31698 / 88-139 AC O31698 # = GS O31698 / 88 -139 OS Bacillus subtilisO83071 / 192-246 MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS # = GR O83071 / 192-246 SA 9998877564535242525515252536463774777O83071 / 259-312 MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY # = GR O83071 / 259-312 SS CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEEO31698 / 18-71 MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS # = GR O31698 / 18-71 SS CCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHHO31698 / 88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE # = GR O31698 / 88-139 SSCCCHHHHHHHHHHHEEEEEEEEEEEEEEEEEEEH # = GC SS_cons CCCCCHHHHHHHHHHHHHHEEEEEEEEEEEHHHHHHHHHHEEEEEEEEEEHHHHHHHHHHHHHHHHHHEEEEEEEEEEEHHHHHHHHHHHHHHHHEEEEEEEEEE_CXCHHHHHHHHHHHHHEEEEEEEEEE_CXXXXXXXXXXXXXXXXXXXXXXXXXXXI _________________ # = GR O31699 / 88-139 IN ____________ 1 ____________ 2 ______ 0 ____ //

Смотрите также

Рекомендации

  1. ^ Гарднер П.П., Дауб Дж., Тейт Дж. Г. и др. (Январь 2009 г.). «Rfam: обновления базы данных семейств РНК». Нуклеиновые кислоты Res. 37 (Выпуск базы данных): D136–40. Дои:10.1093 / nar / gkn766. ЧВК  2686503. PMID  18953034.
  2. ^ Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Х.Р. Хотц, Церик Дж., Форслунд К., Эдди С.Р., Зоннхаммер Е.Л., Бейтман А. (2008). «База данных семейств белков Pfam». Нуклеиновые кислоты Res. 36 (Выпуск базы данных): D281–8. Дои:10.1093 / нар / гкм960. ЧВК  2238907. PMID  18039703.
  3. ^ Гриффитс-Джонс С (январь 2005 г.). "RALEE - редактор выравнивания РНК в Emacs". Биоинформатика. 21 (2): 257–9. Дои:10.1093 / биоинформатика / bth489. PMID  15377506.
  4. ^ «Форматы файлов выравнивания». 22 мая 2019. Получено 22 мая 2019.
  5. ^ Дейман Б.А., Кортлевер Р.М., Плейдж К.В. (август 1997 г.). «Роль псевдоузла на 3'-конце РНК вируса желтой мозаики репы в синтезе минус-цепи вирусной РНК-зависимой РНК-полимеразой». Дж. Вирол. 71 (8): 5990–6. Дои:10.1128 / JVI.71.8.5990-5996.1997. ЧВК  191855. PMID  9223489.

внешняя ссылка