Формат Pileup - Pileup format
Формат Pileup текстовый формат для суммирования базовых вызовов выровненных чтений в ссылочную последовательность. Этот формат облегчает визуальное отображение SNP / indel вызов и выравнивание. Впервые его использовали Тони Кокс и Цземин Нин на Wellcome Trust Sanger Institute, но стал широко известен благодаря его внедрению в SAMtools программный комплекс.[1]</ref>
Формат
Пример
Последовательность | Позиция | Справочная база | Считайте счет | Читать результаты | Качественный |
---|---|---|---|---|---|
seq1 | 272 | Т | 24 | ,.$.....,,.,.,...,,,.,..^+. | <<<+;<<<<<<<<<<<=<;<;7<& |
seq1 | 273 | Т | 23 | , ..... ,,.,., ... ,,,., .. A | <<<;<<<<<<<<<3<=<<<;<<+ |
seq1 | 274 | Т | 23 | ,.$....,,.,.,...,,,.,... | 7<7;<;<<<<<<<<<=<;<;<<6 |
seq1 | 275 | А | 23 | , $ .... ,,.,., ... ,,,., ... ^ l. | <+;9*<<<<<<<<<=<<:;<<<< |
seq1 | 276 | грамм | 22 | ... Т ,,.,., ... ,,,., .... | 33;+<<7=7<<7<&<<1;<<6< |
seq1 | 277 | Т | 22 | .... ,,.,.,. C. ,,,., .. G. | +7<;<<<<<<<&<=<<:;<<&< |
seq1 | 278 | грамм | 23 | .... ,,.,., ... ,,,., .... ^ k. | %38*<<;<7<<7<=<<<;<<<<< |
seq1 | 279 | C | 23 | В,,.,.,...,,,.,..... | 75&<<<<<<<<<=<<<9<<:<<< |
Колонны
Каждая строка состоит из 5 (или, возможно, 6) столбцов, разделенных табуляцией:
- Идентификатор последовательности
- Позиция по порядку (начиная с 1)
- Контрольный нуклеотид в этом положении
- Количество выровненных чтений, охватывающих эту позицию (глубина охвата)
- Базы в этой позиции из выровненных чтений
- Phred Качество этих баз, представленное в ASCII со смещением -33 (НЕОБЯЗАТЕЛЬНО)
Столбец 5: базовая строка.
- . (точка) означает основу, которая соответствует ссылке на передней пряди
- , (запятая) означает базу, которая соответствует ссылке на обратной нити
- > (знак меньше / больше) обозначает пропуск ссылки. Это происходит, например, если основание в эталонном геноме является интронным, а чтение отображается на два фланкирующих экзона. Если оценки качества указаны в шестой столбец, они относятся к качеству чтения, а не к конкретной базе.
- AGTCN (верхний регистр) обозначает базу, которая не соответствует ссылке на прямой нити.
- agtcn (нижний регистр) обозначает базу, которая не соответствует ссылке на обратной нити
- Последовательность, соответствующая регулярное выражение + [0-9] + [ACGTNacgtn] + обозначает вставку одного или нескольких оснований, начиная со следующей позиции. Например, + 2AG означает вставку AG в переднюю цепь.
- Последовательность, соответствующая регулярному выражению - [0-9] + [ACGTNacgtn] +, означает удаление одного или нескольких оснований, начиная со следующей позиции. Например, -2ct означает удаление CT в обратной цепи.
- ^ (каретка) отмечает начало сегмента чтения, а ASCII символа, следующего за `^ 'минус 33, дает качество отображения
- $ (доллар) отмечает конец прочитанного сегмента
- * (звездочка) - это заполнитель для удаленной базы при удалении нескольких базовых пар, которое было упомянуто в предыдущей строке обозначением - [0-9] + [ACGTNacgtn] +
Столбец 6: строка базового качества.
Это необязательный столбец. Если присутствует, ASCII значение символа минус 33 дает отображение Фред качество каждой из баз в предыдущем столбце 5. Это похоже на качество кодирования в Формат FASTQ.
Расширение файла
Нет стандарта расширение файла для файла Pileup, но .msf (файл с несколькими последовательностями), .pup[2] и .pileup[нужна цитата ] используются.
Смотрите также
Рекомендации
- ^ Li H .; Handsaker B .; Wysoker A .; Fennell T .; Ruan J .; Гомер Н .; Marth G .; Abecasis G .; Дурбин Р; Подгруппа по обработке данных проекта «1000 геном» (2009 г.) (2009 г.). "Формат выравнивания / карты последовательностей (SAM) и SAMtools". Биоинформатика. 25 (16): 2078–2079. Дои:10.1093 / биоинформатика / btp352. ЧВК 2723002. PMID 19505943.
- ^ Accelrys (1998-10-02). «QUANTA: Protein Design. 3. Чтение и запись файлов данных последовательности». Université de Montréal. Получено 2020-03-27.