Вызов базы Phred - Phred base calling

Фред базовый вызов компьютерная программа для определения базы (азотистое основание ) последовательность из данных «трассировки» флуоресценции, созданных автоматическим секвенатором ДНК, который использует электрофорез и метод 4-флуоресцентного красителя.[1][2] При первоначальной разработке Phred вызывал значительно меньше ошибок в изученных наборах данных, чем другие методы, в среднем на 40–50% меньше ошибок. Оценка качества Phred стали широко использоваться для характеристики качества последовательностей ДНК и могут использоваться для сравнения эффективности различных методов секвенирования.

Задний план

Флуоресцентный краситель ДНК последовательность действий это молекулярная биология техника, которая включает маркировку одноцепочечных ДНК последовательности различной длины с 4 флуоресцентными красителями (соответствуют 4 различным базы используется в ДНК) и последующее разделение последовательностей ДНК с помощью «пластинчатого геля» или капиллярногоэлектрофорез метод (см. Секвенирование ДНК ). За ходом электрофореза следят CCD на секвенаторе ДНК, и это дает данные "трассировки" времени (или "хроматограмма ") флуоресцентных" пиков ", которые прошли точку CCD. Изучая пики флуоресценции в данных трассировки, мы можем определить порядок отдельных оснований (азотистое основание ) в ДНК. Однако, поскольку интенсивность, форма и расположение пика флуоресценции не всегда согласованы или однозначны, иногда трудно или отнимает много времени, чтобы точно определить (или «назвать») правильные основания для пиков, если это делается вручную.

Методы автоматического секвенирования ДНК произвели революцию в области молекулярный биология - создание огромного количества данных о последовательностях ДНК. Однако данные последовательности создаются со значительно большей скоростью, чем их можно обрабатывать вручную (т. Е. Интерпретировать данные трассировки для получения данных последовательности), тем самым создавая узкое место. Чтобы устранить узкое место, необходимо как автоматическое программное обеспечение, которое может ускорить обработку с повышенной точностью, так и надежное средство измерения точности. Чтобы удовлетворить эту потребность, многие программного обеспечения разработаны программы. Одна из таких программ - Phred.

История

Первоначально Фред был задуман в начале 1990-х гг. Фил Грин, затем профессор в Вашингтонский университет в Сент-Луисе. ЛаДеана Хиллиер, Майкл Вендл, Дэвид Фисенек, Тим Глисон, Алан Бланшар и Ричард Мотт также внес свой вклад в кодовую базу и алгоритм. Грин переехал в Вашингтонский университет в середине 1990-х годов, после чего развитием в основном руководили он сам и Брент Юинг. Фред сыграл заметную роль в Проект генома человека, где большие объемы данных последовательности обрабатывались автоматизированными скриптами. В то время это была наиболее широко используемая программа для определения оснований как в академических, так и в коммерческих лабораториях секвенирования ДНК из-за ее высокой базовый вызов точность.[3] Phred распространяется коммерчески CodonCode Corporation, и используется для выполнения функции "Обзвон баз" в программе. CodonCode Aligner. Он также используется MacVector плагин Assembler.

Методы

Фред использует четырехэтапную процедуру, описанную Юингом. и другие. для определения последовательности вызовов оснований из обработанной трассировки последовательности ДНК:

  1. Прогнозируемые местоположения пиков определяются на основе предположения, что фрагменты относительно равномерно расположены, в среднем, в большинстве областей геля, чтобы определить правильное количество оснований и их идеализированные равномерно расположенные местоположения в областях, где пики недостаточно разрешены. шумный или смещенный (как при сжатии)
  2. Наблюдаемые пики идентифицируются на графике.
  3. Наблюдаемые пики сопоставляются с предсказанными местоположениями пиков, при этом одни пики опускаются, а другие разделяются; поскольку каждый наблюдаемый пик происходит из определенного массива и, таким образом, связан с 1 из 4 оснований (A, G, T или C), упорядоченный список совпадающих наблюдаемых пиков определяет последовательность оснований для кривой.
  4. Несовпадающие наблюдаемые пики проверяются на наличие любого пика, который, по-видимому, представляет собой основу, но не может быть отнесен к предсказанному пику в третьей фазе, и если обнаруживается, соответствующее основание вставляется в последовательность считывания.

Вся процедура выполняется быстро, обычно на каждую трассировку уходит менее полсекунды.

Приложения

Phred часто используется вместе с другой программой под названием Phrap, которая представляет собой программу сборки последовательности ДНК. Phrap обычно использовался в некоторых из крупнейших проектов секвенирования в рамках проекта по секвенированию генома человека и в настоящее время является одной из наиболее широко используемых программ сборки последовательности ДНК в биотехнологической промышленности. Phrap использует показатели качества Phred для определения высокоточных согласованных последовательностей и оценки качества согласованных последовательностей. Phrap также использует показатели качества Phred, чтобы оценить, возникает ли расхождение между двумя перекрывающимися последовательностями с большей вероятностью из-за случайных ошибок или из-за разных копий повторяющейся последовательности.

использованная литература

  1. ^ Юинг Б, Hillier L, Wendl MC, Грин П. (1998): Базовый вызов трассировок автоматического секвенсора с использованием phred. I. Оценка точности. Genome Res. 8 (3): 175–185. PMID  9521921 полная статья
  2. ^ Юинг, Брент; Грин, Фил (1998-03-01). «Базовый вызов трассировок автоматического секвенсора с использованием Phred. II. Вероятности ошибок». Геномные исследования. Лаборатория Колд-Спринг-Харбор. 8 (3): 186–194. Дои:10.1101 / гр. 8.3.186. ISSN  1088-9051. PMID  9521922.
  3. ^ Рихтерих П. (1998): Оценка ошибок в "сырых" последовательностях ДНК: исследование для проверки. Genome Res. 8 (3): 251–259. PMID  9521928

внешние ссылки