PatternHunter - PatternHunter

PatternHunter коммерчески доступный гомология программное обеспечение для поиска, которое использует выравнивание последовательностей техники. Первоначально он был разработан в 2002 году тремя учеными: Бин Ма, Джоном Трампом и Мин Ли.[1]:440 Этими учеными двигало желание решить проблему, с которой сталкиваются многие исследователи во время исследований, включающих геномика и протеомика. Эти ученые поняли, что такие исследования в значительной степени полагались на исследования гомологии, которые установили короткие совпадения семян, которые впоследствии удлинялись. Описание гомологичных генов было важной частью большинства эволюционных исследований и имело решающее значение для понимания эволюции семейств генов, взаимоотношений между доменами и семьями.[2]:7 Гомологичные гены можно было эффективно изучать только с помощью инструментов поиска, которые устанавливали такие как части или локальное расположение между двумя белками или нуклеиновая кислота последовательности.[3]:15 Гомология количественно оценивалась по баллам, полученным из сопоставления последовательностей, «баллов несоответствия и разрыва».[4]:164

Разработка

В сравнительной геномике, например, необходимо сравнивать огромные хромосомы такие как те, что обнаружены в геноме человека. Однако безмерный рост геномных данных затрудняет использование доступных методов поиска гомологии. Например, увеличение размера семян снижает чувствительность, а уменьшение размера семян снижает скорость вычислений. Несколько выравнивание последовательностей были разработаны программы для определения гомологии между генами. К ним относятся ФАСТА, то ВЗРЫВ семья, КВАЗАР, MUMmer, SENSEI, SIM и REPuter.[1]:440 В основном они используют Смит-Уотерман метод выравнивания, который сравнивает базы с другими, но слишком медленный. BLAST улучшает эту технику, устанавливая короткие и точные совпадения семян, которые позже объединяются для формирования более длинных совпадений.[5]:737 Однако при работе с длинными последовательностями вышеупомянутые методы чрезвычайно медленны и требуют значительного объема памяти. SENSEI, однако, более эффективен, чем другие методы, но неспособен использовать другие формы выравнивания, поскольку его сила заключается в обработке выравниваний без пропусков. С другой стороны, качество продукции Megablast оставляет желать лучшего и плохо адаптируется к большим последовательностям. Такие методы, как MUMmer и QUASAR, используют деревья суффиксов, которые должны обрабатывать точные совпадения. Однако эти методы могут применяться только для сравнения последовательностей, которые демонстрируют повышенное сходство. Все вышеупомянутые проблемы требуют разработки быстрого надежного инструмента, который может эффективно обрабатывать все типы последовательностей, не потребляя слишком много ресурсов компьютера.

Подход

PatternHunter использует множество семян (крошечные поисковые строки) с оптимальными интервалами между ними. Поиски с использованием семян очень быстрые, потому что они определяют гомологию только в тех местах, где установлены совпадения. На чувствительность строки поиска сильно влияет количество места между соседними строками. Большие семена не могут найти изолированные гомологии, в то время как маленькие генерируют множество произвольных совпадений, которые задерживают вычисления. PatternHunter обеспечивает тонкий баланс в этой области, обеспечивая оптимальное расстояние между строками поиска. Он использует альтернативный k (k = 11) буквы как семена в отличие от BLAST, который использует последовательные k буквы как семена. Первый этап анализа PatternHunter влечет за собой этап фильтрации, на котором программа ищет совпадения в k чередующихся точках, обозначенных наиболее выгодным шаблоном.[6]:11 Второй этап - это этап согласования, который идентичен BLAST. Кроме того, с PatternHunter можно использовать более одного семени одновременно. Это повышает чувствительность инструмента, не влияя на его скорость.

Скорость

PatternHunter требуется короткое время для анализа всех типов последовательностей. На современном компьютере обработка может занять несколько секунд. прокариотический геномы, минуты на обработку Arabidopsis thaliana последовательности и несколько часов для обработки хромосомы человека.[1]:440 По сравнению с другими инструментами PatternHunter демонстрирует скорость примерно в сто раз быстрее, чем BLAST и Mega BLAST.[7] Эти скорости в 3000 раз больше, чем у Смит-Уотерман алгоритм. Кроме того, программа имеет удобный интерфейс, позволяющий настраивать параметры поиска.

Чувствительность

Что касается чувствительности, с помощью PatternHunter можно достичь оптимальной чувствительности, сохраняя при этом ту же скорость, что и при обычном поиске BLAST.

Характеристики

При разработке PatternHunter используются Ява технологии. Следовательно, программа работает без сбоев при установке в любой среде Java 1.4.[7]

Будущие достижения

Поиск гомологии - очень длительная процедура, требующая много времени. По-прежнему остаются проблемы с поиском ДНК-ДНК, а также поиском транслированных ДНК-белков из-за огромных размеров баз данных и крошечных используемых запросов. PatternHunter был улучшен до обновленной версии PatternHunter II, которая во сто крат ускоряет поиск ДНК-белков без изменения чувствительности. Однако есть планы по улучшению PatternHunter, чтобы достичь высокой чувствительности инструмента Смита-Уотермана при достижении скорости BLAST. Роман переведен PatternHunter, который намеревается ускорить tBLASTx.[4]:174 также находится в стадии разработки.

Рекомендации

  1. ^ а б c Ма, Бин; Тромп, Джон; Ли, Мин (2002). "PatternHunter: более быстрый и точный поиск гомологии". Биоинформатика. 18 (2): 440–445. Дои:10.1093 / биоинформатика / 18.3.440. PMID  11934743.
  2. ^ Джозеф, Джейкоб М. (2012). Об идентификации и исследовании гомологичных семейств генов с особым упором на точность многодоменных семейств (PDF) (Кандидат наук). Университет Карнеги Меллон.
  3. ^ Певснер, Джонатан (2009). Биоинформатика и функциональная геномика (2-е изд.). Нью-Джерси: Уайли Блэквелл. ISBN  9780470451489.
  4. ^ а б Li, M .; Ma, B .; Кисман, Д .; Тромп, Дж. (2003). «PatternHunter II: высокочувствительный и быстрый поиск гомологии». Геномная информатика. Международная конференция по геномной информатике. 14: 164–175. PMID  15706531.
  5. ^ Пирсон, У. Р. (1991). «Поиск библиотек белковых последовательностей: сравнение чувствительности и селективности алгоритмов Смита-Ватермана и FASTA». Геномика. 11 (3): 635–650. Дои:10.1016 / 0888-7543 (91) 90071-Л. PMID  1774068.
  6. ^ Чжан, Лусинь. «Методы поиска в базе данных последовательностей I: инструменты Blast и PatternHunter» (PDF). Получено 6 декабря 2013.
  7. ^ а б "Брошюра PatternHunter" (PDF). Архивировано из оригинал (PDF) 11 декабря 2013 г.. Получено 30 ноября 2013.