Tajimas D - Tajimas D

Таджима D это популяционный генетический тест статистика создан и назван в честь японского исследователя Фумио Таджима.^[1] D Таджимы вычисляется как разница между двумя показателями генетического разнообразия: средним числом попарных различий и количеством участков сегрегации, каждое из которых масштабировано таким образом, чтобы они были одинаковыми в нейтрально развивающейся популяции постоянного размера.

Целью теста D Таджимы является различение Последовательность ДНК эволюционирует случайным образом («нейтрально») и один развивается в рамках неслучайного процесса, включая направленный выбор или же балансирующий выбор, демографический рост или сокращение, генетический автостоп, или же интрогрессия. Произвольно эволюционирующая последовательность ДНК содержит мутации, не влияющие на приспособленность и выживаемость организма. Случайно развивающиеся мутации называются «нейтральными», а мутации при отборе - «не нейтральными». Например, ожидается, что мутация, вызывающая внутриутробную смерть или тяжелое заболевание, будет находиться в процессе отбора. В целом по населению частота нейтральной мутации колеблется случайным образом (т.е. процент людей в популяции с мутацией меняется от одного поколения к другому, и этот процент с одинаковой вероятностью будет увеличиваться или уменьшаться) через генетический дрейф.

Сила генетического дрейфа зависит от размера популяции. Если популяция имеет постоянный размер и постоянную скорость мутаций, популяция достигает равновесия частот генов. Это равновесие обладает важными свойствами, в том числе количеством сегрегация сайтов ${ displaystyle S}$ , и количество нуклеотидных различий между выбранными парами (они называются попарные различия ). Для стандартизации парных различий используется среднее или «среднее» количество парных различий. Это просто сумма парных разностей, деленная на количество пар, и часто обозначается как ${ displaystyle pi}$ .

Цель теста Таджимы - выявить последовательности, не соответствующие модели нейтральной теории при равновесии между мутация и генетический дрейф. Чтобы выполнить тест на последовательности ДНК или гена, вам необходимо секвенировать гомологичный ДНК не менее 3 человек. Статистика Таджимы вычисляет стандартизированную меру общего числа сегрегационных сайтов (это сайты ДНК, которые полиморфный ) в отобранной ДНК и среднее количество мутаций между парами в образце. Две величины, значения которых сравниваются, являются методами оценок моментов популяционного генетического параметра тета, и поэтому ожидается, что они будут равны одному и тому же значению. Если эти два числа различаются лишь настолько, насколько можно разумно ожидать случайно, то нулевая гипотеза нейтральности не может быть отвергнута. В противном случае нулевая гипотеза нейтралитета отвергается.

Научное объяснение

Согласно модели нейтральной теории для популяции постоянного размера в состоянии равновесия:

{ displaystyle E [ pi] = theta = E left [{ frac {S} { sum _ {i = 1} ^ {n-1} { frac {1} {i}}}} справа] = 4N mu}

для диплоидной ДНК и

{ Displaystyle E [ pi] = theta = E left [{ frac {S} { sum _ {i = 1} ^ {n-1} { frac {1} {i}}}} справа] = 2N mu}

для гаплоида.

В приведенных выше формулах S количество сегрегационных сайтов, п количество образцов, N эффективный размер популяции, ${ displaystyle mu}$ - частота мутаций в исследуемом геномном локусе, а я - индекс суммирования. отбор, демографические колебания и другие нарушения нейтральной модели (включая неоднородность ставок и интрогрессию) изменят ожидаемые значения ${ displaystyle S}$ и ${ displaystyle pi}$ , так что больше не ожидается, что они будут равными. Разница в ожиданиях для этих двух переменных (которые могут быть как положительными, так и отрицательными) - это суть проблемы Таджимы. D статистика теста.

${ Displaystyle D ,}$ рассчитывается путем взятия разницы между двумя оценками параметра популяционной генетики ${ displaystyle theta ,}$ . Эта разница называется ${ displaystyle d ,}$ , а D вычисляется делением ${ displaystyle d ,}$ квадратным корнем из его отклонение ${ displaystyle { sqrt {{ hat {V}} (d)}}}$ (это стандартное отклонение, по определению).

{ displaystyle D = { frac {d} { sqrt {{ hat {V}} (d)}}}}

Фумио Таджима компьютерным моделированием продемонстрировано, что ${ Displaystyle D ,}$ описанная выше статистика может быть смоделирована с помощью бета-распространение. Если ${ Displaystyle D ,}$ значение для выборки последовательностей находится за пределами доверительный интервал тогда можно отвергнуть нулевая гипотеза из нейтральная мутация для рассматриваемой последовательности.

Математические детали

{ displaystyle D = { frac {d} { sqrt {{ hat {V}} (d)}}} = { frac {{ hat {k}} - { frac {S} {a_ { 1}}}} { sqrt {[е_ {1} S + e_ {2} S (S-1)]}}}}

куда

${ displaystyle e_ {1} = { frac {c_ {1}} {a_ {1}}}}$	${ displaystyle e_ {2} = { frac {c_ {2}} {a_ {1} ^ {2} + a_ {2}}}}$
${ displaystyle c_ {1} = b_ {1} - { frac {1} {a_ {1}}}}$	${ displaystyle c_ {2} = b_ {2} - { frac {n + 2} {a_ {1} n}} + { frac {a_ {2}} {a_ {1} ^ {2}}} }$
${ displaystyle b_ {1} = { frac {n + 1} {3 (n-1)}}}$	${ displaystyle b_ {2} = { frac {2 (n ^ {2} + n + 3)} {9n (n-1)}}}$
${ displaystyle a_ {1} = sum _ {i = 1} ^ {n-1} { frac {1} {i}}}$	${ displaystyle a_ {2} = sum _ {i = 1} ^ {n-1} { frac {1} {i ^ {2}}}}$

${ displaystyle { hat {k}} ,}$ и ${ displaystyle { frac {S} {a_ {1}}}}$ две оценки ожидаемого количества однонуклеотидный полиморфизм (SNP) между двумя последовательностями ДНК под нейтральная мутация модель в выборке ${ Displaystyle п ,}$ из эффективная численность населения ${ displaystyle N}$ .

Первая оценка - это среднее количество SNP, найденных в (n выберите 2) попарных сравнениях последовательностей. ${ displaystyle (я, j)}$ в образце,

{ displaystyle { hat {k}} = { frac { sum sum _ {i

Вторая оценка выводится из ожидаемое значение из ${ displaystyle S}$ , общее количество полиморфизмов в выборке

{ displaystyle E (S) = a_ {1} M.}

Тадзима определяет ${ Displaystyle M = 4N mu}$ , тогда как Hartl & Clark используют другой символ для определения одного и того же параметра ${ displaystyle theta = 4N mu}$ .

Пример

Предположим, вы генетик, изучающий неизвестный ген. В рамках вашего исследования вы получаете образцы ДНК от четырех случайных людей (плюс вас самих). Для простоты вы обозначаете свою последовательность строкой нулей, а для остальных четырех человек ставите ноль, если их ДНК такая же, как у вас, и единицу, если она отличается. (В этом примере конкретный тип различия не важен.)

                    1 2 Позиция 12345 67890 12345 67890 Лицо Y 00000 00000 00000 00000 Лицо A 00100 00000 00100 000 10 Лицо B 00000 00000 00100 000 10 Лицо C 00000 01000 00000 00010 Лицо D 00000 01000 00100 00010

Обратите внимание на четыре полиморфных сайта (позиции, в которых кто-то отличается от вас, на 3, 7, 13 и 19 выше). Теперь сравните каждую пару последовательностей и получите средний количество полиморфизмов между двумя последовательностями. Есть пять выберите два "(десять) сравнений, которые необходимо сделать.

Человек Y - это ты!

Вы против A: 3 полиморфизма
Лицо Y 00000 00000 00000 00000 Лицо A 00100 00000 00100 00010
Вы против Б: 2 полиморфизма
Лицо Y 00000 00000 00000 00000 Лицо B 00000 00000 00100 00010
Вы против C: 2 полиморфизма
Лицо Y 00000 00000 00000 00000 Лицо C 00000 01000 00000 00010
Вы против D: 3 полиморфизма
Лицо Y 00000 00000 00000 00000 Лицо D 00000 01000 00100 00010
Полиморфизм A против B: 1
Лицо A 00100 00000 00100 00010 Лицо B 00000 00000 00100 00010
A vs C: 3 полиморфизма
Лицо A 00100 00000 00100 00010 Лицо C 00000 01000 00000 00010
A vs D: 2 полиморфизма
Лицо A 00100 00000 00100 00010 Лицо D 00000 01000 00100 00010
B против C: 2 полиморфизма
Лицо B 00000 00000 00100 00010 Лицо C 00000 01000 00000 00010
Полиморфизм B против D: 1
Лицо B 00000 00000 00100 00010 Лицо D 00000 01000 00100 00010
C vs D: 1 полиморфизм
Лицо C 00000 01000 00000 00010 Лицо D 00000 01000 00100 00010

Среднее количество полиморфизмов составляет ${ Displaystyle {3 + 2 + 2 + 3 + 1 + 3 + 2 + 2 + 1 + 1 более 10} = 2}$ .

Вторая оценка равновесия: M = S / a1

Так как было n = 5 человек и S = 4 места сегрегации

а1 = 1/1 + 1/2 + 1/3 + 1/4 = 2,08

M=4/2.08=1.92

Строчные d описанная выше разница между этими двумя числами - средний количество полиморфизмов, обнаруженных при попарном сравнении (2) и M. Таким образом ${ displaystyle d = 2–1,92 = 0,08}$ .

Поскольку это статистический тест, вам необходимо оценить значимость этого значения. Обсуждение того, как это сделать, приведено ниже.

Интерпретация D Таджимы

Отрицательный показатель D Таджимы означает превышение низкочастотных полиморфизмов относительно ожидаемого, что указывает на увеличение размера популяции (например, после узкого места или выборочной развертки) и / или очищающий отбор. Положительная буква D Таджимы означает низкие уровни как низкочастотного, так и высокочастотного полиморфизма, что указывает на уменьшение размера популяции и / или балансирующий отбор. Однако вычисление обычного «p-значения», связанного с любым значением D Tajima, полученным из образца, невозможно. Если коротко, то это происходит потому, что нет никакого способа, чтобы описать распределение статистики, которая не зависит от истинного и неизвестного, теты параметра (не величина поворота не существует). Чтобы обойти эту проблему, было предложено несколько вариантов.

Значение D Таджимы	Математическая причина	Биологическая интерпретация 1	Биологическая интерпретация 2
D Таджимы = 0	Тета-Пи эквивалентно Тета-k (наблюдаемое = ожидаемое). Средняя гетерозиготность = количество сайтов сегрегации.	Наблюдаемая вариация аналогична ожидаемой вариации	Популяция развивается согласно равновесию дрейфа мутаций. Нет доказательств выбора
D Таджимы <0	Тета-Пи меньше, чем Тета-k (наблюдаемое <ожидаемое). Меньше гаплотипов (более низкая средняя гетерозиготность), чем количество сегрегационных сайтов.	Обилие редких аллелей (избыток редких аллелей)	Недавнее выборочное обследование, расширение популяции после недавнего узкого места, связь с вытесненным геном
D Таджимы> 0	Тета-Пи больше, чем Тета-k (наблюдаемое> ожидаемое). Больше гаплотипов (более средняя гетерозиготность), чем количество сегрегационных сайтов.	Редких аллелей мало (отсутствие редких аллелей)	Уравновешивающий отбор, внезапное сокращение популяции

Однако такую интерпретацию следует делать только в том случае, если значение D считается статистически значимым.

Определение значения

При выполнении статистический тест например, D Таджимы, критический вопрос заключается в том, является ли значение, вычисленное для статистики, неожиданным при нулевой процесс. Для Таджимы D, ожидается, что величина статистики будет увеличиваться по мере того, как данные будут отклоняться от модели, ожидаемой в популяции, развивающейся в соответствии со стандартной моделью объединения.

Таджима (1989) обнаружил эмпирическое сходство между распределением тестовой статистики и бета-распределением с нулевым средним и единицей дисперсии. Он оценил тету, взяв Оценка Уоттерсона и разделив его на количество образцов. Моделирование показало, что это распределение является консервативным,^[2] и теперь, когда вычислительная мощность стала более доступной, это приближение не часто используется.

Более детальный подход был представлен в статье Simonsen et al.^[3] Эти авторы рекомендовали построить доверительный интервал для истинного значения тета, а затем выполнить поиск по сетке по этому интервалу, чтобы получить критические значения, при которых статистика значима ниже определенного значения альфа. Альтернативный подход заключается в том, что исследователь выполняет поиск по сетке значений тета, которые он считает правдоподобными на основании своих знаний об изучаемом организме. Байесовские подходы являются естественным продолжением этого метода.

Очень приблизительное эмпирическое правило значимости состоит в том, что значения больше +2 или меньше -2 могут быть значимыми. Это правило основано на обращении к асимптотическим свойствам некоторых статистических данных, и, таким образом, +/- 2 на самом деле не является критическим значением для теста значимости.

Наконец, часто выполняется сканирование D Таджимы в масштабе всего генома в скользящих окнах вдоль хромосомного сегмента. При таком подходе те области, для которых значение D сильно отклоняется от основной части эмпирического распределения всех таких окон, считаются значимыми. Этот метод не оценивает значимость в традиционном статистическом смысле, но он довольно эффективен, учитывая большую область генома, и вряд ли сможет ложно идентифицировать интересные области хромосомы, если будут указаны только самые большие выбросы.

Смотрите также

Фэй и Ву H

Примечания

Hartl, Daniel L .; Кларк, Эндрю Г. (2007). Принципы популяционной генетики (4-е изд.). Sinauer Associates. ISBN 0878933085.

внешняя ссылка

Вычислительные инструменты:

DNAsp (Windows)
Варискан (Mac OS X, Linux, Windows)
Арлекин (Windows)
Онлайн-просмотр ценностей D Таджимы в геноме человека
Онлайн-вычисление D Таджимы
MEGA4 или MEGA5
Bio :: PopGen :: Статистика в BioPerl

Видео объяснение D Таджимы и его применение к последовательностям ДНК доступно в Интернете.

[Tajima-1989-1] Таджима, Ф. (ноябрь 1989 г.). «Статистический метод проверки гипотезы нейтральной мутации по полиморфизму ДНК». Генетика. 123 (3): 585–95. ЧВК 1203831. PMID 2513255.

[Fu-1993-2] Fu, YX .; Ли, WH. (Март 1993 г.). «Статистические тесты нейтральности мутаций». Генетика. 133 (3): 693–709. ЧВК 1205353. PMID 8454210.

[Simonsen-1995-3] Simonsen, KL .; Черчилль, Джорджия; Aquadro, CF. (Сентябрь 1995 г.). «Свойства статистических тестов нейтральности для данных полиморфизма ДНК». Генетика. 141 (1): 413–29. ЧВК 1206737. PMID 8536987.

[1]

[2]

[3]

Молекулярная эволюция
Естественный отбор	Выбор балансировки Направленный выбор Подрывной отбор Отрицательный выбор Стабилизирующий отбор Выборочная развертка
Модели	Модели эволюции ДНК Модели нуклеотидного замещения Частота аллелей Отношение Ka / Ks Таджима D Фэй и Ву H
Молекулярные процессы	Преобразование гена Дублирование генов Тихая мутация Синонимичная замена Несинонимичная подмена