Электронная библиотека » Анатолий Клёсов » » онлайн чтение - страница 9


  • Текст добавлен: 28 ноября 2016, 12:20


Автор книги: Анатолий Клёсов


Жанр: Прочая образовательная литература, Наука и Образование


Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Текущая страница: 9 (всего у книги 47 страниц) [доступный отрывок для чтения: 12 страниц]

Шрифт:
- 100% +

Еще пример, для особенно древнего общего предка, на этот раз гаплогруппы I2, который жил 9575±960 лет назад. В маркере DYS426 в серии из 244 гаплотипов накопилось всего 8 мутаций, поскольку это один из самых «медленных» маркеров, его константа скорости мутации равна 0.00009 мутаций на маркер за условное поколение. Получаем, что общий предок жил примерно 8/244/0.00009 = 364 условных поколений назад, или примерно 364х25 = 9100 лет назад. Это опять в пределах погрешности измерений, поскольку величина 9575±960 лет, показанная выше, была рассчитана по всем 244 гаплотипам в 111-маркерном формате.

Надо добавить, что величины констант скоростей мутаций определяли при изучении многих тысяч гаплотипов. В первой обширной статье по этой теме[54]54
  Rozhanskii, I.L., and Klyosov, A.A. (2011) Mutation rate constants in DNA genealogy (Y Chromosome). Advances in Anthropology, 1, No.2, 26–34.


[Закрыть]
, опубликованной в 2011 году, и подводящей итоги четырехлетних исследований, рассматривали 3160 гаплотипов, из них 2488 гаплотипов в 67-маркерном формате, а в недавней статье[55]55
  Клёсов, А.А. и Килин, В.В. (2015) Калькулятор Килина-Клёсова для расчета времен до общих предков (TMRCA): новое издание. Вестник Академии ДНК-генеалогии, т.8, № 3, стр. 321-375


[Закрыть]
рассматривалисьь уже 11850 гаплотипов в 111-маркерном формате.


Вопрос 54: Как рассчитывают погрешности в ДНК-генеалогии?

ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ±10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.

Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:



Таким образом, погрешность расчетов для 100 мутаций в серии равна ±14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).

Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ±28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, задавание доверительного интервала в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ±10 % является завышенной, на практике она не превышает ±2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ±14.14 %, а ±10.31 %.

Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».

Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59±8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (пояснено ниже) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ±13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ±30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ±32.7 %. Мы видим, что при введение в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400±800 лет.

Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ±10 %, хотя определенно меньше этой величины, как пояснено выше.


Вопрос 55: Что такое «снип» в ДНК-генеалогии?

СНИП, «гаплогруппо-образующая мутация», от английского сокращения SNP (Single Nucleotide Polymorphism), практически необратима, происходит, как правило, на одном нуклеотиде, превращая один нуклеотид в другой, несвойственный для данной последовательности ДНК. Это приводит к появлению своебразной «метки», которая практически навсегда наследуется потомками. Именно поэтому каждый род (в понятиях ДНК-генеалогии) носит характерную метку и может быть надёжно и количественно отличим один от другого. Снипы обозначают индексами, например, Z280 (это – «входная» мутация для ДНК большинства этнических русских гаплогруппы R1a), M343 («входная» мутация в гаплогруппу R1b), L21, что эквивалентно снипу S145 (мутация, определяющая один из наиболее распространных субкладов в центральной и западной Европе), и так далее. Первая буква снипа показывает, в каком научном коллективе снип идентифицирован. Наиболее используемые индексы следующие:

М, лаборатория под руководством Peter Underhill, Stanford University (США);

Р, лаборатория, руководимая Michael Hammer, University of Arizona (США);

S, лаборатория, руководимая James F. Wilson, Edinburgh University (Шотландия);

L, исследовательский центр под названием Family Tree DNA's Genomics Research Center (США).

U, университет центральной Флориды (Lynn M. Sims и Jack Ballantyne) и университет Gonzaga (Dennis Garvey);

V, университет La Sapienza, Rosaria Scozzari and Fulvio Cruciani (Рим, Италия);

CTS, лаборатория Chris Tyler-Smith, The Wellcome Trust Sanger Institute, Hinxton (Англия)

Page, David C. Page, Whitehead Institute for Biomedical Research

Z и DF, международная группа независимых исследователей, работающих с геномными базами данных

А, Thomas Krahn, YSEQ.net, Houston, Texas (США)

FGC, Full Genomes Corp. of Virginia and Maryland (США)

Y и YP, группа независимых исследователей Y Full Team, работающих с геномными данными

BY, группа Big Y, компания Family Tree DNA, Houston, Texas (США)

F, лаборатория Li Jin, Fudan University, Shanghai (Китай)

KMS, группа российских и международных исследователей

N, лаборатория биоинформатики, Institute of Biophysics, Chinese Academy of Sciences, Beijing (Китай)

PK, Biomedical and Genetic Engineering Laboratories, Islamabad (Пакистан).


Вопрос 56: Как измеряют скорости мутаций в ДНК-генеалогии?

СКОРОСТЬ МУТАЦИИ, средняя частота изменения числа повторов в маркере, обычно измеряется в числе мутаций на условное поколение в 25 лет. Средняя скорость мутаций составляет 0.00167 и 0.00183 на маркер на условное поколение для первых 12-ти и 25-ти маркеров в стандартном формате гаплотипов (см. выше), соответственно. Для первых 37-и маркеров средняя скорость мутаций составляет 0.00243 на маркер на поколение, для первых 67, 111 и 409 маркеров (см. ниже) – 0.00178-0.00179 мутаций на маркер на поколение. В неопределённых ситуациях для полуколичественной оценки часто принимается в виде «канонической» величины 0.002 мутаций на маркер на условное поколение.

В реальных условиях скорости мутаций иногда измеряют по мутациям в гаплотипах в одном поколении на большом числе пар отец-сын. Однако полученные данные не могут быть использованы для практических расчетов, так как даже при столь большом количестве, как 1700 пар отец-сын почти в половине изученных маркеров мутаций или не наблюдалось (и таких маркеров было большинство), или наблюдались всего одна-две мутации, что явно не дает приемлемой статистики.

Еще пример – при сравнительном изучении 1752 пар гаплотипов в 17-маркерном формате было выявлено 84 мутации. Из них 83 были одношаговые (98,8 %) и одна – двухшаговая (1,2 % от всех). Поскольку все 1752 гаплотипа содержали 1752 х 17 = 29784 маркера, то средняя скорость мутаций соответствовала 84/29784 = 0.00282 мутации на маркер на поколение, медиана была равна 0.0025 мутации на маркер на поколение. Из этих 84 мутаций 43 мутации были «вверх» (число повторов в аллели возросло) и 41 – «вниз». Самая высокая скорость мутаций была в маркере DYS458 (0.0074 мутаций за поколение), самая низкая – в маркере DYS448 (0.0003 мутаций за поколение, то есть примерно в 25 раз медленнее). Когда все отцы были подразделены на две (неравные) группы – те, у кого произошла мутация в гаплотипах, и те, у кого мутаций не было, то средний возраст первых и вторых составил – при рождении сына – 34.4±11.6 лет (округленно 34±12) и 30.3±10.2 лет (округлённо 30±10). Хотя разница в возрасте и имела место, эти величины находятся в пределах погрешности эксперимента. Объединение всех опубликованных данных подобных экспериментов выявило 331 мутацию на 135212 маркерах, то есть средняя скорость оказалась равна 0.00244 мутации на маркер за поколение. При сопоставлении скоростей мутаций с генеалогическими данными и историческими событиями (при калибровке) средняя скорость мутаций в 17-маркерных гаплотипах составила 0.0020 мутаций на маркер на поколение.

Эти оценки в целом приемлемы для расчетов, но только полуколичественно. Дело в том, что 84 мутации для 1752 пар гаплотипов – это неважная статистика. Мало того, что 84 мутации – это на самом деле 84±9 мутаций с 68 %-ной доверительностью, и 84±18 мутаций с 95 %-ной доверительностью, но это только для 17-маркерных гаплотипов, то есть для более протяженных (да и для более коротких) гаплотипов эти константы неприменимы. Далее, при 84 мутациях на 1752 пар гаплотипах и при 17 маркерах даже при относительно высоких скоростях мутаций в отдельных маркерах на них приходилось всего несколько мутаций. Например, в маркере DYS458, в котором наблюдалось максимальное количество мутаций, их было всего 13, что дало константу скорости мутации 13/1752 = 0.0074 мутаций на маркер на поколение. В другой серии экспериментов по парам отец-сын получили величину константу скорости мутации 0.0084 мутаций на тот же маркер на поколение. В наших исследованиях по 11 тысячам гаплотипов мы получили величину 0.0062 мутаций на маркер на поколение[56]56
  Клёсов, А.А. и Килин, В.В. (2015) Калькулятор Килина-Клёсова для расчета времен до общих предков (TMRCA): новое издание. Вестник Академии ДНК-генеалогии, т.8, № 3, стр. 321-375


[Закрыть]
. Но с такими экспериментами, как в цитируемой статье, дело на самом деле хуже – например, сообщенную в статье величину константы скорости мутации 0.0003 для DYS448 получить вообще нельзя, так как даже при одной мутации на все 1752 пары отец-сын получится 1/1752 = 0.0006, то есть скорость вдвое выше. На самом деле ошибка получилась из-за статистически малого числа мутаций. По нашим данным, в маркере DYS448 константа скорости мутаций равна 0.0014 мутаций на маркер за поколение, то есть для 1752 пар отец-сын авторы эксперимента должны были получить 2.45 мутации, то есть 2.45/1752 = 0.0014. Но 2.45 мутаций получить невозможно, можно две или три, но авторы и этого не получили, что неудивительно. Если бросить монету два или три раза, никакой статистики не получится.


Вопрос 57: Какова средняя скорость мутаций не на маркер, а на гаплотип?

СРЕДНЯЯ СКОРОСТЬ МУТАЦИИ НА ГАПЛОТИП, для первых 6-ти маркеров в «научном формате», DYS19, 388, 390, 391, 393, 393 – 0.0074 мутаций на гаплотип на поколение, для первых 12-ти маркеров (первая панель маркеров в формате

FTDNA) – 0.020 мутации на гаплотип на поколение, для первых 25-ти маркеров – 0.046 мутаций на гаплотип на поколение, для первых 37-ти маркеров – 0.09 мутаций на гаплотип на поколение, для 67-ми маркеров – 0.12 мутаций на гаплотип на поколение, для 111 маркеров – 0.198 мутаций на гаплотип на поколение. Отсюда сразу можно заключить, что если два 67-маркерных гаплотипа отличаются, например, на 6 мутаций, то они разошлись от общего предка, который жил 6/2/0.12 = 25 поколений назад, или 625 лет назад. Однако для таких расчётов надо знать, что оба гаплотипа относятся к одной гаплогруппе и одному субкладу, и понимать, что для двух гаплотипов и столь немногих мутаций подобные расчёты могут быть только оценочными. Например, в данном конкретном случае оценка равна 625±260 лет с 68 %-ной надёжностью.


Вопрос 58: Что такое «бутылочное горлышко популяции» и какова его значимость в ДНК-генеалогии?

«БУТЫЛОЧНОЕ ГОРЛЫШКО» ПОПУЛЯЦИИ – это резкое или медленное сокращение популяции до критической численности, после чего популяция либо выживает (проходя «бутылочное горлышко»), либо терминируется. Причинами «бутылочного горлышка» могут быть события, катастрофические в отношении популяции (природные катаклизмы, эпидемии, войны), либо медленное вымирание популяции. Обычно выжившая популяция «обнуляет» набор своих мутаций в гаплотипах до гаплотипа выжившего члена популяции, давшего выжившее мужское потомство, и он становится «общим предком» для потомков. Исследования показывают, что многие популяции в прошлом имели пульсирующий характер и многие популяции терминировались, не проходили «бутылочное горлышко». Многие древние популяции остались во «фрагментах», в серии относительно недавних популяций, «кластеров», которые очень значительно отличаются друг от друга по гаплотипам, оставаясь внутри одной и той же гаплогруппы. Примеры – гаплотипы американских индейцев, африканские гаплотипы, гаплотипы Русской равнины, ряд европейских гаплотипов.

Для описания этих явлений в популяционной генетике используют понятие «генетический дрейф». Это понятие для ДНК-генеалогии непригодно, поскольку термин «генетический» здесь некорректен, в ДНК-генеалогии с генами не работают. Принятое в попгенетики понятие «эффект основателя» также не привилось в ДНК-генеалогии, и понятно, почему – оно не несет никакой информации, и является просто калькой с соответствующего англоязычного термина. «Бутылочное горлышко», впрочем, тоже калька, но оно понятно в смысловом отношении. Именно из-за соответствующих «бутылочных горлышек» у гаплогрупп E, G, I, J на 99 – 100 % преобладает аллель DYS426=11, а у гаплогрупп R на 99 % преобладает DYS426=12. Иначе говоря, сдвиг аллели у далёких предков от 11 к 12 в так и остался в потомках соответствующих гаплогрупп. Подобный (по сути) эффект привёл к тому, что в «быстром» маркере DYS449 в разных гаплогруппах осталось не более 30 % наиболее частой аллели (ср. с 99 % или 100 % в «медленных» маркерах), и она «плывёт» от величины DYS=28 (гаплогруппа I) к 29 (J2), 30 (R1b), 31 (E3a и G) и 32 (E3b и R1a).


Вопрос 59: Что такое база данных IRAKAZ?

Ответ на этот вопрос приведен на сайте Академии ДНК-генеалогии http://dna-academy.ru/irakaz/, и мы здесь его в значительной степени воспроизводим. Эта база представляет собой список практически всех доступных из открытых источников гаплотипов R1a в 67– и 111-маркерном формате по состоянию на дату выхода версии. Она оформлена в виде электронной таблицы в программе MS Excel, содержит информацию о стране происхождения и, если известно, этнической принадлежности самого раннего из документированных предков участника, отнесение к той или иной ветви гаплогруппы и список подтвержденных снипов (SNP). Персональная информация опущена, поскольку технически невозможно получить согласие на ее публикацию от каждого из участников. Однако для тех, кто предоставил в открытых проектах данные о своих предках и указал места их рождения, такую информацию можно найти на картах по линку выше.

База данных IRAKAZ ориентирована на использования гаплотипов в исследовательских целях, поэтому порядок записи гаплотипов следует определенной классификации. В базе данных предусмотрена также возможность поиска самых близких гаплотипов в 25-, 37-, 67– и 111-маркерном формате, как это описано на указанном сайте. Название IRAKAZ обозначает инициалы составителей базы: Igor Rozhanskii, Anatole Klyosov, Aleksander Zolotarev. Там же приведен список карт гаплогруппы R1a, составляющий часть базы данных IRAKAZ.

Глава 4
Расчетные методы ДНК-генеалогии. Константы скоростей мутаций в маркерах и в гаплотипах

Это – центральный вопрос ДНК-генеалогии, и мы уделим этому особое внимание. Вопросов в этом отношении задается много, что вызвано тремя основными причинами: (1) относительная сложность вопроса, (2) неупорядоченный, статистический характер мутаций, при котором число мутаций при относительно малом числе маркеров и за относительно малый промежуток времени является нестабильным, и для неопытного человека представляется принципиально невоспроизводимым, и (3) крайняя запутанность популяционными генетиками этой темы на протяжении последних 20 лет.


Вопрос 60: С какими скоростями происходят мутации в гаплотипах?

Выше (в ответе на Вопрос 14) было показано, что в маркере DYS393 значение аллели 13 сохраняется во всех трех рассмотренных гаплотипах (русского и двух киргизов), отделенных друг от друга тысячелетиями, а в маркере DYS390 за то же время мутация произошла дважды, и все три аллели оказались разными – 24, 25 и 26. Три гаплотипа в данном случае не очень показательны, статистика не та, но в целом так и должно быть, потому что константа скорости мутации в маркере DYS393 равна 0.00059 мутаций на условное поколение (25 лет), а в маркере DYS390 – почти в четыре раза выше, 0.0022 мутаций на условное поколение.

Что эти числа реально означают?

Они означают, что в маркере DYS393 мутация происходит в среднем раз в 1/0.00059 = примерно 1700 условных поколений, то есть раз в 42 500 лет. В трех независимых маркерах DYS393 мутация в среднем проходит примерно раз в 14 тысяч лет. А общий предок всех трех гаплотипов в примере выше жил примерно 5 тысяч лет назад, поэтому мутация и не успела произойти, все три аллели равнялись 13, то есть показывали 13 тандемных повторов. В маркере DYS390 мутация происходит в среднем раз в 1/0.0022 = 455 условных поколений, то есть примерно раз в 11 тысяч лет, то есть для трех независимых маркеров мутация в среднем произойдет раз в 3800 лет (округлено). Вот она и произошла, и даже дважды за 5 тысяч лет. Естественно, здесь это только полуколичественные расчеты, потому что три маркера – это не статистика, но здесь показан принцип расчета. Если бы у нас было в наличии тысяча гаплотипов, расчеты были бы намного точнее. В таком случае в тысяче маркеров DYS393 за пять тысяч лет (200 условных поколений) было бы 1000х0.00059х200 = 118 мутаций, а в маркере DYS390 было бы 1000х0.0022х200 = 440 мутаций. С такой статистикой уже можно работать.

Давайте посмотрим, что наблюдается в более протяженных сериях гаплотипов. Взглянем на серию из 3466 гаплотипов гаплогруппы R1b-L21. Число аллелей в маркере DYS393:

11 – 2 (то есть аллель 11 встречается в 3466 гаплотипах всего два раза)

12 – 81

13 – 3237

14 – 145

15 – 1


Считая, что все мутации одношаговые, получаем 232 мутации на 3466 аллелей – от базового значения аллели, равного 13, то есть в среднем 0.067 мутаций на маркер DYS393. Как проводятся поправки на возвратные мутации в таких системах мы рассмотрим в следующем разделе. Такие поправки нужны, потому что часть мутированных маркеров не только продолжают мутировать, уходя все дальше от предковой аллели (например, 13 → 14 → 15, или 13 → 12 → 11), но по тем же законам статистики возвращаются в исходное положение (13 → 14 → 13, 13 → 12 → 13), и потому мы часть мутаций недосчитываем.

Для другого примера возьмем не «медленный» маркер, как DYS393, а «быстрый», например, DYS390, из той же серии в 3466 гаплотипов субклада R1b-L21. Число аллелей в маркере DYS390:


21 – 3

22 – 22

23 – 228

24 – 2364

25 – 815

26 – 33

27 – 1


Видно, что мутации уже более «размазанные» по аллелям. Считая, что все мутации одношаговые, получаем 1165 мутаций на 3466 аллелей, то есть в среднем 0.336 мутаций на маркер DYS390. Мы видим, что среднее число мутаций в маркере DYS390 для той же серии гаплотипов уже в пять раз выше. Если бы не сложности статистического характера, упомянутые выше, можно было бы полагать, что эта разница отражает количественную разницу в соответствующих константах скорости мутации для маркеров DYS393 и DYS390, но это не совсем так. Константы равны 0.00059 и 0.0022 мутаций на маркер на условное поколение, то есть различаются только в 3.7 раз. Под «сложностями статистического характера» здесь понимаются и введение поправок на возвратные мутации, и несимметричность распределения числа мутаций «вверх» и «вниз» (см. приведенные выше примеры), и наличие нижестоящих субкладов, гаплотипы которых могут (системно) по мутациям отличаться от гаплотипов вышестоящих субкладов, и многие факторы, которые надо учитывать при корректном анализе в ДНК-генеалогии. Примеры даны ниже.


Вопрос 61: Что такое поправки на возвратные мутации, и как они рассчитываются?

Как было пояснено выше, вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели (13 или 24 для случаев маркеров DYS393 и DYS390, рассмотренных выше), и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[57]57
  Адамов, Д.С., Клёсов, А.А. (2009) Определение возраста популяций по STR гаплотипам Y-хромосомы. Часть II. Погрешности расчетов. Вестник Российской Академии ДНК-генеалогии, т. 2, № 1, стр. 93-103; Адамов, Д.С., Клёсов, А.А. (2009) Определение возраста популяций по STR гаплотипам Y-хромосомы. Часть III. Примеры «линейных» и «квадратичных» моделей с учетом степени асимметрии мутаций. Вестник Российской Академии ДНК-генеалогии, т. 2, № 2, стр. 187–199; Klyosov, A.A. (2009) DNA Genealogy, mutation rates, and some historical evidences written in Y-chromosome. I. Basic principles and the method. J. Genetic Genealogy, 5, 186–216; Klyosov, A.A. (2012) Ancient history of the Arbins, bearers of haplogroup R1b, from Central Asia to Europe, 16,000 to 1500 years before present. Advances in Anthropology, 2, No. 2, 87-105


[Закрыть]
, и в простейшем виде симметричной картины мутаций формула следующая:



где:

λobs = наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов,


λ = среднее число мутаций на маркер, с учетом поправки на возвратные мутации.

В примере с DYS393, рассмотренном выше, поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.067, поправочный коэффициент равен 1.0345, и полная запись расчета следующая:



(1+1.069)/2 = 1.0345


Итак, мы наблюдаем 0.067 мутаций на маркер, а на самом деле их 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.

В примере c маркером DYS390, также рассмотренном выше, поправка будет значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997, и полная запись



Итак, мы наблюдаем 0.336 мутаций на маркер, а на самом деле их 0.403 мутаций на маркер, то есть 20 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.


Вопрос 62: Насколько точны (или неточны) расчеты в ДНК-генеалогии? – продолжение Вопроса 32.

В сети довольно часто встречаются сомнения в отношении расчетов в ДНК-генеалогии, например, в таком виде (вопрос взят с международного форума DNA Rootsweb, перевод с английского):

✓ Есть фундаментальная проблема с «научными» расчетами времен жизни общего предка, где расчеты, основаны на частотах встречаемости мутаций разных маркеров. Эти частоты – просто оценки, основанные на встречаемости мутаций в современных гаплотипах. Но когда я смотрю на гаплотипы людей, общий предок которых известен и жил 400–500 лет назад, и я не вижу в их гаплотипах никаких мутаций, то у меня возникают резонные сомнения о надежности расчетов, основанных на мутациях.

Ну что здесь сказать? Когда человек не имеет понятия о том, о чем говорит, и «выходит на публику с сомнениями», когда рассуждают «по понятиям», где надо «по науке», то там может помочь только методичное просвещение. Например, следующее.

Если этот «критик» говорит о 6-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.0074 = 135 условных поколений, то есть раз в 135х25 = 3375 лет. Если речь о 12-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.02 = 50 условных поколений, то есть раз в 50х25 = 1250 лет. Если – о 37-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.09 = 11 условных поколений, то есть раз в 11х25 = 275 лет. Но в среднем – это не обязательно точно раз в 275 лет, как часы. Это может быть мутация через 100 лет, и через 600 лет, и как угодно, но при большом числе гаплотипов это получается в среднем раз в 275 лет. Поэтому критик не понимает того, что просто «гаплотипов» в таких случаях писать нельзя, надо обязательно указывать, какой протяженности гаплотипы. Как мы видим, и в случае 37-маркерных гаплотипов вполне возможно, что за 400–500 лет в них не происходит мутации. Но если речь о 111-маркерных гаплотипах, в которых мутация происходит в среднем раз в 125 лет, то за промежуток времени 400–500 лет мутации должны наблюдаться. Хотя и при бросании монеты бывает, что орел или решка выпадают подряд 4–5, и даже 6 раз. Хотя в среднем выпадают каждый второй раз.

Поэтому принцип должен быть такой, что при рассмотрении и обсуждении мутаций надо всегда исходить из вероятностного характера процесса.

Вообще при обсуждении вопроса в понятиях «точны» или «неточны», надо сначала определиться, «точны» для чего, для какой задачи, которая должна ставиться. Если задача ставится вычислить время рождения или смерти общего предка с точностью до года, то никакие статистические методы для этого в принципе не подходят, включая ДНК-генеалогию. Не подходят и задачи, в которых требуются проводить расчеты с точностью до десятилетий. ДНК-генеалогия решает задачи в первую очередь концептуальные, на уровне открытий, пересмотров старых концепций, и создания концепций новых. Никто же не требует в астрофизике расчета времени «большого взрыва» Вселенной с точностью до сотен лет, и тем более до года, там оценки идут на сотни миллионов и миллиарды лет, и не в сотне лет точности была важность новой концепции.

Например, когда 20 лет назад популяционными генетиками было сообщено, что носители гаплогруппы R1b жили в Европе 30 тысяч лет назад, во времена неандертальцев, то расчетов вообще никаких не делалось, это было предложено «по понятиям», подхвачено, и устоялось в науке. Потребовалось больших трудов убедить научную общественность, что R1b появились в Европе всего лишь около 5000 лет назад, как показали расчеты ДНК-генеалогии[58]58
  Klyosov, A.A. (2012) Ancient history of the Arbins, bearers of haplogroup R1b, from Central Asia to Europe, 16,000 to 1500 years before present. Advances in Anthropology, 2, No. 2, 87-105.


[Закрыть]
, и это имело концептуальную значимость. В той ситуации было неважно, это 5000±3000 лет назад, 5000±1000 лет назад, или 4800±400 лет назад (последняя величина была показана в расчетах). Таких примеров можно привести много, и каждый раз это был фактический прорыв в науке, прорыв разного масштаба.

Обычно расчеты общих предков выборок в ДНК-генеалогии проводятся с точностью 10–15 %, и причина этого довольно проста – мы постулируем, что величина константы скорости мутации определяется с точностью ±10 %, и тогда точность расчетов по определению не может быть лучше, чем ±10 %. На самом деле сотни и тысячи расчетов показали, что точность определения констант скоростей мутаций составляет примерно 2.5–3.0 %, но для расчетов мы оставляем те же 10 %. Лучше пусть доверительный интервал расчетов будет больше, чем претендовать, что наши расчеты точны, и время от времени подвергаться обвинениям, что другие данные показывают несколько отличающуюся величину. Не все знают, что расчеты погрешностей дело весьма условное, и зависит от закладываемых параметров доверительности. Если мы хотим результаты с доверительностью 95 %, или 99 %, то погрешности при тех же исходных величинах будут уже другими. В ДНК-генеалогии неразумно считать с требуемой доверительностью 95 % или 99 %, потому что тогда мы выходим уже не на концептуальность, а на точность, которой в обычно используемых сериях гаплотипах нет и быть не может. Даже если выборки будут состоять из десятков и сотен тысяч протяженных гаплотипов, в них непременно окажутся «примесные» гаплотипы, из других субкладов, из несимметричных ДНК-линий, да и просто ошибки типирования, которые неизбежны в больших сериях.

Поэтому реальность показывает, что погрешности расчетов ±10 %-15 % это то, из чего надо исходить и соответственно формулировать требования и задачи исследования.

В качестве примеров осложняющих факторов рассмотрим приведенные выше распределения мутаций в маркерах DYS393 и DYS390 в серии из 3466 гаплотипов субклада R1b-L21. Как мы видели, в обоих случаях мутации дают несимметричную картину. В DYS393 – в одну сторону, на понижение аллелей, произошло 85 одношаговых мутаций, в другую, на повышение, произошло 147 мутаций. На самом деле это не мутации несимметричные, а несимметричное распределение потомков по мутациям. Например, среди тех 3466 человек рассматриваемой серии оказалось больше потомков с DYS393 = 14, чем с DYS393 = 12. Причин к такому несимметричному распределению мутаций много. Например, среди всей серии из 3466 гаплотипов могло оказаться непропорционально много потомков того, у кого много веков назад произошла мутация DYS393 = 13 → 14. Далее, в число этих 3466 человек могли попасть обладатели подчиненных (или вообще других) субкладов, с преобладанием базовой аллели, DYS393 = 14. Если в данную серию попали носители других субкладов с другой базовой аллелью, то такая несимметричность несколько искажает результаты расчетов, как мы покажем ниже на нескольких характерных примерах, и потому результаты расчетов времени до общего предка всегда должны даваться с определенной погрешностью, которая перекрывает искажения. Если это «свои» потомки, то результаты расчетов обычно не искажаются. Этот вопрос пока недостаточно проработан в ДНК-генеалогии с теоретической точки зрения.

В маркере DYS390 в той же серии гаплотипов субклада R1b-L21 мутации тоже дают несимметричную картину. В одну сторону, на понижение аллели на одну единицу, произошло 228 мутаций, в другую, на повышение, произошло 815 мутаций, и в целом на понижение аллелей произошло 281 одношаговый мутаций и на повышение – 884 одношаговых мутаций. Причины несимметричности могут быть те же, что описаны выше. Надо отметить, что в этих двух примерах случайно получилось, что на повышение прошло больше мутаций, чем на понижение, но есть множество обратных примеров, например для того же маркера DYS393 в серии из 269 гаплотипов гаплогруппы N1c1 на понижение произошло больше мутаций (но по сути мутации были почти симметричными). Число аллелей в маркере DYS393:


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 | Следующая
  • 4.4 Оценок: 11

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации