Плотность изменения последовательности белкового кодирования в ExAC выявляет ряд свойств генетической изменчивости человека, которые не обнаруживаются в небольших наборах данных. Например, 7,9% высококачественных участков в ExAC являются многоаллельными (несколько различных вариантов последовательности, наблюдаемых на одном и том же участке), близкими к математическому ожиданию Пуассона 8,3%, учитывая наблюдаемую плотность вариации, и значительно выше, чем это наблюдается в предыдущих наборах данных 0,48% в 1000G (интервалы экзома) и 0,43% в наборах данных ESP.
Размер ExAC позволяет непосредственно наблюдать мутационный рецидив: случаи, в которых одна и та же мутация произошла несколько раз независимо на протяжении всей истории секвенированных популяций. Например, среди синонимичных (не изменяющих белок) вариантов, класс вариации, как ожидается, подвергся минимальному отбору, 43% валидированных de novo событий, идентифицированных во внешних наборах данных 1,756 трио родитель-потомок 8, 9 также наблюдаются независимо в нашем наборе данных (Рис.2). 2а), указывая на отдельное происхождение для одного и того же варианта в демографической истории двух выборок. Эта доля значительно выше для вариантов перехода на участках CpG, хорошо зарекомендовавших себя как наиболее сильно мутабельные участки в геноме человека 10: 87% ранее сообщенных переходов de novo CpG на синонимичных участках наблюдаются в ExAC, что указывает на то, что наши размеры выборки начинают приближаться к насыщению этого класса вариаций. Это насыщение можно обнаружить по изменению скорости обнаружения в подмножествах набора данных ExAC, начиная примерно с 20 000 особей (рис. 2b), указывая на то, что ExAC-это первый человеческий экзомный набор данных, по нашим сведениям, достаточно большой, чтобы этот эффект можно было непосредственно наблюдать.
Рисунок 2: мутационное повторение при больших размерах выборки.
A, доля валидированных de novo вариантов из двух внешних наборов данных, которые независимо находятся в ExAC, разделенных функциональным классом и мутационным контекстом. Полосы ошибок представляют собой стандартную ошибку среднего значения. Цвета последовательны в a - D. b, число уникальных вариантов, наблюдаемых в мутационном контексте, в зависимости от числа особей (уменьшенное от ExAC). CpG-переходы, наиболее вероятное мутационное событие, начинают достигать насыщения при ~20 000 особей. c, частотный спектр сайта показан для каждого мутационного контекста. d, Для дублетов (варианты с количеством аллелей (AC) 2), частота мутаций положительно коррелирует с вероятностью обнаружения у двух особей из разных континентальных популяций. e, скорректированная на изменяемость доля синглетов (карт) показана по функциональным классам. Полосы ошибок представляют собой стандартную ошибку среднего значения доли синглетов.
слайд PowerPoint