Полноразмерное изображение




Мутационная рецидивация оказывает заметное влияние на частотный спектр в данных ExAC, приводя к истощению синглетов на участках с высокой частотой мутаций (Рис.2). 2c). Мы наблюдаем корреляцию между синглетными скоростями (доля вариантов, наблюдаемых только один раз в ExAC) и изменчивостью сайта, выведенной из контекста последовательности 11 (r = -0,98; P < 10 -50 ; расширенные данные Рис.2). 1D): сайты с низкой прогнозируемой изменчивостью имеют синглетную скорость 60%, по сравнению с 20% для сайтов с самой высокой прогнозируемой скоростью (CpG-переходы; рис. 2c). Напротив, для синонимичных вариантов варианты CpG примерно в два раза чаще поднимаются до промежуточных частот: 16% вариантов CpG найдены по крайней мере в 20 копиях в ExAC, по сравнению с 8% трансверсий и переходов без CpG, предполагая, что синонимичные переходы CpG имеют в среднем два независимых мутационных источника в выборке ExAC. Рецидивирование на сильно изменчивых участках может быть дополнительно отмечено путем изучения популяционного распределения дублетонных синонимичных вариантов (варианты, встречающиеся только у двух особей в ExAC). Мутации с низкой мутацией (особенно трансверсии), скорее всего, будут наблюдаться в одной популяции (представляющей собой одно мутационное происхождение), в то время как переходы CpG с большей вероятностью будут обнаружены в двух отдельных популяциях (независимые мутационные события); таким образом, изменчивость сайта и вероятность наблюдения в двух популяциях значительно коррелируют (r = 0,884; рис. 2d).

Мы также исследовали распространенность и функциональное влияние полиморфизмов мультинуклеотидов (MNPs), в случаях, когда наблюдались множественные замены внутри одного и того же кодона по крайней мере у одного индивида. Мы обнаружили 5 945 MNPs (среднее значение = 23 на выборку) в ExAC (расширенные данные рис. 2а), в котором анализ лежащих в основе SNPs без правильного фазирования гаплотипов приведет к изменению интерпретации. Они включают в себя 647 случаев, в которых эффект варианта усечения белка (PTV) устраняется соседним однонуклеотидным полиморфизмом (SNP) (называемым спасенным PTV), и 131 случай, в котором лежащие в основе синонимичные или миссенс-варианты приводят к PTV MNPs (называемому полученным PTV). Наш анализ также выявил 8 MNPs в ассоциированных с заболеванием генах, что приводит либо к спасению, либо к получению PTV, и 10 MNPs, которые ранее были зарегистрированы как мутации, вызывающие заболевание (Дополнительные таблицы 10 и 11). Эти варианты будут отсутствовать практически во всех доступных в настоящее время вариантах вызова и аннотации конвейеров.

Вывод о вариантной делетерности и ограничении гена

Вредные варианты, как ожидается, будут иметь более низкие частоты аллелей, чем нейтральные, из-за отрицательного отбора. Это теоретическое свойство было продемонстрировано ранее в данных секвенирования популяций человека 12, 13 и здесь (Рис.1). 1d, e). Это позволяет сделать вывод о степени отбора в отношении конкретных функциональных классов вариации. Однако мутационный рецидив, описанный ранее, указывает на то, что частоты аллелей, наблюдаемые в выборках ExAC-масштаба, также искажаются скоростью мутации, причем более мутабельные участки с меньшей вероятностью являются синглетами (Рис.2). 2c и расширенные данные рис. 1d). Частота мутаций, в свою очередь, неравномерно распределена по функциональным классам. Например, варианты, которые приводят к потере стоп-кодона, никогда не могут возникнуть у Динуклеотидов CpG (расширенные данные Рис.2). 1е). Мы скорректировали скорость мутаций (дополнительная информация раздел 3.2), создав скорректированную на мутацию пропорцию синглетную метрику (MAPS). Эта метрика отражает (как и ожидалось), сильный отбор против предсказанных PTV, а также варианты missense, предсказанные методами, основанными на сохранении, чтобы быть вредными (Рис.2). 2e).

Глубокое установление редких вариаций в ExAC также позволяет нам сделать вывод о степени отбора по вариантным категориям на основе каждого гена, изучая долю вариации, которая отсутствует по сравнению с ожиданиями при случайной мутации. Концептуально аналогичные подходы были применены к меньшим наборам данных exome 11, 14, но они были недостаточно мощными, особенно при анализе истощения PTVs. Мы сравнили наблюдаемое число редких (частота минорных аллелей (MAF) <0,1%) вариантов в каждом гене с ожидаемым числом, полученным из селекционно-нейтральной, основанной на последовательности контекстной мутационной модели 11. Модель хорошо работает при прогнозировании количества синонимичных вариантов, которые должны быть при минимальном отборе, на один ген (r = 0,98; расширенные данные Рис.2). 3b).

Мы количественно определили отклонение от математического ожидания с оценкой Z 11, которая для синонимичных вариантов центрирована на нуле, но значительно смещена в сторону более высоких значений (большее ограничение) как для missense, так и для PTV (Wilcoxon P < 10 -50 для обоих; Рис.2). 3а). Гены на Х-хромосоме значительно более ограничены, чем гены на аутосомах для миссенса (P < 10 -7 ) и мутаций потери функции (P < 10 -50), в соответствии с предыдущей работой 15. Высокая корреляция между наблюдаемым и ожидаемым количеством синонимичных вариантов на Х-хромосоме (r = 0,97 против 0,98 для аутосом) указывает на то, что эта разница в ограничениях не связана с проблемой калибровки. Для уменьшения путаницы по длине кодирующей последовательности для PTVs мы разработали алгоритм максимизации ожиданий (дополнительная информация раздел 4.4) использование наблюдаемых и ожидаемых значений PTV внутри каждого гена для разделения генов на три категории: нулевые (наблюдаемые ≈ ожидаемые), рецессивные (наблюдаемые ≤ 50% от ожидаемых) и гаплоинсуффициентные (наблюдаемые Эта метрика-вероятность быть непереносимой к потере функции (LoF) (pLI)—разделяет гены достаточной длины на категории непереносимости LoF (pLI ≥ 0,9, n = 3,230) или непереносимости LoF (pLI ≤ 0,1, n = 10,374). pLI меньше коррелирует с длиной кодирующей последовательности (r = 0,17 по сравнению с 0,57 для PTV Z score), превосходит PTV Z score в качестве показателя непереносимости (Дополнительная таблица 15), и показывает ожидаемый контраст между списками генов (рис. 3b). pLI положительно коррелирует с количеством партнеров по физическому взаимодействию генного продукта (P < 10 -41). Самая ограниченная путей (высокий средний пли генов в тропа) - основные биологические процессы (spliceosome, рибосомы, и протеасом компонентов; тест Колмогорова–Смирнова Р < 10-6 для всех), тогда как обонятельные рецепторы являются одними из наименее ограниченных путей (тест Колмогорова–Смирнова Р < 10-16), как показано на фиг. 3b, и это согласуется с предыдущей работой 5 , 16 , 17 , 18 , 19.

Рисунок 3: количественная оценка непереносимости функциональных изменений в генах и наборах генов.

a, гистограммы ограничений Z баллов для 18 225 генов. Эта мера отклонения числа вариантов от математического ожидания обычно распределена для синонимичных вариантов, но сдвинута вправо (более высокое ограничение) для миссенса и усекающих белок вариантов (PTVs), что указывает на то, что больше генов непереносимы к этим классам вариации. b, Доля генов, которые очень вероятно непереносимы к вариации потери функции (pLI ≥ 0,9), является самой высокой для генов ClinGen haploinsufficient (HI) и стратифицируется тяжестью и возрастом наступления гаплоинсуффициентного фенотипа. Гены, необходимые в клеточной культуре и доминантные гены болезни, также обогащены для нетерпимых генов, в то время как рецессивные гены болезни и обонятельные рецепторы имеют меньше нетерпимых генов. Черные полосы ошибок указывают на 95% доверительные интервалы. c, синонимичный Z баллы не показывают корреляции с количеством тканей, в которых экспрессируется тот или иной ген, но наиболее миссенс - и PTV-зависимые гены, как правило, экспрессируются в большем количестве тканей. Толстые черные полосы обозначают первый-третий квартили, а белый круг-медиану. D, сильно миссенс - и PTV-ограниченные гены менее вероятно, что eQTLs обнаружен в GTEx как средний ген. Затененные области вокруг линий указывают на 95% доверительные интервалы. e, Высоко миссенс - и PTV-зависимые гены с большей вероятностью будут соседствовать с сигналами геномного исследования ассоциаций (GWAS), чем средний ген. Затененные области вокруг линий указывают на 95% доверительные интервалы. f, карты (рис. 2d) отображается для каждой функциональной категории, разбитой на ячейки оценки ограничений, как показано на рисунке. Ячейки оценки ограничений Missense и PTV предоставляют информацию о естественном отборе, по крайней мере частично ортогональную к картам, полифену и баллам CADD, указывая, что эта метрика должна быть полезной для идентификации вариантов, связанных с вредоносными фенотипами. Затененные области вокруг линий указывают на 95% доверительные интервалы. Для панелей a, cf, варианты покрашены с синонимичным в сером цвете, missense в померанце, и протеин-усекать в бордовом цвете.

слайд PowerPoint



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: