Консорциум По Агрегации Экзомов




Взносы

М. Ле., K. J. K., E. V. M., K. E. S., E. B., T. F., A. H. O., J. S. W., A. J. H., B. B. C., T. T., D. P. B., J. A. K., L. E. D., K. E., F. Z., J. Z., E. P., M. J. D. и D. G. M. внесли свой вклад в анализ и написание рукописи. М. Ле. E. B., T. F., K. J. K., E. V. M., F. Z., D. P. B., J. B., D. N. C., N. D., M. D., R. D., J. F., M. F., L. G., J. G., N. G., D. H., A. K., M. I. K., A. L. M., P. N., L. O., G. M. P., R. P., M. A. R., V. R., S. A. R., D. M. R., K. S., P. S., C. S., B. P. T., G. T., M. T. T., B. W., H. Y., S. B. G., M. J. D. и D. G. M. внесли свой вклад в подготовку набора данных Exac. D. M. A., D. A., M. B., J. D., S. D., R. E., J. C. F., S. B. G., G. G., S. J. G., C. M. H., S. K., M.La., S. M., M. I. M., D. M., R. M., B. M. N., A. P., S. M. P., D. S., J. M. S., P.S., P. F. S., J. T., M. T. T., H. C. W., J. G. W., M. J. D. и D. G. M. внесли свой вклад в разработку и проведение различных исследований секвенирования экзома и обзор рукописи.

Автор-корреспондент

Корреспонденция к Дэниел Г. Макартур.

Этические декларации

Соперничающие интересы

P. F. S. является научным консультантом компании Pfizer.

Дополнительная информация

Набор данных ExAC находится в открытом доступе по адресу (https://exac.broadinstitute.org).

Reviewer Information Nature благодарит L. Biesecker, J. Shedure и других анонимных рецензентов за их вклад в экспертную оценку этой работы.

Список участников и их принадлежность к организации приводятся в дополнительной информации

Расширенные данные рисунки и таблицы

Расширенные данные Рисунок 1 Влияние рецидива на различные мутации и функциональные классы.

a, TiTv (переход к трансверсии) соотношение синонимичных вариантов на пониженных интервалах ExAC. TiTv относительно стабилизировано на предыдущих размерах выборки (b, для синонимичных вариантов дублета, изменчивость каждого тринуклеотидного контекста коррелирует со средним евклидовым расстоянием лиц, которые разделяют дублет. Трансверсионные (красные) и не-CpG-переходные (зеленые) дублеты, скорее всего, будут найдены в более близком пространстве PCA (более похожие предки), чем CpG-переходы (синий). c, Доля синглтона среди различных функциональных категорий. Функциональная категория stop lost имеет более высокую скорость синглтона, чем нонсенс. Полосы ошибок представляют собой стандартную ошибку среднего значения. d, среди синонимичных вариантов, изменчивость каждого тринуклеотидного контекста коррелирует с пропорциональным синглетом, предполагая, что переходы CpG (синий), скорее всего, имеют несколько независимых источников, повышающих частоту их аллелей. e, метрика синглтона пропорции от c, разбитый на трансверсии, переходы без CpG и варианты CpG. Примечательно, что существует широкая вариация синглетных скоростей среди мутационных контекстов в функциональных классах, и нет никаких стоп-потерянных (варианты, которые приводят к потере стоп-кодона) CpG-переходов. Полосы ошибок представляют собой стандартную ошибку среднего значения.

Расширенные данные Рис. 2 Мультинуклеотидные варианты, обнаруженные в наборе данных ExAC.

a, Количество МНП на одно воздействие на интерпретацию варианта. б, распределение количества Мнпс на выборку, где фазирование изменяет интерпретацию, разделенную частотой аллелей. Общее >1%, редкое > МНП, состоящие из редкого и общего аллеля, считаются редкими, поскольку это определяет частоту MNP.

Расширенные данные Рис.3 связи между глубиной и наблюдаемым по сравнению с ожидаемым вариантом, а также корреляции между наблюдаемым и ожидаемым количеством вариантов для синонимов, миссенса и усечения белка.

а, связь между средней глубиной экзонов (bins of 2) и суммой всех наблюдаемых синонимичных вариантов в этих экзонах, разделенных на сумму всех ожидаемых синонимичных вариантов. Кривая была использована для определения соответствующей регулировки глубины для ожидаемых отсчетов вариантов. Для остальных панелей показана корреляция между количеством ожидаемых вариантов с поправкой на глубину и наблюдаемыми вариантами для синонимов (b), миссенса (c) и усечения белка (d). Черная линия указывает на идеальную корреляцию (наклон = 1). Оси были обрезаны, чтобы удалить TTN.

Расширенные данные Рис. 4 Количество вариантов усечения белков в ограниченных генах на одного индивида по частоте аллелей bin.

Эквивалентно фиг. 5b ограничено до ограниченных (pLI ≥ 0.9) генов.

Расширенные данные Рис. 5 анализ основных компонентов (PCA) и ключевые метрики, используемые для фильтрации выборок.

a, анализ основных компонентов с использованием набора из 5400 общих SNPs exome. Отдельные лица окрашиваются по их удаленности от каждого из центров скопления населения с использованием первых 4 основных компонентов. b, число вариантов метрик, TiTv, альтернативное гетерозиготное / гомозиготное (HetHom) отношение и соотношение indel (InsDel). Население-латиноамериканцы (красные), африканцы (фиолетовые), европейцы (синие), Южноазиатцы (желтые) и Восточноазиатцы (зеленые).

Родственное аудио

База данных ExAC является самой большой коллекцией вариаций кодирования человеческого белка, обеспечивая научное и клиническое понимание.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: