Полноразмерное изображение

Анализ генетической изменчивости, кодирующей белок, у 60 706 человек

Монкол Лек,
Konrad J. Karczewski,
[…]
Консорциум По Агрегации Экзомов

Nature том536, страницы285-291 (2016) цитировать эту статью

· 46k доступов

· 4146 цитат

· 937 Altmetric

· Сведения о метриках

Абстрактный

Крупномасштабные наборы справочных данных о генетической изменчивости человека имеют решающее значение для медицинской и функциональной интерпретации изменений последовательности ДНК. Здесь мы описываем агрегацию и анализ высококачественных данных последовательности ДНК экзома (белок-кодирующая область) для 60 706 человек различных предков, полученных в рамках консорциума по агрегации экзом (ExAC). Этот каталог генетического разнообразия человека содержит в среднем по одному варианту на каждые восемь оснований экзома и дает прямые доказательства наличия широко распространенных мутационных рецидивов. Мы использовали этот каталог для расчета объективных показателей патогенности для вариантов последовательности и для идентификации генов, подлежащих сильному отбору против различных классов мутаций; идентификация 3230 генов с почти полным истощением прогнозируемых вариантов усечения белка, причем 72% этих генов не имеют в настоящее время установленного фенотипа заболевания человека. Наконец, мы показываем, что эти данные могут быть использованы для эффективной фильтрации вариантов кандидатов, вызывающих заболевания, и для обнаружения вариантов "нокаута" человека в генах, кодирующих белок.

Главная

За последние пять лет широкое распространение технологий высокопроизводительного секвенирования ДНК позволило секвенировать целые геномы или экзомы сотен тысяч людей. Теоретически эти данные представляют собой мощный источник информации о глобальных закономерностях генетической изменчивости человека, но на практике они труднодоступны по практическим, логистическим и этическим причинам; кроме того, их полезность осложняется неоднородностью экспериментальных методологий и вариантов вызова трубопроводов, используемых для их генерирования. Текущие общедоступные наборы данных вариации последовательности ДНК человека содержат только небольшую часть всех секвенированных образцов: сервер вариантов экзома, созданный в рамках проекта NHLBI Exome Sequencing Project (ESP)1, содержит информацию о частоте, охватывающую 6503 экзомы; и проект 1000 геномов (1000G), который включает данные генотипа индивидуального уровня из данных о последовательности всего генома и экзома для 2 504 человек 2.

Базы данных генетической изменчивости важны для нашего понимания истории и биологии человеческой популяции 1 ^,2 ^,3 ^,4 ^,5, но также предоставляют критические ресурсы для клинической интерпретации вариантов, наблюдаемых у пациентов, имеющих редкие менделевские заболевания 6^,7. Фильтрация вариантов кандидатов по частоте у невыбранных индивидуумов является ключевым этапом в любом конвейере для обнаружения причинных вариантов у пациентов с болезнью Менделя, и эффективность такой фильтрации зависит как от размера, так и от наследственного разнообразия имеющихся справочных данных.

Здесь мы описываем совместный вызов вариантов и анализ высококачественных вызовов вариантов через 60 706 экзом человека, собранных консорциумом агрегации экзом (ExAC; https://exac.broadinstitute.org). Этот набор вызовов почти на порядок превосходит ранее доступные базы данных экзомных вариантов, обеспечивая существенно повышенное разрешение для анализа очень низкочастотных генетических вариантов. Мы демонстрируем применение этого набора данных для анализа паттернов генетической изменчивости, включая обнаружение широко распространенных мутационных рецидивов, вывод ограничений на уровне генов против усечения вариации, клиническую интерпретацию вариации в генах Менделевской болезни и открытие вариантов нокаута человека в генах, кодирующих белок.

Набор данных ExAC

Последовательная обработка данных, вызов вариантов, контроль качества и фильтрация были выполнены на более чем 91 000 экзомах (см. методы), а фильтрация проб была выполнена для получения окончательного набора данных, охватывающего 60 706 человек (Рис.2). 1А). Для выявления родословной каждого индивида ExAC мы провели анализ главных компонент (PCA) для выделения основных осей географического происхождения и выявления групп населения, соответствующих лицам европейского, африканского, южноазиатского, Восточноазиатского и смешанного американского (далее-латиноамериканского) происхождения (Рис.2). 1b; дополнительная таблица 3); мы отмечаем, что очевидное разделение между восточноазиатскими и другими выборками отражает дефицит ближневосточных и центральноазиатских выборок в наборе данных. Мы далее разделили европейцев на лиц финского и не-финского происхождения, учитывая обогащение этой узкой популяции; термин Европейский в дальнейшем относится к не-финским европейским лицам.

Рисунок 1: закономерности генетической изменчивости у 60 706 человек.

а, размер и разнообразие публичных эталонных наборов данных exome. ExAC превышает предыдущие наборы данных по размеру для всех изученных популяций. b, анализ основных компонентов (PCA), разделяющий лиц ExAC на пять континентальных популяций. ПК2 и ПК3 показаны; дополнительные ПК в выдвинутых данных фиг. 5а. c, частотный спектр аллелей ExAC подчеркивает, что большинство генетических вариантов являются редкими и новыми (отсутствующими в предыдущих базах данных генетической вариации, таких как dbSNP). d, Доля возможных вариаций, наблюдаемых мутационным контекстом и функциональным классом. Более половины всех возможных переходов CpG наблюдаются. Полосы ошибок представляют собой стандартную ошибку среднего значения. e, f, число (e) и частотное распределение (пропорция синглтона; f) инделей, по размеру. По сравнению с внутрикадровыми инделями, варианты сдвига кадров встречаются реже (имеют более высокую долю синглетов, прокси для предсказанной делетерности на генном продукте). Полосы ошибок указывают на 95% доверительные интервалы.

слайд PowerPoint

Полноразмерное изображение

Мы определили 10 195 872 варианта последовательности кандидатов в ExAC. Далее мы применили строгие фильтры глубины и качества сайта/генотипа для определения подмножества 7,404,909 высококачественных вариантов, включая 317,381 вставки или делеции (indels) (дополнительная таблица 7), соответствующие одному варианту для каждых 8 пар оснований (bp) в интервалах экзома. Большинство из них являются очень низкочастотными вариантами, отсутствующими в предыдущих меньших наборах вызовов (рис. 1С), из высококачественных вариантов, 99% имеют частоту

Плотность вариации ExAC неоднородна по всему геному, и наблюдение вариантов зависит от таких факторов, как мутационные свойства и селективные давления. В ~ 45 млн хорошо покрытых (80% лиц с минимальным охватом 10×) позиций в ExAC есть ~18 млн возможных синонимичных вариантов, из которых мы наблюдаем 1,4 млн (7,5%). Однако мы наблюдаем 63,1% возможных переходов CpG (варианты C-T, в которых смежное основание-G), в то время как только мы наблюдаем 3% возможных переходов и 9,2% других возможных переходов (дополнительная таблица 9). Аналогичная картина наблюдается для вариантов missense и nonsense, с более низкими пропорциями из-за селективных давлений (Рис.2). 1d). Из 123 629 высококачественных инделей, названных в кодирующих экзонах, 117 242 (95%) имеют длину <6 оснований, причем наиболее распространенными являются более короткие делеции (Рис.2). 1е). Сдвиги кадров встречаются в меньшем количестве и с большей вероятностью являются синглетами, чем внутрикадровые индели (Рис.2). 1f), отражающий влияние очищающего отбора.

Полноразмерное изображение

Поиск по сайту