Формат и использование данных

Введение

Одной из важных составляющих биоинформатики являются базы данных, в которых хранится биологическая информация. Выделяют несколько типов баз данных: архивные, курируемые, производные и интегрированные. Архивные базы данных представляют собой неупорядоченный или малоупорядоченный массив информации, который формируется свободным образом, то есть любой пользователь может помесить свои данные в такие базы. Очень часто в архивных базах данных можно встретить ошибочные данные. Поэтому к информации, полученной из таких баз данных, нужно относиться с большой осторожностью и обязательно подвергать дополнительной проверке. В качестве примеров архивных баз данных, можно привести следующие: GeneBank & EMBL (база данных первичных нуклеотидных последовательностей) и PDB (база данных пространственных структур белков).

Курируемые базы данных обязательно контролируются организаторами или владельцами сайта, постоянно подвергаются проверке со стороны кураторов или аннотаторов. Информация в таких базах отбирается специальными экспертами из архивных баз данных, предварительно проверяя ее достоверность, экспериментальные доказательства и т.д. Попадание случайной информации в такие базы данных почти исключено. К наиболее известным курируемым базам данных относятся: Swiss-Prot (наиболее качественная база данных, содержащая аминокислотные последовательности белков), KEGG (база данных различных метаболических путей), FlyBase (посвящена Drosophila), COG (база данных ортологичных генов) и другие. Третий тип баз данных – производные, образуемые в результате обработки данных из архивных и курируемых баз данных. Например, SCOP (база данных структурной классификации белков), PFAM (семейства белков), GO (Gene Ontology) (классификация генов, одной из основных задач этой базы является упорядочивание терминологии названий генов), ProDom (база данных посвящена белковым доменам), AsMamDB (база по альтернативному сплайсингу млекопитающих).

Интегрированные базы данных, представляют собой базы, в которых информация получена из самых различных источников (курируемые, архивные базы данных и другие).

В таких базах данных в строку поиска можно ввести название белка, получить в максимальном объеме связанную с ним информацию (в каких организмах, тканях и клетках встречается, структура, аминокислотный состав и т.д.) в виде различных ссылок на те или иные базы данных, сайты и прочее. К таким базам данных относятся: NCBI Entrez (информация о нуклеотидных и аминокислотных последовательностях), Ecocyc (база данных о E. coli). По специализации белковых баз данных можно выделить несколько их типов: · Базы данных по протеомике. Содержат информацию о протеоме или какогонибудь организма (человек, мышь, дрозофила, дрожжи и т.д.), или о протеоме каких-то определенных типов органелл, клеток, тканей (протеом ядра, протеом мышечных клеток, нервной ткани и т.д.). · Базы данных белковых семейств, в основу которых положена классификация белков в семейства, суперсемейства, кланы и т.д. Есть универсальные базы данных, которые собирают информацию по всем семействам, а есть специализированные, которые посвящены конкретному семейству белков. · Базы данных, посвященные структуре белковых молекул. В основе этих баз данных лежит определенный уровень структурной организации белков. Это могут быть базы, представляющие информацию об аминокислотной последовательности белка, о вторичной структуре, третичной.

Существуют много баз данных, посвященных различным белковым доменам. Базы данных, посвященные белковым взаимодействиям. К ним относятся базы о белок-белковых взаимодействиях, например базы данных рецепторов и их лигандов, базы белковых коопераций определенной локализации (мембрана, митохондрии, ядро), белков, контактирующих при выполнении определенной функции (транспортная сеть, сигнальные каскады). Кроме того, в эту группу входят базы данных, посвященные взаимодействиям белков с другими молекулами, например с РНК, ДНК. Есть базы данных по антителам, которые тоже являются белками, и антигенам. В качестве примеров приведем более детальное описание некоторых баз данных. База данных NPD (Nuclear Protein Database) посвящена ядерному протеому Позвоночных. Интернет-адрес этой базы данных следующий: http: //npd.hgu.mrc.ac.uk. Интерфейс базы данных представлен на рисунке 1. К настоящему времени в этой базе находится информация о 1300 белках, локализованных в клеточном ядре. Необходимые данные можно получить, введя в строку поиска определенный белок или какой-либо ядерный компартмент. NPD содержит информацию о размере, массе белковой молекулы, изоэлектрической точке, структуре (аминокислотная последовательность, специфические мотивы, домены), белковых сплайсинговых изоформах, субядерной локализации, биологической и молекулярной функции. Также можно получить сведения о гене, кодирующем этот белок, его нуклеотидной последовательности, хромосомной локализации База данных SynDB посвящена нейросинапсам между клетками нервной системы, нейромышечным синапсам и синапсам с железистыми клетками. Интернет-адрес этой базы данных следующий: http: //syndb.cbi.pku.edu.cn. В базе данных представлена информация об основных структурах синапсов, функциях, опосредованных заболеваниях, терминах, связанных с этой темой. Данные представлены в виде каталогов и гиперссылок на термины. В этой базе данных можно найти информацию о более 14000 синапс-ассоциированных белках, 3000 из которых встречаются у человека. По каждому белку можно получить сведения о его структуре, последовательности, экспрессии, взаимодействиях.

Protein Data Bank

PDB — банк данных трёхмерных структур белков и нуклеиновых кислот. Информация, полученная методами рентгеновской кристаллографии или ЯМР-спектроскопии, и, всё чаще, методом криоэлектронной микроскопии вносится в базу данных биологами и биохимиками со всего мира, и доступна бесплатно через интернет сайты организаций-членов (PDBe, PDBj, RCSB).

PDB является одним из важнейших ресурсов для учёных, работающих в области структурной биологии. Большинство научных журналов и некоторые фонды финансирования исследований, например, NIH в США требуют от авторов статей и получателей грантов, чтобы все структурные данные были размещены в PDB. Protein Data Bank содержит в основном первичные данные о структуре биологических молекул, в то время как существуют сотни других банков данных, категоризирующих первичные данные или выявляющие закономерности между строением молекул и эволюционным родством.

История и организация

Банк данных белков был основан в 1971 году Эдгаром Меером и Уолтером Гамильтоном, сотрудниками Брукгейвенськои национальной лаборатории. В 1998 году управление Банком данных было передано Исследовательской коллаборации структурной биоинформатики (англ. Research Collaboratory for Structural Bioinformatics, RCSB). Администрация организации находится на территории Университета Ратгерс, ее управляющим сейчас является Элен Берман.

Международная организация Всемирный Банк данных белков (англ. Worldwide Protein Data Bank, wwPDB) состоит из организаций по всему миру, занимающихся внесением данных в базу данных и розповюдженням накопленной информации — данных PDB. Членами организации сейчас RCSB PDB (США), PDBe (Европа) и PDBj (Япония). Группа BMRB (США) присоединилась к wwPDB в 2006 году. Миссией wwPDB является поддержка единого архива данных всех структур биологических макромолекул и свободное распространение этой информации.

Кроме того, организацией поддерживаются и приводятся к общему формату много других баз данных, содержащих информацию о функции белков и их эволюции.

Когда база данных была основана, она содержала структуры 7 белков. С этого времени число структур быстро и почти экспоненциально растет. Сам факт этого роста стал предметом отдельных исследований и анализа growth rate.

Формат и использование данных

По состоянию на 26 сентября 2006 года, база данных содержала 39051 трехмерных структур с атомной разрешением, из них 35 767 структур белков, остальные — структуры нуклеиновых кислот, нуклеопротеинов и нескольких других молекул. Сейчас ежегодно добавляется около 5 тыс. Структур. Данные сохраняются в формате mmCIF, разработанном специально для этой цели.

Однако, ни одна из структур не содержит точного расположения всех атомов больших биомолекул, хотя, по исключением атомов водорода, эти координаты могут быть получены с большой степенью достоверности. Данные о последовательности (аминокислот или нуклеотидов) не сохраняются в этой базе, эти данные хранят в значительно больших базах данных, таких как Международная коллаборация баз данных последовательностей (англ. International Nucleotide Sequence DatabaseCollaboration) или Swiss-Prot. 22461 стркутуры в PDB имеют файл структурного фактора. 3138 структуры в PDB имеют файл данных ЯМР. Современное состояние базы еженедельно обновляется на сайте.

За годы существования, формат файлов PDB прошел через многочисленные изменения. Оригинальный формат диктовался шириной компьютерных перфокарт.

§ Описание формата — составленный сотрудниками PDB в BNL (англ.) — Здесь могут быть найдены спецификации форматы, это первый сайт, который следует посетить перед просмотром данных.

§ PDBML (англ.) — Представление данных PDB в формате XML

§ ftp.rcsb.org (англ.) — Необработанные данные могут быть скачаны с цьгого сайта.

§ (англ.) — Файлы формата PDB могут быть ортимани через HTTP с этого сайта.

Устаревшие форматы вызывают много проблем, поэтому созданные проекты перевода данных:

§ The Molecular Modeling DataBase (MMDB) (англ.) — На сайте NCBI

§ wwPDB

MMDB использует ASN.1 (и перевод этого формата в XML). Члены wwPDB — RCSB PDB, MSD-EBI и PDBj совместно работают над созданием единого формата во всем архиве. Хотя некоторые сомневается в целесообразности, другие утверждают, что без этого много данных могут быть тяжелыми для использования.

Каждая структура в PDB получает четырехбуквенные идентификатор, PDB ID. Эти данные не следует использовать для идентификации молекулы, потому что часто одна молекула имеет несколько структур в базе данных (полученных по различным условиям и в различных конформации), которые имеют разные идентификаторы.

Когда структура портапляе к базе данных, сотрудники wwPDB проверяют и аннотують ее. В базу подиються только экспериментальные, но не теоретически предсказанные структуры.

Сейчас многие фонды, финансирующие исследования, и научных журналов требуют обязательной подачи данных в PDB.

Структурные данные могут быть визуалызовани с помощью многих программ, таких как VMD, RasMol, PyMOL, Jmol, MDL Chime, QuteMol, плагинов для браузеров VRML и STING, программы для настольных компьютеров Sirius. Сайт RCSB PDB содержит много ссылок на такие программы для использования для образования структурной геномики и других целей.

Список литературы

1.Нолтинг Б. Новейшие методы исследования биосистем. – М., 2005. – 256 с.

2.Dayhoff, MO, Schwartz, RM, Orcutt, BC (1978) A model of evolutionary change in proteins, matrixes for detecting distant relationships. In Dayhoff, MO (ed.), Atlas of protein sequence and structure, Vol 5, pp. 345–358. National Biomedical Research Foundation, Washington, DC.

3.Joanne A. Fox, Scott McMillan, and B. F. Francis Ouellette. A compilation of molecular biology web servers: 2006 update on the Bioinformatics Links Directory. Nucl. Acids Res. 2006 34: W3–W5; doi:10.1093/nar/gkl379. https://nar.oxfordjournals.org/content/vol34/suppl_2/index.dtl

4.Michael Y. Galperin The Molecular Biology Database Collection: 2007 update. Nucleic Acids Research, 2007, Vol. 35, Database issue D3–D4. https://nar.oxfordjournals.org/cgi/content/full/35/suppl_1/D

Формат и использование данных

Поиск по сайту