Основные понятия хранения данных
Любая организация обрабатывает и хранит данные в зависимости от своих повседневных операций. Хранилище данных представляет собой репозиторий, дающий пользователям возможность оперативного и постоянного хранения и извлечения необходимых цифровых данных.
Данные – это набор сведений или фактов из которых может быть получена необходимая информация.
Основные факторы, повлиявшие на увеличение объемов хранения цифровой информации:
1. Снижение цен на цифровые носители
2. Увеличение количества пользователей, подключаемых к высокоскоростным каналам связи
3. Расширение возможности обработки данных за счет увеличения производительности цифровых устройств
4. Рост количества приложений и смарт устройств, увеличивающие объем цифрового контента
В зависимости от способа управления данными и их хранения. они классифицируются на структурированные и неструктурированные.
Большими данными (Big Data) называется новая развивающаяся концепция, относящаяся к наборам данных объем, которых выходит за пределы возможностей обычных программных средств по их сбору, хранению и т.д. в приемлемые сроки. Такие наборы данных обычно реализуются в реальном масштабе времени.
Экосистема больших данных состоит из следующих компонентов:
1. Устройств, производящих сбор данных из множества различных мест, а также генерирующих на их основе новые данные (метаданные)
2. Центры сбора данных, получающие данные от устройств в пункте один и пользователей
3. Агрегаторы данных составляют сводки о собранных данных с целью извлечения важной информации
4. Пользователей и покупателей данных, извлекающих пользу из информации, собранной другими компонентами системы БД
|
Анализ больших данных в реальном масштабе времени требует применения новых технологий, архитектур и инструментариев, и представляет собой платформы с массовой параллельной обработкой данных (MPP).
Наука о данных (даталогия) - это развивающаяся дисциплина, представляющая собой синтез следующих дисциплин: статистика, математика, технология визуализации данных, информатика и теория информации.
Информация – это сведения и знания, извлекаемые из данных.
Эволюция архитектуры хранения данных:
1. Архитектура на основе сервер центрической модели
2. Архитектура на основе информационно центрической модели
Современные датацентры состоят из пяти основных компонентов:
1. Хранилище для длительного хранения данных
2. Сеть – это канал обмена данными между различными устройствами
3. Хост система (вычислительна платформа), обеспечивающая работу приложений и баз данных
4. Система управления базами данных обеспечивает структурированный способ хранения данных в логически организованных и взаимосвязанных таблицах
5. Приложения (компьютерная программа), задающая логику вычислительных операций
Основные характеристики датацентра:
1. Доступность
2. Безопасность (в датацентрах необходимо установить правила, процедуры и надлежащую интеграцию ключевых компонентов с целью предотвращения НСД)
3. Масштабируемость (увеличение возможности датацентров с увеличением возможностей и ресурсов компании без существенных затрат)
4. Производительность
5. Целостность данных (применение таких механизмов как коды коррекции ошибок, биты контроля четности, гарантирующих хранение или извлечение данных в точно таком же виде, в котором они были получены)
|
6. Объем
7. Управляемость (простое и интегрированное управление всеми компонентами)
Управление датацентром включает множество задач, к которым можно отнести:
1. Мониторинг - непрерывный сбор информации о различных компонентах и службах в датацентре. Мониторинг производится по следующим направлениям: безопасность, производительность, доступность и объем.
2. Составление отчета – периодически проводимая оценка производительности ресурса, его объема и загруженности
3. Предоставление услуг – это процесс обеспечения оборудованием, программами и другими ресурсами, необходимыми для работы датацентров, должна соответствовать требованиями по объему доступности, производительности и безопасности.
Среда датацентра
Основными компонентами датацентра являются: централизованно управляемые хост, хранилище данных, система передачи данных, приложения и система управления базами данных. С развитием виртуализации классические датацентры превратились в виртуализированные датацентры (VDC).
Приложения – это компьютерная программа, предоставляющая логику вычислительных операций, оно осуществляет операции чтения и записи на устройство хранения.
База данных – это структурированный способ хранения данных в логически организованных взаимосвязанных таблицах.
СУБД – управляет созданием, обслуживанием и использованием баз данных.
Компьютеры, на которых запускаются приложения, называются хостами или вычислительными системами. Хост состоит из центрального процессора, памяти, устройств ввода-вывода и набора ПО для выполнения вычислительных операций. ПО хоста включает в себя операционную систему, файловую систему, диспетчер логических томов, драйверы устройств. ЦП состоит из четырех основных компонентов: АЛУ, блок управления, регистры и КЭШ память первого уровня (память оперативная и постоянная).
|
Диспетчер логический томов (LVM) осуществляет динамическое расширение объема файловой системы и эффективно управляет системой хранения данных. Логические тома появляются в процессе разбиения жестких дисков на логические контейнеры (разделы), что позволяет повысить гибкость и оптимизировать использование дискового накопителя.
Конкатенация – это процесс объединения в группу нескольких физических устройств, дисковых накопителей и предоставления хосту их в виде одного большого логического тома.
Основные компоненты логических томов:
- физические тома
- группы томов
- логические тома
Согласно LVM терминологии каждый физический диск. подключенный к хост системе, является физическим томом. При инициализации каждого физического тома, для его использования диспетчером логических томов, ему назначается уникальных идентификатор физического тома (PVID). В свою очередь логические тома создаются в пределах заданной группы томов.
Процесс отображения пользовательских файлов на подсистему дискового хранилища производится диспетчером логических томов и проходит в следующем порядке:
РИСУНОК!!!!!!!!!!
Файловые системы представляют собой журналируемые и нежурналируемые системы.
Файл – это совокупность взаимосвязанных записей или данных, хранящихся в виде единого целого, обозначенного именем. Файловая система – это иерархическая структура файлов.
Основные и самые распространённые файловые системы:
1. FAT32
2. NTFS
3. UFS
4. EXT 2/3
Блоки файловой системы являются наименьшим структурным элементом, выделяемым для хранения данных. Каждый блок файловой системы представляет собой непрерывную область на физическом диске.
Физические компоненты соединения
РИСУНОК!!!
Интерфейсное устройство хоста (адаптер) подключает хост к другим хостам или устройствам хранения. В качестве примеров можно привести: шинный адаптер хоста HBA или сетевую интерфейсную плату NIC.
Шинный адаптер обычно представляет собой плату со специализированной интегральной схемой, выполняющую функции интерфейса ввода-вывода между хостом и устройством хранения, освобождая ЦП от дополнительной нагрузки. Обычно вычислительные системы имеют несколько интерфейсных шинных подключений HBA.