Национальный исследовательский ядерный университет «МИФИ»




МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное бюджетное образовательное учреждение

Высшего образования

Национальный исследовательский ядерный университет «МИФИ»

 

 

КАФЕДРА «ВЫСШАЯ ИНЖИНИРИНГОВАЯ ШКОЛА»

 

ОТЧЕТ

по лабораторной работе №1

«Установка виртуальной машины с Hadoop от Cloudera для работы с проектами экосистемы Hadoop»

по курсу: «Инфраструктура высокоинтенсивной обработки данных»

Выполнили:       Проверил: М19-Ш04 Чирков И.А. М19-Ш01 Архипов А.Ю Бахарев А.Д.   Зайцев К.С.

 

 

Москва 2019 г

Для выполнения данной лабораторной работы будет использоваться программа virtual box (рисунок 1) и образ дистрибутива cloudera (рисунок 2).

Рис.1 Главное окно программы virtual box

С помощью программы Virtualbox появится возможность запуска нескольких операционных систем в облаке на одном компьютере: при том каждый из экземпляров таких гостевых операционных систем будет работать со своим набором логических ресурсов (процессор, оперативной памяти, устройств хранения), предоставлением которых из общего пула, доступного на уровне оборудования, управляет хостовая операционная система —гипервизор. Также могут быть подвергнуты виртуализации сети передачи данных, сети хранения данных, платформенное и прикладное программное обеспечение.

Рис.2 Импорт конфигурации виртуальной машины

Подготовим среду Hive для выполнения запросов и управления большими данными, находящихся в HDFS хранилище. С помощью языка Hive Ql мы сможем создавать SQL подобные запросы для проектирования базы данных и формирования запросов (рисунок 3).

Рис.3 Среда Hive

Для создания таблицы в HDFS необходимо в командной строке прописать следующий код hadoop fs -mkdir /user/hive/warehouse/<имя директории>/.

Проверим работоспособность с помощью HUE и посмотрим файлы в папках (рисунок 4).

Рис4. Проверка работоспособности

1. Для каких целей предназначены Hadoop и проекты его экосистемы?

Hadoop — фреймворк, предназначенный для построения распределённых приложений для работы с данными очень большого объёма. Hadoop реализует вычислительную парадигму MapReduce, в которой приложение разбивается на множество независимых частей, каждая из которых может исполняться на отдельном узле. Считается одной из основополагающих технологий Big Data.

Главным языком проекта является Java.

Примеры использования Hadoop (и парадигмы MapReduce вообще):

  • распределённый grep;
  • распределённая сортировка;
  • кластеризация документов;
  • обработка статистики журналов доступа;
  • машинное обучение;
  • построение обратного индекса;
  • статистический перевод.

2. Что такое виртуализация?

Виртуализация – это когда вместо физической версии создаётся имитированная или виртуальная вычислительная среда.

Примером использования виртуализации является возможность запуска нескольких операционных систем на одном компьютере: при том каждый из экземпляров таких гостевых операционных систем работает со своим набором логических ресурсов (процессорных, оперативной памяти, устройств хранения), предоставлением которых из общего пула, доступного на уровне оборудования, управляет хостовая операционная система — гипервизор. Каждая виртуальная машина работает независимо и выполняет разные ОС, при этом совместно используя ресурсы одного хост-компьютера. Также могут быть подвергнуты виртуализации сети передачи данных, сети хранения данных, платформенное и прикладное программное обеспечение: см. эмуляция.

3. Для чего используется Oracle VM VirtualBox?

Oracle VM VirtualBox это инструмент для виртуализации, который упрощает создание виртуальных машин, имитирующих компьютеры с различными ОС (Linux, Windows, MacOS и тд.).

4. На каких операционных системах возможна установка Oracle VM VirtualBox?

Установка VirtualBox возможна на любых операционных системах (Linux, Unix, Windows, MacOS, Solaris).

5. В чем основные преимущества виртуализации?

Основное преимущество – это задействование вычислительных ресурсов одной физической машины для нужд виртуальной машины, неограниченное использование виртуальных машин (ограничение только по объему памяти и частоте процессора).

Виртуализация оптимизирует масштабируемость и рабочие нагрузки за счёт нескольких ресурсов, созданных на одном компьютере или сервере, что позволяет уменьшить совокупное количество серверов, понизить энергопотребление и сократить стоимость инфраструктуры и её обслуживания.

6. Как вы думаете в чем основные недостатки виртуализации?

Основной недостаток – ресурсоемкие приложения сложно будет адаптировать под виртуализацию. Виртуализацию чаще всего применяют не в ресурсоемких приложениях (сайт, небольшая база данных, ftp сервер и тд).

Также недостатком является необходимость дополнительных аппаратных ресурсов (для запуска на физическом хосте некоторых виртуальных машин требуется достаточно большое количество аппаратных ресурсов).

Хорошие платформы виртуализации имеют высокую стоимость.

7. Что может быть подвергнуто виртуализации?

Виртуализации может быть подвергнута операционная система, процесс, программа.

8. Какую долю оперативной памяти рекомендуется выделять гостевой ОС?

Желательно, для хорошей работы гостевой ОС выделять большое количество оперативной памяти, но не более ¾ всей доступной оперативной памяти.

9. Какие шаги необходимо предпринять для разворачивания гостевой ОС из образа в программном продукте Oracle VM VirtualBox?

Для этого необходимо скачать образ виртуальной машины, произвести его настройку, выбрать необходимые параметры и загрузиться с него. Также можно скачать готовый жесткий диск образа и загрузиться с конфигурации.

10. Какую настройку в Oracle VM VirtualBox необходимо включить для обеспечения возможности копирования текста из гостевой ОС в хостовую ОС и обратно?

Для этого необходимо включить двунаправленный общий буфер обмена следующим образом:

Устройства > Общий буфер обмена > Двунаправленный

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-10-21 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: