Краткие теоретические сведения

Практическая работа на тему «Аугментация изображений» по дисциплине «Системы искусственного интеллекта»

Краткие теоретические сведения

Датасет – это обработанная и структурированная информация в табличном виде, разделяющая на несколько частей. Для обучения неронных сетей используется разделение всего датасета (исходных данных) на несколько частей – обучающая, валидационная и тестовая выборки.

В данной работе будет рассмотрен основной метод работы с обучением при недостаточно полном датасете.

Представьте ситуацию, вам необходимо разработать классификатор для определения нахождения на картинке определенного объекта. Для этого необходимо собрать датасет или найти готовый. К сожалению, далеко не для всех задач существуют полностью готовые для использования датасеты, чаще всего приходится собирать его вручную.

Например, вы хотите разработать нейронную сеть для определения нахождения на фотографии акулы. Допустим некоторый исследовательский институт, хочет наблюдать за этим видом рыб, плавающем у некоторого буйка с камерой. Конечно, задача специфическая, но именно в таких случаях следует прибегать к использованию нейронных сетей, а не простых линейных моделей.

Итак, акулы. В первую очередь, собираем датасет. В интернете огромное множество фотографий, видео и рисунков этих морских хищников, но все ли они нам подойдут? Рассмотрим один из них (рисунок 1).

Рисунок 1 – Фотография акулы №1

Отметим, что акула и вправду свирепая, страшная. Немного пугающая. И таких снимков подавляющее большинство – с обработкой, с профессиональной камеры и с интересного ракурса. Но такая фотография не подойдет для нашей задачи – фотографии из обучающей выборки должны быть маленького разрешения (зеркальный фотоаппарат на буйке вряд ли возможно закрепить), с необходимого ракурса (скорее всего камера будет сверху относительно морских существ) и без постобработки. Почему? Потому что правильно подобранная обучающая выборка – по сути и есть правильное техническое задание. Нейросети на вход будут приходить совершенно другие данные. И при таких условиях, количество подходящих фотографий становится меньше. Нам подойдут примерно такие фотографии – рисунок 2.

Рисунок 2 – Фотография акулы №2

Здесь и ракурс правильный, нет постобработки и разрешение не большое. Но таких фотографий мало. Мы не сможем найти их хотя бы больше 50 штук. И что делать в подобной ситуации? На помощь приходит известный метод работы с обучающим датасетом – аугментация.

Аугментация (от лат. увеличение) – методика создания новых данных из уже имеющихся или увеличение исходного датасета. Существует много способов аугментации, но выделим основные группы:

Таблица 1 – Классификация методов аугментации

Тип преобразований	Примеры преобразований
Геометрические преобразования	Сдвиги, повороты, проективные преобразования
Глобальные преобразования цвета	Гамма коррекция, искажение контраста
Локальные преобразования цвета	Гауссово сглаживание, бокс-фильтр, морфологические операции
Зашумления	Аддитивный гауссовский шум
Аппликация	Наложение объекта на фон, заданный другим изображением, наложение тени

В таблице 1 приведена не полная классификация преобразований – их намного больше. Здесь показаны чаще всего применяемые. Рассмотрим на нашем примере, как это работает.

Исходные данные – одна фотография (рисунок 2). Применим несколько преобразований. Показывать будем в формате – исходная картинка и преобразованная.

1) Отразим по вертикали:

Рисунок 3 – Отражение по вертикали

Из одного изображения мы получили два.

Продолжим:

2) Отразим по горизонтали:

Рисунок 4 – Отражение по горизонтали

Теперь у нас имеется четыре изображения. Если рассмотреть это подробнее, то по сути каждый раз мы поворачивали наше изображение на 180 градусов.

Подобные правила возможно вывести и из других преобразований.

3) Продолжим наши преобразования добавив к уже имеющийся выборке изображения с инвертированием цвета:

Рисунок 5 – Инвертирование цвета

Получилось 8 изображений в выборке. Конечно с реальностью инвертирование цвета не связано, но любое преобразование цвет ведёт к двукратному увеличению выборки, если не сказано обратное.

А теперь представим, что у нас после третьего преобразования будет поворот на 60 градусов. Сколько мы получим тогда изображений?

Где – количество изображений после преобразования, – количество исходных изображений, а – угол поворота.

Итак, у нас получилось в итоге 48 изображений. Конечно, преобразования надо подбирать конкретно под каждую задачу.И здесь преобразование цвета – лишнее, даже более того, оно плохо повлияет на обучение. Таких акул мы не встретим в реальной жизни.

Стоит отметить, что иногда все изображения преобразуются и исходных изображений в выборке не остается. То есть, если бы мы преобразовали изображения, например, отцентрировав их, то в выборке осталось бы 48 изображений, только уже отцентрированных

Краткие теоретические сведения

Поиск по сайту