Зачем нужна программа распознавания текста.




Программа распознавания текстов FineReader, версии от 6 до 11.

В этом уроке мы рассмотрим конструкцию сканера и общие правила сканирования и распознавания текста при помощи программы ABBY Fine Reader. При создании урока использован опыт работы с версиями программы Fine Reader от 6 до 11.

Как устроен сканер.

Бытовой сканер – это оптико-механическое электронное устройство. Механизм сканера помещается в герметический корпус, стеклянный сверху. На это стекло кладётся сканируемый лист или книга в развороте. Под стеклом ездит очень яркая продольная лампа, освещающая сканируемый лист. Вместе с лампой ездит узкое продольное зеркало. Это зеркало постоянно изменяет угол своего наклона так, чтобы проецировать освещённую полоску изображения на продольный фотосчитыватель, расположенный неподвижно на задней стенке сканера.

Теперь становится понятным, что изображение считывается сканером в виде тонких ниточек. Каждая ниточка – это цепочка точек. Ниточки распознанных точек постоянно передаются сканером в компьютер. И уже драйвер сканера складывает из этих ниточек изображение и передаёт его запросившей программе в виде графического файла.

Немного упрощённая модель бытового сканера, но зато всё должно стать понятным.

Раньше сканеры подключались к компьютеру через LPT-порт. Но затем скорости этого порта стало не хватать, и сканеры начали подключать через более скоростной USB-порт.

Сканирование одной страницы у хорошего сканера должно занимать до 20 секунд.

После сканирования страницы лампа и зеркало сканера возвращаются на исходную позицию. Это называется обратным ходом сканера. Во время обратного хода можно переворачивать и менять страницы. Современный компьютер успевает за время обратного хода распознать отсканированную страницу.

Крышку сканера при сканировании текста закрывать не обязательно.

Параметры сканирования.

Сканер выдаёт нам картинку. Эта картинка состоит из набора цветных или чёрно-белых точек, для каждой из которых сканер распознаёт цвет.

Плотность распознаваемых точек называется разрешающей способностью сканера. Максимальная разрешающая способность ограничена оптическими возможностями сканера. Разрешение сканера можно регулировать программным путём. Уменьшение разрешения ускоряет работу сканера.

Разрешающая способность измеряется количеством точек на дюйм и обозначается как «dpi». Например, для сканирования нормального текста достаточно установить разрешение в 300 dpi, что составляет примерно 12 точек на миллиметр. Разрешение монитора компьютера меньше 100 dpi. Очень хорошим разрешением для принтера является 600 dpi. Поэтому для бытовых потребностей большего разрешения сканера и не требуется.

Сканирование может производиться в трёх режимах: цветном, сером и чёрно-белом.

Начнём с цветного режима, как естественного. В цветном режиме сканирования сканер определяет цвет для каждой точки. Сканер может различать несколько миллионов цветов или оттенков цветов. Значит, задача сканера – выдать для каждой точки число, которое определяет цвет точки среди миллионов оттенков цветов. Числа выходят большими. Поэтому и файлы цветных рисунков имеют большие размеры. И передача цветного изображения из сканера в компьютер происходит медленнее.

Если нам не важен цвет изображения, то можно облегчить работу сканеру и компьютеру, задав сканирование в сером режиме. При этом сканер будет определять для каждой точки один из 256 оттенков серого цвета. Это все оттенки от абсолютно белого до абсолютно чёрного. При этом сканер выдаёт для каждой точки число от 1 до 256, что значительно меньше миллионов цветных оттенков. Размер серого графического файла на порядок меньше размера цветного файла.

Но для сканирования текста нам и этого много. Нам нужно только отличать чёрные буквы от белой бумаги. Поэтому у сканера есть ещё третий режим сканирования. Это чёрно-белый режим. При чёрно-белом режиме для каждой точки определяется только два варианта цвета. Точка может быть или чёрной, или белой. Графический файл с чёрно-белым изображением тоже имеет на порядок меньший размер, чем файл с серым изображением.

А как же быть с серыми точками?

Сканер устанавливает условную границу серого цвета. Всё, что светлее этой границы, относится к белому цвету. А всё, что темнее, относится к чёрному цвету.

А как сдвигать эту границу, чтобы в чёрный цвет не попали серые пятна на бумаге или чтобы в белый цвет не попали бледные буквы? Эта граница сдвигается при помощи уровня яркости.

Добавляя яркость, мы осветляем серую бумагу. Уменьшая яркость, мы зачерняем бледные буквы.

А если наш текст напечатан бледными буквами на грязно-серой бумаге, то нужно переходить к серому режиму сканирования, иначе пятна бумаги наложатся на буквы и отличить их станет невозможно.

Опыт сканирования показывает, что наиболее оптимальным является серый режим сканирования. Из-за изгиба бумаги при освещении места разворота книги лампой сканера там образуется тень. При сером режиме сканирования эта тень будет серой и буквы в этом месте будут видны. При чёрно-белом режиме сканирования тень может стать чёрной и буквы, попавшие в область тени, пропадут.

Зачем нужна программа распознавания текста.

Познакомившись со сканером и процессом сканирования, мы понимаем, что сканер можно сравнить с фотоаппаратом. Он выдаёт нам фотографию страницы текста. Это набор очень большого количества цветных или чёрно-белых точек.

А как же выделить текст из этих сотен тысяч и миллионов точек?

Для этого служат очень большие и сложные программы распознавания текста. Проводя сложный и трудоёмкий процесс анализа графического файла, программа распознавания текста отделяет и распознаёт символы или относит скопления точек к разряду рисунков.

На сегодняшний день лучшей в мире программой распознавания текстов является московская программа FineReader, которую мы и будем изучать.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-20 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: