Методы распознавания символов

Лекция 23

Возможности систем распознавания текстов.

Задание: ознакомившись с теоретическим материалом, ответьте на вопросы:

1. Зачем нужны программы распознавания текста?

2. Как происходит распознавание текста?

3. Какие программы распознания текста вы знаете? Какими пользовались?

4. Какое разрешение является оптимальным для сканирования текста, изображений?

Теоретический материал

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл – обычную картинку. Текст можно будет читать, распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Основным методом перевода бумажных документов в электронную форму является сканирование. В результате сканирования получается графическое изображение, состоящее из точек, т.е. растровое изображение. Количество точек определяется как размером изображения, так и разрешением сканера.

Графический образ, получаемый после сканирования документа, иногда необходимо перевести в текст. Для этого используются специальные программные средства, называемые средствами распознавания образов. Из программ, способных распознавать текст на русском языке наиболее известной является ABBYY Fine Reader.

Преобразование документа в электронный вид происходит в три основных этапа. Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя.

1. Сканирование. Запускается сканирующий модуль, настраиваются параметры сканирования (разрешение, размер, тип сканирования) и происходит собственно сканирование.

2. Сегментация и распознавание текста. Прежде чем получить готовый текст, необходимо разбить фрагменты документа на блоки (текст, рисунок, таблица и т.д.), для того, чтобы правильно их распознать (преобразовать в текстовый документ).

3. Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.

Методы распознавания символов

· Если исходный документ имеет типографское качество, то задача распознавания решается методом сравнения с растровым шаблоном.

· При распознавании документов с низким качеством печати используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).

Ска́нер (англ. scanner) – устройство, которое создаёт цифровое изображение сканируемого объекта. Полученное изображение может быть сохранено как графический файл, или, если оригинал содержал текст, распознано посредством программы распознавания текста и сохранено как текстовый файл.

В зависимости от способа сканирования объекта и самих объектов сканирования существуют следующие виды сканеров:

1. Планшетные – наиболее распространённые, поскольку обеспечивают максимальное удобство для пользователя – высокое качество и приемлемую скорость сканирования. Представляет собой планшет, внутри которого под прозрачным стеклом расположен механизм сканирования.

2. Барабанные – применяются в полиграфии, имеют большое разрешение (около 10 тысяч точек на дюйм). Оригинал располагается на внутренней или внешней стенке прозрачного цилиндра (барабана).

3. Ручные – в них отсутствует двигатель, следовательно, объект приходится сканировать вручную, единственным его плюсом является дешевизна и мобильность, при этом он имеет массу недостатков – низкое разрешение, малую скорость работы, узкая полоса сканирования, возможны перекосы изображения, поскольку пользователю будет трудно перемещать сканер с постоянной скоростью.

4. Сканеры штрих-кода – небольшие, компактные модели для сканирования штрих-кодов товара в магазинах.

Оптимальным разрешением для обычных текстов является – 300 dpi (dots per inch, логическая единица измерения, то есть количество точек на дюйм) и 400–600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если необходимо, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.

ABBYY FineReader

FineReader – омнифонтовая (то есть система, распознающая символы практически любых размеров и начертаний) система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати.

FineReader имеет массы дополнительных функций и удобный интерфейс:

1. распознавание текста;

2. все найденные программой ошибки выделяются цветом. Затем программа производит проверку текста на наличие орфографических ошибок, и все некорректные слова подчеркивает красными линиями. Обнаруженные изображения программа выделяет красным цветом и в дальнейшем их не обрабатывает, а оставляет их такими, какие они есть, соответственно и передает их такими, как они получились при сканировании.

3. Редактирование полученного документа.

Если изображение во время сканирования было немного повернуто, то этот недостаток устраняется с помощью функции «Исправить перекос». Функция «Фотокоррекция» позволяет исправить искажение строк, устранить размытие картинки, уменьшить шум. Программа также допускает устранение трапециевидных искажений, позволяет отражать и поворачивать картинку, автоматически разбивать изображения на части, удалять лишнее путем обрезки краев, инвертировать цвет изображения, менять разрешение снимка и даже стирать часть изображения. После редактирования необходимо повторить анализа скана. Для решения этой проблемы щелкаем на кнопку «Картинка» и отмечаем все формулы как изображения.

Редактирование ошибок в тексте. Для этого используем кнопку «Проверка орфографии». Если есть необходимость, то можно воспользоваться функцией расстановки переносов.

Редактирование всего текста осуществляется с помощью соответствующей панели. Пользователь может изменить шрифт теста, его размер, включить такие эффекты как курсив, подчеркивание, выделение жирным цветом. Если необходимо, то можно выровнять текст (четыре варианта), изменить направление письма (справа налево). Имеется даже режим редактирования гиперссылок.

Все изображения, относящиеся к данному документу, могут быть скопированы, вырезаны, вставлены или повернуты с помощью соответствующей панели редактирования. Сначала пользователь должен выбрать режим редактирования (простой текст, точная копия, редактируемая копия, форматированный текст).

В зависимости от режима может изменяться структура документа. Пользователь также может включить режим «без картинок» и «без колонтитулов», что упростит работу с текстом.

4. На вкладке «Документ» можно определить язык документа, тип печати, задать атрибуты конечного файла (указать название, тему и автора документа, ввести ключевые слова).

Вторая вкладка содержит ряд настроек, позволяющих автоматически анализировать и распознавать принятые изображения, выполнять предобработку изображений, определять ориентацию страниц, делить разворот книги.

Вкладка «Распознать» определяет режим распознавания (быстрый или тщательный), а также позволяет использовать пользовательский эталон для обучения программы.

Вкладка «Сохранить» позволяет выбрать режим сохранения - в файл типа *.rtf, *.doc, *.docx, *.xls, *.html, *.pptx, *.csv, *.txt или *.pdf. Здесь же пользователь выбирает оформление документа (форматируемый текст, точная копия, простой текст) и размер бумаги. Допускается сохранение текста вместе с колонтитулами и делением на страницы и строки. Для каждого формата имеются небольшие отличия в настройках.

Вкладка «Вид» позволяет представлять страницы в виде таблиц или пиктограмм. Здесь же находятся настройки, согласно которым программа может выделять неуверенно распознанные символы и не словарные слова. Здесь же настраивается цвет выделения для каждого объекта на странице.

Вкладка «Дополнительные» содержит список шрифтов, которые используются для отображения распознанного текста. Здесь же можно настроить проверку орфографии. Программа может обрабатывать неуверенно распознанные слова и слова, не входящие в программные словари, также возможна автоматическая обработка сложных слов и слов, содержащих цифры и другие неалфавитные символы. Дополнительно программа может корректировать пробелы между словами. На этой же вкладке можно подключить пользовательские словари, указав папку, в которой они хранятся.

Панель «Изображение» содержит настройки, предназначенные для редактирования объектов на странице.

Помимо редактирования формата отсканированной страницы пользователь может самостоятельно выделять области с текстом, картинки и таблицы, а затем распознавать обработанную страницу. В определенных условиях ручной режим определения типа блока может значительно повысить качество обрабатываемого документа. Выделяем необходимую часть отсканированной страницы и выбираем необходимый тип блока на этой панели. После ручной обработки необходимого объема материала запускаем распознавание. Программа допускает совместное использование автоматического и ручного определения типов блоков.

Обработанный таким образом документ может быть сохранен в формате Word, Excel или Acrobat Reader.

Методы распознавания символов

Поиск по сайту