Методы автоматического распознавания образов и их реализация в системах оптического чтения текстов (OCR-системах – Optical Character Recognition) – одна из самых плодотворных технологий ИИ. В развитии этой технологии российские ученые занимают ведущие позиции в мире.
OCR-система понимается как средство для автоматического распознавания с помощью специальных графических программ символов печатного или рукописного текста (например, введенного в компьютер с помощью сканера) и преобразования его в формат, пригодный для обработки текстовыми процессорами, редакторами текстов и т.д.
Промышленное использование предполагает ввод документов хорошего и среднего качества – это обработка бланков переписи населения, налоговых деклараций и т.д.
Особенности предметной области, существенные с точки зрения OCR-систем:
– шрифтовое и размерное разнообразие символов;
– искажения в изображениях символов (разрывы образов символов);
– перекосы при сканировании;
– посторонние включения в изображениях;
– сочетание фрагментов текста на разных языках;
– большое разнообразие классов символов, которые могут быть распознаны только при наличии дополнительной контекстной информации.
Выделяются три принципа, на которых основаны все OCR-системы:
– принцип целенаправленности: распознавание является целенаправленным процессом выдвижения и проверки гипотез (поиска того, что ожидается от объекта);
– принцип адаптивности: распознающая система должна быть способна к самообучению;
– принцип целостности образа: в исследуемом объекте всегда есть значимые части, между которыми существуют отношения. Результаты локальных операций с частями образа интерпретируются только совместно в процессе интерпретации целостных фрагментов и всего образа в целом.
|
FineReader выпускается компанией ABBYY, которая была основана в августе 1989 г. Разработки компании ABBYY ведутся в двух направлениях: машинное зрение и прикладная лингвистика. Стратегическим направлением научных исследований и разработок является естественно-языковой аспект технологий в области машинного зрения, искусственного интеллекта и прикладной лингвистики.
CuneiForm GOLD для Windows является первой в мире самообучаемой интеллектуальной OCR-системой, использующей новейшую технологию адаптивного распознавания текстов. Поддерживает много языков. Для каждого языка поставляется словарь для контекстной проверки и повышения качества результатов распознавания. Распознает любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров, за исключением декоративных и рукописных. Распознает очень низкокачественные тексты.
Характеристики систем распознавания образов. Среди OCR-технологий важное значение имеют специальные технологии решения отдельных классов задач автоматического распознавания образов:
– поиск людей по фотографиям;
– поиск месторождений полезных ископаемых и прогнозирование погоды по данным аэрофотосъемки и снимкам со спутников в различных диапазонах светового излучения;
– составление географических карт по исходной информации, используемой в предыдущей задаче;
– анализ отпечатков пальцев и рисунков радужной оболочки глаза в криминалистике, охранных и медицинских системах.
|
Машинный перевод текстов с одних естественных языков на другие
Два аспекта, определяющих актуальность задач машинного перевода (МП):
– все возрастающая потребность в переводах в науке, литературе, дипломатии, экономике и других областях деятельности;
– для МП гораздо яснее критерии оценивания результатов, чем в задачах понимания текстов, организации диалогов и др.
Системы МП различают по трем аспектам:
– по рабочим языкам (различают двуязычные и многоязычные системы МП);
– по типам текстов (для перевода письменного текста и устного диалога);
– по ограничениям по предметной области (обусловлены поддержкой в них лексики, соответствующей той или иной области знаний: медицины, информатики, математики и пр.).
Автоматическая классификация документов
Потребности в средствах автоматической классификации документов испытывают:
– корпоративные системы документооборота;
– каталоги Интернета;
– каналы вещания;
– службы электронной почты;
– электронные библиотеки;
– информационные агентства;
– интернет-порталы и др.