Еще раз об их репрезентативности в плане изучения индивидуально-авторских особенностей.
Сопоставление
По результатам анализа можно выделить сферы, в большей и в меньшей степени характерные для авторов
Почему такие методы полезны?
Неинтуитивное определение базового набора художественных концептов
Системное описание идиостиля
Коррекция существующих представлений
Выявление «фоновых» характеристик текста
Подробнее об этом исследовании –
в моей книге:
Компьютерная проверка правописания. Повышение скорости набора текста
Проверка правописания
Орфокорректор
Автокорректор
Спеллер
Спел-чекер
Spell checker, spelling corrector (с функциями исправления ошибок)
Может быть встроена как отдельная функция в текстовый редактор, электронный словарь, браузер, поисковую систему и т.п.
Может представлять собой самостоятельную программу.
Самая известная
WinOrfo (интегрирована в MS Office до версии 2013 г.)
Русскоязычная версия (сегодня называется Orfo, © Информатик) создана в 1995 г.
https://www.orfo.ru/
В основном построена на словнике грамматического словаря А. А. Зализняка – наследует ряд уже обсужденных проблем
WinOrfo разрешает/разрешал
(по данным Э. К. Лавошниковой на 2002 г., исправленное в офис 2003-2010 выделено красным)
Вскоре – в скоре
Подражать – подрожать
Пародировать – парадировать
(пере)платить – (пере)плотить
(по)щипать – (по)щепать
Халява – холява (стекл. цилиндр, голенище)
Ас – асс (римская монета)
Нормали зуем, детали зуя (зуй – птица)
Дат чик, счастлив чик, та кой
Лжи вый, пер вые (от «выя»)
Придел али, запуск али («али» – союз, имя)
Пот ерь, изб ерем, прим ерь (от «ерь»)
Две рцы, то рцы, ста рцы (от «рцы», буква)
Кассир ша, юно ша («ша» – буква и межд.)
Ник уда, с удов, не удов (от «уд»)
Учи теля, строи теля, зри теля, теля тина (от слова «теля»
WinOrfo разрешает/разрешал
Слонять
Впивать
Запреть
Пхать
Узить
Выяснеть
Прообразовать
Сбирать
Прелагать
WinOrfo разрешает/разрешал
Грам. формы деепричастий
Отря
Подотря
Распростря
Простря
Падя
Выгрызя
Заползя
Перемря
Помря
Умря
Реакция WinOrfo на новые слова
Евро
Дефолт
Электорат
Талиб
Хит
автослесарь (с версии 2012 г.) … … …
Интернет (только Интернет) и путин/Путин появились относительно недавно
Проблемы параллелей в русской и латинской графике
У у
Е е
А а
О о
С с
Р р
Н
Х х
Проблема буквы Ё
Для спеллера Орфо Е = Ё и Ё = Е
Это удобно в случаях ёж/еж, лёд/лед
Но! зёмля, рёшёниё, длинношёёё
пропускаются корректором!
В новой автономной версии Orfo 2012 эта проблема исправлена.
Методы выявления орф. ошибок
Словарный – сопоставление со списком порождаемых словоформ (англ. яз.: порядка 350 тыс.; русск. яз.:??? миллионы словоформ.
Тем не менее словарный метод оказывается наиболее действенным и распространенным.
Методы выявления орф. ошибок
Статистический (простой) – список словоформ текста сопоставляется со списком эталонных текстов; те, что встречаются один раз, помечаются как возможно ошибочные.
полиграммный – основан на вероятности сочетаний символов в графике (гэ, йй, ъо, ьо, ъ_, жэ); возможное использование в подсказке или в качестве дополнительного.
Ошибки бывают разными, как и принципы орфографии
Передача буквами фонемного состава
Слитно/раздельно/через дефис
Прописные/строчные
Правила переноса
Правила графических сокращений
Эти разделы по-разному реализованы в WinOrfo.
Разные орфограммы
требуют привлечения разноуровневого автоматического анализа: от чисто графематического (применяется везде) до (!) семантического.
А в некоторых случаях не обойтись без акцентного анализа, что само по себе невозможно (никто – некто).
Передача буквами фонем
Гласные
Безударные
После шипящих и Ц
Е/Э
Согласные
Глухие/звонкие
Непроизносимые
Удвоенные/неудвоенные (в том числе Н и НН)
Употребление Й
Основные проблемы раздела
Омофония (остальные формы легко подаются списком); омофония и омография не только целых слов, но и их частей (случайное разбиение слов при наборе).
Встречаемость малочастотных буквосочетаний (например, в аббревиатурах)
Изменчивость словаря
Словообразовательные, морфологические, синтаксические и семантические аспекты правил
Слитно/раздельно/дефис
Дефисные написания: разные принципы
Частица НЕ и приставка НЕ- (одна из самых тяжелых «загвоздок» автоматического анализа)
Сложные предлоги, союзы, наречия
Прописные/строчные буквы
Начало предложения, прямой речи
Аббревиатуры
Имена собственные (омонимия!)
Составные наименования
Относительные прил. от имен собств-х
Несистемные случаи: субъекты в юрид. документах, философские категории и т.п.
Правила переноса
В системе ОРФО поддерживается деление слова на сегменты в соответствии с принципами: морфематическим и фонетическим. Возможна вставка «мягкого переноса» пользователем. Отличие этого знака от дефиса.