Так обычно строятся авторские частотные словари




Еще раз об их репрезентативности в плане изучения индивидуально-авторских особенностей.

Сопоставление

По результатам анализа можно выделить сферы, в большей и в меньшей степени характерные для авторов

Почему такие методы полезны?

Неинтуитивное определение базового набора художественных концептов

Системное описание идиостиля

Коррекция существующих представлений

Выявление «фоновых» характеристик текста

Подробнее об этом исследовании –
в моей книге:

Компьютерная проверка правописания. Повышение скорости набора текста

Проверка правописания

Орфокорректор

Автокорректор

Спеллер

Спел-чекер

Spell checker, spelling corrector (с функциями исправления ошибок)

Может быть встроена как отдельная функция в текстовый редактор, электронный словарь, браузер, поисковую систему и т.п.

Может представлять собой самостоятельную программу.

Самая известная

WinOrfo (интегрирована в MS Office до версии 2013 г.)

Русскоязычная версия (сегодня называется Orfo, © Информатик) создана в 1995 г.

https://www.orfo.ru/

В основном построена на словнике грамматического словаря А. А. Зализняка – наследует ряд уже обсужденных проблем

WinOrfo разрешает/разрешал
(по данным Э. К. Лавошниковой на 2002 г., исправленное в офис 2003-2010 выделено красным)

Вскоре – в скоре

Подражать – подрожать

Пародировать – парадировать

(пере)платить – (пере)плотить

(по)щипать – (по)щепать

Халява – холява (стекл. цилиндр, голенище)

Ас – асс (римская монета)

Нормали зуем, детали зуя (зуй – птица)

Дат чик, счастлив чик, та кой

Лжи вый, пер вые (от «выя»)

Придел али, запуск али («али» – союз, имя)

Пот ерь, изб ерем, прим ерь (от «ерь»)

Две рцы, то рцы, ста рцы (от «рцы», буква)

Кассир ша, юно ша («ша» – буква и межд.)

Ник уда, с удов, не удов (от «уд»)

Учи теля, строи теля, зри теля, теля тина (от слова «теля»

WinOrfo разрешает/разрешал

Слонять

Впивать

Запреть

Пхать

Узить

Выяснеть

Прообразовать

Сбирать

Прелагать

WinOrfo разрешает/разрешал

Грам. формы деепричастий

Отря

Подотря

Распростря

Простря

Падя

Выгрызя

Заползя

Перемря

Помря

Умря

Реакция WinOrfo на новые слова

Евро

Дефолт

Электорат

Талиб

Хит

автослесарь (с версии 2012 г.) … … …

Интернет (только Интернет) и путин/Путин появились относительно недавно

Проблемы параллелей в русской и латинской графике

У у

Е е

А а

О о

С с

Р р

Н

Х х

Проблема буквы Ё

Для спеллера Орфо Е = Ё и Ё = Е

Это удобно в случаях ёж/еж, лёд/лед

Но! зёмля, рёшёниё, длинношёёё

пропускаются корректором!

В новой автономной версии Orfo 2012 эта проблема исправлена.

Методы выявления орф. ошибок

Словарный – сопоставление со списком порождаемых словоформ (англ. яз.: порядка 350 тыс.; русск. яз.:??? миллионы словоформ.

Тем не менее словарный метод оказывается наиболее действенным и распространенным.

Методы выявления орф. ошибок

Статистический (простой) – список словоформ текста сопоставляется со списком эталонных текстов; те, что встречаются один раз, помечаются как возможно ошибочные.

полиграммный – основан на вероятности сочетаний символов в графике (гэ, йй, ъо, ьо, ъ_, жэ); возможное использование в подсказке или в качестве дополнительного.

Ошибки бывают разными, как и принципы орфографии

Передача буквами фонемного состава

Слитно/раздельно/через дефис

Прописные/строчные

Правила переноса

Правила графических сокращений

Эти разделы по-разному реализованы в WinOrfo.

Разные орфограммы

требуют привлечения разноуровневого автоматического анализа: от чисто графематического (применяется везде) до (!) семантического.

А в некоторых случаях не обойтись без акцентного анализа, что само по себе невозможно (никто – некто).

Передача буквами фонем

Гласные

Безударные

После шипящих и Ц

Е/Э

Согласные

Глухие/звонкие

Непроизносимые

Удвоенные/неудвоенные (в том числе Н и НН)

Употребление Й

Основные проблемы раздела

Омофония (остальные формы легко подаются списком); омофония и омография не только целых слов, но и их частей (случайное разбиение слов при наборе).

Встречаемость малочастотных буквосочетаний (например, в аббревиатурах)

Изменчивость словаря

Словообразовательные, морфологические, синтаксические и семантические аспекты правил

Слитно/раздельно/дефис

Дефисные написания: разные принципы

Частица НЕ и приставка НЕ- (одна из самых тяжелых «загвоздок» автоматического анализа)

Сложные предлоги, союзы, наречия

Прописные/строчные буквы

Начало предложения, прямой речи

Аббревиатуры

Имена собственные (омонимия!)

Составные наименования

Относительные прил. от имен собств-х

Несистемные случаи: субъекты в юрид. документах, философские категории и т.п.

Правила переноса

В системе ОРФО поддерживается деление слова на сегменты в соответствии с принципами: морфематическим и фонетическим. Возможна вставка «мягкого переноса» пользователем. Отличие этого знака от дефиса.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: