Цикл 6. Уроки настоящей обработки данных / февраль

Цикл 6. Уроки настоящей обработки данных / февраль Введение

Уважаемые участники проекта «Уроки настоящего», шестой цикл «Уроки настоящей обработки данных» посвящен автоматизированному анализу текстов: автоматическому исправлению орфографических ошибок и нормализации написания названий организаций с помощью алгоритмов и моделей Machine Learning.

Партнером цикла выступила компания Яндекс, которая в частности разработала языковой сервис Яндекс.Спеллер. Он помогает находить и исправлять орфографические ошибки в русском, украинском и английском текстах.

Яндекс поддерживает крупнейшую в России сеть центров обработки и хранения данных — десятки тысяч серверов. Вычислительные преимущества и алгоритмы компании используются для научных исследований, например, в области построения новых языковых моделей и даже в ядерных исследованиях.

Подробно о деятельности компании и тематике шестого цикла на лекции «Методы нормализации неструктурированных данных. Уточнение данных на практике » расскажет Алексей Толстиков, старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск).

Онлайн-лекция пройдет 4 февраля в 16:00 МCК.

В продолжении вам предстоит автоматизировать поиск ошибок и опечаток в словах и сопоставление разных названий одного и того же объекта.

Желаем успехов!

Лекция: Методы нормализации неструктурированных данных. Уточнение данных на практике Анонс лекции:

Посетители интернет-ресурсов при заполнении данных (оформление заказа, поисковый запрос и др.) могут допустить ошибку, например, опечатку в названии улицы, или неверно ввести название товара или организации. В итоге купленный товар не поступает адресату или поисковая система не находит подходящих результатов. Важно продумать и обеспечить условия того, чтобы система максимально постаралась понять неточный запрос и предложить наиболее подходящий результат. Для этого в некоторых случаях может использоваться сервис Яндекс.Спеллер, другие библиотеки и сервисы обработки данных или эвристики, реализованные самостоятельно.

На онлайн-лекции Алексей Толстиков подробно расскажет о:

возможной классификации ошибок,

методах нахождения ошибок/опечаток в тексте,

сопоставлении данных в единое понятие (например, мы понимаем, что «МГУ» и «Московский государственный университет им. М.В. Ломоносова» почти всегда это один и тот же университет). Эти методы необходимы для повышения точности поиска информации в сети, верного и быстрого заполнения форм на сайтах и сокращения дублирования информации.

Инженерное и научное сообщество постоянно находится в поиске новых методов и способов исправления ошибок и неточностей. Вы попробуете реализовать свой метод и автоматизировать его с помощью алгоритмов и моделей Machine Learning.

Цикл 6. Уроки настоящей обработки данных / февраль

Материалы для ознакомления

Возможности машинного обучения:
1.1 Статья «Машинное обучение» (авторы: Филипп Синицин, Станислав Федотов) (Источник: сайт «Учебник по ML», Школа анализа данных)
1.2. Статья «Спеллер» (автор: Денис Селезнев) (Источник: сайт Yandex.ru).
Исправление опечаток:
2.1. Статья «Методы обнаружения и исправления опечаток: исторический обзор» (автор: Т.О. Шаврина) (Источник: сайт «Публикации Высшей школы экономики»).
2.2. Статья «Обзор открытых решений для исправления опечаток» (блок компании NAUMEN) (Источник: сайт habr.com)
2.3 Статья «Практические применение алгоритмов нечеткого поиска» (автор: А.В. Лещенко) (Источник: Сборник научных трудов НГТУ. – 2018. – № 3–4 (93). – 59–69)
Нормализация названий с помощью регулярных выражений:
3.1 Статья «HOWTO по регулярным выражениям» (автор: А.М. Кучлинг) (Источник: сайт «Web-программирование»)

Цикл 6. Уроки настоящей обработки данных / февраль

Задачи от эксперта

Актуальность:
Для одного и того же понятия мы часто используем разные названия. Например, услышав названия «МГУ» и «МГУ им. Ломоносова», вы сопоставите эти варианты с одним университетом.
Предлагаем вам создать программу, которая сопоставляет разные названия объектов в одно понятие. Такое решение в любой индустрии могло бы использоваться в формах ввода в режиме автодополнения или корректировки названий объектов.

Вам необходимо реализовать две задачи:
В первой задаче — «Исправить опечатки» — вам необходимо обработать 100000100000 слов и определить, какие из них есть в предоставленном словаре, а какие могут быть получены:

исправлением одной опечатки (вставкой, заменой или удалением одной буквы или перемещением двух соседних букв местами);
исправлением двух опечаток.

Во второй задаче — «Нормализация названий университетов» — вам потребуется обработать 5000050000 строк данных и сопоставить их с 757757 эталонными названиями.

Комментарий:
При формировании тестовых названий использованы как самые популярные, так и редкие виды ошибок и опечаток.

Перед решением задачи необходимо:

Руководителю студии проверить электронную почту, указанную при регистрации на проект, на наличие сообщения о логине и пароле для входа на платформу Яндекс.Контест. Логин и пароль выдается общий на всю команду. Если на почту руководителя студии не поступило подобное сообщение, то напишите об этом в группу проекта.
Перейти на платформу Яндекс.Контест.
Авторизоваться: ввести логин и пароль в предложенные строки.
Познакомиться с формулировкой задачи, инструкциями, примерами, оценкой решения, форматом представления работы для автоматической проверки.

Цикл 6. Уроки настоящей обработки данных / февраль

Цикл 6. Уроки настоящей обработки данных / февраль

Поиск по сайту