Цикл 6. Уроки настоящей обработки данных / февраль Введение
Уважаемые участники проекта «Уроки настоящего», шестой цикл «Уроки настоящей обработки данных» посвящен автоматизированному анализу текстов: автоматическому исправлению орфографических ошибок и нормализации написания названий организаций с помощью алгоритмов и моделей Machine Learning.
Партнером цикла выступила компания Яндекс, которая в частности разработала языковой сервис Яндекс.Спеллер. Он помогает находить и исправлять орфографические ошибки в русском, украинском и английском текстах.
Яндекс поддерживает крупнейшую в России сеть центров обработки и хранения данных — десятки тысяч серверов. Вычислительные преимущества и алгоритмы компании используются для научных исследований, например, в области построения новых языковых моделей и даже в ядерных исследованиях.
Подробно о деятельности компании и тематике шестого цикла на лекции «Методы нормализации неструктурированных данных. Уточнение данных на практике » расскажет Алексей Толстиков, старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск).
Онлайн-лекция пройдет 4 февраля в 16:00 МCК.
В продолжении вам предстоит автоматизировать поиск ошибок и опечаток в словах и сопоставление разных названий одного и того же объекта.
Желаем успехов!
Лекция: Методы нормализации неструктурированных данных. Уточнение данных на практике Анонс лекции:
Посетители интернет-ресурсов при заполнении данных (оформление заказа, поисковый запрос и др.) могут допустить ошибку, например, опечатку в названии улицы, или неверно ввести название товара или организации. В итоге купленный товар не поступает адресату или поисковая система не находит подходящих результатов. Важно продумать и обеспечить условия того, чтобы система максимально постаралась понять неточный запрос и предложить наиболее подходящий результат. Для этого в некоторых случаях может использоваться сервис Яндекс.Спеллер, другие библиотеки и сервисы обработки данных или эвристики, реализованные самостоятельно.
На онлайн-лекции Алексей Толстиков подробно расскажет о:
- возможной классификации ошибок,
- методах нахождения ошибок/опечаток в тексте,
- сопоставлении данных в единое понятие (например, мы понимаем, что «МГУ» и «Московский государственный университет им. М.В. Ломоносова» почти всегда это один и тот же университет). Эти методы необходимы для повышения точности поиска информации в сети, верного и быстрого заполнения форм на сайтах и сокращения дублирования информации.
Инженерное и научное сообщество постоянно находится в поиске новых методов и способов исправления ошибок и неточностей. Вы попробуете реализовать свой метод и автоматизировать его с помощью алгоритмов и моделей Machine Learning.
Цикл 6. Уроки настоящей обработки данных / февраль
Материалы для ознакомления
- Возможности машинного обучения:
1.1 Статья «Машинное обучение» (авторы: Филипп Синицин, Станислав Федотов) (Источник: сайт «Учебник по ML», Школа анализа данных)
1.2. Статья «Спеллер» (автор: Денис Селезнев) (Источник: сайт Yandex.ru). - Исправление опечаток:
2.1. Статья «Методы обнаружения и исправления опечаток: исторический обзор» (автор: Т.О. Шаврина) (Источник: сайт «Публикации Высшей школы экономики»).
2.2. Статья «Обзор открытых решений для исправления опечаток» (блок компании NAUMEN) (Источник: сайт habr.com)
2.3 Статья «Практические применение алгоритмов нечеткого поиска» (автор: А.В. Лещенко) (Источник: Сборник научных трудов НГТУ. – 2018. – № 3–4 (93). – 59–69) - Нормализация названий с помощью регулярных выражений:
3.1 Статья «HOWTO по регулярным выражениям» (автор: А.М. Кучлинг) (Источник: сайт «Web-программирование»)
Цикл 6. Уроки настоящей обработки данных / февраль
Задачи от эксперта
Актуальность:
Для одного и того же понятия мы часто используем разные названия. Например, услышав названия «МГУ» и «МГУ им. Ломоносова», вы сопоставите эти варианты с одним университетом.
Предлагаем вам создать программу, которая сопоставляет разные названия объектов в одно понятие. Такое решение в любой индустрии могло бы использоваться в формах ввода в режиме автодополнения или корректировки названий объектов.
Вам необходимо реализовать две задачи:
В первой задаче — «Исправить опечатки» — вам необходимо обработать 100000100000 слов и определить, какие из них есть в предоставленном словаре, а какие могут быть получены:
- исправлением одной опечатки (вставкой, заменой или удалением одной буквы или перемещением двух соседних букв местами);
- исправлением двух опечаток.
Во второй задаче — «Нормализация названий университетов» — вам потребуется обработать 5000050000 строк данных и сопоставить их с 757757 эталонными названиями.
Комментарий:
При формировании тестовых названий использованы как самые популярные, так и редкие виды ошибок и опечаток.
Перед решением задачи необходимо:
- Руководителю студии проверить электронную почту, указанную при регистрации на проект, на наличие сообщения о логине и пароле для входа на платформу Яндекс.Контест. Логин и пароль выдается общий на всю команду. Если на почту руководителя студии не поступило подобное сообщение, то напишите об этом в группу проекта.
- Перейти на платформу Яндекс.Контест.
- Авторизоваться: ввести логин и пароль в предложенные строки.
- Познакомиться с формулировкой задачи, инструкциями, примерами, оценкой решения, форматом представления работы для автоматической проверки.
Цикл 6. Уроки настоящей обработки данных / февраль