В ИНТЕЛЛЕКТУАЛЬНЫХ ТРАНСПОРТНЫХ СИСТЕМАХ




Селиверстов Ярослав Александрович – кандидат технических наук, старший научный сотрудник лаборатории интеллектуальных транспортных систем

ФГБУН Институт проблем транспорта им. Н.С. Соломенко Российской академии наук

199178, Россия, Санкт-Петербург, 12 линия В.О., д. 13, seliverstov-yr@mail.ru

Чигур Виктория Игоревна – студент первого курса бакалавриата факультета прикладной математики – процессов управления, кафедры прикладной математики и информатики

Санкт-Петербургский государственный университет

198504, Россия, Санкт-Петербург, Петергоф, Университетский проспект, д. 35, v.chigur67@gmail.com

Аннотация. Производится анализ существующих дорожно-транспортных систем с применением анализа текстов на естественном языке. Приводятся архитектуры веб-краулеры с открытым исходным кодом и краулер-сервисов для тематического сбора и анализа данных. Производится разработка и тестирование элементов системы для извлечения и анализа текстов дорожно-транспортной проблематики, на примере пользовательской оценки качества дорог на сайте автострада. Рассматриваются перспективы дальнейшего функционального развития разрабатываемого инструментария.

Ключевые слова: автоматический анализ текстов, краулеры, классификация текстов, интеллектуальные транспортные системы, умная логистика, машинное обучение, семантико-синтаксический анализ.

«TEXT MINING» IN INTELLIGENT TRANSPORT SYSTEMS

Seliverstov Yaroslav A. – Ph.D., Senior Researcher, Laboratory of Intelligent Transport Systems

Solomenko Institute of Transport Problems of the Russian Academy of Sciences

12-th Line VO,13, St. Petersburg, 199178, Russian Federation, seliverstov-yr@mail.ru

Chigur Viktoria I. – first year student of the bachelor's degree in Applied Mathematics and Control Processes, Department of Applied Mathematics and Informatics

Saint-Petersburg State University

Universitetsky ave., 35, Peterhof, St. Petersburg, 198504, Russian Federation, v.chigur67@gmail.com

Abstract. The analysis of existing road transport systems is carried out using the analysis of texts in natural language. The architecture of web crawlers with open source code and crawler services for thematic data collection and analysis is given. The development and testing of the system components for extracting and analyzing the texts of road transport problems is carried out, using the example of a user assessment of the quality of roads on the highway site. The prospects of further functional development of the developed toolkit are considered.

Keywords: automatic text analysis, crawlers, classification of texts, intelligent transport systems, smart logistics, machine learning, semantic-syntactic analysis.

Стремительное развитие мобильных и облачных технологий, перевод логистической, потребительской, коммуникационной и расчетно-денежной деятельностей в информационно-сетевое пространство открывает новые пути развития интеллектуальных транспортных систем [1,2].

Одним из источников разнородной информации, относящейся к сфере транспорта и логистики, является WEB-пространство. Сегодня данные в WEB-пространстве, как правило, структурированы и разбросаны по тематическим интернет-ресурсам. К таковым относят: специализированные сайты (https://autostrada.info/ru), тематические интернет сообщества (https://www.worldoftrucks.com/en/), группы в социальных сетях (Вконтакте, Facebook) и сетях микроблогинга (Twitter), а также чаты и форумы.

В связи с этим становится актуальной решение двух задач: первая заключается в непосредственном анализе полезности транспортной информации [3], т.е. на решение каких проблем и для каких потребителей используется та или иная информация из транспортной сферы, собранная в web-пространстве; и вторая задача − в непосредственном построении таких систем для извлечения и анализа текстовых данных из Интернет [4,5].

На первом этапе разрабатывается алгоритм системы для извлечения и анализа тематических текстов, обобщенная схема которого представлена на рис.1.

Общий алгоритм состоит из следующих процедур:

1) формирование очереди ссылок, подаваемых на вход краулера;

2) список источников добавляются в очередь обхода краулера;

3) робот сканирует страницу из очереди и скачивает интересующий его веб-документ;

4) очистка веб-документа от "мусора";

5) сохранение очищенного текста в базу данных;

6) подготовка коллекций, разметка текстов и построение корпуса тематических текстов;

7) обучение классификатора на различных корпусах текстов.

На втором этапе исследования нами разрабатывался краулер-модуль. На схеме алгоритма он выделен синим контуром. Краулер-модуль выполняет с 1-5 процедуры алгоритма. Листинг программы представлен на рис. 2.

 

Рисунок 1 – Схема алгоритма системы для извлечения и анализа тематических текстов   Рисунок 2 – Листинг программы краулер-модуля

 

Результатом работы краулер-модуля является очищенная от web-мусора база данных, сформированная из отзывов «dd». Краулер-модуль системы для извлечения и анализа текстов дорожно-транспортной проблематики был протестирован на сайте autostrada.info/ru (рис. 3).

 

Рисунок 3 – Отзывы о состоянии дорог на сайте https://autostrada.info/ru

В процессе его работы с сайта autostrada.info/ru извлекаются мнения пользователей о состоянии дорог в текстовом виде (рис. 4). Извлеченный текст записывается в базу данных с указанием атрибутов: date, description, subtitle, title и url. Например, для отзыва, представленного на рис 5 атрибуты имеют вид: date: «05.02.2018 15:21»; description: «Вчера в 15:00 выехал»; Subtitle: «Казань-Елабуга»; title: «M-7 Москва-Казань-Уфа».

 

Рисунок 4 – Структура отзыва на сайте https://autostrada.info/ru Рисунок 5 – База данных с текстами по дорожно-транспортной проблематике  

Таким образом в ходе исследования получены следующие научные результаты: определены области использования систем для извлечения и анализа текстов в транспортно-логистической сфере, сформирован перечень тематических интернет ресурсов, которые потенциально могут служить актуальным источником дорожно-транспортной и логистической информации, выбран в качестве базового фреймворк scarpy, разработана схема алгоритма для извлечения текстов, выполнена программная реализация краулер-модуля на языке Python-3 и сформирован корпус тематических текстов по транспортно-логистической проблематике на основе отзывов пользователей с сайта autostrada.info/ru.

Использование систем оперативного анализа разнородных данных в web-пространстве в составе когнитивных транспортных систем позволит выполнять среднесрочное и долгосрочное прогнозирование процессов транспортной мобильности [6], формировать новые [7] и расширять существующие критерии [8] и параметры [9] управления транспортными потоками, выходя за рамки циклов светофорного регулирования и типовых схем прокладки маршрутов [10].

Работа выполнена при поддержке РФФИ № 16-31-00306 в рамках инициативного научного проекта (Мой первый грант) на тему: "Построение модели интеллектуального управления городскими транспортными потоками".

Авторский коллектив благодарит администрацию сайта autostrada.info/ru за предоставленное разрешение на обработку и анализ текстовой информации.

 

 

Список литературы

1. Асаул А.Н., Малыгин И.Г., Комашинский В.И., Аванесов М.Ю. Концептуальные подходы к построению ин-теллектуальной мультимодальной транспортной системы РФ // Информация и космос. 2016. № 3. С. 8-17.

2. Малыгин И.Г., Сильников М.В. Интеллектуальные системы транспортной безопасности. Проблемы управления рисками в техносфере. 2014. № 1 (29). С. 1-13.

3. Sivagurunathan S., Sebastian A., Prathapchandran K. Internet of Things for Developing Smart Sustainable Cities (SSC): A Security Perspective. Connectivity Frameworks for Smart Devices Part of the series Computer Communications and Networks. 2016. pp 307-331.

4. Ананьева, М.И. О проблеме выявления экстремистской направленности в текстах / М.И. Ананьева, М.В. Кобозева, Ф.Н. Соловьев, И.В. Поляков, А.М. Чеповский // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2016. Т. 14. № 4. С. 5-13.

5. Тихомиров И.А. Инструменты анализа научно-технологических заделов России / И.А. Тихомиров, Н.В. Тоганова Н., М.И. Ананьева // Труды Института системного анализа Российской академии наук. 2016. Т. 66. № 3. С. 98-104.

6. Шаталова Н.В. Развитие транспортной отрасли как основополагающей при решении проблем стратегического и экономического характера // Модернизация и научные исследования в транспортном комплексе. 2017. Т. 1. С. 230-233.

7. Селиверстов С.А., Селиверстов Я.А. Обзор показателей транспортной обеспеченности мегаполиса // Вестник гражданских инженеров. 2015. № 5 (52). С. 237-247.

8. Селиверстов С.А., Селиверстов Я.А. О методе оценки эффективности организации процесса дорожного движения мегаполиса // Вестник транспорта Поволжья. 2015. № 2 (50). С. 91-96.

9. Селиверстов С.А., Селиверстов Я.А. Разработка показателей интегрального развития транспортной системы мегаполиса // Интернет-журнал «Науковедение». 2015. Т. 7. № 5 (30). С. 156.

10. Farman Ali and etc. Fuzzy Ontology - based Sentiment Analysis of Transportation and City Feature Reviews for Safe Traveling / Farman Ali, Daehan Kwak, Pervez Khan, S. M. Riazul Islam1, Kye Hyun Kim, K. S. Kwak // Transportation Research Part C: Emerging Technologies. 2017, Volume 77, pp. 33 – 48



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-10-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: