THE TEXTS IN RUSSIAN LANGUAGE




УДК 620.3.51

 

И.И. Иванов, В.И. Сидоров

 

ИЗВЛЕЧЕНИЕ ОТНОШЕНИЙ ТИПА «БЫТЬ–ЯВЛЯТЬСЯ»

ИЗ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ

 

В этой статье исследуется возможность построения модели предметной области. Семантический, синтаксический и морфологический анализы текстов стали основой гибридного метода. Он должен выявить достоинства и недостатки уже существующих методов. Гибридный способ основан на извлечении отношений из текста. Отношение представляет собой глагол или отглагольную часть речи. В статье рассматривается извлечение отношений типа «быть-являться». Показан способ извлечения отношений и объектов отношений из токенов. Описан общий ход всего алгоритма гибридной модели построения предметной области.

Ключевые слова: модель предметной области, морфологический анализ, глагол, отношение, гибридный метод.

 

I.I. Ivanov, V.I. Sidorov

 

EXTRACTING RELATIONS SUCH AS "TO BE" FROM

THE TEXTS IN RUSSIAN LANGUAGE

 

In this article we study the possibility of constructing a domain model. The basis of the hybrid method is semantic analysis, syntactic analysis and morphological analysis of texts. It should take into account the merits and demerits of existing methods. The hybrid method is based on extracting relations from text. Relations is a verb, participle, or gerund. In this article we look at extracting relations such as "to be". We have shown a way to extract relations and objects from tokens. We described the general course of the algorithm of the hybrid model of building a domain.

Keywords: domain model; morphological analysis, verb, relation, hybrid method.

 

В современной науке наиболее перспективными направлениями являются те, которые соединяют в себе несколько научных областей. Одной из них является компьютерная лингвистика. В этом направлении уже были проведены исследования моделей предметных областей и способов их построений [1]. Теперь для того, чтобы получить модель, способную построить корпус любого научного текста, необходимо найти эталонный и универсальный способ построения отношений между денотатами [2]. В разных источниках описывают похожие способы построения отношений между терминами и основными понятиями текстов. Выделяют следующие методы:

1. Семантический анализ

2. Синтаксический анализ

3. Морфологический анализ.

В нашем случае существует необходимость создать такой способ, который будет включать в себя все три вида анализа, назовем его «гибридный». Как показывает практика, в каждом из уже реализованных методов анализа есть свои недостатки:

- синтаксический анализ не учитывает сочетания форм денотатов и отношений

- морфологический анализ дает правильные словоформы, но не всегда может определить связь межу денотатами, если они находятся в разных частях сложных предложений

- семантический анализ сложен в исполнении на машинном уровне.

Связь семантики, синтаксиса и морфологии наглядно представлена на рсиунке 1.

Рис. 1. Треугольник Фреге

Сейчас задача состоит в том, чтобы описать такой метод, который будет учитывать недостатки уже существующих способов и совмещать их достоинства. Так как речь идет об извлечении отношений между понятиями, за основу решено взять глаголы и отглагольные части речи. В этом случае необходимо взять все существующие группы глаголов и для каждой отдельно создать функцию её извлечения из тела текста. В частности, в статье рассмотрим способ извлечения отношений типа «быть-являться». Глагол может описывать как действие, так и состояние предмета. Эти особенности крайне важно учитывать в процессе создания функций извлечения. Также очень важно помнить, что в сравнении с другими частями речи глагол имеет наибольшее количество грамматических технологий. Из этого утверждения очевидно, что за основу будет взят метод морфологического анализа. В таблице 1 приведены технические средства для реализации метода извлечения отношений.

Таблица 1

Средства разработки

№ п/п Средство разработки Назначение
  Python 3.0 Написание алгоритма программы, описание основного функционала.
  Big Data Технология для обучения реализованного алгоритма на корпусах огромных текстов
  Google Books Многоязычный корпус оцифрованных книг для обучения алгоритма

 

Основная функция, которая обучает нейросеть, представлена в листинге 1.

Листинг 1 – Функция тренировки нейросети на Python

def train(patterns, iterations=10000, N=0.5,

M=0.01):

for i in range(iterations):

error = 0.0

for p in patterns:

inputs = p[0]

targets = p[1]

self.update(inputs)

error = error + backPropagate(targets, N, M)

 

Если в вашей статье необходимо использовать формулу, или несколько формул, то оформить их нужно так, как представлено в формуле (1).

(1)

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-02-03 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: