Переработка текстовой информации




Переработка информации, представленной в виде текстов на естественном языке, имеет много аспектов. Сюда относятся такие виды информационных процессов, как понимание текстов, их перефразирование (пересказ, перевод на другой язык), сжатие семантической информации. Особенное значение имеет последний тип переработки; сюда относятся классификация и индексирование документов, аннотирование и реферирование их.

Структура сигнала измерительной информации передает и его значение. В текстовой информации это не всегда так. В силу специфики языка в форме сообщения, представленного в виде текста, не просматривается содержание, поэтому обработка текстов требует особых приемов, заключающихся в передаче смысла с помощью человека-интерпретатора либо с помощью различных искусственных методов.

Цель процедуры автоматизированного реферирования – выделить из текста документа наиболее важные положения, как можно более полно раскрывающие суть изложенного исследования. В качестве исходного материала для такого реферата служат предложения, составляющие текст документа. В результате отбора некоторых из них получается сокращенный вариант исходного документа, который не является рефератом в полном смысле этого слова. Этот сжатый таким образом текст принято называть квазирефератом.

Одна из первых систем автоматического квазиреферирования базировалась на предложении, что для каждого документа специфические слова, наиболее часто встречающиеся в нем, используются для передачи основной идеи, изложенной текстом. Разработчик этой системы Г. Лун пользовался следующей оценкой значимости каждого из предложений, составляющих документ: Vпр = Nзс2/Nc, где Vпр – значимость предложения; Nзс – число значимых слов в этом предложении, т.е. таких слов, которые являются специфическими для предметной области, к которой относится документ, и для самого этого документа; Nc – общее число слов в предложении. При такой методике квазиреферат составляет совокупность разрозненных фраз, так что понять смысл реферата можно только после дополнительной обработки полученного текста человеком.

Задача обработки связного текста и генерации таких текстов является довольно трудной, она слабо поддается формализации в полном объеме. Однако разработан ряд методик, позволяющих повысить связность текстов по сравнению с простым отбором наиболее значимых предложений. Одна из них заключается в том, что наиболее связанными считаются такие предложения, которые содержат наибольшее количество одних и тех же значимых слов.

Другая методика оценки семантической значимости предложений для отбора их в квазиреферат основана на определении количества информации, содержащейся в каждом из них. Для этого необходимо произвести частотный анализ текста с точки зрения встречаемости в нем важнейших терминов. По гипотезе автора этой методики В. Пурто, чем более важным является для некоторого текста тот или иной термин, тем чаще он встречается в нем. Поэтому для квазиреферата отбираются такие предложения, которые содержат наибольшее количество терминов, чаще всего повторяющихся в данном документе.

Заключение

В теории информации в наше время разрабатывают много систем, методов, подходов, идей. Однако ученые считают, что к современным направлениям в теории информации добавятся новые, появятся новые идеи. В качестве доказательства правильности своих предположений они приводят «живой», развивающийся характер науки, указывают на то, что теория информации удивительно быстро и прочно внедряется в самые различные области человеческого знания. Теория информации проникла в физику, химию, биологию, медицину, философию, лингвистику, педагогику, экономику, логику, технические науки, эстетику. По признанию самих специалистов, учение об информации, возникшее в силу потребностей теории связи и кибернетики, перешагнуло их рамки. И теперь, пожалуй, мы вправе говорить об информации как научном понятии, дающем в руки исследователей теоретико-информационный метод, с помощью которого можно проникнуть во многие науки о живой и неживой природе, об обществе, что позволит не только взглянуть на все проблемы с новой стороны, но и увидеть еще не увиденное. Вот почему термин «информация» получил в наше время широкое распространение, став частью таких понятий, как информационная система, информационная культура, даже информационная этика.

Многие научные дисциплины используют теорию информации, чтобы подчеркнуть новое направление в старых науках. Так возникли, например, информационная география, информационная экономика, информационное право.

Но чрезвычайно большое значение приобрел термин «информация» в связи с развитием новейшей компьютерной техники, автоматизацией умственного труда, развитием новых средств связи и обработки информации и особенно с возникновением информатики.

Одной из важнейших задач теории информации является изучение природы и свойств информации, создание методов ее обработки, в частности преобразования самой различной современной информации в программы для ЭВМ, с помощью которых происходит автоматизация умственной работы – своеобразное усиление интеллекта, а значит, развитие интеллектуальных ресурсов общества.

Список литературы

1. Л.Ф. Куликовский, В.В. Мотов "Теоретические основы информационных процессов: Учеб. пособие для вузов". – М., 1987.

2. Л.Ф. Куликовский, В.К. Морозов, В.Г. Жиров "Элементы теории информационных процессов: Учеб. пособие. – Куйбышев, КПтИ, 1979.

3. В.П. Косарев и др. "Компьютерные системы и сети: Учеб. пособие. – М.: Финансы и статистика, 1999.

4. В. Дмитриев "Прикладная теория информации". – М., 1989.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: