Статистическая мера информации.




В статистической теории информации вводится более общая мера количества информации, в соответствии с которой рассматривается не само событие, а информация о нем. Этот вопрос глубоко проработан К. Шенноном в работе «Избранные труды по теории информации». Если появляется сообщение о часто встречающемся событии, вероятность появления которого близка к единице, то такое сообщение для получателя малоинформативное. Столь же мало информативны сообщения о событиях, вероятность появления которых близка к нулю.

События можно рассматривать как возможные исходы некоторого опыта, причем все исходы этого опыта составляют ансамбль, или полную группу событий. К. Шеннон ввел понятие неопределенности ситуации, возникающей в процессе опыта, назвав ее энтропией. Энтропия ансамбля есть количественная мера его неопределенности и, следовательно, информативности, количественно выражаемая как средняя функция множества вероятностей каждого из возможных исходов опыта.

Поясним содержание статистической меры на следующем частном случае. Пусть выполняется посимвольная передача текста, состоящего из символов алфавита А. Текст составлен из K символов алфавита. Опыт состоит в передаче очередного символа текста. Так как в один момент времени может быть передан любой символ алфавита, всего возможно А исходов опыта. Очевидно, что одни символы в тексте будут появляться часто, а другие — реже. Различные символы несут разную информацию. Обозначим через ki количество появления символа в тексте, а количество вносимой этим символом информации как Ii. Будем полагать, что передаваемые символы независимы, т.е. передача i –того символа происходит с вероятностью, независящей от того, какой символ был передан ранее. Это означает, информация, вносимая символом постоянна для любых сочетаний символов. Тогда средняя информация, доставляемая одним опытом,

Iср = (k1I1+ k 2I2+…+ k AIA)/K. (9)

Но количество информации в каждом исходе связано с его вероятностью рi, и выражается в двоичных единицах (битах) как

Ii = log2 (1/pi) = -log2 pi.

Тогда

Iср =[ k 1 (-log2 p1)+...+ k A (-log2 pA)]/K. (10)

Выражение (10) можно записать также в виде

Iср =k1/K (-log2 p1)+...+kA/K (-log2 pA). (11)

Но отношения n/K представляют собой частоты повторения исходов, а, следовательно, могут быть заменены их вероятностями:

pi =ki/K,

Тогда средняя информация в битах

Iср = p1 (-log2 p1)+...+pA (-log2 pA),

или

Iср =∑ pi (-log2 pi) = H (12)

 

Полученную величину H называют энтропией. Энтропия обладает следующими свойствами:

1. Энтропия всегда неотрицательна, так как значения вероятностей выражаются величинами, не превосходящими единицу, а их логарифмы — отрицательными числами или нулем, так что члены суммы (12) — неотрицательны.

2. Энтропия равна нулю в том крайнем случае, когда одно из рi, равно единице, а все остальные — нулю. Это тот случай, когда об опыте или величине все известно заранее и результат не дает новую информацию.

3. Энтропия имеет наибольшее значение, когда все вероятности равны между собой:

р1 = р2 =... = pi =1/A.

При этом H=- log2(1/A)=log2 A=Hmax.

4. Энтропия объекта BC, состояния которого образуются совместной реализацией состояний B и C, равна сумме энтропии исходных объектов B и C, т. е. Н(BC) = Н(B) + Н(C).

Если все события равновероятны и статистически независимы, то оценки количества информации, по Хартли и Шеннону, совпадают. Это свидетельствует о полном использовании информационной емкости системы. В случае неравных вероятностей количество информации, по Шеннону, меньше информационной емкости системы. Максимальное значение энтропии достигается при р=0,5, когда два состояния равновероятны. При вероятностях р=0 или р=1, что соответствует полной невозможности или полной достоверности события, энтропия равна нулю.

Наибольшее количество информации получается тогда, когда полностью снимается неопределенность, причем эта неопределенность была наибольшей — вероятности всех событий были одинаковы. Это соответствует максимально возможному количеству информации, оцениваемому мерой Хартли:

Ix = log2 N = log2 (1/p) = - log2 p =Hmax,

где N — число событий; р — вероятность их реализации в условиях равной вероятности событий, Hmax — максимальное значение неопределенности, равное энтропии равновероятностных событий.

Абсолютная избыточность информации Dавс представляет собой разность между максимально возможным количеством информации и энтропией:

Dавс = Ix - Н, или Dавс = Нmax. (13)

Пользуются также понятием относительной избыточности

D = (Нmax -Н)/Hmax. (14)

Рассмотренные информационные меры в полной мере применимы для оценки количества информации при передаче и хранении информации в вычислительных системах и цифровых системах связи. Если информация передается с использованием некоторого алфавита A то передачу каждого символа можно рассматривать как опыт, имеющий A возможных исходов. В длинном сообщении, например, при передаче текста размером K символов, различные символы алфавита могут появляться различное число раз. Мы можем говорить о частоте появления символов в сообщении, которая с увеличением K стремится к вероятности появления конкретного символа в сообщении.

Информационные меры имеют важное значение при определении характеристик памяти ЭВМ, пропускной способности каналов связи и во многих других приложениях информатики.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-29 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: