Количество информации – это мера снятия неопределённости одной случайной величины в результате наблюдения за другой.
Количественно выраженная неопределённость состояния получила название энтропии. При получении информации уменьшается неопределённость, т.е. энтропия системы.
В информатике, как правило, измерению подвергается информация, представленная дискретным сигналом.
Различают следующие подходы к измерению информации: [1]
1. Структурный подход.
Измеряет количество информации простым подсчетом информационных элементов, составляющих сообщение. Применяется для оценки возможностей запоминающих устройств, объемов передаваемых сообщений, инструментов кодирования без учета статистических характеристик их эксплуатации.
В рамках структурного подхода выделяют три меры информации:
1) геометрическая – определяет максимально возможное количество информации в заданных объемах.
Единица измерения является информационный элемент.
Мера может быть использована для определения информационной емкости памяти компьютера. В этом случае в качестве информационного элемента выступает минимальная единица хранения – бит.
2) комбинаторная – оценивает возможность представления информации при помощи различных комбинаций информационных элементов в заданном объеме.
Использует типы комбинаций элементов и соответствующие математические соотношения, которые приводятся в одном из разделов дискретной математики – комбинаторике.
Комбинаторная мера может использоваться для оценки информационных возможностей некоторого автомата, который способен генерировать дискретные сигналы (сообщения) в соответствии с определенным правилом комбинаторики. Пусть, например, есть автомат, формирующий двузначные десятичные целые положительные числа (исходное множество информационных элементов {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}). В соответствии с положениями комбинаторики, данный автомат генерирует размещения (различаются числа, например, 34 и 43) из 10 элементов (используются 10 цифр) по 2 (по условию задачи, формируются двузначные числа) с повторениями (очевидно, возможны числа, состоящие из одинаковых цифр, например, 33). Тогда можно оценить, сколько различных сообщений (двузначных чисел) может сформировать автомат, иначе говоря, можно оценить информационную емкость данного устройства: Р(102) = 102 = 100.
|
3) аддитивная, или мера Хартли
Эта мера предложена в 1928 году американским ученым Хартли, поэтому имеет второе название – мера Хартли.
Хартли впервые ввел специальное обозначение для количества информации – I и предложил следующую логарифмическую зависимость между количеством информации и мощностью исходного алфавита:
,
где I – количество информации, содержащейся в сообщении;
l – длина сообщения;
h – мощность исходного алфавита.
При исходном алфавите {0,1}; l = 1; h = 2 и основании логарифма, равном 2, имеем
I = 1 · log2 2 = 1.
Данная формула даёт аналитическое определение бита (BIT – BInary digiT) по Хартли: это количество информации, которое содержится в двоичной цифре.
Единицей измерения информации в аддитивной мере является бит.
Приведём пример.
Необходимо рассчитать количество информации, которое содержится в шестнадцатеричном и двоичном представлении ASCII–кода для числа 1.
|
В соответствии с таблицей ASCII–кодов имеем: шестнадцатеричное представление числа 1 – 31, двоичное представление числа 1 – 00110001.
Тогда по формуле Хартли получаем:
для шестнадцатеричного представления I = 2 · log2 16 = 8 бит
для двоичного представления I = 8 · log2 2 = 8 бит
Таким образом, разные представления ASCII–кода для одного символа содержат одинаковое количество информации, измеренной аддитивной мерой.
2. Статистический подход.
Учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Применяется при оценке значимости получаемой информации.
В 30–х годах ХХ века американский ученый Клод Шеннон предложил связать количество информации, которое несет в себе некоторое сообщение, с вероятностью получения этого сообщения.
Вероятность p – количественная априорная (т.е. известная до проведения опыта) характеристика одного из исходов (событий) некоторого опыта. Измеряется в пределах от 0 до 1. Если заранее известны все исходы опыта, сумма их вероятностей равна 1, а сами исходы составляют полную группу событий. Если все исходы могут свершиться с одинаковой долей вероятности, они называются равновероятными.
3. Семантический подход.
Учитывает целесообразность и полезность информации. Применяется при оценке эффективности получаемой информации и ее соответствия реальности.
4. Вероятностный подход.
Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.
|
Согласно формуле Р. Хартли:
количество информации, которое вмещает один символ N–элементного алфавита, равно log2 N.
Рассмотрим пример.
Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2 100 = 6,644.
Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.
Клод Шеннон предложил в 1948 г. формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Каждому сигналу присваивалась определённая вероятность его появления.
Чем меньше вероятность появления того или иного сигнала, тем больше он несёт информации.
Формула К. Шеннона:
где pi – вероятность появления i–го сигнала N – количество возможных сигналов
Количество информации здесь представляется как результат выбора из набора возможных вариантов.
В качестве единицы информации Клод Шеннон предложил принять один бит.
5. Алфавитный подход.
Согласно Колмогорову, количество информации, содержащейся в последовательности символов, определяется минимально возможным количеством двоичных знаков, необходимых для кодирования этой последовательности безотносительно к содержанию представленного ею сообщения.
При этом для кодирования наиболее часто используется двоичный алфавит, состоящий из нуля и единицы, это так называемое двоичное кодирование информации.