ЭНТРОПИЯ — мера незнания




Задача 3. Перед нами 5 чёрных ящиков. В каждом из них находится либо чёрный, либо белый шар. Нам говорят, что 3 из них белые. Сколько информации нам сообщили? Сколько нам осталось узнать?

Решение. Сначала было 25 равноправных вариантов, и мера неизвестности равнялась log2 (25) = 5. Мера неизвестности (неизвестной информации) равна 5 бит. Когда нам сказали, что 3 шара белые, число возможных вариантов стало равно количеству возможных распределений 3 белых и 2 чёрных шаров по 5 ящикам. Если ввести обозначения: 1 — белый шар, а 0 — чёрный, то получим:

(11100),(11010),(11001),(10110),(10101),(10011), (01110),(01101),(01011),(00111).

Всего 10 вариантов распределить шары по ящикам. Это число распределений равно C3, 2=C35=C25 и называется числом сочетаний 3 элементов из 5, или 2 элементов из 5, или биномиальным коэффициентом (2,3). Это число C3, 2=10 получается так: первый нолик можно поместить на любое из 5 мест, второй — на любое из оставшихся 4. Всего получается 20 вариантов. Но среди них каждый вариант повторён дважды — сначала нолики выбраны в одном порядке, потом — в другом. А нам неважно, в каком порядке были выбраны нолики. Поэтому реальных вариантов в два раза меньше — 10 штук.

Ответ: Было неизвестно 5 бит, потом стало неизвестно log2(C3, 2)=log2(10)≈ 3.32 бит, значит, нам сообщили 5-log2(10) ≈ 1.68 бит.

Алфавитныйподход

В 1946 г. американский ученый-статистик Джон Тьюки предложил название бит (bit — аббревиатура от BInary digiT), одно из главных понятий XX века. Тьюки избрал бит для обозначения одного двоичного разряда, способного принимать значение 0 или 1.

Количество информации подменяется понятием информационного объема сообщения. Письменное сообщение кодируется алфавитным языком, количество информации считается равным произведению количества символов сообщения на количество информации, содержащееся в каждом символе. Если, например, алфавит состоит из тридцати двух символов, то каждый символ содержит пять бит информации. Информационный объем сообщения из 35 символов такого алфавита равен 35 * 5 = 175 битам.

В широко используемом алфавите ASCII содержится 256 символов, и каждый символ содержит 8 бит информации (кодируется восемью двоичными символами). Соответственно, информационный объем сообщения из 35 символов равен 35 * 8 = 280 битам.

Единица измерения «бит» слишком мала для практического использования. Особое название имеет 4 бита — ниббл (полубайт, тетрада, четыре двоичных разряда)

Чаще используют более крупные единицы измерения:

1 байт = 8 бит

1 Кбайт = 210 байт

1 Мбайт = 210 Кбайт

1 Гбайт = 210 Мбайт

1Тбайт = 210 Гбайт

Чему равно «кило»?

Долгое время разнице между множителями 1000 и 1024 старались не придавать большого значения. Во избежание недоразумений следует чётко понимать различие между двоичными кратными единицами, обозначаемыми согласно ГОСТ 8.417-2002 как «Кбайт», «Мбайт», «Гбайт» и т. д. (два в степенях кратных десяти) и единицами килобайт, мегабайт, гигабайт и т. д., понимаемыми как научные термины (десять в степенях кратных трём).

Последние по определению равны соответственно 103, 106, 109 байт.

В качестве терминов для «Кбайт», «Мбайт», «Гбайт» и т. д. МЭК[3] предлагает «кибибайт», «мебибайт», «гибибайт» и т. д., однако эти термины критикуются за непроизносимость и не встречаются в устной речи.

В различных областях информатики предпочтения в употреблении десятичных и двоичных единиц тоже различны. Причём, хотя со времени стандартизации терминологии и обозначений прошло уже несколько лет, далеко не везде стремятся прояснить точное значение используемых единиц.

Измерения в байтах
Десятичная приставка Двоичная приставка
Название Символ Степень Название Символ Степень
  ГОСТ       МЭК
байт B 100 байт B байт 20
килобайт kB 103 кибибайт KiB Кбайт 210
мегабайт MB 106 мебибайт MiB Мбайт 220
гигабайт GB 109 гибибайт GiB Гбайт 230
терабайт TB 1012 тебибайт TiB Тбайт 240
петабайт PB 1015 пебибайт PiB Пбайт 250
эксабайт EB 1018 эксбибайт EiB Эбайт 260
зеттабайт ZB 1021 зебибайт ZiB Збайт 270
йоттабайт YB 1024 йобибайт YiB Йбайт 280

 


[1] Слово введено в науку в 1865 г. немецким физиком Клаузиусом (Clausius Rudolf Julius Emanuel, 1822-1888), для кинетической теории газов. По аналогии со словом энергия, означающем «в действии, в работе», он составил слово из двух древнегреческих: έν — в, и τροπία— поворот, перемена. Получившемуся слову он придавал смысл «в трансформации, в перемене», имея в виду «содержание трансформации».

[2] Ясно почему: «орёл» — это изображение на лицевой части монеты двуглавого орла Российского герба, а «решка» — она образовалась от «решетки», или вензеля, — узорного переплетения царских инициалов.

[3] МЭК; англ. International Electrotechnical Commission, IEC — международная некоммерческая организация по стандартизации в области электрических, электронных и смежных технологий. Некоторые из стандартов МЭК разрабатываются совместно с Международной организацией по стандартизации (ISO).



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-30 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: