Задача 3. Перед нами 5 чёрных ящиков. В каждом из них находится либо чёрный, либо белый шар. Нам говорят, что 3 из них белые. Сколько информации нам сообщили? Сколько нам осталось узнать?
Решение. Сначала было 25 равноправных вариантов, и мера неизвестности равнялась log2 (25) = 5. Мера неизвестности (неизвестной информации) равна 5 бит. Когда нам сказали, что 3 шара белые, число возможных вариантов стало равно количеству возможных распределений 3 белых и 2 чёрных шаров по 5 ящикам. Если ввести обозначения: 1 — белый шар, а 0 — чёрный, то получим:
(11100),(11010),(11001),(10110),(10101),(10011), (01110),(01101),(01011),(00111).
Всего 10 вариантов распределить шары по ящикам. Это число распределений равно C3, 2=C35=C25 и называется числом сочетаний 3 элементов из 5, или 2 элементов из 5, или биномиальным коэффициентом (2,3). Это число C3, 2=10 получается так: первый нолик можно поместить на любое из 5 мест, второй — на любое из оставшихся 4. Всего получается 20 вариантов. Но среди них каждый вариант повторён дважды — сначала нолики выбраны в одном порядке, потом — в другом. А нам неважно, в каком порядке были выбраны нолики. Поэтому реальных вариантов в два раза меньше — 10 штук.
Ответ: Было неизвестно 5 бит, потом стало неизвестно log2(C3, 2)=log2(10)≈ 3.32 бит, значит, нам сообщили 5-log2(10) ≈ 1.68 бит.
Алфавитныйподход
В 1946 г. американский ученый-статистик Джон Тьюки предложил название бит (bit — аббревиатура от BInary digiT), одно из главных понятий XX века. Тьюки избрал бит для обозначения одного двоичного разряда, способного принимать значение 0 или 1.
Количество информации подменяется понятием информационного объема сообщения. Письменное сообщение кодируется алфавитным языком, количество информации считается равным произведению количества символов сообщения на количество информации, содержащееся в каждом символе. Если, например, алфавит состоит из тридцати двух символов, то каждый символ содержит пять бит информации. Информационный объем сообщения из 35 символов такого алфавита равен 35 * 5 = 175 битам.
В широко используемом алфавите ASCII содержится 256 символов, и каждый символ содержит 8 бит информации (кодируется восемью двоичными символами). Соответственно, информационный объем сообщения из 35 символов равен 35 * 8 = 280 битам.
Единица измерения «бит» слишком мала для практического использования. Особое название имеет 4 бита — ниббл (полубайт, тетрада, четыре двоичных разряда)
Чаще используют более крупные единицы измерения:
1 байт = 8 бит
1 Кбайт = 210 байт
1 Мбайт = 210 Кбайт
1 Гбайт = 210 Мбайт
1Тбайт = 210 Гбайт
Чему равно «кило»?
Долгое время разнице между множителями 1000 и 1024 старались не придавать большого значения. Во избежание недоразумений следует чётко понимать различие между двоичными кратными единицами, обозначаемыми согласно ГОСТ 8.417-2002 как «Кбайт», «Мбайт», «Гбайт» и т. д. (два в степенях кратных десяти) и единицами килобайт, мегабайт, гигабайт и т. д., понимаемыми как научные термины (десять в степенях кратных трём).
Последние по определению равны соответственно 103, 106, 109 байт.
В качестве терминов для «Кбайт», «Мбайт», «Гбайт» и т. д. МЭК[3] предлагает «кибибайт», «мебибайт», «гибибайт» и т. д., однако эти термины критикуются за непроизносимость и не встречаются в устной речи.
В различных областях информатики предпочтения в употреблении десятичных и двоичных единиц тоже различны. Причём, хотя со времени стандартизации терминологии и обозначений прошло уже несколько лет, далеко не везде стремятся прояснить точное значение используемых единиц.
Измерения в байтах | ||||||
Десятичная приставка | Двоичная приставка | |||||
Название | Символ | Степень | Название | Символ | Степень | |
ГОСТ | МЭК | |||||
байт | B | 100 | байт | B | байт | 20 |
килобайт | kB | 103 | кибибайт | KiB | Кбайт | 210 |
мегабайт | MB | 106 | мебибайт | MiB | Мбайт | 220 |
гигабайт | GB | 109 | гибибайт | GiB | Гбайт | 230 |
терабайт | TB | 1012 | тебибайт | TiB | Тбайт | 240 |
петабайт | PB | 1015 | пебибайт | PiB | Пбайт | 250 |
эксабайт | EB | 1018 | эксбибайт | EiB | Эбайт | 260 |
зеттабайт | ZB | 1021 | зебибайт | ZiB | Збайт | 270 |
йоттабайт | YB | 1024 | йобибайт | YiB | Йбайт | 280 |
[1] Слово введено в науку в 1865 г. немецким физиком Клаузиусом (Clausius Rudolf Julius Emanuel, 1822-1888), для кинетической теории газов. По аналогии со словом энергия, означающем «в действии, в работе», он составил слово из двух древнегреческих: έν — в, и τροπία— поворот, перемена. Получившемуся слову он придавал смысл «в трансформации, в перемене», имея в виду «содержание трансформации».
[2] Ясно почему: «орёл» — это изображение на лицевой части монеты двуглавого орла Российского герба, а «решка» — она образовалась от «решетки», или вензеля, — узорного переплетения царских инициалов.
[3] МЭК; англ. International Electrotechnical Commission, IEC — международная некоммерческая организация по стандартизации в области электрических, электронных и смежных технологий. Некоторые из стандартов МЭК разрабатываются совместно с Международной организацией по стандартизации (ISO).