Формула Шеннона
Создание: 08.03.2013
В случае если в системе события не равновероятны, например, в забеге участвуют восемь спортсменов и среди них Карл Льюис. Ясно, что Карл Льюис бегает быстрее всех и задав вопрос: «Номер победителя меньше или равен четырем?» мы не получим 1 бит информации.

Если «чемпион четырех олимпиад» находится среди первых четырех спортсменов, то ответ «да» принесет нам меньше одного бита, в конце концов, мы и сами догадывались, кто будет победителем. В случае если победил кто-то другой, то это будет неожиданным и количество информации, которое будет содержаться в том же самом ответе будет больше одного. Разобраться с такими разновероятными ситуациями помогает формула Шеннона.

В случае если есть N разновероятных событий для определения количества информации о том, что случилось событие необходимо найти вероятность каждого события pi. В таком случае информация о событии будет выражена формулой:

 

В этой формуле I – количество информации, N – количество возможных вариантов, pi – вероятность i-го события. Приведем пример: В мешке Деда Мороза четыре вида конфет, все они одинаковые по форме и весу, но с разной начинкой.

  1. конфет первого вида 16
  2. конфет второго вида 8
  3. конфет третьего вида 8
  4. конфет четвертого вида 32

Для того чтобы определить сколько бит содержится в информации Дед мороз достал конфету… Необходимо выполнить следующие действия:

1) находим вероятность каждого события:

p1 = 16/64 = 0,25
p2 = 8/64 = 0,125
p3 = 8/64 = 0,125
p4 = 32/64 = 0,5

2) Подставляем получившиеся значения в формулу Шеннона:

I = - ( 0,25·log2(0,25) + 0,125·log2(0,125) + 0,125·log2(0,125) + 0,5·log2(0,5) )
= -( -0,5 + -0,375 + -0,375 + -0,5) = 1,75 бит.

Для того чтобы получить информацию о том, что Дед мороз достал конфету именно i-го вида необходимо воспользоваться формулой

 

Получается, что информация о том что случилось событие Дед Мороз достал конфету четвертого вида равна I = – log2(0,5) = 1 Этого и следовало ожидать, конфет четвертого вида ровно половина, следовательно информация о том, что случилось это событие уменьшает наше незнание в два раза.

Информация о том, что в руке случайно оказалась конфета второго вида I = – log2(0,125) = 3. Информации больше, так как эта ситуация менее вероятна, а значит, более неожиданна.

Обратите внимание, по алфавитному подходу, у нас система с четырьмя состояниями (четыре вида конфет), следовательно, информации о каждом событии усреднено равна двум. Но этот подход мы можем применять только для равновероятностного события.

P.S.

1. Во вложении таблица MS Excel, в которой можно ввести количество конфет / шаров / чего угодно и получить количество информации, которое мы получим

2. Применение вероятностного подхода интересно при определении количества информации в тексте, но это отдельный разговор.

Скачать материалы:

Задание для учеников
формат: xls, 0.03 МБ