Количество информации
Создание: 07.03.2013
В определении количества информации существует два подхода: алфавитный и вероятностный.

С алфавитным подходом все более или менее понятно: определяем мощность алфавита… Под «мощностью алфавита» понимается не только количество символов, используемых на письме и которые мы хотим закодировать. Мощностью алфавита может быть количество состояний, которое может принять любая система. Например, в одной из задач ЕГЭ спрашивается:

В велокроссе участвуют 119 спортсменов. Специальное устройство регистрирует прохождение каждым из участников промежуточного финиша, записывая его номер с использованием минимально возможного количества бит, одинакового для каждого спортсмена. Каков информационный объем сообщения, записанного устройством, после того как промежуточный финиш прошли 70 велосипедистов?

Каждому спортсмену нужен уникальный двоичный код и 119 – это мощность алфавита в данной системе. Ясно, что для кодирования 119 объектов требуется 7 бит. Следовательно, информационный объем последовательности из 70 номеров спортсменов, будет 7*70 бит.

Несколько сложнее с вероятностным подходом. Главный постулат гласит: количество информации, которое вы получаете, зависит от того сколько новой информации вы почерпнули. Количество информации, при котором ваше незнание уменьшилось вдвое равно одному биту.

Обычно в учебнике приводят пример с монетой. Вы не знаете что выпадет после броска – орел или решка. Увидев орла, ваше незнание уменьшилось вдвое, следовательно, вы получили один бит информации.

На самом деле вероятностный подход подойдет и при определении количества информации, которое содержится в номере велосипедиста из предыдущей задачи. Предположим, вы знаете номер победителя велокросса. Для того чтобы узнать номер я буду последовательно задавать вам вопросы, на которые вы можете отвечать «да» или «нет». Конечно, я могу спрашивать вас:

- Это номер один?
- Нет.

- Это номер два?
- Нет.

После каждого ответа мое незнание будет уменьшаться, но незначительно. Намного эффективней поступить так - расставим все номера с первого по сто девятнадцатый последовательно и своим вопросом я буду делить этот отрезок пополам.

- Номер победителя меньше шестидесяти?
- Да

Вот это «Да» уменьшает мое незнание в два раза, следовательно этим ответом я получил один бит информации. Несложно проверить, что для того чтобы отгадать номер победителя, мне нужно будет последовательно задавать семь вопросов. Это означает, что номер победителя содержит те же самые семь бит, что мы определили исходя из алфавитного подхода.

Это все верно только в случае, если вероятность стать победителем была одинакова для каждого спортсмена, в противном случае, нам потребуется формула Шеннона, но это отдельный разговор.