Вероятностный и объемный способы измерения количества информации

Зачастую разные люди, получившие одно и то же сообщение, по- разному оценивают информацию, содержащуюся в нем. Тот, кто мало осведомлен об описываемых событиях, сочтет, что получил много информации. Тот, кто имел сведений больше, чем получил в сообщении, скажет, что информации не получили вовсе. С каждым получаемым сообщением неопределенность знаний по интересующему вопросу уменьшается. Если достигнута полная ясность, то неопределенность исчезает. Таким образом, информацию, которую получает человек, можно считать мерой уменьшения неопределенности знания.

За единицу количества информации принята такая единица, которая уменьшает неопределенность знаний в два раза. Эта единица называется бит.

Возьмем в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N=6 граней. Результатом данного опыта может быть выпадение грани с одним из следующих знаков: 1, 2,..., N.

Введем численную величину, измеряющую неопределенность энтропию (обозначим ее Н). Величины N и Я связаны между собой некоторой функциональной зависимостью Н =f{N), а сама функция / является возрастающей и неотрицательной.

Рассмотрим процедуру бросания кости более подробно:

  • 1) готовимся бросать кость, исход опыта неизвестен, т.е. имеется некоторая неопределенность, обозначим ее Н,
  • 2) кость брошена, информация об исходе данного опыта получена, обозначим количество этой информации через /;
  • 3) обозначим неопределенность данного опыта после его осуществления через Н2.

За количество информации, которое получено в ходе осуществления опыта, примем разность неопределенностей до и после опыта:

I = Н, — Н2.

Очевидно, что в случае, когда получен конечный результат, имевшаяся неопределенность снята (Н2 = 0) и, таким образом, количество полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта.

Следующим важным моментом является определение вида функции /. Если варьировать число граней N и число бросаний кости

(обозначим эту величину через М), то общее число исходов будет равно N в степени М

Так, в случае двух бросаний кости с шестью гранями имеем X — в2 36. Фактически каждый исход Xесть некоторая пара (X,, Х2), где X, и Х2 — соответственно исходы первого и второго бросания (X — общее число таких пар).

Выражение Н = log2TV — формула Хартли для определения энтропии (вероятностной меры количества информации).

Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при 7V=2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты, при котором возможны два исхода: «орел» и «решка»). Такая единица количества информации называется «бит».

Все N исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на долю каждого исхода приходится одна N-я часть общей неопределенности опыта: (log2N)/N. При этом вероятность /-го исхода Р/ равняется, очевидно, 1 /N.

Формула для определения энтропии в случае, когда вероятности различных исходов опыта не равновероятны (т.е. Р( могут быть различными), определяется выражением

и называется формулой Шеннона.

В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли Н — log2 34 ~ ~ 5 бит.

Однако в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена таблица вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

2. Информация, ее виды и свойства, кодирование информации

Таблица 2.1. Частотность букв русского языка

Воспользуемся для подсчета Я формулой Шеннона: Н ~ 4,72 бит. Полученное значение Я, как и можно было предположить, меньше вычисленного ранее. Величина Я, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.

Рассмотрим алфавит, состоящий из двух знаков: 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (/>(0)=/>( 1 )=0,5), то количество информации на один знак при двоичном кодировании Я=1о§22=1(бит).

Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.

В двоичной системе счисления знаки 0 и 1 будем называть битами (от английского выражения Binary digiTs — двоичные цифры). Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния. В компьютере бит является наименьшей возможной единицей информации.

Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе, подсчитывается просто по количеству требуемых для такой записи двоичных символов. Для удобства использования введены и более крупные, чем бит, единицы измерения информации:

  • 1 байт = 8 бит;
  • 1 Килобайт (Кбайт) = 210 байт = 1024 байт;
  • 1 Мегабайт (Мбайт) = 210 Кбайт = 1024 Кбайт;
  • 1 Гигабайт (Гбайт) = 210 Мегабайт = 1024 Мегабайт.

В последнее время в связи с увеличением объемов обрабатываемой информации входят в употребление такие производные единицы, как:

  • 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт;
  • 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном (кибернетическом) смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускают измеримость количества информации в обоих смыслах, то это количество не обязательно совпадает, при этом кибернетическое количество информации не может быть больше объемного. В прикладной информатике практически всегда количество информации понимается в объемном смысле.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >