Logo Home   >>   Релятивизм в Теория Информации

Релятивизм в Теория Информации

Конан-Дойль утверждал, что лучший способ спрятать вещь - положить ее на
видное место.

Оказалось, некоторые вещи лежат настолько на виду, что их можно не
замечать всю жизнь.

Например, часто противопоставляются алфавитные и иероглифические языки,
хотя на самом деле это, фактически, одно и то же.

Начнем с того, что слова алфавита, очевидно, обладают свойствами
эмерджентности - их значение невыводимо из значений составляющих их букв,
их количества и/или порядка. Иначе говоря, слову отвечает новое понятие,
связанное со словом как с целым. То же самое характерно для
иероглифической письменности: один иероглиф - одно понятие.

Если слово незнакомо, то знание всех составляющих его букв никак не
способствует пониманию и многие авторы развлекались именно придумыванием
новых "необычных" слов. Дж. Свифт, например, придумал слово "лилипут", а
Ю. Поляков - "апофегей".

Различия в графике несущественны: слова-глифы алфавитных языков обычно
образованы крупными значками, расположенными преимущественно в строку, а
слова-глифы иероглифических языков обычно образованы мелкими значками,
находящимися преимущественно внутри прямоугольника.

Количество слов в хорошем толковом словаре алфавитного языка (~100,000) и
иероглифов в китайском, например, (~90,000) достаточно близки.

Слова составляются в текст наподобие фишек пазла. В китайском они более
гладкие (нет времен, падежей, склонений), в алфавитных языках намного
более корявые, часто требуются соединительные прокладки (предлоги) и
"доработка напильником" (флексии).

Если пренебречь деталями "тюнинга" и рассматривать глифы как неизменяемые
элементы пазла, то возникает интересная аналогия с электрическими цепями,
в частности с Законом Ома.

В электрической цепи, Закон Ома связывает две различные сущности: Ток и
Напряжение через конструкционный параметр - Импеданс.

Воздействие прикладывается к некоторой среде, и отклик на это воздействие
целиком определяется ее физическими характеристиками.

В одномерном случае имеем "школьный" закон Ома, в многомерном - его
тензорный эквивалент.

Разумеется, есть множество других, тождественных по форме записи, законов,
описывающих отклик линейной среды на внешнюю деформацию, но для простоты
будем ссылаться на них, как на обобщенный Закон Ома (как наиболее
известный из школьного курса и наиболее важный при расчете электрических
цепей).

Электрические цепи особенно удобны при обсуждении по двум причинам:

1. Практически любая любая линейная система с сосредоточенными параметрами
   может быть представлена эквивалентной электрической цепью.

2. Методы расчета электрических цепей наглядны и хорошо известны.

Если рассматривать набор глифов языка как конструкционный параметр, а
информационное сообщение - как прикладываемое воздействие, то откликом,
естественно, является текст из глифов данного языка.

Будем рассматривать идеальный случай - смысл сообщения однозначен и
представим в данном наборе глифов.

Тогда, поскольку сами глифы (по определению) неизменяемы, то вся
ИНФОРМАЦИЯ, содержавшаяся в сообщении, однозначно кодирована Числом и
Расположением глифов, иначе говоря, структурой Тензора Импеданса (или
структурой эквивалентной электрической цепи).

Для алфавитных языков характерно скорее линейное расположение текста, но в
узелковом письме майя, очевидно, следует видеть многомерный случай,
графика (живопись) существенно двумерна, природные "тексты" часто
трехмерны (объемны), а мультимедия (графика + звук + текст) явно требует
введения многих измерений (титры и звук синхронизированы с изображением).

По аналогии с электрической цепью, можно ввести понятие Информационной
цепи, составленной из символов заданного алфавита (т.е. Текста). В
простейшем случае, это символы алфавита, расположенные в строку.
Количество и порядок этих символов (и их собственные конструкционные
характеристики) определяют Импеданс Информационной цепи.

Важно, что каждый символ текста рассматривается как сложный объект,
имеющий две независимые характеристики - значение (индекс а алфавите) и
размер (например, ширину в битах).

Независимо от валентности Тензора Импеданса, интересны его обратимые (то
есть, без потери Информации) преобразования  - такие, как сжатие и
шифрование.

До сих пор нигде не было расхождения с классическим подходом (исключая
явное указание на размер символов), но далее не избежать обсуждения
понятия "избыточность".

Будем называть кодированием, обратимое преобразование текста, путем замены
одних символов на другие или из того же самого или из другого алфавита.
Важно, что размер заменяющего символа может отличаться от размера
заменяемого символа. Некоторые техники кодирования текстов (также
называемые "сжатием") основаны на игре с изменением размера составляющих
их символов.

Очевидно, что если более частые последовательности будут записываться
"узкими" символами, а более редкие - "широкими", то размер результирующего
текста будет меньше, чем в обратной ситуации.

По-видимому впервые, этот подход был систематически использован в Коде
Морзе (1838).

Две основные модификации "Кода Морзе" - это т.н. "Энтропийное кодирование",
когда исходный текст "режется" на токены одинакового размера, которые
кодируются неравномерным алфавитом (с символами различной ширины) и
"словарные методы", когда текст, наоборот, "режется" на токены разного
размера, которые кодируются равномерным алфавитом (с символами одинакового
размера). Теоретики утверждают, что они эквивалентны, на практике, обычно,
комбинируют оба. В остальном же, различные "техники сжатия" отличаются
только деталями "нарезки".

"Избыточностью" в Теории Информации называют разность оценок размеров
исходного и идеально сжатого текста.

Детали подсчета сейчас неважны, важно только, что для любого текста
существует предел "сжимаемости" и никаким выбором метода кодирования
размер сжатого текста не может быть сделан меньше, чем задано этим
пределом.

Постулируем, что количество содержащейся в тексте информации не зависит от
выбора или изменения метода его кодирования.

Например, количество информации в тексте не изменится, если записать его
буквами другого размера.

Удивительным образом, это положение противоречит тому определению
"избыточности", которое приводят в учебниках, поэтому забудем про
"избыточность". Перефразируя Голду Меир, "Избыточность - это вещь, которой
нет".

Постулируем, что "сжатое" сообщение не может содержать меньшее количество
информации, чем исходное.

В самом деле, независимо от того, как определены "информация" и
"количество информации", в силу обратимости процесса, "разжатое" сообщение
должно быть идентично исходному. Полагая компрессор и декомпрессор
устройствами конечного размера, а множество всех возможных обрабатываемых
сообщений бесконечным, находим, что вся содержащаяся в "разжатом"
сообщении информация необходимо должна содержаться и в сжатом, иначе она
не может быть восстановлена. Кроме того, "сжатое" сообщение может также
содержать управляющую информацию для декомпрессора ("конверт"). До тех
пор, пока мы полагаем информацию неотрицательной, нет никакого способа при
суммировании двух величин получить сумму, меньшую одного из слагаемых.

Забавно, что ситуация с "избыточностью" в Теории Информации в точности
повторяет ситуацию с Флогистоном (и его отрицательной массой) в химических
теориях 18 века. Можно ожидать, что "избыточность" разделит судьбу
флогистона, оставшись курьезом в анналах Теории Информации.

Понимание Информации как структуры (и оценка ее количества через
структуру), очевидно, не ново и, по сути, восходит еще к Хартли (1928), но
отбросив понятие избыточности, становится возможным рассматривать
информацию как инвариант тензорного преобразования, т.е. сохранение
площади некоторой геометрической фигуры, включая не только непрерывные
деформации растяжения-сжатия (изменения размеров символов алфавита), но и
разрезание фигуры на части и складывание их в ином порядке (перестановки
частей текста - по Г. Крону).

Иными словами, постулируется, что Количество Информации НЕ изменяется при
"перемешивании" букв текста (шифрование) и/или изменении ширины символов
алфавита (сжатие).

Будем рассматривать Текст как многомерное пространство, размерность
которого задана числом символов.

Возможно, следует разделять два вида трансформации такого пространства:

1. Внешняя трансформация или Обобщенный Поворот - R. Эта трансформация
   связана только с перестановкой символов текста, без изменения их
   размера. Из техник сжатия, сюда относятся все сортирующие
   преобразования (MTF, BWT, ST).

2. Внутренняя трансформация или Обобщенный Сдвиг - S. Эта трансформация
   связана только с изменением размера символов текста, без их
   перестановки в тексте. Из техник сжатия, сюда относятся, например, RLE,
   кодирование Хаффмана, все варианты LZ, арифметическое кодирование.

Первое преобразование (Обобщенный Поворот) полностью согласуется с
шенноновским (1948) определением количества информации - никакие
перестановки букв сообщения его не изменяют.

Второе преобразование (Обобщенный Сдвиг) требует введение Релятивизма -
отказа от понятия "Абсолютное Количество Информации" (не зависящее от
выбора системы координат - метода кодирования) и введения нового понятия
"Относительное Количество Информации", численное значение которой различно
в различных системах отсчета (зависит от выбора метода кодирования).

Иными словами, одно и то же сообщение из различных координатных систем
(сжатых и несжатых, например) может видеться, как содержащее различное
относительное количество информации, при этом определено минимальное значение
(энтропийный предел Шеннона), которое не может быть уменьшено ни в какой
координатной системе (никаким выбором метода кодирования).

По сути, это и есть решение предложенного парадокса с "пульсацией"
энтропии, когда Алиса отправляет Бобу сжатое сообщение по e-mail.

Фактически, ситуация в точности повторяет введение релятивизма
А. Эйнштейном в Теории Относительности: все формулы уже много лет как
известны, но придерживаясь понятия "Абсолютное Время", невозможно
избавиться от парадоксов, исчезающих при переходе к локальным системам
отсчета.

В контексте Теории Информации понятию Предельной Скорости Эйнштейна (никакая
скорость не может превысить скорость света) соответствует Энтропийный Предел
Шеннона (никакое сжатие информации не может преодолеть энтропийный предел), и
если ввести обратную сжатию характеристику (информационной) плотности
[символ/бит], то она будет точным аналогом скорости в СТО.

Несмотря на относительность количества информации, энтропийный предел
позволяет ввести выделенную (собственную) систему координат (алфавит), в
котором заданный текст имеет наименьший ("идеальный") размер. Тогда любой
другой алфавит (преобразованный текст) можно рассматривать как результат
обобщенного сдвига и поворота относительно собственного алфавита, и
трактовать R и S как групповые операции над текстом.

© Gazlan 2011 * gazlan@yandex.ru