Logo Home   >>   Информационные цепи. Примитивы

Информационные цепи. Примитивы

Хотя в литературе, посвященной обработке текста, обычно употребляется термин
"строка", я предпочитаю использовать сочетание "информационная цепь". Причин
для этого две: во-первых, напрашивающаяся аналогия с электрическими цепями и,
во-вторых, желание подчеркнуть, что символы текста не просто выстроены подряд
"в строку", а в самом деле связаны между собой, как элементы единой цепи.

Формально, каждый символ текста может быть представлен как двухполюсник,
обладающий некоторым набором конструкционных параметров, которые в дальнейшем
будут обозначаться унифицированным термином Импеданс.

Без потери общности, рассмотрим символы обычного текста, такого, как, например,
печатный текст.

В типографике, все шрифты делятся, по крайней мере, на два больших класса -
моноширинные и пропорциональные. В моноширинных под каждый символ выделяется
место фиксированного размера (таким шрифтом печатали, пишущие машинки), в 
пропорциональных размер изображения зависит от самой изображаемой буквы.

Разумеется, в текстах иной природы (звук, видео итд) все обстоит точно так же:
размеры и длительность могут быть переменными. Обычно, говорят об амплитуде и
длительности сигналов.

Для типографского текста (заданного кегля), под амплитудой можно понимать сам
символ (определяемый его индексом в алфавите), а под длительностью - его
ширину.

Как ни странно, в большинстве книг, описывающих методы обработки текста,
понятие ширины символа (или равноценное) не встречается вовсе.

Это также удивительно, как если бы все книги печатались только шрифтом для
пишущих машинок или вся музыка состояла из нот одной длительности или вся
живопись выполнялась одной только черной краской.

Рассматривая текстовую цепь как последовательное соединение конструктивных
элементов - символов алфавита, приходим к выводу, что они имеют два
существенных параметра, обусловленные именно их последовательным соединением:
алфавитный индекс (амплитуду) и ширину (длительность).

В типографике, разумеется, выделяют еще ряд признаков: наличие засечек,
например, или над- и подстрочных элементов, но они не оказывают влияния на
структуру и длину текстовой строки.

Важно, что частота употребления различных букв неодинакова и некоторые
встречаются значительно чаще других. Сама эта частота употребления может
служить отличительным признаком языка. Еще большие различия наблюдаются в
отношении пар букв (дифтонгов) и, особенно, их троек (трифтонгов).
Замечательно, что эти частоты "несимметричны": если поменять местами буквы в
паре ('th' - 'ht', например), то частота их использования в тексте будут
существенно различной.

На более высоком уровне, заметна различная частота употребления различных
слов, причем короткие слова (независимо от языка) употребляются чаще длинных
и в целом эта закономерность хорошо описывается Законом Ципфа.

Различная частота употребления различных букв имеет много важных практических
последствий: типографии заказывают различное количество литер для набора
текста, словари и энциклопедии содержат различное количество статей для
разных букв, на телеграфе экономят электричество, используя короткие кодовые
комбинации для наиболее частых символов, в эргономичных клавиатурах в центр
помещают наиболее используемые буквы.

Очевидно, что эти две характеристики - алфавитный индекс (амплитуда) и ширина
(длительность) - независимы для каждой позиции текста и обе являются
непосредственно наблюдаемыми величинами. Произведение этих двух величин имеет
очевидный геометрический смысл - площадь.

Таким образом, k-символьный текст, как система, исчерпывающе описывается
набором из 2*k параметров - k пар {индекс, ширина}. Комбинируя пары {индекс,
ширина} в единый конструктивный параметр, получаем, что любой текст может
быть описан k-мерным вектором, а любое обратимое преобразование этого текста
- матрицей преобразования, невырожденной, в силу обратимости преобразования.

Одиночный алфавитный символ будем называть Примитивом информационной цепи.
Таким образом, Примитивная информационная цепь состоит из набора
изолированных алфавитных символов, а многосимвольные текстовые цепи
конструируются из примитивных путем их последовательного соединения.

© Gazlan 2011 * gazlan@yandex.ru