Кодирование текстовой информации

Введение

Человек воспринимает окружающий мир (получает информацию) с помощью органов чувств (зрение, слух, обоняние, осязание, вкус). Для того чтобы правильно ориентироваться в мире, он запоминает полученные сведения (хранит информацию). В процессе достижения каких-либо целей человек принимает решения (обрабатывает информацию). В процессе общения с другими людьми человек передает и принимает информацию. Человек живет в мире информации.

Море информации, которое получает человек, необходимо как-то запомнить или сохранить. На помощь приходит персональный компьютер. Никто не задумывается о том, как информация помещается на маленьких и удобных флэш-картах, и, конечно же, на жестком диске компьютера. Поэтому мы считаем данную тему, для нашего современного мира – мира информационных технологий, актуальной.

Представляя эту информацию, нужно ответить на главный вопрос:

Зачем человеку кодирование информации?

Кодирование информации

Составляя информационную модель объекта или явления, мы должны договориться о том, как понимать те или иные обозначения. То есть договориться о виде представления информации.

Информационная модель – целенаправленно отобранная информация об объекте или процессе.

Человек выражает свои мысли в виде предложений, составленных из слов. Они являются алфавитным представлением информации.

Основу любого языка составляет алфавит - конечный набор различных знаков (символов) любой природы, из которых складывается сообщение на данном языке.

Но вот беда, одна и та же запись может нести разную смысловую нагрузку.

Например, набор цифр 271009 может обозначать:

массу объекта;
длину объекта;
расстояние между объектами;
номер телефона;
запись даты 27 октября 2009 года.

Чтобы избежать путаницы, следует договориться о правилах представления информации. Такое правило часто называют кодом.

Код - набор условных обозначений для представления информации.

Кодирование - процесс представления информации в виде кода (представление символов одного алфавита символами другого; переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки).

Обратное преобразование называется декодированием.

Для общения друг с другом мы используем код - русский язык.

При разговоре этот код передается звуками, при письме - буквами.

Водитель передает сигнал с помощью гудка или миганием фар.

Вы встречаетесь с кодированием информации при переходе дороги в виде сигналов светофора.

Таким образом, кодирование сводиться к использованию совокупности символов по строго определенным правилам.

Способ кодирования зависит от цели, ради которой оно осуществляется:

сокращение записи;
засекречивание (шифровка) информации;
удобство обработки;
и т. п.

Существуют три основных способа кодирования текста:

графический – с помощью специальных рисунков или значков;
числовой – с помощью чисел;
символьный – с помощью символов того же алфавита, что и исходный текст.

Наиболее значимым для развития техники оказался способ представления информации с помощью кода, состоящего всего из двух символов: 0 и 1.

Для удобства использования такого алфавита договорились называть любой из его знаков «бит» (от английского « bi nary digi t » -двоичный знак).

Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т.п.).

Двоичные числа очень удобно хранить и передавать с помощью электронных устройств.

Например, 1 и 0 могут соответствовать намагниченным и ненамагниченным участкам диска; нулевому и ненулевому напряжению; наличию и отсутствию тока в цепи и т.п.

Поэтому данные в компьютере на физическом уровне хранятся, обрабатываются и передаются именно в двоичном коде.

Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию.

Такой метод представления информации называется двоичным кодированием.

Таким образом, двоичный код является универсальным средством кодирования информации.

Кодирование текстовой информации

Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать и текстовую информацию. Для хранения двоичного кода одного символа выделен 1 байт = 8 бит.

Учитывая, что каждый бит принимает значение 0 или 1, количество их возможных сочетаний в байте равно

Рисунок 1

Значит, с помощью 1 байта можно получить 256 разных двоичных кодовых комбинаций и отобразить с их помощью 256 различных символов.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111.

Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.

Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице.

Кодирование текстовой информации с помощью байтов опирается на несколько различных стандартов, но первоосновой для всех стал стандарт ASCII (American Standart Code for Information Interchange), разработанный в США в Национальном институте ANSI (American National Standarts Institute).

В системе ASCII закреплены две таблицы кодирования - базовая и расширенная.

Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 33 кода (с 0 до 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы.

Например, ASCII коды букв латинского алфавита:

Таблица 1

Тогда слово COMPUTER с помощью ASCII таблицы кодируется следующим образом:

C	O	M	P	U	T	E	R

С распространением современных информационных технологий в мире возникла необходимость кодировать символы алфавитов других языков: японского, корейского, арабского, хинди, а также других специальных символов.

На смену старой системе пришла новая универсальная – UNICODE, в которой один символ кодируется не одним, а двумя байтами.

В настоящее время существует много различных кодовых таблиц (DOS, ISO, WINDOWS, KOI8-R, KOI8-U, UNICODE и др.), поэтому тексты, созданные в одной кодировке, могут не правильно отображаться в другой.

Кодирование текстовой информации

Поиск по сайту