Кодирование символьных данных




Представление информации в компьютере

Информация – это сведения об окружающем мире (объекте, процессе, явлении, событии), которые являются объектом преобразования (включая хранение, передачу и т.д.) и используются для выработки поведения, для принятия решения, для управления или для обучения.

Как следует из определения, с информацией всегда связывают три понятия:

источник информации – тот элемент окружающего мира (объект, процесс, явление, событие), сведения о котором являются объектом преобразования;

потребитель информации – тот элемент окружающего мира, который использует информацию (для выработки поведения, для принятия решения, для управления или для обучения);

сигнал – материальный носитель, который фиксирует информацию для переноса ее от источника к потребителю. В данном случае сигнал носит электронный характер.

Взаимосвязь введенных понятий показана на рисунке:

Сигнал является важнейшим элементом в данной схеме. Формы его представления, а также количественные и качественные характеристики содержащейся в нем информации, важные для потребителя информации.

Сигнал является материальным носителем информации, которая передается от источника к потребителю. Он может быть дискретныминепрерывным (аналоговым).

 

Дискретный сигнал слагается из счетного множества (т.е. такого множества, элементы которого можно пересчитать) элементов (говорят – информационных элементов). Можно выделить следующие ее элементы: разделы (например, “Информация”), подразделы (например, “Свойства”), абзацы, предложения, отдельные фразы, слова и отдельные знаки (буквы, цифры, знаки препинания и т.д.). Набор самых “мелких” элементов дискретного сигнала называется алфавитом, а сам дискретный сигнал называют также сообщением.

Непрерывный сигнал – отражается некоторой физической величиной, изменяющейся в заданном интервале времени, например, тембром или силой звука. В виде непрерывного сигнала представлена настоящая информация для тех студентов – потребителей, которые посещают лекции по информатике и через звуковые волны (иначе говоря, голос лектора), носящие непрерывный характер, воспринимают материал.

Дискретный сигнал лучше поддается преобразованиям, поэтому имеет преимущества перед непрерывным. В то же время, в технических системах и в реальных процессах преобладает непрерывный сигнал. Это вынуждает разрабатывать способы преобразования непрерывного сигнала в дискретный.

2. Кодирование – представление символов одного алфавита символами другого.

Алфавит двоичной системы состоит из двух символов – 0 и 1. Причем 1 означает наличие сигнала, 0 – его отсутствие. Один двоичный символ получил название бит (от англ. Аббревиатуры bit – binary digit, что означает «двоичная цифра»). Любой символ, букву, цифру можно представить кодом, состоящим из 8 бит. С помощью одного байта (28) – можно закодировать 256 символов.

Обратная процедура получения исходных символов по кодам символов называется декодированием. Очевидно, для выполнения правильного декодирования код должен быть однозначным, т.е. одному исходному символу должен соответствовать точно один код и наоборот.

В зависимости от целей кодирования, различают следующие его виды:

кодирование по образцу – используется всякий раз при вводе информации в компьютер для ее внутреннего представления;

криптографическое кодирование, или шифрование, – используется, когда нужно защитить информацию от несанкционированного доступа;

эффективное, или оптимальное, кодирование – используется для устранения избыточности информации, т.е. снижения ее объема, например, в архиваторах;

помехозащитное, или помехоустойчивое, кодирование – используется для обеспечения заданной достоверности в случае, когда на сигнал накладывается помеха, например, при передаче информации по каналам связи.

 

Кодирование символьных данных

Для представления символьной информации используются различные системы кодирования символов.

Система кодирования – строго определенный порядок присвоения условных обозначений единицам информации.

В персональных компьютерах и телекоммуникационных системах применяется международный байтовый код ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США), используется для внутреннего представления символьной информации в операционной системе MS DOS (система кодирования символов 8-битовыми числами).

Система кодирования КОИ-8 (код обмена информацией, восьмизначный) имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Фирма Microsoft для операционной системы Windows разработала собственную русскую кодировку ANSI-1251.

Система кодирования Unicode (универсальная – международный стандарт кодировки) основана на 16-ти разрядном кодировании символов. Для представления каждого символа в нем отводится 2 байта. Такая длина кода обеспечивает включение в первичный алфавит 65536 знаков – этого поля достаточно для размещения в одной таблице символов большинства языков планеты. В системе кодирования Unicode все текстовые документы автоматически становятся вдвое длиннее.

 

Все вычисления и преобразования информации в компьютере происходят в двоичной системе счисления.

 

Таблица 1 – Коды ASCII

 

                      A B C D E F
  ... ...     @ P ' р А Р а ... ... ... р Ё
  ... ... !   A Q a q Б С б ... ... ... с ё
  ... ... "   B R b r В Т в ... ... ... т Є
  ... ... #   C S c s Г У г ... ... ... у є
  ... ... $   D T d t Д Ф д ... ... ... ф Ї
  ... ... %   E U e u Е Х е ... ... ... х ї
  ... ... &   F V f v Ж Ц ж ... ... ... ц Ў
  ... ... '   G W g w З Ч з ... ... ... ч ў
  ... ... (   H X h x И Ш и ... ... ... ш °
  ... ... )   I Y i y Й Щ й ... ... ... щ
A ... ... * : J Z j z К Ъ к ... ... ... ъ ·
B ... ... + ; K [ k { Л Ы л ... ... ... ы
C ... ... , < L \ l | М Ь м ... ... ... ь
D ... ... - = M ] m } Н Э н ... ... ... э ¤
E ... ... . > N ^ n ~ О Ю о ... ... ... ю
F ... ... / ? O _ o ¤ П Я п ... ... ... я  

 

В системе ASCII закреплены две таблицы кодирования – базовая и расширенная.

Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

 

Таблица кодов содержит 16 строк и 16 столбцов; каждая строка и столбец пронумерованы в шестнадцатеричной системе счисления цифрами от 0 до F. Шестнадцатеричное представление ASCII-кода складывается из номера столбца и номера строки, в которых располагается символ.

Стандарт кода – неизменяемая часть, столбцы с номерами от 0 до 7.

В столбцах с номерами 0 и 1 находятся управляющие символы, которые используются, в частности, для управления принтером. Столбцы с номерами от 2 до 7 содержат знаки препинания, арифметических действий, некоторые служебные символы, а также заглавные и строчные буквы латинского алфавита.

Расширение кода – столбцы с номерами от 8 до F, используются, в частности, для кодирования символов национальных алфавитов.

Расширение кода включает символы псевдографики, буквы национальных алфавитов и другие символы.

В приведенной таблице в качестве национального выбран русский алфавит. Пустые ячейки означают, что они не используются, а ячейки с многоточием содержат символы, которые умышленно не показаны.

 

3. Обозначения для измерения количества информации:

1 бит = 1 разряд (может принимать значение 0 или 1)

1 байт = 8 бит

1 килобайт (кбайт) = 1024 байта = 210 байт;

1 мегабайт (Мбайт) = 1024 кбайт = 220 байт;

1 гигабайт (Гбайт) = 1024 Мбайт = 230 байт;

1 терабайт (Тбайт) = 1024 Гбайт =240 байт.

Задание на СРС

1. С помощью таблицы ASCII-кодов закодировать сообщение "группа", используя шестнадцатеричное представление кода.

2. С помощью таблицы перевода заменить шестнадцатеричное представление числа на двоичное.

Таблица 2 – Таблица перевода

 

Десятичная система Двоичная система Шестнадцатеричная система
     
     
     
     
     
     
     
     
     
     
    A
    B
    C
    D
    E
    F
     

Результат:

текст     Двоичный код
группа г – А3, р – Е0, у – Е3, п – АF, п – АF, а – А0.   г – А3 – 1010 0011 р – Е0 – 1110 0000 у – Е3 – 1110 0011 п – АF – 1010 1111 п – АF – 1010 1111 а – А0 – 1010 0000   1010 0011 1110 0000 1110 0011 1010 1111 1010 1111 1010 0000

Задание на СРСП:

1. С помощью таблицы ASCII-кодов закодировать сообщение "Информатика", используя шестнадцатеричное представление кода.

2. С помощью таблицы перевода заменить шестнадцатеричное представление числа на двоичное.

Контроль выполненного задания состоится на занятиях СРСП (по расписанию занятий).

3. Кодирование сигнала.

Форма контроля – рефераты, 10 стр. Сроки сдачи – на следующей неделе.

 

Контрольные вопросы

А. Для письменного контроля:

1. Что такое сигнал?

2. Что такое дискретный сигнал?

3. Что такое непрерывный (аналоговый) сигнал?

4. Какие три понятия связаны с информацией?

5. Что такое кодирование информации?

6. Какое представление числа используется в таблице ASCII-кодов?

7. Декодируйте текст «A3 E0 E3 AF AF A0», с помощью таблицы ASCII-кодов.

8. Какие вы знаете системы кодирования?

9. Какие различают виды кодирования?

Б. Для компьютерного тестирования:



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: