приемлемые решения по всем оставшимся спорным вопросам.




Целью первичной обработки данных является получение проверенных, отредактированных

файлов данных. Первичная обработка данных состоит из следующих шагов:

• введение всех вопросников по кластеру в файл данных;

• проверка структуры файла данных;

• повторное введение данных и последующая сверка файла данных;

• создание резервной копии проверенного и сверенного файла данных;

• второй уровень редактирования файла данных;

• создание резервной копии отредактированного или окончательного файла данных.

Последовательность первичной обработки данных представлена в виде блок-схемы на

Предыдущей странице. Обратите особое внимание на то, что проверка структуры, ввода данных

Проверки и редактирование второго уровня являются итеративными процедурами, которые

Выполняются, до тех пор пока не будут разрешены все проблемы или пока не будут найдены

приемлемые решения по всем оставшимся спорным вопросам.

10. Для каких целей выполняют предварительную обработку данных?

11. Как определяется информационная емкость источника сообщений?

Как известно, теория информации изучает количественные закономерности передачи, хранения и обработки информации. Она позволяет оценить эффективность различных систем связи и установить условия согласования источника информации с каналом связи и получателем сообщений. Количественная мера, для сравнения способности различных систем передавать информацию, была предложена Хартли в 1927 г., названа им информационной емкостью и определена соотношением

где m — число различных состояний системы.

При таком определении емкость составной накапливающей системы оказывается равной емкости элементарной запоминающей ячейки, помноженной на число ячеек, т. е. логарифмическая мера обладает естественным в данном случае свойством аддитивности. Действительно, если имеется два переключателя с m положениями каждый, то общее число положений (или состояний) составит т 2 и, таким образом, два переключателя можно заменить одним, имеющим М = гп2 положений. Согласно (3.1) в этом случае

За единицу информационной емкости принимается емкость элементарной накопительной ячейки с минимальным числом состояний m= 2. Если в (3.1) принять m = 2 и основание логарифма а тоже принять равным 2, то С будет равно 1. Это и есть минимальная информационная емкость, равная одной двоичной единице (дв. ед.) или одному биту (1 бит).

Информационная емкость не характеризует полностью источник информации. Важно знать, какое количество информации может быть произведено источником в единицу времени. Для этого вводится понятие производительности источника информации R, определяемое выражением

где Т — время, в течение которого источник в состоянии выработать информацию, равную его накопительной емкости С. Производительность характеризует предельные возможности источника информации.

Понятие информация очень емко и часто в него вкладывается разное содержание. В обыденной жизни словом информация оценивают смысловое содержание того или иного сообщения. Например, сообщение В будущем году 1 января — нерабочий день практически никакой информации не несет, вое знают — это традиция, а сообщение В будущем году 1 января — рабочий день (если оно не ложно) несет много информации, так как оно неожиданно и содержит сведения о маловероятном событии. Уже из этого примера видно, что вероятность является объективной характеристикой ценности сообщения. В теории связи определение количества информации не связано со смысловым содержанием сообщения. С точки зрения теории связи приходится считать, что оба приведенные выше сообщения содержат практически одинаковое количество информации, так как для передачи по линии связи они требуют примерно одинаковых затрат.

:

, а информация должна быть положительной.

Рассмотрим в качестве примера построение автоматизированной системы контроля посещения лекций студентами в потоке из 63 человек. Идя по наиболее простому пути, мы установили бы в деканате 63 лампочки, соединили бы их с кнопками, связанными с партами так, что, когда студент садится на свое место, кнопка замыкает контакт и лампочка в деканате загорается. Если за студентами закрепить постоянные рабочие места, то горящие лампочки будут показывать, кто из студентов пришел на занятия, а негорящие — кто отсутствует. Если у нас нет никаких априорных сведений о статистике посещений занятий студентами, то такой способ передачи информации является оправданным. Допустим, однако, что в результате статистического анализа установлено: в среднем за год число студентов, не являющихся на занятия в группе из 63 человек, равно трем. Это дает нам следующие априорные сведения о посещении студентами лекций: вероятность пропуска занятия p 0 = 3/63, вероятность явки на занятия p 1 = 1 — p 0 =61/63.

Количество информации I 0 которое содержит маловероятное сообщение о том, что такой-то студент не явился на занятия, составляет: I 0 = — log 2p 0 = - log 2(3/63) =4,42 бит. Количество информации 7i, которое содержит сообщение о явке студента на занятия, в сто раз меньше: I 1 = — log 2 (61/63) = 0,043 бит. Присвоим горящей лампочке индекс 1, а негорящей — О, тогда одно из возможных сообщений: 111111111111111 1011111111011111111111111111011111111111111 11111

Можно ли это сообщение передать более экономично? Очевидно, можно, если передавать сведения не о всех студентах, а только о тех, кто не явился на занятия. Учитывая, что число 63 двоичным кодом можно передать при помощи шести разрядов, закодируем номера соответствующих студентов (17, 26, 44) и передадим эту кодовую последовательность:

010001011010101100.

Таким образом, для передачи исходного сообщения при таком способе кодирования потребуется всего 18 двоичных запоминающих ячеек.

Обратим внимание на то, что при втором варианте кодирования вероятности появления 1 и 0 примерно одинаковы, каждый из символов приносит примерно одинаковую информацию. Поскольку символов стало меньше, то, очевидно, каждый символ (посылка) при втором варианте кодирования в среднем приносит больше информации, чём в первом варианте. Следовательно, среднее количество информации, приходящееся на одну посылку в сообщении, может служить мерой эффективности кодирования сообщения. Эта величина называется энтропией и определяется, как математическое ожидание:

Энтропия согласно (3.5) достигает максимума при равномерном чередовании символов 1 и 0 и становится равной нулю, если одна из вероятностей p 0 или p 1 равна единице или нулю (рис. 3.1). Для рассмотренного примера в первом варианте кодирования H 1 = 0,25, а во втором H 2 = 0,99. Это значит, что кодирование во втором случае близко к оптимальному и, следовательно, более экономичным способом записать эту информацию невозможно. Отсюда следует, что двоичные сообщения с равновероятными состояниями не могут быть сжаты и что не существует способа их запасания более экономичного, чем тот, при котором каждое сообщение в отдельности вкладывается в двоичную запасающую ячейку.

Если сообщение имеет больше чем два состояния, энтропия определяется формулой

Где p 1 — априорная вероятность г-го состояния, а т — общее число возможных состояний. Это выражение имеет максимум, когда все состояния равновероятны, т. е. р, = 1/т. В этом случае

последовательно, энтропия равна информационной емкости накопителя. Если состояния не равновероятны, то Н меньше С и накопитель не загружен.

Информация от источника попадает к потребителю через канал связи. В правильно сконструированной системе канал связи необходимо согласовать с источником информации. Следовательно, нужно уметь оценить информационные характеристики не только источника информации, но и канала связи.

В 1946 г. Шеннон предложил формулу для оценки пропускной способности канала связи. Согласно этой формуле объем информации I, который способен пропустить канал связи, равен

где F—полоса пропускания канала связи; Т— вр емя передачи сообщения; Pc и P ш — соответственно мощности сигнала и шума.

Формула выведена в предположении, что помехи представляют собой белый шум и сигнал имеет такую же статическую структуру

Информационный объем сообщения (информационная емкость сообщения) - количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т.д.).

В теории информации количеством информации называют числовую характеристику сигнала, которая не зависит от его формы и содержания и характеризует неопределенность, которая исчезает после получения сообщения в виде данного сигнала. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии.

Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество информации в сообщении о нем равно 0. Чем невероятнее событие, тем большее количество информации несет сообщение о нем. Лишь при равновероятных ответах ответ “да” или “нет” несет один бит информации.

Количество информации при вероятностном подходе можно вычислить, пользуясь следующими формулами:

1). Формула Хартли.

I = log2 N или 2I = N,

где N - количество равновероятных событий (число возможных выборов),

I - количество информации.

2). Модифицированная формула Хартли.

и формула имеет вид

I = log2 (1/p) = - log2 p

где p- вероятность наступления каждого из N возможных равновероятных событий.

3). Формула Шеннона.

H = S pi hi = - S pi log2 pi

где pi - вероятность появления в сообщении i-го символа алфавита;

hi = log2 1/pi = - log2 pi - количество собственной информации, переносимой одним символом;

Н - среднее значением количества информации.

 

12. Какие сигналы используют для передачи информации

13. Для каких целей выполняют предварительную обработку данных?

14. В чём заключается этап обработки данных?

15. Структура информационной технологии управления металлургическим участком.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: