Рис. 19. Классификация ИПЯ
Процесс выражения основного смыслового содержания элементов информации (составления поискового образа) с помощью информационно-поискового языка называется индексированием.
В зависимости от используемого ИПЯ, различают виды индексирования.
Классификационное индексирование (систематизация) – присвоение данным или документам классификационных индексов в соответствии с правилами какого-либо классификационного ИПЯ.
Предметное индексирование – индексирование предметного содержания документов.
Свободное индексирование – индексирование, технология которого не предусматривает замену ключевых слов текста в соответствии с рекомендациями специального словаря.
Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.
Фактографическое индексирование – индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (фактов).
Автоматизированное индексирование – индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и включает применение интеллектуальных процедур при принятии основных решений о составе поискового образа.
Автоматическое индексирование: индексирование, технология которого предусматривает использование только формальных процедур обработки текста, осуществляемых с помощью вычислительной техники.
Качество индексирования оценивается характеристиками полноты и специфичностью индексирования. Полнота индексирования – степень отражения в поисковом образе аспектов содержания документа и (или) запроса. Специфичность индексирования – характеристика качества индексирования, определяемая отношением числа фактографических сведений и специфических терминов, отражающих содержание документа, к числу неспецифических общенаучных терминов в поисковом образе.
|
На практике наиболее часто встречаются три типа поисковых запросов.
Адресный запрос направляется для получения сведений о наличии в данном хранилище определенного издания. При этом задается библиографическое описание этого издания. Запрос назван адресным потому, что библиографическое описание является достаточным для нахождения адреса хранения требующегося документа.
Тематический запрос – это заявка на подбор документов по определенной теме.
При фактографическом запросе требуются справки типа консультации, например расшифровка условных обозначений, время жизни того или иного человека, значение физико-химических констант и т. п.
Реальные ИПС обычно специализируются на удовлетворении одного (иногда нескольких) типа запросов различными видами информационного поиска, отличающимся целями, средствами и объектом поиска.
Сущность задачи адресного поиска заключается в следующем. Документ рассматривается как объект, адрес которого в хранилище задан. Чтобы найти нужный документ, не нужно обращаться к его содержанию, оценивать по существу, а достаточно удостовериться, что заданный в запросе адрес соответствует адресу, проставленному на документе. Аналогичными задачами являются задачи поиска слов в словаре, жителей в городе по адресу и т. д. Для обеспечения адресного поиска нужно расположить объекты в хранилище в строго определенном порядке, чтобы каждый объект имел свой точный адрес. Этот порядок должен быть известен человеку, ведущему поиск. Типичным средством адресного поиска в библиотеках являются алфавитные и номерные каталоги и указатели.
|
Адресный поиск используется в ЭВМ, где каждая ячейка запоминающего устройства имеет свой адрес. Процесс обработки информации с помощью ЭВМ сводится к чередованию этапов адресного поиска информации, записанной в тех или иных ячейках, и этапов арифметических или логических операций над записями.
В ЭВМ применяются метод последовательного перебора, метод деления на части, ассоциативно-адресный метод и др. Метод последовательного перебора и метод последовательного деления на части аналогичны, по существу, методам организации и поиска материала в библиотечных каталогах. Адресный поиск является одним из наиболее распространенных видов поиска.
Под семантическим поиском понимается поиск элементов знания, фактов, концепций. Он осуществляется в соответствии с критерием релевантности, на базе которого определяется соответствие между содержанием информационного сообщения и содержанием запроса. Принципиальная разница между адресным и семантическим поиском состоит в том, что при адресном поиске сообщение рассматривается как материальный объект, а при семантическом поиске – как носитель знания, т. е. с точки зрения содержания. Адресный поиск выходит за пределы информационного поиска, семантический же поиск всегда является информационным. Семантический поиск требует тематического и фактографического запросов. Удовлетворение такого рода запросов невозможно без обращения к смыслу сообщения. Примерами семантического поиска являются поиск документов, относящихся к данной области знаний или к данной научной проблеме, проверка патентоспособности какого-либо изделия.
|
Документальный поиск – это информационный поиск, при котором объектами поиска являются документы. Документальный поиск с использованием ЭВМ называется автоматизированным документальным поиском.
Библиографический поиск – это документальный поиск, осуществляемый в библиографической базе данных с целью нахождения библиографического описания или других адресов первичных документов. Когда потребителю информации требуются сведения о конкретном факте, появляются фактографические запросы, для удовлетворения которых предназначен фактографический поиск.
Фактографический поиск – это информационный поиск, имеющий целью нахождение фактографических описаний, релевантных полученному запросу. Фактографический поиск имеет ряд отличий от документального поиска. Документальная система выдает множество документов, релевантных запросу, предоставляя потребителю выбор фактических данных из этих документов. Фактографические ИПС избавляют потребителя от этой процедуры, направляя ему описание интересующего его факта.
Информационный поиск по разовым информационным запросам в ранее накопленном информационном массиве называют ретроспективным поиском. Поиск производится во всем массиве элементов информации по данной тематике.
Информационный поиск, при котором информационный запрос формируется с помощью булевских операторов, называют булевским поиском.
В современных ИПС информационный поиск, как правило, реализуется с использованием средств вычислительной техники, такой поиск информации называется автоматизированным информационным поиском. Дадим определения основным видам автоматизированного информационного поиска.
Под поиском на естественном языке понимают автоматизированный информационный поиск, для которого информационный запрос формулируется на естественном языке.
Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста, является полнотекстовым поиском.
Эффективность информационного поиска в большей степени зависит от сформулированного информационного запроса, который должен с максимальной полнотой и точностью отражать информационную потребность пользователя. Для этого используют диалоговый режим информационного поиска. Автоматизированный информационный поиск, при котором пользователь автоматизированной системы может формулировать информационные запросы в диалоговом режиме, корректировать их в процесс поиска и получать промежуточные результаты называют диалоговым поиском.
Существует и пакетный режим поиска, который реализуется с помощью пакетного поиска, т.е. автоматизированного информационного поиска, при котором информационные запросы накапливаются в специальном массиве для последующей совместной обработки.
Оценка качества информационного поиска осуществляется на основе семантических показателей, т. е. его способности находить элементы информации релевантные информационному запросу. Результаты информационного поиска оцениваются по следующим семантическим показателям:
Коэффициент полноты – отношение числа найденных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.
(1)
Коэффициент точности – отношение числа найденных релевантных к общему числу документов в выдаче.
(2)
Коэффициент шума – отношение числа нерелевантных документов в выдаче к общему числу документов в выдаче (обратный к коэффициенту точности).
(3)
Коэффициент ложной выдачи – отношение числа нерелевантных документов в выдаче к общему числу нерелевантных документов в базе данных.
Коэффициент молчания – отношение числа невиданных нерелевантных документов к общему числу релевантных документов в базе данных.
Формулы для расчета этих показателей выведены из таблицы, представляющей собой разбиение информационного массива по признакам релевантности данному информационному запросу.
В таблице используются следующие обозначения: А – множество релевантных и выданных документов; В – множество нерелевантных, но выданных документов; С – множество релевантных, но не выданных документов; D – множество нерелевантных и невиданных документов.
Таблица 11
Документы | Релевантные | Нерелевантные | Сумма |
Выданные | А | В | А+В |
Невиданные | С | D | C+D |
Итого | А+С | B+D | A+B+C+D |
5.8. Передача информации
Процесс передачи информации на расстояние осуществляется двумя способами: неэлектрическим (неавтоматизированным), например, с помощью экспедиторов, курьеров, для которого характерны высокая надежность и низкая скорость передачи, иэлектрическим (автоматизированным), требующим системы защиты от искажений и несанкционированного доступа.
Проблемы организации передачи информации уходят в глубь веков. Само существование человека требовало общения и обмена информацией. Прообразом линий связи была сигнализация с помощью костров, использование оптических и акустических сигналов. Также давно возникла идея ретрансляционных (переприемных) станций. По принципу передачи информации современные радиорелейные линии берут свое начало от курьерской почты (relay означает «смену лошадей»). Во Франции во время Великой французской революции впервые организованы приемопередающие станции на башнях и холмах, образуя регулярные линии связи.
Возникновение эры электрической связи связывают с разработкой в 1837 г. американцем Морзе системы телеграфного аппарата и кода, состоящего из точек и тире. Таким образом, только в начале XIX в. попытки изобрести электрическую связь увенчались успехом. В 1832 г. русский академик П. Шиллинг построил первую линию телеграфной связи, в 1876 г. американец Белл получил патент на изобретение телефона, положив начало речевой связи по проводам. Начало XX в. ознаменовалось изобретением радио русским ученым А.С. Поповым.
В 1956 г. фирма Bell Laboratories построила первую цифровую линию связи для передачи речи по принципу импульсно-кодовой модуляции. Запуск искусственного спутника Земли в октябре 1957 г. положил начало эре спутниковой связи.
С появлением средств вычислительной техники и новых ИТ системы и средства связи превратились в динамично развивающуюся отрасль информатики.
Сигналы и системы передачи информации
Процесс передачи информации непосредственно связан с системой передачи информации, основой которой является сигнал. С точки зрения функционального назначения сигнал следует рассматривать как средство для передачи информации в пространстве и во времени, как некоторый материальный носитель информации.
Различают сигналы статические и динамические. Статические сигналы, в основном, предназначены для передачи информации во времени, т. е. для хранения информации с последующим ее использованием. Динамические сигналы служат, в основном, для передачи информации в пространстве. Это, например, акустические и электромагнитные волны.
Любой сигнал неразрывно связан с определенной материальной системой, называемой системой связи или системой передачи информации. Обычно под системой передачи информации понимают систему, типа указанной на рисунке 20. Она состоит из источника информации, передатчика, канала связи, приемника и потребителя информации.
Источник информации вырабатывает информацию в форме сообщений. Будем считать, что с источником информации связано определенное множество сообщений. Генерация некоторого сообщения заключается в случайном выборе одного сообщения из множества возможных. Какое это конкретно будет сообщение, заранее не известно, по крайней мере, тому, для кого оно предназначается. Известно лишь, что сообщение принадлежит определенному множеству.
Множества возможных сообщений бывают различных типов. Это, например, конечные множества символов (в системах телеграфии и передачи данных), конечные наборы детерминированных функций времени, бесконечные множества, элементами которых являются значения некоторой физической величины или реализации физического процесса, и т. п. Сообщение, принадлежащее конечному или счетному множеству возможных сообщений, называется дискретным, а сообщение, выбираемое из несчетного множества, – непрерывным.
Передатчик преобразует сообщение в сигнал. В передатчике каждое из возможных сообщений на входе преобразуется в одно из возможных значений сигнала на выходе по строго установленному правилу. В телефонии, например, соответствие между возможными сообщениями и значениями сигнала устанавливает микрофон, который обеспечивает примерно линейную зависимость между акустическим давлением в зоне мембраны и электрическим током или напряжением в линии связи. В телеграфии каждому символу на входе передатчика ставится в соответствие определенный набор элементарных сигналов на его выходе. Правила, по которым осуществляется преобразование сообщения в сигнал, называются по-разному (модуляция, манипуляция, кодирование) в зависимости от типов сообщений и сигналов.
В качестве канала связи могут быть использованы двухпроводная электрическая линия связи (телефония, телеграфия, передачи данных), упругая воздушная или другая физическая среда (акустический канал) и др.
Собственно физическая среда, по которой передаются сигналы, называется линией связи; одна и та же линия связи может служить одновременно для реализации нескольких каналов (многоканальная связь).
Источник информации |
Передатчик |
Канал связи |
Приемник |
Потребитель информации |
Помехи |
Сигнал + Помехи |
Сообщение |
Сообщение |
Рис. 20. Система передачи информации
В любом канале связи, кроме сигнала, генерируемого передатчиком рассматриваемой системы связи, действуют другие сигналы и родственные сигналу по своей физической природе случайные процессы. Эти посторонние сигналы и процессы накладываются на полезный сигнал и искажают его. Поэтому принимаемый сигнал на выходе канала связи отличается от входного передаваемого сигнала. На рисунке 20 это отражено выделением источника помех в виде отдельного блока.
Приемник осуществляет восстановление переданного источником информации сообщения по принятому сигналу. Естественно, что данная операция возможна, если известно правило преобразования сообщения в сигнал. На основании этого вырабатывается правило обратного преобразования сигнала в сообщение (демодуляция, декодирование), позволяющее в конечном счете выбрать на приемной стороне сообщение из известного множества возможных сообщений, в идеальном случае полностью совпадающего с переданным сообщением. Однако так бывает не всегда; вследствие искажений принятого сигнала возможна ошибка при восстановлении сообщения.
Потребитель информации в системах связи – это либо непосредственно человек, либо технические средства, связанные с человеком.
Характеристики системы передачи данных
Основными качественными показателями системы передачи информации являются:
• пропускная способность;
• достоверность;
• надежность работы.
Пропускная способность системы (канала) передачи информации – наибольшее теоретически достижимое количество информации, которое может быть передано по системе за единицу времени. Пропускная способность системы определяется физическими свойствами канала связи и сигнала. От пропускной способности канала зависит максимально возможная скорость передачи данных по этому каналу. Для определения максимально возможной скорости надо знать три основных параметра канала связи и три основных параметра сигнала, по нему передаваемого.
1. Параметры канала:
• Fk – полоса пропускания канала связи, или иначе полоса частот, которую канал может пропустить, не внося заметного нормированного затухания сигнала;
•Hk – динамический диапазон, равный отношению максимально допустимого уровня сигнала в канале к уровню помех, нормированного для этого типа каналов;
•Tk – время, в течение которого канал используется для передачи данных.
2. Параметры сигнала:
• Fs – ширина спектра частот сигнала, под которой понимается интервал по шкале частотного спектра, занимаемый сигналом;
• Hs – динамический диапазон, представляющий собой отношение средней мощности сигнала к средней мощности помехи в канале;
• Ts – длительность сигнала, то есть время его существования.
Произведение трех названных параметров определяет, соответственно:
Объем канала связи:
(1)
Объем сигнала:
(2)
На основе соотношения доказанное Шенноном можно рассчитать максимально возможную скорость передачи данных по каналу:
(3)
где С – максимально возможная скорость в битах в секунду,
F – ширина полосы пропускания канала связи в герцах,
Ps – мощность сигнала,
Pш – мощность шума.
Из этого соотношения (так же как из предыдущих) следует, что увеличить скорость передачи данных в канале связи можно или увеличив мощность сигнала, или уменьшив мощность помех. Увеличение мощности сигнала ограничено величиной допустимого уровня мощности сигнала в канале и мощностью передатчика (мощные передатчики имеют большие габариты и стоимость). Уменьшения мощности помех можно достигнуть, применяя хорошо экранированные от помех кабели (что тоже не дешево). Но и это еще не все трудности. Главное, что скорость зависит от логарифма соотношения сигнал/шум, поэтому, например, увеличение мощности передатчика в два раза при типичном соотношении Рs/Рш = 100 даст увеличение максимально возможной скорости только на 15 %.
Скорость передачи информации измеряется в битах в секунду и в бодах. Количество изменений информационного параметра сигнала в секунду измеряется в бодах. Бод – это такая скорость, когда передается один сигнал (например, импульс) в секунду, независимо от величины его изменения. Бит в секунду соответствует единичному изменению сигнала в канале связи и при простых методах кодирования сигнала, когда любое изменение может быть только единичным, можно принять, что: 1 бод – 1 бит/с; 1 Кбод = 103 бит/с; 1 Мбод = 106 бит/с и т. д.
В случае, если элемент данных может быть представлен не двумя, а большим количеством значений какого-либо параметра сигнала, то изменение сигнала может быть не единичным, 1 бод > 1 бит/с.
Например, если измеряемыми (информационными) параметрами сигнала являются фаза и амплитуда синусоиды, причем различаются четыре значения фазы и два значения амплитуды, то информационный сигнал может иметь 23 – 8 различимых состояний. Тогда скорость передачи данных СП с тактовой частотой 9600 Гц будет 9600 бод, но 9600 * 3 = 28 800 бит/с.
Достоверность передачи информации – передача информации без ее искажения.
Надежность работы – полное и правильное выполнение системой всех своих функций.
Передатчик и приемник, или иначе аппаратура передачи данных (АПД), непосредственно связывают терминальные устройства – оконечные устройства (источник и приемник информации) с каналом связи. Примерами АПД могут служить модемы, терминальные адаптеры, сетевые карты и т. д. АПД работает на физическом уровне, отвечая за передачу и прием сигнала нужной формы и мощности в физическую среду (линию связи).
В составе СП большой протяженности может использоваться и дополнительная аппаратура для улучшения качества сигнала («усиления» сигнала) и для формирования непрерывного физического или логического канала между абонентами. В качестве этой аппаратуры могут выступать повторители, коммутаторы, концентраторы, маршрутизаторы, мультиплексоры. Промежуточная аппаратура иногда образует достаточно сложную так называемую первичную сеть, но никакой функциональной нагрузки не несет – она должна быть незаметна (прозрачна) для абонента.
Контрольные вопросы
1. В чем заключается суть восприятия информации?
2. Что общего и в чем различие между сбором и регистрацией информации?
3. Как реализуется автоматизированное свертывание информации?
4. Назовите характеристики запоминающих устройств, предназначенных для хранения больших объемов информации.
5. В чем заключается сущность поиска информации?
6. Назовите виды информационного поиска.
7. Что включает в себя система передачи информации?
Глава 6
ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА
ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
6.1. Технические средства
Орудия и средства (инструменты) производства являются необходимым компонентом любой технологии. Не являются исключением и информационные технологии, инструментальную базу которых образуют технические, программные и лингвистические средства.
Инструментальные средства информационных технологий – совокупность технических программных и лингвистических средств, обеспечивающих реализацию информационных процессов.
В составе технического обеспечения информационных технологий (с некоторой долей условности) различают следующие группы средств:
• компьютерная техника (ЭВМ и периферийные устройства), обеспечивающая электронное представление информации и автоматизацию всех информационных процессов;
• телекоммуникационные средства и системы, обеспечивающие передачу информации на расстояние;
• полиграфическая, копировальная и множительная техника, предназначенная для копирования и тиражирования информации;
• средства записи и воспроизведения аудиовизуальной информации (фото-, теле- видео-, киноизображения и звука);
• оргтехника (офисная техника), предназначенная для механизации и автоматизации конторского труда и управленческой деятельности.
Условностьподобной классификации связана с нарушением единства основания и принципа непересекаемости делений: одни и те же средства (например, компьютерные) представлены во всех пяти группах; а копировально-множительная техника и средства связи широко используются в офисе.
В контексте наших рассуждений имеет смысл классифицировать технические средства в разрезе информационных процессов, для реализации которых они предназначены.
1. Средства сбора (регистрации) и ввода (записи) информации:
• персональные компьютеры – средства ввода текстовой, табличной, графической, аудиовизуальной и иной информации и записи ее на машиночитаемые носители;
• сканеры – средства оптического ввода – автоматического считывания текста или изображения на бумажном носителе с последующим преобразованием его в формат, доступный для обработки и хранения в ЭВМ;
• дигизайтеры – средства бесклавиатурного ввода текста и графических изображений в ЭВМ;
• пишущие машины (механические, электрические, электронные) – средства изготовления бумажных (тестовых и табличных) документов;
• оргавтоматы – комплекс электромеханических и электронных средств автоматизации процесса составления, редактирования и изготовления текстовых и табличных документов;
• диктофоны – средства записи звуковой (преимущественно речевой) информации на различные носители (пленочные, магнитные, оптические) часто с целью преобразования ее в текстовую информацию;
• магнитофоны – средства записи аудиальной информации;
• фото-, кино-, теле-, видеокамеры – средства записи статичных и движущихся изображений и аудиовизуальной информации;
• измерительная техника (датчики, приборы, установки) – средства фиксации и измерения сигнала, извещающего о наступлении контролируемых событий и др.
2. Средства семантической и технической обработки информации:
• компьютеры (микрокомпьютеры, персональные, портативные, карманные, большие, сверхбольшие) – средства автоматизированной обработки цифровой информации;
• монтажное оборудование – средства обработки (монтажа) аудиальной, визуальной, аудиовизуальной, мультимедийной информации (цифровые и аналоговые устройства монтажа звука и изображения, монтажные столы);
• средства репрографии и оперативной полиграфии – оборудование для копирования и тиражирования документов (средства фотокопирования, диазокопирования, электрофотографии, термографии, электронно-искрового копирования, ризографического копирования, микрофильмирования; оборудование для гектографической, трафаретной, офсетной печати);
• средства технической обработки носителей информации (фальцевальные, перфорирующие и резательные машины, машины для уничтожения бумаг и др.);
• средства технической обработки документов (скрепляющее, склеивающее и переплетное оборудование, машины для нанесения защитных покрытий на документы);
• средства технической обработки корреспонденции (конвертовскрывающие, адресовальные, штемпелевальные, маркировальные машины и устройства, машины для уничтожения бумаг и т. п.) и др.
3. Средства храпения информации:
• компьютеры – средства хранения электронных документов и данных (серверы БД, файловые серверы, серверы приложений и др., локальные компьютеры);
• носители информации (бумажные, пленочные, магнитные, оптические, голографические, микроносители, перфоносители);
• канцелярские средства хранения документов (мультифоры, папки, планшеты, контейнеры и др.);
• картотеки (плоские, вертикальные, элеваторные, вращающиеся и др.) и картотечное оборудование;
• офисная мебель (шкафы, столы, стеллажи, сейфы и др.).
4. Средства поиска информации:
• автоматизированные ИПС (электронные каталоги, банки данных, электронные библиотеки, Web-pecypcы Интернет и др.);
• механизированные ИПС – ИПС, основанные на использования перфо- и микроносителей информации, осуществляющие поиск методом механической сортировки записей и кодов специальными устройствами (счетно-перфорационные машины, считывающие устройства, селекторы);
• ручные ИПС (карточные каталоги и картотеки, справочно-поисковый аппарат печатных изданий и др.).
5. Средства передачи информации:
• локальные, региональные, глобальные, корпоративные вычислительные сети – средства электронной связи, передачи на расстояние компьютерной информации;
• средства (аппаратура) электрической, радио-, телевизионной связи (телефонные, телеграфные, факсимильные аппараты, радио, телевизионные передатчики и приемники и др.).
• каналы связи – средства передачи акустических, оптических и электрических сигналов – делятся на беспроводные (радиосвязь, спутниковая связь) и проводные (кабельная связь: коаксиальный кабель, незащищенная витая пара, защищенная витая пара, оптоволоконный кабель);