типовые функциональные компоненты ис 3 глава




В зависимости от задач информационной службы процесс сбора информации может приобретать различные формы, например:

• комплектование фонда библиотеки, архива;

• формирование ассортимента книжного магазина, салона аудио-, видео-, мультимедийной продукции;

• прием рукописи в редакцию;

• сбор исходной информации для системы управления;

• проведение измерений показателей при помощи контрольно-измерительных приборов;

• отбор данных для фактографического досье, БД и т. п.

Сбор документов и сбор данных осуществляется по схожим алгоритмам (табл. 9).

 

Таблица 9

 

Алгоритмы процесса сбора информации

 

Сбор документов Сбор данных
Выявление документов, необходимых информационной службе, по библиографическим, рекламным и иным источникам Поиск источников необходимых данных
Отбор документов – установление соответствия выявленных документов профилю и задачам информационной службы Отбор данных в источниках
Заказ документов – оформление заявки (договора) на их получение Выявление условий и способов получения данных
Приобретение документов (покупка, обмен, безвозмездная передача) Получение данных путем приобретения, извлечения, измерения, копирования или заимствования
Регистрация приобретенных документов Ввод данных в информационную систему

 

 

5.5. Обработка информации

 

Обработка информации – процессы преобразования формы и (или) содержания документов или данных. Цель этих преобразований – изменение состояния информации, придание ей новых свойств.

Различают техническую и семантическую обработку информации.

Техническая обработка информации – не связанные с анализом содержания действия над формой документов или данных, обеспечивающие возможность их включения в организованные информационные массивы, а также информационный поиск и использование потребителями. Форма, в которой представлены документы или данные, должна быть удобна для их передачи, хранения и использования. Примерами технической обработки могут служить:

конвертирование – изменение формы представления данных в соответствии с определенными правилами при сохранении содержащейся в них информации. Процесс актуален для создания распределенных электронных массивов (сводных каталогов, полнотекстовых баз данных, электронных библиотек), когда отдельные участники корпоративного проекта работают в различных программных средах;

трансформирование – перенесение данных с одного носителя на другой (сканирование печатного текста; преобразование цифровых сигналов в аналоговую форму для передачи их по каналам связи; преобразование аналоговых сигналов в цифровую форму для обработки их компьютерными средствами; вывод на печать компьютерного файла);

форматирование – представление данных в соответствии с принятым форматом; соблюдение правил оформления текста (установка границ страницы и требуемого интервала между строками, формирование абзацев, выравнивание полей, центрирование заголовков; нумерация страниц и т. п.);

регистрация – запись документов в учетную форму (оформление накладных на реализуемую или приобретаемую литературу; учет входящей и исходящей корреспонденции в офисе и т. п.);

инвентаризация – составление перечня документов, подлежащих архивному, библиотечному, музейному и иному хранению, в порядке их поступления;

штрих-кодирование документов – маркировка документов штриховым кодом с целью контроля за их реализацией и использованием;

перепечатка рукописи после редакторской (авторской) правки.

Семантическая (аналитико-синтетическая) переработка информации – действия над содержанием документов или данных, связанные с анализом, извлечением необходимых сведений, их оценкой, сопоставлением и обобщением. Существует множество видов семантической обработки (переработки) информации. В основе каждого из них лежит информационный анализ – выявление и фиксация данных, актуальных для решения конкретной информационной задачи.

В практике аналитико-синтетической переработки документов широкое распространение получили методы информационного свертывания – сокращения физического объема текста за счет концентрированного изложения и устранения избыточности информации (табл. 10).

 

Таблица 10

 

Информационное свертывание документов

 

Вид информационного свертывания Результат информационного свертывания
Составление библиографического описания – выявление и фиксация но установленным правилам библиографических сведений о документе, необходимых и достаточных для его идентификации и обшей характеристики Библиографическое описание
Индексирование – выражение содержания документа или информационного запроса на информационно-поисковом языке Классификационный(ые) индекс(ы). Предметная(ые) рубрика(и). Ключевое(ые) слово(а). Дескрипторе(ы)
Аннотирование – составление краткой характеристики документа с точки зрения его назначения, содержания, вида, формы и других особенностей Аннотация
Реферирование – краткое точное изложение содержания документа, включающее основные фактические сведения и выводы, без дополнительной интерпретации и критической оценки Реферат. Экспресс-информация
Фактографическое свертывание – выделение (экстрагирование) наиболее информативных фрагментов текста с целью безоценочного изложения отдельных фактов и концепций Фактографическая справка. Справочная статья. Сравнительно-сопоставительная Таблица. Дайджест.
Конспектирование – письменное изложение основного содержания текста или выступления Конспект. Протокол. Стенограмма
Обзорно-аналитическая деятельность – обобщенная, интерпретированная характеристика какого-либо вопроса (темы, проблемы), подготовленная на основе анализа и синтеза информации, извлеченной из некоторого множества отобранных для этой цели документов Аналитическая справка. Библиографический обзор. Реферативный обзор. Аналитический обзор.

Свертывание информации обеспечивают следующие методы ее обработки:

• выделение ключевых (несущих основную смысловую нагрузку) слов;

• перефразирование – изменение текста в сторону сокращения его объема;

• групповая характеристика документов, близких по содержанию или формальным признакам;

• экстрагирование – извлечение из текста наиболее информативных фрагментов;

• кодирование – выражение содержания информации при помощи условных обозначений (кодов, индексов, рубрик, искусственных информационно-поисковых языков) и др.

Если правила преобразования информации строго формализованы и разработан алгоритм их реализации, то появляется возможность автоматизировать процесс обработки информации. Автоматизированная обработка информации основывается на том, что преобразование информации по формальным правилам не подразумевает ее осмысления: форма документа (его лексика, грамматика, структура) позволяет отыскивать элементы, выражающие смысл, содержание информационного сообщения.

Идея автоматизированного свертывания текстовой информации базируется на наблюдении, что для каждого документа ключевые слова, наиболее часто встречающиеся в тексте, несут основную смысловую нагрузку, используются для передачи авторской мысли. Разработаны количественные методы оценки семантической значимости отдельных предложений в тексте. Первый из них предполагает количественную оценку семантической значимости отдельных предложений для передачи смысла (основной идеи) текста:

 

где V – значимость предложения; Nj – число значимых (специфичных для данной предметной области) слов в этом предложении; N – общее число слов впредложении.

Если отбирать наиболее значимые предложения и включать их в квазиреферат (мнимый реферат), то появится возможность «свернуть» текст до оптимального минимума, устранив избыточную информацию, и с достаточной степенью информативности передать его основное содержание.

Второй метод измерения количества информации, содержащегося в каждом из предложений, базируется на гипотезе: чем более важным является для некоторого текста тот или иной термин, тем чаще он встречается в нем. Необходимо произвести частотный анализ текста для определения частоты встречаемости в нем наиболее значимых терминов и понятий. В квазиреферат отбираются те предложения, которые содержат наибольшее количество терминов, чаще других повторяющихся в данном документе.

Аналогичные методы приемлемы и для автоматизированного аннотирования.

Автоматическое индексирование предполагает наличие электронных словарей (основ слов, окончаний и др.), образующих лексический аппарат свертывания и классификационных таблиц. Проводится морфологический анализ текста (или его реферата). Наиболее информативные для данной предметной области слова и словосочетания переводятся на информационно-поисковый язык.

Придание тексту новых качественных и формальных характеристик обеспечивают такие виды переработки информации, как:

• преобразование линейных текстов в гипертекст;

• перевод текста на другой язык;

• редактирование и др.

Например, в процессе редактирования происходит преобразование его содержания – литературное редактирование (корректировка текста, нормализация лексики, нормализация стиля, унификация структуры документа) и формы – техническое редактирование (определение форматов страниц, размещение текстовых блоков, выбор шрифтов для различных элементов документа, создание макета документа для полиграфического воспроизведения).

Компьютерные технологии востребованы при создании гипертекстовых документов, в системах машинного перевода, в редакционной практике (автоматическая рубрикация, форматирование, разметка текста и т. п.).

Для содержательной обработки данных используют различные методы анализа и синтеза информации: числовые расчеты; группировка; систематизация; ранжирование; сравнительно-сопоставительный анализ; обобщение; табличное и графическое представление данных и др.

 

5.6. Хранение информации

Хранение информациипроцесс обеспечения сохранности документов или данных, удовлетворительного состояния материального носителя, защиты от несанкционированного доступа и недозволенного использования.

Потребность в хранении информации зародилась вместе с человеческой цивилизацией. Исторически первоначальным хранилищем информации является память человека. Первые общественные хранилища информации – библиотеки и архивы – возникли с появлением первых форм документной информации – рукописей и рукописных книг. Сегодня, помимо библиотек и архивов, сохранность документов, «материализованного» в них общественного культурного достояния обеспечивают книжные палаты, видеотеки, фильмотеки, фонотеки, архивы, патентные бюро, музеи, картинные галереи, медиатеки, депозитарии. Все большее распространение получают хранилища компьютерной информации: базы и банки данных, базы знаний, автоматизированные информационно-поисковые системы, электронные библиотеки.

Хранение информации – это процесс передачи информации во времени, связанный с обеспечением неизменности состояний материального носителя. Для осуществления хранения информационная система должна воспринятую и, возможно, переработанную информацию преобразовать в физическое явление, т. е. занести на соответствующий носитель.

Носитель информации – материальный объект, содержащий информацию в зафиксированном виде и специально предназначенный для ее передачи во времени, т. е. хранения.

Носителями информации могут быть:

• объекты в неживой природе: система твердых тел, система жидкостей, носители информации в газообразных системах и во Вселенной;

• объекты в живой природе: в микромире, растительном мире, в мире животных;

• организм человека: нервная система человека (носители – отдельные структуры нервных клеток), физиологическая, психологическая система;

• объекты в социальной природе: персонал, организационные единицы (научные, производственные и т. п. организации), документы, символы, знаки, информационные системы, технологии и сети.

Носитель должен, с одной стороны, обладать легкостью изменения структуры при занесении на нее информации, подлежащей хранению, а с другой – устойчивостью к разрушению. Очевидно, что эти два свойства являются взаимоисключающими.

В социальной среде (обществе) различают носители для оперативного и долговременного хранения информации в соответствии с минимальным временем от момента занесения информации на носитель до ее обесценивания. Однако, точное время, когда информация обесценится полностью, неизвестно. Иногда информация, занесенная одним субъектом и в определенный момент времени, теряющая свое значение для него, приобретает значительную ценность для других субъектов.

В настоящее время наиболее распространенным носителем информации является бумага. Ее распространенность объясняется дешевизной и легкостью изменения отражательной способности поверхности. Воздействуя на бумагу различными красителями, можно заносить на нее любую графическую информацию – от текстов до многоцветных репродукций картин. Бумага является носителем с низкой стойкостью к различным природным факторам. Например, при повышенной влажности бумага разбухает и плесневеет, при пониженной – высыхает и ломается, она легко возгорается, обесцвечивается. Поэтому необходимо принимать меры к ее сохранности.

Рассмотрим различные виды носителей информации. В вычислительной технике принято выделять носители, предназначенные для использования человеком и машинные. Носители, предназначенные для использования человеком, могут быть «считаны» визуально или при наличии специальных преобразователей с помощью органов слуха.

Машинные носители различаются по материалу (бумажные, пластмассовые, металлические, комбинированные), по принципу изменения структуры (оптические, фотооптические, магнитные, полупроводниковые, диэлектрические, перфорационные), по методу считывания (контактные, оптические, магнитные, электрические).

С точки зрения применения различают носители с возможностью прямого доступа и с последовательным доступом. Носители второго типа являются обычно квазиодномерными, т. е. для того чтобы найти какую-то запись, хранящуюся на носителе, надо обязательно «просмотреть» все предыдущие записи. Типичный пример – магнитная лента. Носители с возможностью прямого доступа являются, как правило, многомерными, т. е. местоположение нужной записи на них задается не одной, а несколькими координатами.

Одним из важнейших критериев при выборе машинного носителя является его удельная емкость (количество информации, записанной в единице объема, на единице площади или длины). Этот параметр оказывает влияние не только на габариты носителя, но и на время доступа к нужной записи.

Свойство носителя информации, которое позволяет реализовать функции хранения информации, многократного ее использования, представления и воспроизведения информации называют памятью. Часто под памятью понимают запоминающее устройство, хранящее информацию.

Для реализации информационного процесса, связанного с хранением больших объемов информации, важное значение имеют такие характеристики запоминающих устройств, как емкость памяти, время доступа и плотность записи.

Емкостью памяти называют общую накопительную способность запоминающих устройств в единицах количества информации, обычно в алфавитно-цифровых знаках или байтах.

Временем доступа называют промежуток времени между поступлением в запоминающее устройство запроса на считывание или запись определенной информации и его /выполнением.

Плотность записи – это количество элементов носителя (каждый из которых используется для размещения одного бита информации) в единице объема, площади или длины (соответственно размерность бит/мм3, бит/мм2 или бит/мм). Чаще всего повышение плотности записи означает уменьшение стоимости носителя, отнесенной к биту.

Обычно, чем больше емкость запоминающего устройства, тем больше и время доступа.

Хранение и накопление информации вызвано многократным использованием, применением условно-постоянной, справочной и других видов информации, необходимостью комплектации первичных данных до их обработки. Назначение технологического процесса накопления данных состоит в создании, хранении и поддержании в актуальном состоянии информационного фонда, необходимого для выполнения функциональных задач системы управления. Хранение и накопление информации осуществляется в информационных базах, на машинных носителях в виде информационных массивов, где данные располагаются по установленному в процессе проектирования порядку.

Указанные функции, выполняемые в процессе накопления данных, реализуются по алгоритмам, разработанным на основе соответствующих математических моделей.

Процесс накопления данных состоит из ряда основных процедур, таких как выбор хранимых данных, хранение данных, их актуализация и извлечение.

Информационный фонд систем управления должен формироваться на основе принципов необходимой полноты и минимальной избыточности хранимой информации. Эти принципы реализуются процедурой выбора хранимых данных, в процессе выполнения которой производится анализ циркулирующих в системе данных, и на основе их группировки на входные, промежуточные и выходные определяется состав хранимых данных. Входные данные – это данные, получаемые из первичной информации и создающие информационный образ предметной области. Они подлежат хранению в первую очередь. Промежуточные данные – это данные, формирующиеся из других данных при алгоритмических преобразованиях. Как правило, они не хранятся, но накладывают ограничения на емкость оперативной памяти компьютера. Выходные данные являются результатом обработки первичных (входных) данных по соответствующей модели, они входят в состав управляющего информационного потока своего уровня и подлежат хранению в определенном временном интервале. Вообще, данные имеют свой жизненный цикл существования, который фактически и отображается в процедурах процесса накопления.

Процедура хранения состоит в том, чтобы сформировать и поддерживать структуру хранения данных в памяти ЭВМ. Современные структуры хранения данных должны быть независимы от программ, использующих эти данные, и реализовывать вышеуказанные принципы (полнота и минимальная избыточность). Такие структуры получили название баз данных. Осуществление процедур создания структуры хранения (базы данных), актуализации, извлечения и удаления данных производится с помощью специальных программ, называемых системами управления базами данных.

В процессе накопления данных важной процедурой является их актуализация. Под актуализацией понимается поддержание хранимых данных на уровне, соответствующем информационным потребностям решаемых задач в системе, где организована информационная технология. Актуализация данных осуществляется с помощью операций добавления новых данных к уже хранимым, корректировки (изменения значений или элементов структур) данных и их уничтожения, если данные устарели и уже не могут быть использованы при решении функциональных задач системы.

Процедура извлечения данных из базы необходима для пересылки требуемых данных либо для преобразования, или для отображения, а также для передачи по вычислительной сети.

При выполнении процедур актуализации и извлечения обязательно выполняются операции поиска данных по заданным признакам и их сортировки, состоящие в изменении порядка расположения данных при хранении или извлечении.

На логическом уровне все процедуры процесса накопления должны быть формализованы, что отображается в математических и алгоритмических моделях этих процедур.

Модель накопления данных формализует описание информационной базы, которая в компьютерном виде представляется базой данных. Процесс перехода от информационного (смыслового) уровня к физическому, описывается трехуровневой системой моделей представления информационной базы: концептуальной, логической и физической схем. Концептуальная схема информационной базы описывает информационное содержание предметной области, т. е. какая и в каком объеме информация должна накапливаться при реализации информационной технологии. Логическая схема информационной базы должна формализовано описать ее структуру и взаимосвязь элементов информации. При этом могут быть использованы различные подходы: реляционный, иерархический, сетевой. Выбор подхода определяет и систему управления базой данных, которая, в свою очередь, определяет физическую модель данных – физическую схему информационной базы, описывающую методы размещения данных и доступа к ним на машинных (физических) носителях информации, Модель данных – формализованное описание информационных структур и операций над ними.

Основным способом хранения документов является их консервация. Консервация осуществляется различными методами, в их числе:

соблюдение нормативных условий – режимов хранения (санитарно-гигиенического, температурно-влажностного, светового). С этой целью осуществляется гигиеническая обработка документов (очистка от механических повреждений), выявление и уничтожение микроскопических грибов (микологический надзор и дезинфекция); насекомых (энтомологический надзор и дезинсекция), грызунов (дератизация), повреждающих документы;

стабилизация – обработка, замедляющая старение и предотвращающая повреждение документа (нейтрализация кислотности, блокирование ионов тяжелых металлов, защита от биологического фактора путем обработки документов и помещений специальными веществами, использование защитных материалов для хранения документов);

реставрация – восстановление эксплуатационных свойств, а также формы и внешнего вида документа (ремонт, восполнение утраченных частей; механическая, ферментная, химическое очистка; отбеливание, упрочение, реконструкция переплета, укрепление блока, ламинирование и др.);

изготовление копии – воспроизведение документа на другом носителе в том же или ином формате с помощью различных технологий (фотокопии, ксерокопии, микрокопии, электронные копии).

Другим способом хранения документов и данных является архивирование. Архивирование – процесс обеспечения долговременного и эффективного хранения документов или данных, как правило, редко используемых. Методы архивирования:

резервное копирование документов или данных для оперативного восстановления их в случае разрушения или порчи;

сжатие информации с целью уменьшения объемов хранения и возможностью восстановления исходной формы документов или данных. Технологии микрокопирования обеспечивают сжатие информации за счет уменьшения размера текста или изображения. Компьютерные технологии «упаковки» информации используют преимущественно метод кодирования для создания копий файлов меньшего размера. Наиболее популярными программами архивирования данных являются программы ARJ, WinZip, WinRar. Современные технические и программные средства обеспечивают различные техники сжатия текстовой, графической, звуковой, видео-, анимированной информации и записи файлов на относительно недорогих и компактных носителях. Это позволяет существенно снижать объемы информационных массивов и затраты на их хранение.

 

5.7. Поиск информации

Поиск информациипроцесс выявления и отбора по заданным содержательным и формальным признакам документов или данных из информационных потоков или массивов.

Проблема поиска информации является наиболее проработанной в теории и практике информатики.

В процессе использования информации для выполнения разнообразных задач члены общества (художники, писатели, ученые и т. п.) выполняют информационный поиск – действия, методы и процедуры, позволяющие осуществлять отбор определенной информации из массива данных, удовлетворяя тем самым свою информационную потребность.

Характеристики предметной области, значения которых необходимо установить для выполнения поставленной задачи в практической деятельности, называют информационной потребностью.

Информационный поиск обеспечивается информационно-поисковой системой (ИПС) – совокупностью средств и методов, организованной в функциональную систему, выполняющую хранение и поиск информации. Для ИПС важным является информационный запрос, поступающий от потребителя, – текстовое выражение информационной потребности.

При информационном поиске приходится иметь дело с тремя основными понятиями: элементами (единицами) информации, характеристиками (свойствами, характеризующими информацию) и связями между характеристиками и элементами информации. Элементами информации может быть документ, описание документа, реферат, адрес документа и т. п. Характеристика – это свойство документа, его поисковый признак, дескриптор, ключевое слово, индекс и т. д. В задачах поиска предполагается отыскание элемента или элементов, связанных с заданной совокупностью характеристик, и наоборот.

Суть информационного поиска заключается в выделении в некотором множестве (информационном массиве) подмножества релевантных документов или данных, отвечающих запросу потребителя. Информационный поиск является реакцией на информационную потребность пользователя, выраженную в информационном запросе. Процесс информационного поиска на самом общем уровне описывается следующим алгоритмом:

1. Формулировка запроса, выделение в его структуре основных поисковых признаков: ключевых слов и понятий, предметов и аспектов поиска.

2. Идентификация данных: сравнение поисковых признаков с данными в информационном (поисковом) массиве.

3. Отбор: проверка выявленного подмассива документов или данных на соответствие заданным критериям поиска.

4. Структурирование (упорядочение) документов или данных в соответствии с логикой запроса.

В больших поисковых массивах непосредственный перебор всех элементов информации невозможен, поэтому информационный поиск осуществляется по краткому описанию элемента информации (например, содержания документов) – поисковому образу. Поисковый образ – текст, состоящий из лексических единиц информационно-поискового языка, выражающий содержание документа или информационного запроса и предназначенный для реализации информационного поиска. Поисковый образ, выражающий основное смысловое содержание документа, называют поисковым образом документа (ПОД). Поисковый образ, выражающий смысловое содержание информационного запроса, является поисковым образом запроса (ПОЗ).

Информационный поиск является сложным процессом, включающим множество процедур семантической обработки информации и запросов, от которой зависит его эффективность. Это достигается с помощью формулирования поискового предписания, т. е. текста, включающего поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска.

Информационный поиск заключается в сравнении поискового образа документа с поисковым предписанием. При достаточно хорошем их совпадении считается, что документ, имеющий данный поисковый образ, удовлетворяет данному информационному запросу. Для объективной оценки соответствия поискового образа поисковому предписанию используются специальные критерии, называемые критериями выдачи. Критерий выдачи – совокупность признаков, по которым определяется степень соответствия поискового образа документа поисковому предписанию и принимается решение о выдаче или невыдаче данного документа в ответ на информационный запрос.

Соответствие полученной информации информационному запросу называют релевантностью. В тех случаях, когда потребитель информации нечетко выражает свои информационные потребности в информационном запросе, релевантная информация не будет в полной мере соответствовать информационным потребностям. Говорят, что информация не обладает свойством пертинентности. Таким образом, соответствие полученной информации информационной потребности называется пертинентностью.

При описании документов, поступающих в ИПС, и составлении информационных запросов возникает проблема сжатия информации с сохранением основного смыслового содержания текстов. Эта проблема относится к категории семантических и сводится, прежде всего, к построению искусственных информационно-поисковых языков. По ГОСТ 7.74 Информационно-поисковый язык (ИПЯ) – формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Выделяют следующие виды ИПЯ (см. рисунок 19).

ВИДЫИПЯ
ДОКУМЕНТАЛЬНЫЙ – предназначен для индексирования документов, частей документов с целью их последующего хранения и поиска
КЛАССИФИКАЦИОННЫЙ –предназначен для индексирования документов, частей документов и информационных запросов посредством понятий и кодов какой-либо классификационной системы
ПРЕДМЕТИЗАЦИОННЫЙ -предназначен для индексирования документов, частей документов и информационных запросов посредством предметных рубрик
ДЕСКРИПТОРНЫЙ –предназначен для координатного индексирования документов и информационных запросов посредствам дескрипторов или ключевых слов
ЯЗЫК КЛЮЧЕВЫХ СЛОВ – предназначен для индексирования документов и информационных запросов посредством ключевых слов
ФАКТОГРАФИЧЕСКИЙ –предназначен для индексирования описаний фактов и информационного поиска фактографических и информационных массивов
ОБЪЕКТНО-ПОИСКОВЫЙ –фактографический ИПЯ, предназначенный для индексирования описаний фактов в виде перечня объектов (предметов) с указанием относящихся к ним признаков (свойств) и соответствующих значений признаков
ВЕРБАЛЬНЫЙ – использует для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: