Создание поискового пространства документальных информационных систем




 

Цель работы: научить проектировать поисковое пространство документальной информационной системы прямым и инверсным способами.

Постановка задачи. Создать средствами реляционной СУБД полнотекстовую базу документов, которая была бы частично структурированной, хранила текст документа и словарь ключевых слов для его описания. Словарь должен быть свободным. Реализовать прямое и инверсное индексирование документов.

Литература:

1. Агеев, В. Н. Электронные издания учебного назначения: концепции, создание, использование [Текст]: [учеб. пособие для вузов по спец. «Издательское дело и редактирование»] / В. Н. Агеев, Ю. Г. Древс; [под ред. Ю. Г. Древса]; М-во образования РФ, Моск. гос. ун-т печати. – М.: [б. и.], 2003. – 234 с.

2. Делопроизводство [Текст]: Образцы, документы. Организация и технология работы: с учетом нового ГОСТ Р 6.30-2003: [Более 120 документов] / [В. В. Галахов, И. К. Корнеев, Г. Н. Ксандопуло и др.; Под ред. И. К. Корнеева, В. А. Кудрявцева]. – М.: Проспект: Кодекс, 2004. – 455 с.

3. Каратыгин, С. А. Access 2000 [Текст]: руководство пользователя с примерами / С. Каратыгин. – М.: Лаборатория Базовых Знаний, 2000. – 376 с.

4. Малыхина, М. П. Базы данных [Текст]: основы, проектирование, использование: учеб. пособие по спец. 220400 – «Программное обеспечение вычислительной техники и автоматизированных систем» для межвузовского использования / М. Малыхина. – СПб.: BVX-Петербург, 2004. – 499 с.

5. Робинсон, С. Microsoft Access 2000 [Текст]: [современное средство для управления и разработки баз данных] / С. Робинсон. – СПб.: Питер, 2002. – 511 с. – (Учебный курс).

6. Хомоненко, А. Д. Базы данных [Текст]: учебник для вузов по техническим и экономическим спец. / А. Д. Хомоненко, В. М. Цыганков, М. Г. Мальцев. – М.: Корона, 2006. -– 736 с.

 

Теоретический материал

Под электронным документом (ЭД) понимается записанное на машинном носителе электронное сообщение, реквизиты которого оформлены в соответствии с нормативными требованиями. Электронные документы могут иметь различную форму представления: текст, графика, табличные данные и т.д. Электронный документ является структурированным информационным объектом, в соответствие которому можно поставить совокупность файлов, хранящихся во внешней памяти ПК. Необходимым признаком ЭД является «регистрационная карточка», состоящая из реквизитов документа, содержащих перечень необходимых данных о нем.

В основе решения многих задач в области электронного документооборота лежит обработка электронных документов, которая осуществляется средствами информационных систем (ИС).

В информационной системе хранятся тексты документов и их реквизиты в виде регистрационных карточек, выполняется поиск и выдача интересующей пользователя информации. Пользователь обращается к системе с информационным запросом – текстом, отражающим его информационную потребность. Такие информационные системы принято называть документальными.

Документальная ИС предназначена для поиска документов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую информацию. Они работают с документами, написанными на словесном языке. Главное назначение документальных ИС – поиск документа, содержащего ответ на запрос пользователя.

Соответствие найденных документов информационным потребностям пользователя называется пертинентностью.

В базе данных хранится текст документа и/или его поисковый образ (ПОД) – элемент, который передает основное содержание документа. Пользователь выражает свои информационные потребности в виде запроса к базе документов, записанного на некотором формальном языке, формируя поисковый образ запроса (ПОЗ). Поисковый образ документа и поисковый образ запроса образуют поисковое пространство документальной информационной системы. Формальное совпадение ПОЗ и ПОД называется релевантностью. Поиск релевантных документов осуществляется по их ПОД.

Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса. Под индексом понимается набор ключевых слов и словосочетаний, описывающих содержание документа и составляющих его ПОД.

В документальных ИС используют две схемы создания поискового пространства – прямую и инверсную.

При прямой организации каждому документу соответствует перечень ключевых слов, составляющих поисковый образ документа.

Инверсный способ организации поискового массива предусматривает создание инвертированной матрицы (ее называют инвертированным матричным индексом), содержащей список ключевых слов, каждому из них соответствует перечень документов, в которых оно встречается.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: