Особенности ввода и загрузки данных в СУБД с сетевой моделью организации данных

Характерной особенностью логической и физической организации данных сетевых СУБД является хранение инфы по связям между инф объектами, как отдельных самостоятельных объектов наборов экземпляров связей. В силу этого СУБД с сетевой моделью имеют более сложную структуру, чем реляц СУБД. Соответственно, в сетевых СУБД используется нелинейная структура организации данных, что обеспечивает быстрый доступ к данным. При каких-либо изменениях этой базы уходит больше времени, поэтому СУБД с сетевой орг данных непосредственный ввод данных, ручной ввод с клавы чаще всего построены по принципу «стакана» и «емкости». Сначала данные вводятся в «входное сообщение», затем эти данные размещаются во временном файле («стакане»), далее, после того, как файл заполнится, осуществляется загрузка входного сообщения в БД, т.е. он заливается в «емкость» СУБД, в результате чего происходит перетасовка СУБД. При этом, основной проблемой является отождествление новых и старых записей. В реляц СУБД эта проблема решается исключительно при учете уникальности инфы в СУБД. Новая запись с уже существующем значением СУБД автоматически отвергается и данные ввести можно только с помощью корректировки. В сетевых СУБД происходит слияние данных, происходит изменение инфы, все это происходит автоматически.

Обработка данных включает в себя широкий набор различных функций и операций по удовлетворению различных потребностей пользователя:

1. Поиск, фильтрация и сортировка данных. Эти операции – самые простые потребности пользователями самые частые при работе с БД. Отличительная особенность этих 3 операций заключаются в том, что осуществляются в режиме открытой таблице в шаблонной форме. Результатом по поиску и фильтрации является изменение просмотра, при этом таблица не изменяется. Собственно поиск реализуется поиска по номеру, по значению поля, поиску с помощью фильтров. Поиск по номеру производится с помощью механизма распределения по страницам БД, по значению осуществляется также на основе механизма распределения записей с использованием техники вхождения образца в значении поля. Фильтр – это набор условий, применяемых по набору от множества записей. Характерной особенностью условий, определяющих фильтр, заключающийся в использовании выражений БД. Строки в таблицах реляц СУБД формируются и хранятся в неупорядоченном виде, но одной из основных функций является упорядочивание их. Такая процедура называется сортировкой данных. Соответственно сортировка строк открытой таблицы происходит только в буферах таблиц оперативной памяти. Если база очень большая, то на сортировку требуется время, поэтому применяют индексированные поля.

2. Запросы к БД. Являются наиболее распространенным видом обработки данных. Для удовлетворения своих потребностей люди общаются с БД через запрос. Запрос представляет собой спецификацию (предписание) на спец языке БД для обработки данных. Формирование СУБД осуществляется или в спец редакторе, или через наглядно-диалоговые средства – конструкторы и пошаговые мастера. Сформированный запрос в виде инструкции сохраняется в БД и может запускаться. Запросы делятся на: запрос на выборку данных, запрос на изменение данных и управляющий запрос. Запросы на выборку применяются для решения тематических, логических, статистических инф задач. Наиболее часто применяемый вид запросов. Результатом запроса на выборку является набор данных, который представляет набор данных со структурой в соответствии с полями запроса и полями таблиц, из которых эти данные выбираются. Запрос осуществляется из неоткрытой таблицы БД. Соответственно таблица, получившаяся при выборке, помещается в постоянную таблицу, которая размещается в оперативной памяти на период исполнения\открытия запроса. Это называется динамичностью. Изменения, сформированные по запросу, фиксируются в исходных таблицах. Запросы на выборку классифицируются по 2 критериям: по формированию условий выборки и по схеме отбора данных. По формированию условий выборки делятся на запросы со статистическими\неизменяемыми условиями отбора, запросы с параметрами, запросы с подчиненными запросами. Запросы первого вида, условия выборки данных определяются при формировании самого запроса и являются неизменными при всех последующих формированиях запроса. Запросы с параметрами вставляются спец средства для диалогового задания пользователем конкретных параметров в условии подбора в момент исполнения запроса. 3 группа – исполняются по резам исполнения вставки внутренней инструкции. По схеме отбора данных запросы также делятся на группы: запросы из одной таблицы, запрос на выборку в один набор из нескольких таблиц, запрос на объединение данных. Запросы на выборку из одной таблицы сходны с фильтрацией данных, но различие заключается в том, что предоставляется форма представления результата. Технология обработки. Различают запросы всех записей с произвольным набором полей и на множество записей. Запрос на выборку из нескольких таблиц предназначен для решения логических инф задач и делятся на запросы на сочетание данных, запросы на соединения данных, запрос на объединение данных. Запрос на сочетание данных строится на формирование набора полных строк записей. Запрос на соединения делятся на запросы внутреннего соединения и на запросы правого или левого внешнего соединения. Запросы на выборку основанные на основе внутреннего соединения рассматривают операцию соединения реляц таблиц. При реализации выделяется поле соединения и появляется новые таблицы выделяются поля первой или второй таблицы. Антиподом запросов соединение является спец вид называемой поиском записей без подчиненных, который употребляется в таблицах, в которых не формировалась связь. На внешнее соединение с доп условием набора записей, по полю соединения правой или левой таблицы.

3. Механизм реализации событий, правила и процедуры в БД

Вычисление и групповые операции запросов.

Во многих случаях при формировании запроса данных на выборку требуется производить определенные вычисления и операции по непосредственной обработке отбираемых данных. В реляц СУБД это делается через выч поля и групповые операции в запросах на выбираемые данные. В некоторых СУБД в отдельный вид выделяются запросы на выборку повторов, а также перекрестных запросов. Эти запросы применяются для анализа наличия инфы по определенному полю, но и для анализа их статистических\количественных данных. Перекрестные запросы решают следующие задачи:

Запросы на изменение данных вносит изменение данных за одну операцию. Таким образом изменяются данные не в наборе, а в самой таблице. Запрос изменения данных широко применяется при импорте внешних источников, при перемещении записей, при массовой однотипной коррекции и при чистке данных. Существует 4 разновидности:

1. Запрос на удаление. При выполнении его за одну операцию происходит удаление группы записей из одной\нескольких таблиц

2. Запрос на обновление за одну операцию вносятся общие изменения в одной\нескольких таблиц

3. На добавление за одну операцию осуществляется добавление группы записей из одной в конец таблиц(ы), при этом кол-во и типы полей при вставке записей должны совпадать.

4. На создание таблицы за одну операцию создают новую таблицу с заполненными данными на основе всех или части данных одной или нескольких таблиц

План последовательности операций. Может быть сложным\простым, идет по алгоритму, выполняется через прикладные программы.

Особенности обработки данных в СУБД с сетевой моделью организацией данных. В сетевых СУБД, как в реляц СУБД реализуются операции поиска, фильтрации и сортировки данных. Но в релц СУБД нет навигации по связанным записям в разных информационных объектах. Возможность этой навигации обусловлена тем, что в сетевых СУБД ссылки связи различных таблиц задаются не через внешние ключи, а через спец указатели на физич адреса связанных записей. Навигационные возможности СУБД позволяют пользователям «беседовать» с базой интерактивным способом. Такой подход применялся еще в ранних СУБД. В конце 80-х гг был создан на основе гипертекста гипертекстовые поисковые сис-мы (ГИПС). Проблема: потеря ориентации. Такие БД представляют разнотипные с большим кол-вом связей. Иногда объектом анализа являются не конкретные реквизиты, а сама схема связанных записей, т.е. визуализированная цепочка имен, связанная с исходным объектом записей. Визуализация таких цепочек графически затруднена, что приводит к пучковости исходящих связей.

Вывод данных – комплекс функций СУБД по предоставлении пользователю рез-тов обработки, накопления, хранения данных в удобном виде. Существует 3 способа вывода данных:

1. Через выводные формы. Выходные формы аналогичны входным формам, базовым источником являются рез-ы выполнения запросов, главная функция – представление пользователю резов в виде бланка. В отличии от входных, особенностью выходных форм является то, что помимо надписей и полей, присутсвуют эл-ты управления, которые позволяют пользователь управлять данными.

2. Через отчеты. Отчеты решают задачу документирования выводимых данных в форме текстового документа. Во многом отчеты аналогичны другим формам, но логичнее они в печатном виде. Отличительной особенностью является то, что строятся как документы (оформление).

3. Через экспорт данных решает технологические задачи архивирования, резервирования и передачи данных во внешние системы и реализуется через запрос на оформление данных\оформление таблиц. Таблицы приемники находятся во внешних базах данных, которые находятся во внешней СУБД, при этом табл данные размещаются по строкам и ячейкам экспортируемой таблицы (слева на право, сверху вниз, отделяясь косой чертой).Этот порядок – унифицированный формат обмена данными (УФОД). Соответственно, многие СУБД имеют спец режимы не только экспорта, но и импорта на основе УФОД.

Распределение инф системы в некомпьютерных информационных технологиях.

Информационные ресурсы организаций разделены и распределены логически и физически. С другой стороны инф ресурсы создаются и используются коллективно и индивидуально, т.е. с одними и теми же документами могут работать несколько человек одновременно. Первоначальные подходы к созданию БД АИС заключались в сосредоточении БД логически и физически в одном месте. Такая организация чаще всего являлась не совсем естественно с точки зрения информационных технологий одного предприятия, происходила ломка инф потоков при внедрении ЭВМ, все ресурсы сосредотачивались в одном месте. На многих предприятиях появляются группы, обслуживающие эту установку. В 70-80 гг опыт внедрения ЭВМ не всегда эффективен. Возникла идея о распределенных инф системах.

Понятия распределенных инф систем, принципы их создания и функционирование.

Впервые задача по исследованию была поставлена Дейтом в рамках проекта system-key (70-80 гг). так же большую роль внесли работники системы ингрес. В основе распределенных АИС лежат 2 основные идеи:

1. Наличие множества организационно и физически распределенных пользователей, одновременно работающих с данными

2. Наличие логически и физически распределенных данных, составляющих общую БД. При чем отдельные таблицы могут располагаться в различных полях.

Крис Дейт сформулировал принципы создания и функционирования распределенных БД:

1. Прозрачностное расположение данных для пользователя

2. Изолированность пользователей друг от друга

3. Синхронизация и согласованность состояния данных в любой момент времени

Однако из них вытекают доп принципы:

1. Полная автономия (ни одна выч установка не зависит от другой)

2. Отсутствие центральной установки

3. Независимость от местоположения

4. Непрерывность функционирования

5. Независимость от фрагментации данных

6. Независимость дублирования данных

7. Распределенная обработка запроса

8. Распределенное управление транзакциями

9. Независимость от аппаратуры

10. Независимость от типов операционной системы

11. Независимость от коммуникационной сети

12. Независимость от СУБД

Распределенная СУБД - на основе которых создаются определенные инф системы. Важнейшую роль в их создании играет техника представлений. Представление – сохраненный в БД глобальный запрос на выборку данных. Глобальность заключается в том, что выборка может осуществляться со всех данных. В итоге, осуществление такого глоб запроса для конкретного пользователя создается виртуальная БД, со своим перечнем таблиц, связей, схемой и т.д. При входе в базу происходит идентификация пользователя, запускаются запросы, его ранее хранимого представления и выводится на экран. Это представление виртуально, а настоящие данные находятся на своих местах. Несмотря на простату идеии представлений практическая реализация подобных технологий имеет проблемы:

1. Размещение каталога БД, потому что при формировании представления СУБД требуется узнать о расположении данных. Отсутствие центральной установки приводит к тому, что он должен находится на локальной установке

2. Недоступность системных каталогов на других установках в момент обновления, не может быть обеспечена непрерывность

Технологии:

· Клиент-сервер

· Реплицирования

· Объектного связывания

Часто используются все эти 3 технологии в сочетании, но самая важная – клиент-сервер

Технологии и модели «Клиент - сервер»

Система на этой основе выросли из первых системных многопользовательских АИС. Эта технология отступает от принципа отсутствия центральной установки. В основе этих технологий лежат идеи:

· Общие для всех пользователей данные на одном\нескольких серверах

· Много пользователей на различных выч установках совместно обрабатывающие общие данные

Эти технологии распределены только в отношении пользователей. Важное значения имеют два понятия: «сервер» - это любая система, владеющая каким-либо выч ресурсом и «клиент» - любая система, запрашивающая какой-либо ресурс. В своем развитии «клиент-сервер». В своем развитии система прошла несколько этапов, в ходе которых сформировались модели. Их реализация основана на разделении структуры СУБД на 3 компонента:

1. Компонент представления, реализующий функции ввода и отображения данных (интерфейс пользователя)

2. Прикладной компонент, включающий набор запросов, событий, процедур и других выч функций, реализующий предназначение АИС конкретной предметной области.

3. Компонент доступа к данным, реализующий функции хранения, извлечения, физ обновления и изменения данных.

Исходя из особенностей реализации распределения, различают 4 модели «клиент-сервер»:

1. Файлового сервера

2. Удаленного доступа к данным

3. Сервера БД

4. Сервера предложений

Модель файлового сервера строится на взаимодействии компьютеров локальной сети. При обращении к данным СУБД обращается с запросами на ввод\вывод данных к файловой системе, с помощью функции операт системы, на комп полностью или частично копируется файл БД. Достоинством данный модели является простота, небольшой объем дискового пространства, программные компоненты СУБД в данном случае не распределены, никакая часть сервера не размещается. Недостатки: высокий сетевой трафик, отсутствие спец механизмов безопасности данных. Является естественным средством расширение возможностей в направлении поддержки многопользовательского режима.

М Удаленного доступа данных. Здесь СУБД полностью удален от 2 компонентов и размещается на сервере системы. Компонент доступа к данным реализуется … и инсталлируется на выч установке сервера системы. На клиентских установках инсталлируется определенная программа СУБД, на которой прикладные функции. Пользователь, входя в клиентскую часть системы, начинает работать с данными. Прикладной компонент полностью размещается на клиентской установке. При реализации функции прикладной компонент формирует и отправляет на сервер. В результате, нагрузка в сети уменьшается, обеспечивается безопасность данных. Недостатки: высокий требник к техническим установкам клиента, так же высокий трафик сети.

М Сервера БД. Ее сердцевиной является механизм хранимых процедур. Чтобы разнести требования к выч ресурсам сервера, нужно запустить этот механизм.

М сервера приложений. Действует по такому же принципу, как и М сервера БД.

Основой эффективности функционирования многопользовательских систем является эффективное управление транзакцией. В распределительных системах наблюдается невысокая необходимость из-за передачи в сети большого количества данных. Поэтому придумали технологию реплицирования (дублирования) данных. Реплика –особая копия БД для размещения на другом компе сети с целью автономной работы пользователей с одинаковыми данными общего пользования, передача между ними и обмен данными отсутвует. Программное обеспечение СУБД дополняется функциями тиражирования БД. Работа автономная. Возникают 2 проблемы непрерывности согласования данных:

1. Обеспечение согласованного состояния во всех репликах количество значения БД

2. Обеспечения согласованного состояния структуры данных

Обеспечение согласованного состояния общих данных в свою очередь основывается на одном из принципов:

1. Непрерывного размножения обновления является основополагающем при построении систем реального времени, т.е. система управления полетами, бронирование билетов и т.д. Реализация этого принципа заключается в том, что любая транзакция считается успешно завершенной, если она изменилась на всех репликах.

2. Отложенных обновлений. Это обновление реплик, которые могут быть отложены до спец команды.

Документальны Инф системы.

В развитии прог обеспечения СУБД превалировало управление, связанное с фактографическими АИС, были разработаны основы и модели организации данных. В результате к началу 90 годов основа инф обеспечения деятельности организации архивов и библиотек составили фактограф АИС. Однако, создание и эксплуатация фактограф АИС требует либо изначального структурирования данных, либо предварительного структурирования данных, причем входные инф потоки в основном представлены неструктурированными данными в виде различных доков или текстовых источников и извлечение из текста данных может приводить к потерям части инфы, поэтому несмотря на распространение фактограф АИС огромная часть неструктурированных данных остается в неавтоматизированном виде. В настоящее время в неавтоматизированном виде находятся массивы периодики, книг, документов и т.д. Возникает необходимость в эффективной обработке инфы, что привело к созданию отдельной ветви СУБД (документальная ИС).

Общая характеристика и виды док ИС: в док системах единичным элементом данных является неструктурированный документ. В основном это текстовые документы. Основной задачей док систем является накопление и предоставление пользователь документов, которые адекватны его инф потребностям.

Документальная ИС – это единое хранилище документов с инструментарием поиска и отбора необходимых документов. Есть еще одно название – ИПС (информационно-поисковая система)

Соответствие найденных документов потребностям пользователя – пертинентность

Документальные ИПС можно разделить на 2 группы: система на основе индексирования (документы помещаются в базу без дополнительного преобразования и процесс отображения дока в пространстве заключается в присвоении индекса) и семантически-навигационная система (документы оснащаются спец конструкциями, осуществляющие связи между документами, при работе с ней осуществляется переход по ссылкам).

ПОД – поисковый образ документа (формализованное представление индекса документа)

Принцип решения задач инф оповещения в док ИПС на основе индексирования анологичен принципу решения задач поиска документа по запросам и основан на отображении в поисковое пространство потребностей пользователя в виде ….

Поисковое пространство отображающее поисковые образы документов и реализующие механизмы поиска документа строится на основе языков документальных БД (информационно-поисковые языки\ИПЯ)

ИПЯ представляют собой формализованные семантические системы, предназначенные для выражений содержания документа и запросов по поиску. Их можно разделить на структурные и манипуляционные.

Структурная составляющая ИПЯ документальных ИПС на основе индексирования реализуется индексными указателями в форме информационно-поисковых каталогов, тезаурусов, указателей.

Информационно-поисковые каталоги являются традиционными технологиями поика в библиотеках, архивах и проч и представляют собой классификацию знаний в определенной области. Смысловое содержание в каталогах отображается тем или иным классом каталога, а индексирование документа отображается в присвоении спец индекса, соответствующего спец индекса.

Тезаурус представляет собой специальным образом организованную совокупность основных лексических единиц понятий предметной области и описание парадигматических отношений между ними. Парадигматические отношения выражаются семантическими отношениями между элементами словаря, независящими от любого контекста. Независимость от контекста означает обобщенность отношений. В инф-поиск каталогах в системах на основе тезауруса в пространство отображается не весь текст документа, а только подразумевающийся тезаурусом фрагмент. Генеральный указатель в общем виде представляет собой перечисление всех слов, имеющихся в документах хранилища с указанием координатного местонахождения каждого слова. Индексирование нового документа в таких системах производится через дополнение координатных отсылок тех слов координатного указателя, которые присутствуют в новом документе, в таких системах поискового пространства отражают полностью текст документов (полнотекстовые).

Структурная составляющая ИПЯ, семантически навигационных систем реализуется в виде техники смысловых отсылок в текстах документов и специальном информационным интерфейсом. Поисковая манипуляционная составляющая реализуется дескрипторными и семантическими языками запроса. В дескрипторных языках документы и запросы представляются наборами некоторых лексических единиц (дескрипторов), не имеющих между собой связи. Таким образом каждый документ\запрос представлен некоторым набором дескрипторов. В качестве элементов дескрипторов выступают либо элементы словаря, либо указателя. Такие языки применяются в полнотекстовых системах.

Семантические языки содержат грамматические и семантические конструкции для описания основного содержания документов и запросов. В свою очередь делятся на 2 большие группы: предикатные и реляционные языки.

В предикатных языках в качестве элементарной осмысленной конструкции выступает предикат, который представляет собой многоместное отношение некоторой совокупности грамматических элементов. Аналогом предикатного высказывания в обычном языке является предложение. В реляционных языках лексические единицы могут вступать в бинарные отношения (друг с другом). В качестве лексических единиц семантических языков выступают функциональные классы обычного языка:

1. Классы – общее определение совокупности элементов реального мира, обладающие некоторым набором определенных слов

2. Понятие действия выражают динамику мира и содержат универсальный набор признаков (время, место и проч)

3. Понятие состояния – элементы, фиксирующие состояние объекта

4. Имена – элементы, идентифицирующие понятия «классы»

5. Отношения – элементы, служащие для установления связи между понятиями и именами

6. Квантификаторы – элементы всеобщности

В настоящее время семантические языки составляют основу каталогов, тезаурусов, гипертекстовых ИПС выражают смысловое содержание документов и запросов.

Информационно-поисковые каталоги и тезаурусы.

Каталоги основаны на классификации сведений, по определенной предметной области. Исторически были первыми системами поиска в библиотечном и архивном деле и возникли в средние века.

Классификационная система поиска документов. Первоначально подходы к классификации к тематике документа на формировании списков предметных заголовков, располагаемы в алфавитном порядке. Каждая рубрика получала код и содержание документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документов. Перечислительная классификация. Особенностью является возможность индексирование документа любым количеством рубрик. Для осуществления поиска необходимых документов по каталогу определяются коды интересующих абонента предметов и отбираются интересующие коды. Для удобства поиска и отбора по каждому документу формируется специальная карточка, на которую наносится инфа о кодах документа о его местонахождении (шифр).

Поиск и отбор документов непосредственно осуществляется по отбору карточек. Отсутсвие систематизированых связей между отношениями и рубриками является основным недостатком.

Особенности ввода и загрузки данных в СУБД с сетевой моделью организации данных

Поиск по сайту