Целостность реляционной БД

Важнейшим свойством базы данных является её целостность, которая понимается как правильность данных в любой момент времени.

Эта цель может быть достигнута лишь в определенных пределах: СУБД не может контролировать правильность каждого отдельного значения, вводимого в базу данных (хотя каждое значение можно проверить на правдоподобность). Например, нельзя обнаружить, что вводимое значение 5 (представляющее номер дня недели) в действительности должно быть равно 3. С другой стороны, значение 9 явно будет ошибочным и СУБД должна его отвергнуть. Однако для этого ей следует сообщить, что номера дней недели должны принадлежать набору (1,2,3,4,5,6,7).

Для реляционной БД выделяют три группы правил целостности:

1. Целостность по сущностям (не допускается, чтобы какой-либо атрибут, участвующий в первичном ключе, принимал неопределенное значение).

2. Целостность по ссылкам (значение внешнего ключа должно либо быть равным значению первичного ключа цели, либо быть полностью неопределенным, т.е. каждое значение атрибута, участвующего во внешнем ключе должно быть неопределенным).

3. Целостность, определяемая пользователем. Для любой конкретной базы данных существует ряд дополнительных специфических правил, которые относятся к ней одной и определяются разработчиком. Чаще всего контролируются: уникальность тех или иных атрибутов; диапазон значений (экзаменационная оценка от 2 до 5); принадлежность набору значений (пол "М" или "Ж").

Для того чтобы была обеспечена целостность по ссылкам, для каждого внешнего ключа необходимо решить три вопроса:

1. Может ли данный внешний ключ принимать неопределенные значения (NULL-значения)? Иначе говоря, может ли существовать некоторый экземпляр сущности данного типа, для которого неизвестна целевая сущность, указываемая внешним ключом?

В рассмотренном выше примере такая ситуация могла бы иметь смысл для внешнего ключа режиссер из таблицы фильмы (т.е. в таблицу занесен фильм, режиссер которого еще не занесен в базу). Но рассмотрим еще две таблицы, одна из которых содержит сведения обо всех клиентах видеопрокатного салона, а в другой хранится информация о взятых напрокат фильмах.

Очевидно, что внешний ключ клиент из таблицы заказ не может принимать неопределенное значение. В противном случае фильм могут не вернуть вовремя, а установить клиента, взявшего фильм, окажется невозможно.

2. Что должно случиться при попытке удаления целевой сущности, на которую ссылается внешний ключ? Например, при удалении клиента (может быть, он умер), который имеет на руках, по крайней мере, один фильм. Существует три возможности:

— каскадируется — операция удаления "каскадируется" с тем, чтобы удалить также заказы этого клиента;

— ограничивается — удаляются лишь те клиенты, у которых нет на руках фильмов. Иначе операция удаления отвергается (для рассматриваемого внешнего ключа это наиболее логичный вариант);

— устанавливается — для всех заказов удаляемого клиента внешний ключ устанавливается в неопределенное значение, а затем этот клиент удаляется. Такая возможность, конечно, неприменима, если данный внешний ключ не должен содержать NULL-значений (как в данном случае).

3. Что должно происходить при попытке обновления первичного ключа целевой сущности, на которую ссылается некоторый внешний ключ? Например, может быть предпринята попытка обновить номер такого клиента, который имеет на руках, по крайней мере, один фильм. Имеются те же три возможности, как и при удалении:

— каскадируется — операция удаления "каскадируется" с тем, чтобы обновить также заказы этого клиента (этот вариант подходит для абсолютного большинства внешних ключей);

— ограничивается — обновляются первичные ключи лишь тех клиентов, которые еще не осуществляли поставок, иначе операция обновления отвергается;

— устанавливается — для всех заказов такого клиента внешний ключ устанавливается в NULL-значение, а затем обновляется первичный ключ клиента.

Таким образом, для каждого внешнего ключа в проекте проектировщик БД должен указать не только поле или комбинацию полей, составляющих этот внешний ключ, и целевую таблицу, которая идентифицируется этим ключом, но также и ответы на перечисленные выше вопросы.

СУБД Access входит в состав Microsoft Office и предназначена для работы с реляционными БД, т.е. представленными в табличной форме. В отличие от табличного процессора Excel, Access имеет более развитые средства для отбора данных из взаимосвязанных таблиц, формирования новых таблиц и отчетов.

Характерной особенностью баз данных, созданных в Access, является хранение создаваемых таблиц и средств для обработки данных в одном файле, имеющем расширение.mdb. Достоинством Access является возможность создания СУБД (т.е. программы управления) без программирования. Однако, для сложных СУБД применение программирования на встроенном языке Visual Basic for Applications (VBA) позволяет повысить эффективность системы управления.

Основным элементом БД является таблица. Столбцы таблицы БД называются полями, а строки — записями. Первым этапом создания таблицы БД является задание ее структуры, т.е. определение количества и типа полей. Вторым этапом является ввод и редактирование записей в таблицу. БД считается созданной, даже если она пустая.

Поля таблицы просто определяют ее структуру и групповые свойства данных, записываемых в ячейках. Рассмотрим основные свойства полей БД.

1. Имя поля — определяет как надо обращаться к данным поля (имена используются как заголовки таблиц).

2. Тип поля — определяет тип данных, которые могут содержаться в данном поле (текстовые, числовые, дата, Memo, денежный, счетчик и др.).

3. Размер поля — определяет предельную длину данных, которые могут размещаться в поле.

4. Формат поля — способ форматирования данных в ячейках.

Запрос – требование на поиск, изменение или обработку данных в БД.Запросы можно использовать в качестве источников записей для форм, отчетов истраниц доступа к данным. Запрос в Access является объектом, которыйсохраняется в файле БД и может многократно исполняться.В Access существует несколько типов запросов:· запросы на выборку;· запросы с параметрами;· перекрестные запросы;· запросы на изменение (запросы на создание таблицы, удаление,· обновление, добавление записей);· запросы SQL (запросы на объединение, запросы к серверу, управляющиезапросы, подчиненные запросы). Запросы на выборку используются для выбора данных из таблиц по заданномупользователем условию. Результатом запроса является динамическая таблица,называемая также выборкой. Выборка формируется каждый раз заново на основереальных таблиц базы данных. Простой запрос – запрос на выборку, для формирования которогоиспользуется, как правило, одна базовая таблица. Простые запросы используютсядля элементарной обработки данных. Сложный запрос – запрос, который позволяет соединять воедино данные изразных таблиц и запросов, а также из разных баз данных. Таблицы (запросы) втаком запросе могут связываться с использованием внутренних, внешних,рекурсивных соединений и соединений по отношению. С помощью таких запросовможно создавать, обновлять, удалять таблицы, получать ответы на самыеразнообразные вопросы. Внутренние соединения чаще всего применяются для создания запросов навыборку. Если таблицы связаны соотношением “один-ко-многим”,объединения основываются на значении поля первичного ключа одной таблицы изначениях поля внешнего ключа другой таблицы. В результирующее множествозапроса попадают все записи из главной таблицы (таблица “один”), для которыхимеются соответствующие записи в подчиненной таблице (таблице “многие”).Внутренние соединения отображают в динамическом наборе соответствующие записив объединенных полях таблиц как одну запись. Подобного рода соединения междутаблицами создаются автоматически, если в таблицах имеются поля с одинаковымиименами и согласованными типами, причем одно из полей является ключевым либоэто соединение явно задано в окне Схема данных. “Согласованные типы” вбольшинстве случаев означают одинаковые типы. Исключением является поле типа Счетчик, которое может иметь размер длинного целого или кодарепликации и может связываться с числовыми полями соответствующего размера.Для обозначения внутренних соединений в Access используютсязарезервированные слова INNER JOIN. Для создания запроса, объединяющего все записи из одной таблицы и только тезаписи из второй таблицы, в которых связанные поля совпадают, используют внешнее соединение. В Access применяются правые (RIGHT JOIN) илевые (LEFT JOIN) внешние соединения. Запрос, основанный на таблицах слевым внешним соединением, отображает все записи главной таблицы (таблица“один”) с уникальным ключевым полем, независимо от того, имеются ли в связанныхполях подчиненной таблицы (таблице “многие”) совпадающие значения. Запрос,основанный на таблицах с правым внешним соединением, отображает все записитаблицы многие, независимо от того, существуют ли в связанных с нимиполях главной таблицы совпадающие значения. Записи в таблице со стороны многие, не имеющие связанных с ними записей в таблице один, обычно,но не обязательно, относятся к зависшим записям. Поэтому внешние соединенияиспользуются в системе поддержки БД для удаления из таблиц “зависших” записей идублирования данных в результате создания новых таблиц, содержащих записи суникальными значениями. Рекурсивные соединения (самообъединения) связывают данные в одной и тойже таблице. В Access самообъединения создаются в результате включения взапрос дубликата таблицы (Access назначает дубликату псевдоним), споследующим объединением между полями копий. Соединения по отношению (тэта-соединения) связывают данные с помощьюоператоров сравнения, отличных от оператора равенства (=). Запрос на изменение – запрос, с помощью которого создают новые таблицыбазы данных из таблиц запросов или вносят в таблицы значительные изменения.Такие запросы позволяют добавлять в таблицу новые записи или удалять их, иливносить изменения в записи с помощью выражений, встроенных в конструкциюзапроса. Перекрестный запрос – запрос, по требованию которого выполняютсяитоговые вычисления из одной или нескольких таблиц, и результаты которогопредставляются в виде сводной кросс-таблицы. Строки и столбцы кросс-таблицыименованные. Примеры перекрестных запросов: определить среднюю почасовуюоплату, сгруппированную по виду работ и названию области; определить итоговыесуммы продаж по месяцам для каждого типа изделий. Запросы с параметрами. Для того, чтобы не формировать множествоаналогичных по смыслу и структуре запросов, но с различными значениями вусловиях отбора, создаются запросы с параметрами. Параметрический запроспозволяет создать один-единственный запрос и ввести условие отбора посредствомдиалогового окна, который Access отображает при каждом запуске этогозапроса. Запросы с параметрами фактически не являются отдельным типомзапросов, поскольку функции запросов с параметрами можно добавить к запросамдругих типов.

Базой данных (БД) называется организованная в соответствии с определенными правилами и поддерживаемая в памяти компьютера совокупность сведений об объектах, процессах, событиях или явлениях, относящихся к некоторой предметной области, теме или задаче. Она организована таким образом, чтобы обеспечить информационные потребности пользователей, а также удобное хранение этой совокупности данных, как в целом, так и любой ее части.

Реляционная база данных представляет собой множество взаимосвязанных таблиц, каждая из которых содержит информацию об объектах определенного вида. Каждая строка таблицы содержит данные об одном объекте (например, автомобиле, компьютере, клиенте), а столбцы таблицы содержат различные характеристики этих объектов - атрибуты (например, номер двигателя, марка процессора, телефоны фирм или клиентов).

Строки таблицы называются записями. Все записи таблицы имеют одинаковую структуру - они состоят из полей (элементов данных), в которых хранятся атрибуты объекта (рис. 1). Каждое поле записи содержит одну характеристику объекта и представляет собой заданный тип данных (например, текстовая строка, число, дата). Для идентификации записей используется первичный ключ. Первичным ключом называется набор полей таблицы, комбинация значений которых однозначно определяет каждую запись в таблице.

Для работы с данными используются системы управления базами данных (СУБД). Основные функции СУБД:

- определение данных (описание структуры баз данных);

- обработка данных;

- управление данными.

Разработка структуры БД - важнейшая задача, решаемая при проектировании БД. Структура БД (набор, форма и связи ее таблиц) - это одно из основных проектных решений при создании приложений с использованием БД. Созданная разработчиком структура БД описывается на языке определения данных СУБД.

Любая СУБД позволяет выполнять следующие операции с данными:

- добавление записей в таблицы;

- удаление записей из таблицы;

- обновление значений некоторых полей в одной или нескольких записях в таблицах БД;

- поиск одной или нескольких записей, удовлетворяющих заданному условию.

Для выполнения этих операций применяется механизм запросов. Результатом выполнения запросов является либо отобранное по определенным критериям множество записей, либо изменения в таблицах. Запросы к базе формируются на специально созданном для этого языке, который так и называется «язык структурированных запросов» (SQL - Structured Query Language).

Под управлением данными обычно понимают защиту данных от несанкционированного доступа, поддержку многопользовательского режима работы с данными и обеспечение целостности и согласованности данных.

29. Информационный поиск. ИПС, их типы, использование. Лингвистические основы разработки и функционирования ИПС.

Резкое возрастание объемов научно-технической информации в 50-60 гг. XX столетия привело к развитию информационных технологий и созданию автоматизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определялись следующей проблемной ситуацией: имеется множество документов; имеется коммуникативное задание, информационная потребность; требуется найти во множестве документов тексты, соответствующие запросу.

Понятия запроса и документа стоят в центре информационной деятельности. В процессе поиска информации происходит сравнение содержания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью информационно-поискового языка. Этот код называется поисковым образом документа (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответствие поискового образа документа поисковому предписанию называется формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой релевантностью.

Результаты поиска могут характеризоваться с двух точек зрения: с т.з. точности и с т.з. полноты. Полнота поиска определяется соотношением между количеством выданных релевантных документов к общему числу релевантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче. В идеальном случае количественное выражение полного и точного поиска равно единице.

Типы информационно-поисковых систем. По типу хранимой и обрабатываемой информации и особенностям поиска ИПС — документальные и фактографические. В документальных хранятся тексты документов или их описания (рефераты и пр.). Фактографические имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокупность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, напр., книга, номер и пр. Объект в базе данных характеризуется по признакам или атрибутам. Так, книга может иметь атрибуты: 1) автор; 2) название. Базы данных по своей структуре разделяются на иерархические, сетевые и реляционные. Наиболее распространены реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столбцов.

Информационно-поисковые языки. Центральное место в информационно-поисковой системе занимает информационно-поисковый язык. ИПЯ — формальный язык для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для данной проблемной области семантические различия между документами, требование однозначности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.

ИПЯ делятся на языки-классификации и язык и дескрипторного типа. Языки-классификации, или языки классификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. Они ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов, обеспечить точность индексирования, не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индексирование документа по нескольким основаниям — фасетам (англ. facet — аспект). Напр., газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной российской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста.

В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков.

На следующем этапе возникла технология лингвистического контроля, заключавшегося в унификации языка индексирования запросов и документов. Наиболее удачной формой унификации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем парадигматическими отношениями получил название информационно-поискового тезауруса (ИПТ). Разработка ИПТ стоит в центре создания любой информационно-поисковой системы. Среди парадигматических отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «процесс—результат», «причина—следствие». В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Именно в этом направлении идет развитие современных информационно-поисковых систем.

Лингвистическое обеспечение информационно-поисковых систем - разработка специальных информационно-поисковых языков и информационно-поисковых тезаурусов, а также других специализированных лексикографических ресурсов для обеспечения информационного поиска. В современных поисковых системах, в которых тематически значимые элементы (ключевые слова или понятия) выделяются статистическими методами, в задачи лингвистического обеспечения входит разработка лингвистических методов оптимизации выделения тематически значимых единиц в тексте.

Одной из прикладных задач обработки текста является информационный поиск. Основные методы информационного поиска разрабатываются в рамках одноименной научной дисциплины. Однако большинство таких систем включают лингвистический компонент. По мере развития технологий информационного поиска состав и задачи лингвистического компонента менялись.

В информационно-поисковых системах (ИПС) для поиска документов используется метод индексирования - составление "информационного" портрета документа на основе ключевых слов, т.е. выделение множества признаков, в простом случае ключевых слов (тематических элементов, терминов, термов, а также иногда связей между ними), которые отражают основную тематику текста.

В ранних системах такой портрет составлялся вручную на специальном информационно-поисковом языке. Они в основном использовались для библиотечного поиска. В них использовалась процедура индексации документа: процедура приписывания документу формального описания на специальном информационно-поисковом языке (ср. процедуру приписывания единице хранения в библиотеке одного или нескольких ключевых слов - предметных рубрик). Достаточно широко в системах ИПС использовались дескрипторные информационно-поисковые языки. В качестве дескрипторов выступают слова и словосочетания, представляющие собой термины, обозначающие понятия предметной области. В задачи лингвистического обеспечения системы информационного поиска входило создание и унификация словарей некоторой предметной области, предполагающее установление соответствия между терминами, используемыми в области, и дескрипторами (элементами формального информационно-поискового языка - нормативного языкового выражения для обозначения некоторого понятия). Одни и те же понятия могут иметь разное языковое выражение (ср., например, “поваренная соль” и “хлорид натрия”). Информация о дескрипторах и возможных их языковых коррелятах (например, синонимах) отражается в специальных информационно-поисковых тезаурусах.

В настоящее время выделение ключевых слов (словосочетаний) происходит автоматически на основе статистических процедур. Фактически все слова текста являются ключевыми, наиболее значимые отбираются с использованием специальной статистической процедуры - приписывания ключевому слову или выражению тематического веса. Документу при таком подходе ставится в соответствие числовой вектор, отражающий важность использования термина в каждом документе. Аналогичный вектор ставится в соответствие запросу. Релевантность некоторого документа запросу определяется расстоянием между соответствующими векторами: чем вектора ближе, тем более соответствует документ запросу пользователя. Такой метод, основываясь на частотности конкретного слова игнорирует тот факт, что в тексте присутствуют обычно синонимические и анафорические замены.

Для улучшения поиска документов помимо чисто квантитативного подхода применяются дополнительные лингвистически-ориентированные технологии.

Таким образом, при обоих подходах используются специальные лексикографические источники - информационно-поисковые тезаурусы.

30. Контент-анализ, его идеология, основные понятия, использование.

Баранов.

Первые опыты использования количественных методов, близких к контент-аналитическим, относятся к концу XIX в. Именно тогда стало ощущаться влияние средств массовой информации — и особенно газет — на общество. В США по заказам некоторых общественных организаций и университетов был проведен ряд исследований тематики газетных статей. Тематика определялась на основе количественного анализа лексики. Общий вывод заключался в том, что пресса отдает предпочтение уголовной хронике, скандалам, сплетням и спорту, практически игнорируя сферу религии, науки и искусства [Speed 1893]. В 20-30-х гг. XX в. в США по текстам прессы отрабатываются техники изучения общественного мнения. В центре внимания контент-аналитических исследований оказываются более сложные категории, такие как установки, стереотипы, ценности.

Лассуэлл, с именем которого связывают существенный прогресс в технике контент-анализа, провел исследование основных тем и идей, превалировавших в официальной пропаганде стран-участников Первой мировой войны [Lasswell, Leites 1949; Lasswell 1952]. Во время Второй мировой войны контент-анализ стал составной частью оборонной политики. Эксперты лондонского радио проводили методом контент-анализа регулярный мониторинг текстов нацистской пропаганды в средствах массовой информации. Это позволило им выявить типичные последовательности действий министерства пропаганды, связанные с обоснованием тех или иных политических и военных акций. В результате аналитиками были предсказаны некоторые важные события в политической и военной сферах. Изучение документов агентства Transocean в США с использованием методов контент-анализа позволило разоблачить его сотрудников как нацистских агентов [Grawitz 1996, р. 550-582].

Рассмотрим методику контент-анализа с лингвистической точки зрения. Рациональность такого подхода объясняется тем, что по сути контент-анализ использует чисто лингвистическую информацию о характеристиках текста и пытается выявить его семантические особенности. Сущность контент-анализа заключается в том, чтобы по внешним — количественным — характеристикам текста на уровне слов и словосочетаний сделать правдоподобные предположения о его плане содержания и, как следствие, сделать выводы об особенностях мышления и сознания автора текста — его намерениях, установках, желаниях, ценностных ориентациях и т. д. Для литературного текста может быть поставлена задача изучения особенностей изображения представленных в нем персонажей. Если количество привлекаемых текстов и авторов достаточно велико, то сделанные выводы могут быть распространены на большую социально значимую группу людей и даже на общественное сознание в целом. Конечно, оценка мышления вряд ли относится к собственно лингвистической проблематике, впрочем, такие задачи, как изучение идиолекта писателя, вполне рядоположены исследованию особенностей мышления.

Важнейшей категорией контент-анализа является концептуальная переменная — понятие, которое стоит в центре проводимого исследования. Например, концептуальной переменной (К-переменной) могут быть такие категории, как «СВОЙ-ЧУЖОЙ», «ДЕМОКРАТИЯ», «ПРАВА ЧЕЛОВЕКА», «ЖЕНСКИЙ ВОПРОС», «МАТЕРИАЛЬНОЕ БЛАГОПОЛУЧИЕ». В конкретном тексте концептуальная переменная представлена своими значениями — языковыми представителями. Так, концептуальная категория «СВОЙ—ЧУЖОЙ» в текстах может иметь следующие значения: мой, наш, мы, я, привычный, знакомый, близкий vs. их, его, ее, он, она, оно, они, их, ее, его, непривычный, дальний, незнакомый. С другой стороны, концептуальная переменная «ДЕМОКРАТИЯ» может быть представлена в текстах следующими языковыми коррелятами: демократия, демократический, демократично, демократический выбор, власть народа, народовластие, выборность, возможность выбора, разделение властей.

Абсолютная частота концептуальной переменной определяется как совокупность абсолютных частот ее значений (языковых репрезентантов). Отсюда следует, что для правильности контент-анализа очень важно определить весь список значений, иначе будут пропущены некоторые вхождения концептуальной переменной и результаты исследования будут неточны.

Этапы подготовки и проведения эксперимента. Первый этап подготовки эксперимента заключается в выборе материала — корпуса языковых данных. Классический для контент-анализа пример корпуса данных — газетные публикации за определенный период времени или программы политических партий в разные периоды существования партий. Как правило, структура корпуса данных и отбор материала тесно связаны с самой постановкой задачи исследования. Например, если предметом исследования являются языковые и стилистические особенности русского рассказа XIX в., то и создаваемый корпус должен охватывать соответствующие литературные тексты того времени. Для формирования корпуса можно использовать принципы, разработанные в корпусной лингвистике — см. §3 главы 3.

Второй этап — выбор концептуальной переменной и определение ее значений — языковых репрезентантов выбранного понятия в тексте. Если значения К-переменной можно выявить в предварительном эксперименте на незначительном количестве материала (для часто исследуемых проблемных областей в социальных науках и политологии разработаны специальные словари-тезаурусы значений наиболее очевидных К-перемен-ных), то выбор самой К-переменной остается нетривиальной проблемой. Один из наиболее частых подводных камней при выборе К-переменной — это корреляция между частотой и значимостью, а также постулат о равнозначности вхождения значений К-переменной. Если эта корреляция отсутствует или одно вхождение (группа вхождений) перевешивает по значимости другие вхождения, то контент-анализ в классическом варианте неприменим. Например, если известно, что Эйзенхауэр, уходя со своего поста, произнес известную речь об опасности военно-промышленного комплекса, то любые контент-аналитические выкладки в связи с К-переменной «ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС» не будут иметь никакого смысла по отношению к предшествующим выступлениям Эйзенхауэра, даже если бы они все были и позитивные или существенно превосходили отрицательные оценки. Иными словами, если исследователя интересует отношение данного политика к проблемам обороны и военного строительства, то в данном случае он должен выбрать другую переменную, например «АРМИЯ», «ВООРУЖЕННЫЕ СИЛЫ» и пр.

Третий этап — выбор единицы кодирования. Значения К-переменной могут приписываться текстам, их фрагментам, абзацам, предложениям и отдельным словам и словосочетаниям. Выбор единицы кодирования зависит от объема и характера корпуса данных и от типа контент-анализа. Если корпус данных — заголовки статей, то выбор единицы кодирования предопределен. С другой стороны, чем больше корпус данных, тем крупнее могут быть единицы кодирования. Для ручного контент-анализа зависимость единицы кодирования от объема корпуса очевидна. Если корпус насчитывает тысячи статей, а кодировщиков — два-три человека, то выбор в качестве единицы кодирования одной статьи вполне оправдан. Учитывается также и объем единиц хранения корпуса. Если корпус состоит из относительно небольших заметок, то опять-таки они и могут стать единицами кодирования.

Отбор кодировщиков и формулировка инструкций по кодированию образуют четвертый этап подготовки эксперимента. Ручной контент-анализ требует точной формулировки инструкций. Кодировщиков может быть несколько и они должны руководствоваться едиными принципами кодирования. Часто для обеспечения единообразия кодирования между кодировщиками и руководителями эксперимента проводятся семинары, позволяющие всем участникам уточнить и унифицировать принципы обработки материала. При компьютерном контент-анализе подготовка инструкций практически заменяется перечислением языковых форм выбранных значений К-переменной. Общие принципы кодировки задают два вида контент-анализа — жесткий и мягкий. При жестком варианте инструкции формулируются таким образом, что кодируются только явные вхождения К-переменной в текст, то есть только тогда, когда в тексте эксплицитно представлено одно из значений К-переменной. При мягком варианте контент-анализа инструкции позволяют кодировщику кодировать не только явные, но и неявные, имплицитные вхождения К-переменной и текст. Это допустимо в тех случаях, когда трудно исчислить все значения К-переменной. Например, К-переменная «ПРАВА ЧЕЛОВЕКА» может реализоваться и в тексте о правилах техники безопасности на производстве. Предсказать такие значения К-переменной довольно трудно. Понятно, что компьютерный контент-анализ пока используется только как средство жесткого контент-анализа. Использование разрабатываемых в настоящее время интеллектуальных процессоров может в перспективе изменить ситуацию.

На пятом этапе происходит кодировка данных. И, наконец, на шестом этапе осуществляется подсчет данных и интерпретация результатов. Для обработки результатов часто используются сложные статистические методы анализа, в том числе факторный и кластерный анализ.

Факторы контроля качества эксперимента. В теории контент-анализа уделяется большое внимание обеспечению адекватности и точности проведения эксперимента. Для подготовки экспериментов и оценки их результатов учитываются факторы надежности (reliability) и достоверности/обоснованности (validity). Фактор надежности проявляется в трех основных формах — стабильности, повторяемости и тщательности (accuracy). Стабильность — самая слабая форма надежности. Она определяется тем, насколько один и тот же кодировщик через некоторое время после первой кодировки так же сможет обработать данные. Понятно, что для компьютерной версии контент-анализа эта характеристика надежности выполняется постольку, поскольку не меняется программа кодировки. Повторяемость является более сильной формой надежности, она характеризует возможность получения тех же результатов разными кодировщиками в разное время и в разных ситуациях по тем же инструкциям. Если разные кодировщики в разное время похожим образом кодируют одни и те же данные, используя одинаковые инструкции, то повторяемость эксперимента достаточно велика. Самой сильной формой надежности является тщательность, под которой понимается соответствие некоторой норме кодирования, выработанной экспертами. В элементарном случае тщательность проявляется в следовании выработанным инструкциям.

Фактор достоверности/обоснованности проявляется во многих разнообразных формах. Одна из них — семантическая достоверность — определяется тем, насколько инструкции кодировщику учитывают многозначность языковых выражений, являющихся значениями К-переменной. Так, при проведении контент-анализа на К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) инструкция кодирования, учитывающая фактор семантической достоверности, должна делать различие между значениями слова война, отсеивая употребления типа (1).

(1) После этого тихо тлевшая в

Целостность реляционной БД

Поиск по сайту