Обработка количественных данных

Количественные данные обычно представляются в виде прямоугольной таблицы. Каждая ее строка относится к определенному обету наблюдения, например, НКО или клиент. Каждый столбец – это значение некоторого признака. Например, доходы за финансовый год, количество сотрудников, возраст.

Обработка количественных данных основана на применение некоторого математического аппарата. Почти все методы относятся к такому разделу математики, как математическая статистика. Применение этих методов, кроме самых простейших случаев, требует привлечения специалиста.

Самые простейшие задачи решаются методами описательной (или дескриптивной) статистики. Они позволяют большой набор однотипных наблюдений заменить одним числом, которое характеризует весь массив. Например, средний возраст клиентов, или суммарный объем доходов всех организаций, или средняя зарплата, или среднее время обслуживания одного клиента.

Главное, что нужно знать про статические характеристики – это то, что они дают такое значение числового показателя, которое вы могли наблюдать. Реальное время обслуживания очередного клиента может сильно отличаться от того среднего, которое вы установили, наблюдая много предыдущих. Суть статистических методов и заключается в том, чтобы сделать вывод, обобщение, наблюдая не все возможные случаи, а только какой-то выборочный массив. Формирование выборки здесь имеет большое значение. История знает не мало курьезов в предсказании результатов выборов, причиной которых была некорректная выборка. Теория построения выборки – это отдельная наука. Нужно также помнить, что практическое соблюдение всех принципов формирования выборки может оказаться трудоемким и дорогостоящим.

Более сложные методы статистики связаны с проверкой гипотез. Здесь решается задача выяснения того, существенно ли отличается какой-то показатель от заданного значения или интервала. Например, вас может интересовать ответ на следующий вопрос, верно ли, что клиенты, которых социальный работник посещает на дому, меньше болеют? Или: верно ли, что обучение руководителей организаций повысило эффективность фандрайзинга в их организациях? Ответы на такие простые вопросы требуют решения многих технических вопросов: какие данные собирать, какой выборки хватить, как строить выборку, насколько достоверны присланные вам из другого региона данные, какой числовой показатель для характеристики эффективности фандрайзинга выбрать т.д.

Описательная статистика дает нам точечную оценку числового показателя, которая вычисляется на основе выборки и принимается затем, как характеристика всей совокупности. Другие методы позволяют находить различия в группах объектов (например, НКО двух разных регионов или клиенты разных возрастных групп) и выявлять взаимосвязи между значениями двух параметров (например, зависит ли вес от возраста, уровень доходов НКО от расходов на PR-кампанию).

Качественные данные

Среди показателей объектов могут встречаться качественные характеристики. Например, пол, место жительства, сфера деятельности, образование. Обычно они используются в статистическом анализе как признак, по которому объекты разбиваются на группы.

Кроме этого, имеются методы, позволяющие производить «оцифровку» качественных данных, то есть преобразование их в количественные. Обычно для целей компьютерной обработки данных это производится произвольно (например, ответу «да» соответствует значение «1», ответу «нет» – значение «2»), но в некоторых задачах требуется более строго определить весомость того или иного ответа. Тогда для всех вариантов качественного признака подбирается не абстрактное, а оптимальное в некотором смысле числовое значение. После этого этот признак можно обрабатывать как количественный. Здесь может возникнуть понятие усредненный регион. Такое применение возможно, если для образованного количественного показатели имеется содержательная интерпретация.

Текстуальные данные

Простейшая схема обработки текста уже была описана выше. Она сводится к сжатию текста («выжимка») до «элементарных» высказываний, которые затем группируются по основному ключевому слову, содержащемуся в данном высказывании. Здесь нам нужно будет проранжировать ключевые слова по «важности». В результате такой процедуры у вас образуется кучка высказываний для каждого ключевого слова. Самой простое, что можно сделать, это положить их рядом (будем надеяться, что в каждой кучке обозримое количество высказываний, а смысл каждого из них легко удерживается в голове) и посмотреть, есть ли среди них противоречивые, насколько они соответствуют (подтверждают или поддерживают друг друга или дополняют). Нельзя все эти высказывания свести к одному общему? Если за каждым высказыванием стоит автор, то, возможно, противоречащие друг другу высказывания относятся к респондентам разных возрастов или регионов. Так у нас появляется обобщающий вывод. В итоге весь текст сводится к совсем небольшому списку таких выводов. Нужно не забывать, что вывод может быть и «отрицательным» – ничего общего в высказываниях из этой кучки нет. Обнаружив это, можно попробовать подобрать (догадаться) другой способ разделения всех имеющихся высказываний на кучки.

Такой метод явно не подходит, если нам нужно обрабатывать десятки интервью, каждое из которых продолжалось 2-3 часа. Или мы анализируем все газетные публикации по определенной проблеме за год. У нас получится сотни страниц текстовой информации.

Здесь нам потребуется гораздо больше формализации и формирование компьютерной базы данных. Сначала мы «проходим» все тексты и формируем словарь ключевых слов, затем выделяете синонимы и однотипные объекты. Для каждого типа объектов формируете набор признаков. Например, типы объектов – люди и организации. Первых характеризует образование, возраст и привлекательность, вторых – успешность, год создания, тип руководства. Вообще говоря, требуется сделать несколько проходов по всем текстам, прежде, чем вы окончательно сформируете список всех возможных объектов, их признаков и возможных отношений между ними. Например, конкретный человек может являться руководителем конкретной организации. В этом случае говорят, что этот человек и эта организация находятся в отношении «быть руководителем». А нас еще может интересовать отношение «быть сотрудником», «быть добровольцем». Некоторые из отношений могут иметь место одновременно и независимо, некоторые взаимоисключающи. Таким образом, у нас сформируется предметная область.

Теперь мы проводим специальную процедуру, позволяющую генерировать выводы относительно этой предметной области. Например, что организации с демократическим стилем руководства являются финансово более устойчивыми. Для этого нам надо выделить из имеющихся текстов все утверждения, характеризующие одновременно и стиль руководства и степень финансовой устойчивости. Последняя обычно дается не количественными характеристиками, а качественными, но ранжированными (например, низкая, средняя, высокая). Имея много таких высказываний, вы можете определять частотные характеристики тех или иных утверждений. Одно дело это сказал только один респондент, другое – все обратили на это внимание. Степень может варьироваться в зависимости от какого-то признака, например, экономическая ситуация объекта «регион» (благополучный и бедный). Наш вывод может выглядеть следующим образом: в благополучных регионах демократичность руководства приводит к повышению финансовой стабильности местных НКО, в бедных – никак не влияет.

Здесь был продемонстрирован простейший пример. И только один подход к обработке текста. Можете себе представить, как огромна может быть предметная область и объем текстов, какие сложные варианты выводов потенциально могут быть «вытянуты» из них.

Есть соответствующая литература по этому вопросу. Но заметим, что на русском она крайне скупа и что любые из качественных методов предусматривают творческий подход, здесь нет такой точности и объективности выводов, как при количественном анализе.

Обработка количественных данных

Поиск по сайту