Характеристики эффективных опросников. Теоретическое обоснование методов исследования эффективности опросников.

Традиционно эффективность воспринимается как качественный признак[1] надежности, соответствия условиям среды и экономичности [5, с.59].

Психологический тест может быть охарактеризован как эффективный если он удовлетворяет определенным требованиям.

Основные требования следующие:

- использование шкал интервалов;

- надежность;

- валидность;

- дискриминативность;

- стандартизация [6, с.22].

Именно эти характеристики должны, прежде всего, приниматься во внимание создателями тестов. Эти факторы отличают настоящий психологический тест от пародий на тесты, часто публикуемых в популярных журналах [5, с.59]. Следует отметить, что не все, даже широко известные диагностические методики соответствуют указанным требованиям [5, с.611]. Тем не менее, при разработке методики к соблюдению этих требований необходимо стремится.

Процедура стандартизации, нормирования, валидизации, проверки на надежности и дискриминативность являются основными методами эмпирического исследования эффективности диагностического инструментария.

При проведении пилотажного исследования считается достаточным проведение валидизации, проверки на дискриминативность и стандартизация методики.

Тем не менее, рассмотрим все критерии эффективности диагностического инструментария подробнее.

Использование шкал.

Существуют шкалы нескольких уровней, иерархически упорядоченные по сложности.

1. Номинативные шкалы (шкалы наименований). Это простейшая классификация респондентов: мужчина/женщина - классификация по номинативной шкале [6, с.22]. Эта шкала получается приписыванием объекту любого отличительного знака. Допустимым преобразованием для шкалы наименований служит группа перестановок. То есть, в шкале наименований не допускаются никакие арифметические операции. Числа в этой шкале являются такими же формальными символами, как и буквы и ничем больше [8, с.95].

2. Порядковые шкалы. Здесь субъекты ранжированы, например, по весу или росту. Такая шкала очевидно груба, поскольку не учитывает значения разностей между рангами.

3. Шкалы интервалов. В них разности между значениями во всех точках данной шкалы равны. Эквивалентные интервальны шкалы могут быть линейно преобразованы друг в друга, что позволяет приводить результаты тестирования к общим шкалам и таким образом осуществлять сравнение показателей. Более того, многие статистические процедуры предполагают измерения по шкале интервалов.

4. Шкалы отношений. Шкалы отношений помимо всего имеют значимую нулевую точку (в отличие от интервальной шкалы она не произвольна, а указывает на полное отсутствие измеряемого свойства). Наличие такой точки — проблема для большинства психологических переменных, хотя существуют методы конструирования тестов, позволяющие использовать эту возможность [6, с.23].

На основе вышеописанных особенностей шкал можно сделать вывод, что в идеале разработчик психологических тестов должен стремиться использовать шкалы отношений. В случае, когда это невозможно - шкалы интервалов. Особенно если предполагается, что результаты будут подвергаться статистическому анализу. Поскольку изучение валидности тестов практически неизбежно влечет за собой такой анализ (а также потому, что количественные показатели измерений в психологических тестах предоставляют им преимущества по сравнению с другими видами испытаний), вывод очевиден: ничего менее точного, чем шкалы интервалов, использовать нельзя.

Надежность

В психометрии термин «надежность» имеет два значения:

1. тест называется надежным, если он является внутренне согласованным;

2. тест также называется надежным, если он дает одни и те же показатели для каждого тестируемого (при условии, что испытуемый не изменился) при повторном тестировании. Надежность при повторном тестировании по прошествии времени называется ретестовой надежностью
[6, с.23].

Разумеется, как бы ни были сходны условия проведения тестирования, никакой тест не является идеально надежным. На результаты тестирования оказывают влияние как состояние тестируемых (например, биоритмы, усталость, стресс и так далее), так и даже незначительные изменения в условиях проведения тестирования (шумы, освещенность, погода и так далее. Таким образом, перед тем, как использовать методику необходимо убедиться в её надежности.

Существует целый ряд методов определения надежности теста. Рассмотрим несколько из них.

1. Тест-ретест метод. Этот метод предполагает двойное предъявление одного и того же теста одинаковой выборке тестируемых и последующую корреляцию двух распределений. Чем ближе к +1,00 значение полученной корреляции, тем более стабильны показатели теста и больше его надежность. Разумеется, очень важно, чтобы в руководстве по использованию теста был указан временной интервал между двумя предъявлениями, так как чем больше времени между предъявлениями, тем обычно ниже надежность теста. Однако из-за эффектов практики и запоминания, которые при повторном предъявлении могут оказывать влияние на результаты тестирования, данный метод проверки надежности теста не рекомендуется для некоторых видов тестов (например, тесты на скорость восприятия, память, моторную координацию и так далее).

2. В методе эквивалентных форм используется тот же подход, что и в методе тест-ретест. Однако, здесь во второй раз предъявляется не та же, а эквивалентная форма теста, то есть, сходная по всем содержательным характеристикам, но различная по форме и количеству вопросов/заданий[2]. Главное достоинство этого метода - устранение проблем, связанных с эффектами запоминания и научения. В то же время недостатком выступает необходимость разработки эквивалентной формы, требующая дополнительных расходов.

3. Так называемый метод «двух половинок» связан не столько с временной стабильностью теста, сколько с определением его внутренней консистентности. Для определения надежности с помощью этого метода результаты тестирования искусственно разделяются на два распределения: одно образуется четными вопросами/ заданиями теста, другое нечетными. Затем, определив, в какой мере данные обоих распределений коррелируют между собой, подставляют полученный коэффициент корреляции в формулу Спирмена-Брауна. Этот метод, пожалуй, наиболее популярен благодаря своей экономичности, как с точки зрения времени, так и затрат.

Основные требования к надежности методики следующие:

1. все исследования надежности должны выполняться на больших (200 или более) и репрезентативных выборках;

2. должна быть установлена надежность по внутренней согласованности, «хотя она не обязательно должна быть такой высокой, как это часто указывается в некоторых учебниках» [6, с.181];

3. очевидно, что для оценки надежности не существует единого числового показателя. Для всех результатов должны указываться объем и тип выборки, а также использовавшийся для вычислений метод;

4. когда возможно, должен быть вычислен коэффициент «а» или его упрощенная версия, формула K-R20;

5. определение надежности путем расщепления теста должно рассматриваться как прием для оценки реальной надежности только в условиях, когда необходимо быстро получить результаты;

6. факторизованные оценки надежности должны использоваться только с факторизованными тестами и тогда, когда есть широкий набор других переменных;

7. при слишком быстром проведении тестирования и для тестов, оказавшихся трудными для респондентов, коэффициенты внутренней согласованности могут быть искусственно, необоснованно завышенными;

8. должна быть оценена надежность параллельных форм (если такие формы существуют);

9. должна быть вычислена ретестовая надежность, интервал времени между повторными тестированиями должен быть не менее шести месяцев;

10. надежность - это важная характеристика теста, однако следует помнить, что надежность сама по себе ценности не представляет. Ее ценность состоит в том, что часто она необходима для достижения валидности. Однако, может случиться так, что тест будет почти совершенно надежным, но почти полностью не валидным [6, с.181];

11. надежность теста, используемого для профессионального отбора или подбора, должна быть в диапазоне + 0,80 - + 0,90. Указания на величину корреляции в руководстве по использованию теста должны сопровождаться информацией о примененном методе определения надежности [5, с.614].

Валидность

В широком смысле валидность свидетельствует о степени соответствия/идентичности измеряемой тестом характеристики самой характеристике. Например, если индивид имеет высокие показатели по интеллектуальному тесту, то этот тест будет считаться валидным только в том случае, если его результаты не противоречат другим проявлениям развитого интеллекта (высоким показателям в учебе, выработке оптимальных решений в трудовой деятельности и так далее). Если же такой корреляции не будет, а обладатель высокого IQ будет удивлять окружающих своей глупостью, станет очевидно, что тест лишен валидности и, по всей видимости, измеряет вовсе не интеллект, а что-то иное [5, с.614 - 615].

По определению Дружинина, тест валиден (и, кстати, надежен), если на его результаты влияет, лишь измеряемое свойство. Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных [4, с. 614].

В действительности, существует много различных способов доказательств валидности тестов, и каждый из них соответствует разным аспектам этого значения [6, с. 26].

1. Очевидная (внешняя) валидность – соответствие конкретного исследования природной реальности и, или другим подобным исследованиям. Определяются возможности переноса и обобщения результатов на другие объекты и условия исследования. Тест считается, очевидно валидным, если у респондента складывается впечатление, что он измеряет то, что должен измерять [4, с. 106].

2. Содержательная валидность – является составляющей внешней валидности. Включает систематический анализ содержания теста на предмет его адекватности измеряемым навыкам, знаниям и способностям, необходимым в конкретной ситуации. Определяется такая валидность, на основании суждений экспертов (например, руководства) о соответствии содержания теста содержанию конкретной профессиональной деятельности. Так, например, экспертам, может быть, независимо предложено оценить тестовые вопросы или задания на предмет их важности (бесполезности) для достижения конкретной поставленной цели.

3. Экспериментальная валидность (внутренняя) – по определению Корниловой - способность сделать верные выводы на основе результатов методики. То есть результаты методики должны служить основанием достоверного вывода. Дружинин определяет экспериментальную валидность как меру влияния независимой переменной на зависимую, по отношению к другим факторам., определяющую достоверность экспериментальных результатов [4, с.106].

В рамках внутренней валидности, подразделяют конкурентную и прогностическую

Конкурентная валидность оценивается по корреляции результатов данного теста с результатами других тестов. И это один из недостатков определения конкурентной валидности, так как если уже существует другой валидный тест, достаточно эффективный, чтобы он мог использоваться, то новый тест, который предстоит валидизировать, может быть в какой-то степени не нужен.

В случае, если не существует подобных тестов, для валидизации можно использовать внешний критерий - экспертные оценки. Здесь, однако, тоже существуют проблемы. Валидность рейтингов может оказаться сомнительной. Ведь, если есть возможность применения рейтингов, то вряд ли нужен тест. Конкурентная валидность также полезна для установления того, что не измеряет тест. Тест не должен иметь корреляции с другими тестами, измеряющими совершенно иные показатели [6, с. 26].

Для установления прогностической валидности изучаются корреляции теста с некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Основная сложность такой валидизации состоит в выборе значимого критерия [6, с. 27].

4. Конструктная (концептуальная) валидность выражает адекватность метода интерпретации экспериментальных данных теории. По мнению Кэмпбелла, конструктная валидность характеризует правильность обозначения (интерпретации) причины и экспериментального эффекта с помощью абстрактных терминов из обыденного языка или формальной теории. Внутренняя валидность определяется достоверностью интерпретации экспериментального эффекта как связи изучаемой причины и следствия, а конструктная валидность - правильностью употребления терминов той или иной теории при интерпретации данных эксперимента [4, с. 125]. Для доказательства конструктной валидности привлекается демонстрация психологических характеристик переменных, измеряемых методикой. При этом затрагиваются другие, ранее обсуждавшиеся типы валидности.

Процедура определения конструктной валидности следующая:

1. перечислить точно гипотезы, касающией переменных, с которыми данный тест должен корелирвать (конкурентная валидность);

2. перечислить точно гипотезы, касающиеся переменных, с которыми тест не должен корелировать;

3. указать группы, которые должны давать низкие и высокие показатели по данному тесту;

4. сформулировать гипотезу о месте данного теста в факторном пространстве [6, с. 212].

Из написанного выше становится понятно, что не может быть какого-либо единственного показателя, демонстрирующего валидность теста. Для полной ее проверки следует учитывать множество получаемых показателей. Стоит также заметить, что валидность теста может фактически гарантироваться логически обоснованными методами конструирования тестов.

Дискриминативность

Дискриминативность является еще одним параметром, внутренне присущим диагностической методике. Методика должна хорошо «различать» респондентов с разными уровнями выраженности свойства [4, с. 106].

Достижение удовлетворительного распределения показателей является одной из целей разработчика методики. Какова ценность психологического теста, по которому все испытуемые показали одинаковые результаты?

Стандартизация

Под стандартизацией подразумевается единообразие предъявления и обработки теста. Если необходимо сравнить результаты тестирования нескольких респондентов, то, разумеется, необходимо предусмотреть, чтобы условия тестирования были идентичными для всех. С целью достижения единообразия создатели тестов указывают в руководствах точные процедуры тестирования, касающиеся временных ограничений, устных инструкций, ответов респондентов на специфические вопросы, форм и бланков, необходимых для прохождения теста, физических условий (например, сидя за столом, условий освещения и так далее), а также процедуры обработки результатов [5, с. 612].

Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренним» свойством теста, а лишь облегчают его практическое применение [4, с. 106].

Чтобы интерпретировать эти данные, их надо сравнить с результатами, показанными группой других респондентов. Такое сравнение становится возможным при наличии тестовых норм. Фактически нормы - это распределение тестовых результатов, полученных на большой выборке лиц, представляющих собой репрезентативную выборку. Распределение такой референтной группы служит системой отсчета для сравнения результатов, показанных респондентами. Совпадают ли результаты респондента со средними показателями группы или они значительно выше (ниже) средней величины? Занковский [5, с. 612] описывает следующую закономерность: респондент, чьи результаты на 2 стандартных отклонения превышает среднее, имеет лучшие показатели, чем 97,8% референтной группы.

Характеристики эффективных опросников. Теоретическое обоснование методов исследования эффективности опросников.

Поиск по сайту