Стандартизация. объективность тестов

С т а н д а р т и з а ц и я. Напомним, что в самом начале психологический тест определялся как стандартизованное измерение. Стандартизация подразумевает единообразие процедуры проведения и оценки выполнения теста. Если показатели, полученные разными индивидами, должны быть сравнимыми, то, очевидно, условия тестирования должны быть одинаковыми для всех. Такое требование есть лишь конкретное применение требования контролируемости условий любого научного наблюдения. В тестовой ситуации единственной независимой переменной обычно является тестируемый индивид.

Чтобы обеспечить единообразие условий тестирования, создатель теста дает подробные указания по проведению каждого вновь разработанного теста. Формулирование таких указаний составляет основную часть стандартизации нового теста. Такая стандартизация включает точные указания относительно используемых материалов, временных ограничений, устных инструкций испытуемому, предварительного показа заданий, способов трактовки вопросов со стороны испытуемого и другие детали проведения теста. На выполнение некоторых тестов испытуемым могут влиять другие, более тонкие факторы. Поэтому, давая инструкцию или читая задание устно, следует принимать в расчет скорость речи, тон голоса, модуляцию, паузы и выражение лица. В тесте на выявление нелепостей, например, правильный ответ может быть невольно подсказан улыбкой экспериментатора или паузой после произнесения критического слова.

Другим важным этапом в стандартизации теста является определение нормы. Психологические тесты не имеют заранее определенных стандартов успешности или неудачи в выполнении теста, индивидуальные показатели оцениваются в сравнении с показателями, полученными другими. Сам термин «норма» уже указывает на нормальное, или среднее, выполнение. Поэтому, если обычные 8-летние дети правильно решают 12 задач из 50 в тесте на типичное арифметическое рассуждение, значит, норма для 8-летнего в этом тесте соответствует показателю 12. Такой показатель принято называть первичным (необработанным, сырым) показателем. Он может выражаться числом правильно решенных заданий, временем, необходимым для их выполнения, числом ошибок и другими объективными единицами измерения, соответствующими содержанию теста. Такой первичный показатель ни о чем не говорит до тех пор, пока не оценивается в соответствующей системе норм.

Стандартизация теста осуществляется его применением на большой репрезентативной выборке испытуемых того типа, для которого он предназначен. Относительно этой группы испытуемых, называемой выборкой стандартизации, вырабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше и ниже среднего уровня. Поэтому можно оценить разные степени успешности и неуспешности в тесте. Это позволяет определить положение индивида относительно нормативной выборки или выборки стандартизации.

О б ъ е к т и в н о е и з м е р е н и е т р у д н о с т и. Обращаясь к определению психологического теста, с которого началось его обсуждение, покажем, что тест был охарактеризован не только как стандартизованное, но и как объективное измерение. Какими специальными приемами добиваются объективности тестов? Некоторые аспекты проблемы объективности психологических тестов уже затрагивались при обсуждении стандартизации. В связи с этим отмечалось, что получение первичных показателей и их интерпретация объективны до тех пор, пока они не зависят от субъективности суждений экспериментатора. Теоретически для любого индивида показатель должен быть одним и тем же, независимо от того, кто проводит тест. На самом деле это не совсем так, поскольку полная стандартизация и объективность практически недостижимы. Но объективность по крайней мере является целью создания теста, и для большинства тестов ее уровень достаточно высок.

БИЛЕТ 10

10. Надежность. Валидность. Проведение тестов

К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям.

В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рассмотрения надежности методик.

Надежность

Термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Надежность методики — это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т. д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т. д.);

6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).

На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изменения ранговых мест испытуемых будут незначительными, и, следовательно, надежность методики будет высокой. В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п.

Валидность

Валидность по своей сути — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

Валидность в первом ее понимании имеет отношение к самой методике, т. е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

♦ при прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое методикой, имеет связь с определенными областями практики.

Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, просто очевидно;

2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет понять испытуемого;

3) методика рассматривалась как валидная (т. е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Таким образом, провести теоретическую валидизацию методики — это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Не столь сложно провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной уже проверенной методикой указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого.

Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяет раскрыть ее психологический смысл.

Американские исследователи Д. Тиффин и Е. Мак-Кормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа

1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления И т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним — 0,30-0,50 и высоким — свыше 0,60.

Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель — клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

Проведение тестирования

Знание общих правил и рекомендаций тестирования, а также тех качеств, которыми должен обладать профессиональный тестирующий-педагог, даст возможность компетентно осуществить эту процедуру на практике. В процессе подготовки и проведения тестирования можно выделить четыре главных этапа, учет особенностей которых во многом определяет успех использования этого метода:

1. Выбор тестовых методик. Прежде чем его сделать, необходимо тщательно ознакомиться с имеющимися тестовыми методиками и проверить, насколько они соответствуют целям исследования и удобны для применения. Затем выбранную методику тестирующий проверяет на себе или, в крайнем случае, на другом человеке.

2. Инструктирование испытуемых. Убедившись в пригодности методики, следует подробно проинструктировать исследуемых, разъяснить им цели и задачи тестирования, порядок выполнения тестовых заданий и поведения во время их выполнения, подчеркнуть необходимость предельной искренности при ответах на вопросы. Следует развеять опасения в том, что результаты тестирования могут быть использованы для какой-либо компрометации испытуемых. Для этого можно напомнить о конфиденциальности информации, полученной от испытуемых на основе "личного доверия" или в социометрических тестах, о доступе к ней лишь тех лиц, для которых она предназначается. Если тестирование анонимное, то об этом также надо публично объявить. При тренинговой работе с испытуемыми нужно объяснить им, что разборка результатов тестирования (в том числе поведения в деловой игре) не связана с этической или деловой оценкой обучающегося, а служит учебным целям, преодолению тех или иных поведенческих слабостей, развитию личности.

3. Контроль за выполнением заданий. Во время процесса тестирования его организатор следит за тем, чтобы испытуемые работали самостоятельно, не помогали и не мешали друг другу. Уточняющие вопросы по процедуре тестирования задаются непосредственно тестирующему. Не рекомендуется прерывать работу испытуемых и отвлекать их для выполнения какой-либо иной процедуры. При использовании тестов в рамках широких диагностических программ (например, как составной части метода "центр оценки персонала") в процессе выполнения тестов целесообразно проводить наблюдения за тем, как работают участники. Это позволяет собрать дополнительную информацию о психологических и деловых качествах испытуемых.

4. Интерпретация результатов и подведение итогов тестирования. Каждая тестовая методика содержит инструкцию по обработке и интерпретации результатов тестирования. С этой инструкцией тестирующий должен ознакомиться заранее (или повторить, ее перед тестированием). При использовании тестирования в учебно-тренинговой работе (со студентами, руководителями и т.п.) важно заранее подготовить предварительные рекомендации для групп с близкими результатами. Рекомендации следует давать с учетом индивидуальных особенностей обучающихся в корректной форме. Если это позволяют делать результаты тестирования, то рекомендации должны содержать предложения по выбору форм делового поведения (например, профессии, карьеры и т.п.), а также указывать пути самообразования, самовоспитания, самоорганизации, саморазвития испытуемого.

Стандартизация. объективность тестов

Поиск по сайту