Стандартизация. объективность тестов




С т а н д а р т и з а ц и я. Напомним, что в самом начале психологический тест определялся как стандартизованное измерение. Стандартизация подразумевает единообразие процедуры проведения и оценки выполнения теста. Если показатели, полученные разными индивидами, должны быть сравнимыми, то, очевидно, условия тестирования должны быть одинаковыми для всех. Такое требование есть лишь конкретное применение требования контролируемости условий любого научного наблюдения. В тестовой ситуации единственной независимой переменной обычно является тестируемый индивид.

Чтобы обеспечить единообразие условий тестирования, создатель теста дает подробные указания по проведению каждого вновь разработанного теста. Формулирование таких указаний составляет основную часть стандартизации нового теста. Такая стандартизация включает точные указания относительно используемых материалов, временных ограничений, устных инструкций испытуемому, предварительного показа заданий, способов трактовки вопросов со стороны испытуемого и другие детали проведения теста. На выполнение некоторых тестов испытуемым могут влиять другие, более тонкие факторы. Поэтому, давая инструкцию или читая задание устно, следует принимать в расчет скорость речи, тон голоса, модуляцию, паузы и выражение лица. В тесте на выявление нелепостей, например, правильный ответ может быть невольно подсказан улыбкой экспериментатора или паузой после произнесения критического слова.

Другим важным этапом в стандартизации теста является определение нормы. Психологические тесты не имеют заранее определенных стандартов успешности или неудачи в выполнении теста, индивидуальные показатели оцениваются в сравнении с показателями, полученными другими. Сам термин «норма» уже указывает на нормальное, или среднее, выполнение. Поэтому, если обычные 8-летние дети правильно решают 12 задач из 50 в тесте на типичное арифметическое рассуждение, значит, норма для 8-летнего в этом тесте соответствует показателю 12. Такой показатель принято называть первичным (необработанным, сырым) показателем. Он может выражаться числом правильно решенных заданий, временем, необходимым для их выполнения, числом ошибок и другими объективными единицами измерения, соответствующими содержанию теста. Такой первичный показатель ни о чем не говорит до тех пор, пока не оценивается в соответствующей системе норм.

Стандартизация теста осуществляется его применением на большой репрезентативной выборке испытуемых того типа, для которого он предназначен. Относительно этой группы испытуемых, называемой выборкой стандартизации, вырабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше и ниже среднего уровня. Поэтому можно оценить разные степени успешности и неуспешности в тесте. Это позволяет определить положение индивида относительно нормативной выборки или выборки стандартизации.

О б ъ е к т и в н о е и з м е р е н и е т р у д н о с т и. Обращаясь к определению психологического теста, с которого началось его обсуждение, покажем, что тест был охарактеризован не только как стандартизованное, но и как объективное измерение. Какими специальными приемами добиваются объективности тестов? Некоторые аспекты проблемы объективности психологических тестов уже затрагивались при обсуждении стандартизации. В связи с этим отмечалось, что получение первичных показателей и их интерпретация объективны до тех пор, пока они не зависят от субъективности суждений экспериментатора. Теоретически для любого индивида показатель должен быть одним и тем же, независимо от того, кто проводит тест. На самом деле это не совсем так, поскольку полная стандартизация и объективность практически недостижимы. Но объективность по крайней мере является целью создания теста, и для большинства тестов ее уровень достаточно высок.

БИЛЕТ 10

10. Надежность. Валидность. Проведение тестов

К числу основных критериев оценки психодиагностических мето­дик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным кри­териям.

В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рас­смотрения надежности методик.

Надежность


Термин «надежность» означает относительное посто­янство, устойчивость, согласованность ре­зультатов теста при первичном и повторном его применении на одних и тех же испытуемых. Надежность методики — это такой критерий, который говорит о точности психологических изме­рений, т. е. позволяет судить о том, насколько внушают доверие полу­ченные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка со­ставить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составле­на инструкция, задания по своему характеру разнородны, нечет­ко сформулированы указания, как методику предъявлять испы­туемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, на­личие или отсутствие посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опы­ту по-разному предъявляет инструкции, по-разному стимулиру­ет выполнение заданий и т. д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утом­ление и т. д.);

6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испы­туемых, оцениваются ответы по степени полноты, оригинально­сти и т. п.).

На характеристику надежности методик большое влияние оказыва­ет исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повтор­ном обследовании новые результаты также расположатся тесной груп­пой. Возможные изменения ранговых мест испытуемых будут незна­чительными, и, следовательно, надежность методики будет высокой. В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п.

Валидность

Валидность по своей сути — это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

Валидность в первом ее понимании имеет отношение к самой мето­дике, т. е. это валидность измерительного инструмента. Такая провер­ка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

♦ при прагматической валидизации суть предмета измерения (пси­хологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое мето­дикой, имеет связь с определенными областями практики.

Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. Поэто­му на ранних стадиях развития тестологии, когда концепция валидно­сти только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, про­сто очевидно;

2) доказательство валидности основывалось на уверенности иссле­дователя в том, что его метод позволяет понять испытуемого;

3) методика рассматривалась как валидная (т. е. принималось ут­верждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Таким образом, провести теоретическую валидизацию методики — это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Не столь сложно провести теоретическую валидизацию новой ме­тодики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и ана­логичной уже проверенной методикой указывает на то, что разра­ботанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более ком­пактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инстру­мент вместо старого.

Но теоретическая валидность доказывается не только путем сопо­ставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, устано­вить степень связи с родственной методикой (конвергентная валид­ность) и отсутствие этой связи с методиками, имеющими другое тео­ретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изуча­емом свойстве, анализ теоретических предпосылок и эксперименталь­ных данных, значительный опыт работы с методикой позволяет рас­крыть ее психологический смысл.

Американские исследователи Д. Тиффин и Е. Мак-Кормик, прове­дя анализ используемых для доказательства валидности внешних кри­териев, выделяют четыре их типа

1) критерии исполнения (в их число могут входить такие, как коли­чество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении вли­яния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давле­ние крови, электросопротивление кожи, симптомы утомления И т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, ко­торые менее подвержены несчастным случаям).

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако луч­ше всего более 200. Часто возникает вопрос, какой должна быть вели­чина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валид­ности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним — 0,30-0,50 и высоким — свы­ше 0,60.

Как показал опыт работы зарубежных тестологов, ни одна стати­стическая процедура не в состоянии полностью отразить многообра­зие индивидуальных оценок. Поэтому часто для доказательства валид­ности методик используют другую модель — клинические оценки. Это не что иное, как качественное описание сущности изучаемого свой­ства. В этом случае речь идет об использовании приемов, не опира­ющихся на статистическую обработку.

Проведение тестирования

 

Знание общих правил и рекомендаций тестирования, а также тех качеств, которыми должен обладать профессиональный тестирующий-педагог, даст возможность компетентно осуществить эту процедуру на практике. В процессе подготовки и проведения тестирования можно выделить четыре главных этапа, учет особенностей которых во многом определяет успех использования этого метода:

1. Выбор тестовых методик. Прежде чем его сделать, необходимо тщательно ознакомиться с имеющимися тестовыми методиками и проверить, насколько они соответствуют целям исследования и удобны для применения. Затем выбранную методику тестирующий проверяет на себе или, в крайнем случае, на другом человеке.

2. Инструктирование испытуемых. Убедившись в пригодности методики, следует подробно проинструктировать исследуемых, разъяснить им цели и задачи тестирования, порядок выполнения тестовых заданий и поведения во время их выполнения, подчеркнуть необходимость предельной искренности при ответах на вопросы. Следует развеять опасения в том, что результаты тестирования могут быть использованы для какой-либо компрометации испытуемых. Для этого можно напомнить о конфиденциальности информации, полученной от испытуемых на основе "личного доверия" или в социометрических тестах, о доступе к ней лишь тех лиц, для которых она предназначается. Если тестирование анонимное, то об этом также надо публично объявить. При тренинговой работе с испытуемыми нужно объяснить им, что разборка результатов тестирования (в том числе поведения в деловой игре) не связана с этической или деловой оценкой обучающегося, а служит учебным целям, преодолению тех или иных поведенческих слабостей, развитию личности.

3. Контроль за выполнением заданий. Во время процесса тестирования его организатор следит за тем, чтобы испытуемые работали самостоятельно, не помогали и не мешали друг другу. Уточняющие вопросы по процедуре тестирования задаются непосредственно тестирующему. Не рекомендуется прерывать работу испытуемых и отвлекать их для выполнения какой-либо иной процедуры. При использовании тестов в рамках широких диагностических программ (например, как составной части метода "центр оценки персонала") в процессе выполнения тестов целесообразно проводить наблюдения за тем, как работают участники. Это позволяет собрать дополнительную информацию о психологических и деловых качествах испытуемых.

4. Интерпретация результатов и подведение итогов тестирования. Каждая тестовая методика содержит инструкцию по обработке и интерпретации результатов тестирования. С этой инструкцией тестирующий должен ознакомиться заранее (или повторить, ее перед тестированием). При использовании тестирования в учебно-тренинговой работе (со студентами, руководителями и т.п.) важно заранее подготовить предварительные рекомендации для групп с близкими результатами. Рекомендации следует давать с учетом индивидуальных особенностей обучающихся в корректной форме. Если это позволяют делать результаты тестирования, то рекомендации должны содержать предложения по выбору форм делового поведения (например, профессии, карьеры и т.п.), а также указывать пути самообразования, самовоспитания, самоорганизации, саморазвития испытуемого.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: