Тема 10. ВАЛИДНОСТЬ ТЕСТА И ПРОЦЕДУРЫ ТЕСТИРОВАНИЯ




(6 часов)

 

План лекции

1. Валидность и валидизация

2. Типы валидности теста

3. Обеспечение валидности

1. Валидность и валидизация

 

Можно выделить такой период (20—30-е гг.), когда научное содержание тестов и их теоре­тический «багаж» интересовали в меньшей степени. Важно было, чтобы тест «работал», помогал быстро отбирать наиболее подготов­ленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач. Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приво­дило к псевдонаучным выводам, к неоправданным практическим ре­комендациям. Нельзя было точно назвать те способности, качества, которые тесты выявляли. Б.М.. Теплов, анализируя тесты того пе­риода, назвал их «слепыми пробами» (1985).

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не мог­ла не вызвать критики со стороны тех ученых, которые в разработ­ке тестов призывали опираться не только на «голую» эмпирику и практику, но и на теоретическую концепцию. В настоящее время теоретико-прагматическая оценка валидности методик вос­принимается как наиболее продуктивная

Следует заметить, что вопрос о валидности до последнего време­ни представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» (1982. С. 126). В психологической диагностике валидность — обязательная и наибо­лее важная часть сведений о методике, включающая данные о степени согласованности ре­зультатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оцен­ки, результаты других методик, достовер­ность которых установлена и т. д.), суж­дение об обоснованности прогноза разви­тия исследуемого качества, связь изучае­мой области поведения или особенности личности с определенными психологичес­кими конструктами. Валидность описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культур­ной принадлежности и т. д.) и степень обоснованности выводов в конкретных условиях использования теста.

Валидность по своей сути — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли мето­дика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. Понятие валидности вклю­чает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Выделяют теоретическую валидизацию – это проверка самого измерительного инструмента (методики) и прагматическую валидизацию – это проверка цели ее использования.

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация. Провести теоретическую валидизацию мето­дики — это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывал­ся для того, чтобы диагностировать умственное развитие школьни­ков, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, лич­ность, характер и т.п.). Теоретическая валиизация показывает, что замы­сел автора и результаты методики совпадают. Достаточно легко провести теоретическую валидизацию, если уже была старая методика. Тогда результаты новой методики проверяются на корреляцию с результатами старой. Если корреляция есть, то новую методику можно использовать. Важно помнить, что если доказана теоретическая валидность, то ин­терпретация полученных показателей становится более ясной и одно­значной, а название методики соответствует сфере ее применения.

При прагматической валидизации суть предмета измерения (психологи­ческого свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определенными областями практики. Она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности. Ей придают большое значение, особенно там, где встает вопрос отбора. Разработка и использование диагностиче­ских методик имеет смысл только тогда, когда есть обоснованное пред­положение, что измеряемое качество проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Для проведения прагматической валидизации методики, т.е. для оцен­ки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий — показатель проявления изучаемого свойства в повседневной жизни.

Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. По­этому на ранних стадиях развития тестологии, когда концепция ва­лидности только складывалась, бытовало интуитивное представле­ние о том, что тест измеряет:

1) методика признавалась валидной, так как то, что она измеряет, просто «очевидно»;

2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет «понять испытуемого»;

3) методика рассматривалась как валидная (т.е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, «очень хорошая».

Принятие на веру голословных утверждений о валидности мето­дики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.

Критерий валидности (валидизации) – это не­посредственная и независимая от валидизируемого теста мера психического свойства, на исследование которого на­правлена психодиагностическая методика. Сравнение результатов теста с критерием валидизации является непременным условием проце­дуры определения критериальной валидности.

Выбор критерия валидизации является ответственным и важным этапом конструирования теста и его валидизации. Чем более сложным, комплексным является изучаемое психическое явление, тем шире, обобщеннее, должен быть критерий. Например, при обосновании теста на общий интеллект в качестве критерия валидизации может выступать эффективность учебной, производственной или научной деятельности в целом. Узость выбираемого критерия определяется областью психологических явлений, охватываемых тестом, однородностью (гомогенностью) задач методики, конкретностью, однозначностью интерпретации результатов.

Американские исследователи Тиффин и Маккормик (1968), про­ведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:

1) критерии исполнения (количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.);

2) субъективные критерии (отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям: он должен быть релевантным, свободным от помех (контаминации) и надежным

Под релевантностью имеется в виду смысловое соответствие диагно­стического инструмента независимому жизненно важному критерию. Должна быть уверенность в том, что в критерии за­действованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диаг­ностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психоло­гической сущности. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполез­ным. Оно не позволяет прийти к каким-либо выводам, которые мог­ли бы дать оценку валидности методики. Если, например, тест измеря­ет индивидуальные особенности мышления, умение выполнять логиче­ские действия с определенными объектами, понятиями, то и в крите­рии нужно искать проявление именно этих умений.

Требования свободы от контаминации вызываются тем, что, напри­мер, учебная или производственная успешность зависит от двух пере­менных: от самого человека, его индивидуальных особенностей, изме­ряемых методиками, и от ситуации, условий учебы, труда, которые мо­гут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования та­кие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в коррек­тировке влияния помех. Эта корректировка носит обычно статистиче­ский характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях.

Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки.

2. Типы валидности.

Как видно из вышеизложенного, в по­нятие валидности входит большое количество са­мой разнообразной информации о тесте. Различные категории этих сведений и способы их получения образуют типы валидности.

 
 

 


Рассмотрим каждый вид валидности подробнее.

Содержательная валидность ‑ один из основных типов валидно­сти методики, характеризующий степень репрезентативности содержания зада­ний теста измеряемой области психичес­ких свойств.

Комплекс сведений содержательной валидности имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучае­мая деятельность складывается из многих разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т. д.). По­этому одной из важнейших задач созда­ния адекватной модели тестируемой дея­тельности является подбор таких зада­ний, которые будут охватывать главные аспекты изучаемого феномена в правиль­ной пропорции к реальной деятельности в целом.

Валидность по содержанию заклады­вается в тест уже при подборе заданий будущей методики. Первым этапом валидизации является определение круга ис­следуемых свойств и видов деятельности, расчленение сложной способности ил деятельности на элементы. На втором этапе разрабатывают собственно модель тестовой деятельности на основе наибо­лее важных элементов реальной деятель­ности. Наконец, на последнем этапе про­водят анализ степени соответствия разра­ботанной модели реальной деятельности, проверку соответствия пропорций представленности элементов в заданиях теста и в реальной деятельности. Конкретные задания оценива­ются экспертами по принципу их близос­ти к реальным требованиям. Эксперты вы­носят суждения о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области обучения.

Наряду с тестами достижений содержательная валидность является одной из важнейших форм валидизации критериально-ориентированных тестов, а также методик, предна­значенных для профотбора, анализа ус­пешности овладения профессией

Видом содержательной валидности является очевидная валидность ‑ пред­ставление о тесте, сфере его применения, результативности и прогностической цен­ности, которое возникает у испытуемого или другого лица, не располагающего спе­циальными сведениями о характере ис­пользования и целях методики. Она не является компонентом объективно уста­навливаемой валидности, но яв­ляется весьма желательной. Она выступа­ет в качестве фактора, побуждающего ис­пытуемых к обследованию, способствует более серьезному и ответственному отно­шению к работе по выполнению заданий теста и к заключениям, формулируемым психологом. Представления испытуемых и пользо­вателей психодиагностической информа­цией об очевидной валидности определя­ются названием методики, поскольку эта часть сведений о тесте наиболее доступна неспециалистам. Для предупреждения неадекватных мнений о методике следует избегать помещения на бланках туманных названий, которые могут быть неправильно истолкованы. Адекват­ность очевидной валидности повышается путем введения в инструкциюкраткой характеристики целей исследования.

Также видом содержательной валидности является ложная валидность ‑ иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Возникает как следствие использования предельно общих, а поэтому применимых практически ко всем обследуемым формулировок, таких, например, как «разумный в выборе цели», «стремящийся к лучшей жизни» и т. п.

Конструктная валидность ‑ один из основных типов валидности, от­ражающий степень репрезентации иссле­дуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вер­бальный интеллект, эмоциональная неус­тойчивость. Конструктная валидность определяет область те­оретической структуры психологических явлений, измеряемых тестом. При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное на­копление разнообразной информации о динамике развития измеряемого свой­ства, а также о его взаимодействии с дру­гими психическими явлениями.

Для этого сравниваются результаты имеющегося теста с вновь разработанным.

Важным аспектом В. к. является внутренняя согласованность, отражаю­щая то, насколько определенные пункты (задания, вопросы), составляющие мате­риал теста, подчинены основному направ­лению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осу­ществляется путем коррелирования отве­тов на каждое задание с общим результа­том теста.

Валидность по возрастной дифференциации - один из ком­понентов валидности конструктной, связанный с возрастной динамикой изме­нений исследуемого качества. Характери­стика валидности по конструкту здесь за­ключается в определении соответствия результатов теста теоретически ожидае­мым и практически наблюдаемым возрастным изменениям данного конструкта или свойствам.

Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволя­ющий строго статистически проанализи­ровать структуру связей показателей ис­следуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляе­мых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важ­ность такой процедуры является основа­нием для выделения ее в особый вид — факторную валидность.

При анализе конструктной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направ­ленных на конструкты, находящиеся в те­оретически известной или предполагае­мой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями про­веряемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно. Эти подходы определяются как конвергентная (проверка степени близости прямой или обратной связи) и дискриминативная (установление отсут­ствия связи) валидизации.

Критериальная валидность ‑ комплекс характеристик, вклю­чающий текущую и прогно­стическую валидность методики и отражающий соответствие диагноза и прогноза опреде­ленному кругу критериев измеряемого явления. В качестве крите­рия валидизации выступают независимые от результа­тов теста и непосредственные меры ис­следуемого качества, такие как уровень достижений в какой-либо деятельности, степень развития способности, выражен­ность определенного свойства личности. Критериальная валидность включает как комплекс связей с текущим состоянием изучаемого явле­ния, так и вероятность и обоснованность прогноза о его состоянии в будущем.

Текущая или диагностическая валидность ‑ характеристика теста, отражающая его способность раз­личать испытуемых на основании диагно­стического признака, являющегося объек­том исследования в данной методике. Диагностическая валидность отражает способность теста дифференци­ровать испытуемых по изучаемому при­знаку. Анализ диагностической валидности имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуе­мого в момент обследования Основной процедурой определения диагностической является корреляционный анализ связи результатов теста с критериальными ха­рактеристиками исследуемого свойства. Распространенным способом характерис­тики диагностической эффективности ме­тодики является сравнение контрастных групп. Диагностическая валидность может оп­ределяться на основании сопоставления оценок и заключений по валидизируемому тесту с результатами другой методики, валидность которой является установлен­ной.

Своеобразным показателем диагностической валидности явля­ется комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников.

Прогностическая валидность ‑ сведения, характеризующие степени обоснованности и статистической надеж­ности развития исследуемой психологи­ческой особенности в будущем. Это информация о том, с какой сте­пенью точности и обоснованности методи­ка (тест) позволяет судить о диагности­руемом психологическом качестве спустя определенное время после измерения. Прогностическая валидность отражает временной интервал, на который распространяется обоснование такого суждения. В качестве критерия валидизации могут выступать не только показатели ак­туального поведения, но и ожидаемые ре­зультаты деятельности, лечения, обуче­ния и т.д. Процедура определения прогностической валидности опирается на анализ корреляции между оценками по тесту и предсказанными ре­зультатами деятельности, формирующи­мися свойствами личности, исходом лече­ния и т.п. Вместе с тем различие двух видов критериальной валидности связано не только с временными пределами критериальных сопоставлений. Диагностическая и прогностическая валидность отражают разные цели при­менения методики: текущий диагноз, оценка настоящего положения, с одной стороны, и прогнозирование развития ка­чества или успеха в деятельности — с другой.

Ретроспективная валидность. Она определяется на основе критерия, отражающего события или состояние качества прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения у лиц с высокими и низкими на данный момент диагностическими показателям.

Экологическая валидность ‑ валидностьтеста по отношению к из­меряемому свойству в контексте опреде­ленной ситуации. Она является свой­ством теста, проявляющимся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов те­стирования (В.И. Дружинин, 1990).

Введение понятия связано с дав­но обсуждающейся в психодиагностике проблемой влияния ситуации на результа­ты тестирования. Тестирование всегда происходит в конкретной жизнен­ной ситуации, а тест разрабатывается для решения определенной задачи (задач). Поэтому необходимо, используя тест в различных ситуациях, быть уверенным в том, что возможна такая переносимость теста из ситуации в ситуацию. Описание теста, по мнению В. Н. Дружинина, долж­но, наряду с другими известными характе­ристиками, содержать сведения о его экологической валидности. Важнейшим моментом в создании модели тестирования, учитывающей данный вид валидности, явля­ются свойства ситуации тестирования. Следует учесть, что понятие экологической валидности в насто­ящее время связано исключительно с пси­ходиагностическими ситуациями, т. е. си­туациями, в которых происходит взаимо­действие между диагностом и обследуе­мым, и не распространяется на другие типы ситуаций, в которых осуществляет­ся поведение (проявление индивидуаль­но-психологических особенностей).

3. Процедура обеспечения валидности

Валидность процедуры тестирования обеспечивается соблюдением всех требований, предъявляемых к процедуре тестирования: к бланкам, инструкции, условиям и обсчету результатов. Приемами обеспечения валидности процедуры тестирования выступает исключение действия нерегистрируемых факторов, не идентичность бланков, инструкций, условий проведения тестирования, отсутствия норм и неправильного обсчета результатов.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя — коэффициента валидности — сопоставляются результаты, полученные при приме­нении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды ли­нейной корреляции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности? Прак­тика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть вели­чина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент ва­лидности был статистически значим. Низким признается коэффи­циент валидности порядка 0,20—0,30, средним — 0,30—0,50 и вы­соким — свыше 0,60.

Но, как подчеркивают А. Анастази (1982), К.М. Гуревич (1970) и др., не всегда для вычисления коэффициента валидности право­мерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности пря­мо пропорционален успеху в выполнении диагностической пробы.

Для определения валидности необходимо определить коэффициент валидности – это статистические показатели эмпирической валидности теста.

Наряду с коэффициентами валидности, определяемыми тради­ционным способом, существуют и некото­рые другие меры количественной оценки валидности теста, в частности с помощью j-коэффициента, предложенного Э. Примовым. Процедура его определения предусматривает наличие перечня элементов сложной деятель­ности или способности, выраженных языком профессиональных или других специальных действий, и экспертной оценки относительной значимости этих элементов для осуществления данной сложной деятельности. Окончательный анализ проводится на базе корреляции оценок теста и отдельных элементов ре­альной деятельности с учетом их удель­ных весов.

Коэффициенты валидности являются важными, но далеко не определяющими и не исчерпывающими ха­рактеристиками валидности методики, так как они ‑ элементы в сложном про­цессе характеристики валидности теста.

Приблизительность отдельно вычис­ленного коэффициента валидности обусловлена многими фак­торами. Во-первых, условия валидности теста не представляется возможным оп­ределить полностью. Всегда остается мно­жество неучтенных факторов, ситуаций, условий и т. д. Во-вторых, логика крите­риальной валидизации предполагает валидность самого критерия. Проверка та­кой валидности представляет собой весь­ма трудную проблему. К тому же очень ча­сто тесты валидизируются относительно доступного, а не наиболее соответствую­щего критерия.

Важнейшая цель валидизации — опреде­ление практической ценности разрабаты­ваемой методики. Критерии в этом случае выступают как показатели, обладающие непосредственной ценностью для опреде­ленных областей практической деятель­ности При ориентации на эти категории в ходе валидизации решаются сразу две задачи: собственно задача изме­рения валидности и оценка прагматичес­кой эффективности психодиагностиче­ской методики. Если получен значимый коэффициент корреляции, то можно счи­тать, что с той или иной степенью досто­верности решены с позитивным результа­том сразу две эти задачи. Но если корре­ляция не обнаружена, то остается неопре­деленность: либо не валидна сама проце­дура (тестовый балл не отражает, напр., стрессоустойчивость оператора), либо не верна гипотеза о наличии причинно-след­ственной связи между психическим свой­ством и социально ценным показателем. Установив значимость корреляции между тестовыми показателя­ми и критерием, необходимо оценить вели­чину стандартной ошибки тестовых оце­нок. Применяемый при этом статистичес­кий показатель ошибки измерения указы­вает на допустимые пределы ошибки в ин­дивидуальных показателях вследствие ог­раниченной надежности теста. Анало­гично ошибка в оценке указывает на допу­стимые пределы возможной ошибки в про­гнозируемой величине индивидуального критериального показателя, возникающей в результате ограниченной валидности те­ста.

Часто используется метод «известных групп». В эксперименте задействуются испытуемые, про которых заранее известно, к какой категории они относятся и разделяются на две группы: с высоким показателем признака и низким показателем. После проведения теста по известному показателю рассчитывается корреляция между тестом и критерием.

  Высокий по критерию Низкий по критерию
Высокий по тесту a b
Низкий по тесту с d

a – это количество испытуемых, попавших в группу с высоким показателем по признаку и в результате теста и в результате критерия.

b – по критерию с низким показателем, а по тесту получилось, что с высоким и т.д.

При полной валидности теста показатели в и с должны быть равны нулю. Меру совпадения высчитывают с помощью коэффициента Гилфорда по формуле:

Статистически значимая связь теста с критерием констатируется при показателе более, чем 0,36 (при численности группы в 30 человек). Этот метод нельзя использовать если мы оцениваем прогностическую валидность.

 

Тема 10. Проверка эмпирической валидности теста (практическое - 6 часов)

Вопросы для обсуждения:

1. Характеристика теоретической и эмпирической валидности.

2. Виды эмпирической валидности.

Практическое задание: расчет эмпирической валидности теста путем оп­ределения его конвергентной валидности по отношению к экспертной оценке, полученной посредством ГОЛ. (На Кеттелле)

 




Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: