Тема 10. Валидность теста и процедуры тестирования

(6 часов)

План лекции

1. Валидность и валидизация

2. Типы валидности теста

3. Обеспечение валидности

1. Валидность и валидизация

Можно выделить такой период (20—30-е гг.), когда научное содержание тестов и их теоретический «багаж» интересовали в меньшей степени. Важно было, чтобы тест «работал», помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач. Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те способности, качества, которые тесты выявляли. Б.М.. Теплов, анализируя тесты того периода, назвал их «слепыми пробами» (1985).

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на «голую» эмпирику и практику, но и на теоретическую концепцию. В настоящее время теоретико-прагматическая оценка валидности методик воспринимается как наиболее продуктивная

Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» (1982. С. 126). В психологической диагностике валидность — обязательная и наиболее важная часть сведений о методике, включающая данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оценки, результаты других методик, достоверность которых установлена и т. д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами. Валидность описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культурной принадлежности и т. д.) и степень обоснованности выводов в конкретных условиях использования теста.

Валидность по своей сути — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. Понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Выделяют теоретическую валидизацию – это проверка самого измерительного инструмента (методики) и прагматическую валидизацию – это проверка цели ее использования.

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация. Провести теоретическую валидизацию методики — это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие школьников, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т.п.). Теоретическая валиизация показывает, что замысел автора и результаты методики совпадают. Достаточно легко провести теоретическую валидизацию, если уже была старая методика. Тогда результаты новой методики проверяются на корреляцию с результатами старой. Если корреляция есть, то новую методику можно использовать. Важно помнить, что если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения.

При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определенными областями практики. Она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности. Ей придают большое значение, особенно там, где встает вопрос отбора. Разработка и использование диагностических методик имеет смысл только тогда, когда есть обоснованное предположение, что измеряемое качество проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий — показатель проявления изучаемого свойства в повседневной жизни.

Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика признавалась валидной, так как то, что она измеряет, просто «очевидно»;

2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет «понять испытуемого»;

3) методика рассматривалась как валидная (т.е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, «очень хорошая».

Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.

Критерий валидности (валидизации) – это непосредственная и независимая от валидизируемого теста мера психического свойства, на исследование которого направлена психодиагностическая методика. Сравнение результатов теста с критерием валидизации является непременным условием процедуры определения критериальной валидности.

Выбор критерия валидизации является ответственным и важным этапом конструирования теста и его валидизации. Чем более сложным, комплексным является изучаемое психическое явление, тем шире, обобщеннее, должен быть критерий. Например, при обосновании теста на общий интеллект в качестве критерия валидизации может выступать эффективность учебной, производственной или научной деятельности в целом. Узость выбираемого критерия определяется областью психологических явлений, охватываемых тестом, однородностью (гомогенностью) задач методики, конкретностью, однозначностью интерпретации результатов.

Американские исследователи Тиффин и Маккормик (1968), проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:

1) критерии исполнения (количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.);

2) субъективные критерии (отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям: он должен быть релевантным, свободным от помех (контаминации) и надежным

Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений.

Требования свободы от контаминации вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях.

Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки.

2. Типы валидности.

Как видно из вышеизложенного, в понятие валидности входит большое количество самой разнообразной информации о тесте. Различные категории этих сведений и способы их получения образуют типы валидности.

Рассмотрим каждый вид валидности подробнее.

Содержательная валидность ‑ один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.

Комплекс сведений содержательной валидности имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучаемая деятельность складывается из многих разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т. д.). Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом.

Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Первым этапом валидизации является определение круга исследуемых свойств и видов деятельности, расчленение сложной способности ил деятельности на элементы. На втором этапе разрабатывают собственно модель тестовой деятельности на основе наиболее важных элементов реальной деятельности. Наконец, на последнем этапе проводят анализ степени соответствия разработанной модели реальной деятельности, проверку соответствия пропорций представленности элементов в заданиях теста и в реальной деятельности. Конкретные задания оцениваются экспертами по принципу их близости к реальным требованиям. Эксперты выносят суждения о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области обучения.

Наряду с тестами достижений содержательная валидность является одной из важнейших форм валидизации критериально-ориентированных тестов, а также методик, предназначенных для профотбора, анализа успешности овладения профессией

Видом содержательной валидности является очевидная валидность ‑ представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Она не является компонентом объективно устанавливаемой валидности, но является весьма желательной. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, формулируемым психологом. Представления испытуемых и пользователей психодиагностической информацией об очевидной валидности определяются названием методики, поскольку эта часть сведений о тесте наиболее доступна неспециалистам. Для предупреждения неадекватных мнений о методике следует избегать помещения на бланках туманных названий, которые могут быть неправильно истолкованы. Адекватность очевидной валидности повышается путем введения в инструкциюкраткой характеристики целей исследования.

Также видом содержательной валидности является ложная валидность ‑ иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Возникает как следствие использования предельно общих, а поэтому применимых практически ко всем обследуемым формулировок, таких, например, как «разумный в выборе цели», «стремящийся к лучшей жизни» и т. п.

Конструктная валидность ‑ один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость. Конструктная валидность определяет область теоретической структуры психологических явлений, измеряемых тестом. При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное накопление разнообразной информации о динамике развития измеряемого свойства, а также о его взаимодействии с другими психическими явлениями.

Для этого сравниваются результаты имеющегося теста с вновь разработанным.

Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста.

Валидность по возрастной дифференциации - один из компонентов валидности конструктной, связанный с возрастной динамикой изменений исследуемого качества. Характеристика валидности по конструкту здесь заключается в определении соответствия результатов теста теоретически ожидаемым и практически наблюдаемым возрастным изменениям данного конструкта или свойствам.

Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важность такой процедуры является основанием для выделения ее в особый вид — факторную валидность.

При анализе конструктной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно. Эти подходы определяются как конвергентная (проверка степени близости прямой или обратной связи) и дискриминативная (установление отсутствия связи) валидизации.

Критериальная валидность ‑ комплекс характеристик, включающий текущую и прогностическую валидность методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве критерия валидизации выступают независимые от результатов теста и непосредственные меры исследуемого качества, такие как уровень достижений в какой-либо деятельности, степень развития способности, выраженность определенного свойства личности. Критериальная валидность включает как комплекс связей с текущим состоянием изучаемого явления, так и вероятность и обоснованность прогноза о его состоянии в будущем.

Текущая или диагностическая валидность ‑ характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. Диагностическая валидность отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической валидности имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования Основной процедурой определения диагностической является корреляционный анализ связи результатов теста с критериальными характеристиками исследуемого свойства. Распространенным способом характеристики диагностической эффективности методики является сравнение контрастных групп. Диагностическая валидность может определяться на основании сопоставления оценок и заключений по валидизируемому тесту с результатами другой методики, валидность которой является установленной.

Своеобразным показателем диагностической валидности является комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников.

Прогностическая валидность ‑ сведения, характеризующие степени обоснованности и статистической надежности развития исследуемой психологической особенности в будущем. Это информация о том, с какой степенью точности и обоснованности методика (тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. Прогностическая валидность отражает временной интервал, на который распространяется обоснование такого суждения. В качестве критерия валидизации могут выступать не только показатели актуального поведения, но и ожидаемые результаты деятельности, лечения, обучения и т.д. Процедура определения прогностической валидности опирается на анализ корреляции между оценками по тесту и предсказанными результатами деятельности, формирующимися свойствами личности, исходом лечения и т.п. Вместе с тем различие двух видов критериальной валидности связано не только с временными пределами критериальных сопоставлений. Диагностическая и прогностическая валидность отражают разные цели применения методики: текущий диагноз, оценка настоящего положения, с одной стороны, и прогнозирование развития качества или успеха в деятельности — с другой.

Ретроспективная валидность. Она определяется на основе критерия, отражающего события или состояние качества прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения у лиц с высокими и низкими на данный момент диагностическими показателям.

Экологическая валидность ‑ валидностьтеста по отношению к измеряемому свойству в контексте определенной ситуации. Она является свойством теста, проявляющимся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов тестирования (В.И. Дружинин, 1990).

Введение понятия связано с давно обсуждающейся в психодиагностике проблемой влияния ситуации на результаты тестирования. Тестирование всегда происходит в конкретной жизненной ситуации, а тест разрабатывается для решения определенной задачи (задач). Поэтому необходимо, используя тест в различных ситуациях, быть уверенным в том, что возможна такая переносимость теста из ситуации в ситуацию. Описание теста, по мнению В. Н. Дружинина, должно, наряду с другими известными характеристиками, содержать сведения о его экологической валидности. Важнейшим моментом в создании модели тестирования, учитывающей данный вид валидности, являются свойства ситуации тестирования. Следует учесть, что понятие экологической валидности в настоящее время связано исключительно с психодиагностическими ситуациями, т. е. ситуациями, в которых происходит взаимодействие между диагностом и обследуемым, и не распространяется на другие типы ситуаций, в которых осуществляется поведение (проявление индивидуально-психологических особенностей).

3. Процедура обеспечения валидности

Валидность процедуры тестирования обеспечивается соблюдением всех требований, предъявляемых к процедуре тестирования: к бланкам, инструкции, условиям и обсчету результатов. Приемами обеспечения валидности процедуры тестирования выступает исключение действия нерегистрируемых факторов, не идентичность бланков, инструкций, условий проведения тестирования, отсутствия норм и неправильного обсчета результатов.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя — коэффициента валидности — сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20—0,30, средним — 0,30—0,50 и высоким — свыше 0,60.

Но, как подчеркивают А. Анастази (1982), К.М. Гуревич (1970) и др., не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы.

Для определения валидности необходимо определить коэффициент валидности – это статистические показатели эмпирической валидности теста.

Наряду с коэффициентами валидности, определяемыми традиционным способом, существуют и некоторые другие меры количественной оценки валидности теста, в частности с помощью j-коэффициента, предложенного Э. Примовым. Процедура его определения предусматривает наличие перечня элементов сложной деятельности или способности, выраженных языком профессиональных или других специальных действий, и экспертной оценки относительной значимости этих элементов для осуществления данной сложной деятельности. Окончательный анализ проводится на базе корреляции оценок теста и отдельных элементов реальной деятельности с учетом их удельных весов.

Коэффициенты валидности являются важными, но далеко не определяющими и не исчерпывающими характеристиками валидности методики, так как они ‑ элементы в сложном процессе характеристики валидности теста.

Приблизительность отдельно вычисленного коэффициента валидности обусловлена многими факторами. Во-первых, условия валидности теста не представляется возможным определить полностью. Всегда остается множество неучтенных факторов, ситуаций, условий и т. д. Во-вторых, логика критериальной валидизации предполагает валидность самого критерия. Проверка такой валидности представляет собой весьма трудную проблему. К тому же очень часто тесты валидизируются относительно доступного, а не наиболее соответствующего критерия.

Важнейшая цель валидизации — определение практической ценности разрабатываемой методики. Критерии в этом случае выступают как показатели, обладающие непосредственной ценностью для определенных областей практической деятельности При ориентации на эти категории в ходе валидизации решаются сразу две задачи: собственно задача измерения валидности и оценка прагматической эффективности психодиагностической методики. Если получен значимый коэффициент корреляции, то можно считать, что с той или иной степенью достоверности решены с позитивным результатом сразу две эти задачи. Но если корреляция не обнаружена, то остается неопределенность: либо не валидна сама процедура (тестовый балл не отражает, напр., стрессоустойчивость оператора), либо не верна гипотеза о наличии причинно-следственной связи между психическим свойством и социально ценным показателем. Установив значимость корреляции между тестовыми показателями и критерием, необходимо оценить величину стандартной ошибки тестовых оценок. Применяемый при этом статистический показатель ошибки измерения указывает на допустимые пределы ошибки в индивидуальных показателях вследствие ограниченной надежности теста. Аналогично ошибка в оценке указывает на допустимые пределы возможной ошибки в прогнозируемой величине индивидуального критериального показателя, возникающей в результате ограниченной валидности теста.

Часто используется метод «известных групп». В эксперименте задействуются испытуемые, про которых заранее известно, к какой категории они относятся и разделяются на две группы: с высоким показателем признака и низким показателем. После проведения теста по известному показателю рассчитывается корреляция между тестом и критерием.

	Высокий по критерию	Низкий по критерию
Высокий по тесту	a	b
Низкий по тесту	с	d

a – это количество испытуемых, попавших в группу с высоким показателем по признаку и в результате теста и в результате критерия.

b – по критерию с низким показателем, а по тесту получилось, что с высоким и т.д.

При полной валидности теста показатели в и с должны быть равны нулю. Меру совпадения высчитывают с помощью коэффициента Гилфорда по формуле:

Статистически значимая связь теста с критерием констатируется при показателе более, чем 0,36 (при численности группы в 30 человек). Этот метод нельзя использовать если мы оцениваем прогностическую валидность.

Тема 10. Проверка эмпирической валидности теста (практическое - 6 часов)

Вопросы для обсуждения:

1. Характеристика теоретической и эмпирической валидности.

2. Виды эмпирической валидности.

Практическое задание: расчет эмпирической валидности теста путем определения его конвергентной валидности по отношению к экспертной оценке, полученной посредством ГОЛ. (На Кеттелле)

Тема 10. Валидность теста и процедуры тестирования

Поиск по сайту