Тема 11. НАДЕЖНОСТЬ ТЕСТА. ЕЕ ВИДЫ. ПРОЦЕДУРЫ ОПРЕДЕЛЕНИЯ НАДЕЖНОСТИ ТЕСТА (10 часов)




 

План лекции

 

1. Надежность и ее виды.

2. Процедуры определения ретестововй надежности.

3. Определение одномоментной надежности теста

4. Надежность отдельных пунктов теста.

Тема 13. Надежность теста. Ее виды.

Процедуры определения надежности теста

(семинарско-практическое - 8 часов)

Вопросы для обсуждения:

1. Понятие надежности. Виды надежности.

2. Ретестовая надежность тестовой методики. Процедуры ее определения: преимущества и недостатки.

3. Одномоментная надежность теста. Варианты определения одномоментной надежности: метод параллельных форм, метод расщепления, метод анализа согласованности ответов по всем пунктам методики (метод Кьюдера-Ричардсона). Преимущества и недостатки каждого из них.

3. Надежность отдельных пунктов теста. Характеристика требований, обеспечивающих надежность отдельных пунктов теста: объективность, валид-ность, устойчивость, сила/трудность, дискриминативность. Процедуры опреде­ления надежности отдельных пунктов теста

Практические задания:

1) расчет ретестовой надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера;

2) расчет одномоментной надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера.

 

 

1. Надежность и ее виды.

 

В традиционной тестологии термин «надежность» означает относ тельное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место, занимаемое испытуемым в группе.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.)

меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.д.);

3) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);

4) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т.д.);

5) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т.п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важ­нейших средств повышения надежности психодиагностической ме­тодики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенно­сти контакта с испытуемыми, порядок предъявления заданий и т.д. При такой стандартизации процедуры исследования можно сущест­венно уменьшить влияние посторонних случайных факторов на ре­зультаты теста и таким образом повысить их надежность.

В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах ив какой мере они могут быть приписаны случайным ошибкам. В узком методическом смысле под надежностью понимают степень согласованности результатов теста при повторном его использовании.

На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой.

В настоящее время надежность все чаще определяется на наибо­лее однородных выборках, т.е. на выборках, схожих по полу, воз­расту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надеж­ности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Так как все виды надежности отражают степень согласованное двух независимо полученных рядов показателей, то математике статистический прием, с помощью которого устанавливается надежность методики, — это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот. Важнейшим средством повышения надежности ПД методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановка и условия работы, характер инструкции, временные ограничения, способы и особенности контакта с испытуемым и пр.) существенно повышается надежность теста.

Надежность тесно связана с валидностью. Надежность – это устойчивость процедуры относительно объектов исследования. Валидность – устойчивость относительно измеряемых свойств объекта (предмета измерения). Устойчивость теста относительно объектов исследования является необходимым, но не достаточным условием его устойчивости относительно измеряемых свойств объектов. То есть, надежность является необходимым, но не достаточным условием валидности. Валидность может качественно и количественно превышать надежность.

В данном пособии при описании видов надежности основной упор делается на работы К.М. Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зарубежной литературы по это£ проблеме, предложил толковать надежность как:

1) надежность самого измерительного инструмента;

2) стабильность изучаемого признака;

3) константность, т.е. относительную независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности; показатель, харак­теризующий стабильность измеряемого свойства, — коэффициентом стабильности; а показатель оценки влияния личности эксперимен­татора — коэффициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.

1. Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологиче­ского измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так на­зываемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух по­лученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корре­ляции будет достаточно высоким.

Можно делить задания и другим путем, например сопоставить первую половину теста со второй, первую и третью четверть — со второй и четвертой и т.п. Однако «расщепление» на четные и не­четные задания представляется наиболее целесообразным, посколь­ку именно этот способ наиболее независим от влияния таких фак­торов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный ко­эффициент не ниже 0,75—0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Но на начальном этапе разработки диагностической методики можно получить невысокие коэффициенты надежности, например, порядка 0,46—0,50. Это означает, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей спе­цифичности ведут к снижению коэффициента корреляции. Такие задания необходимо специально проанализировать и либо переде­лать их, либо вообще изъять.

Чтобы легче было установить, за счет каких заданий снижаются коэффициенты корреляции, необходимо проанализировать таблицы с выписанными данными, подготовленными для корреляций. Следу­ет отметить, что любые изменения в содержании методики — изъя­тие заданий, их перестановка, переформулировка вопросов или от­ветов требует заново высчитывать коэффициенты надежности.

При ознакомлении с коэффициентами надежности не следует за­бывать, что они зависят не только от правильного подбора заданий с точки зрения их взаимосогласованности, но и от социально-психологической однородности той выборки, на которой проверя­лась надежность измерительного инструмента.

2. Определение стабильности изучаемого признака. Опре­делить надежность самой методики — это не значит решить все во­просы, связанные с ее применением. Нужно еще установить, на­сколько устойчив, стабилен признак, который исследователь наме­рен измерять. Колебания признака не должны иметь непредсказуемого характера. Если не ясны причины резких колебаний, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойств используется прием, известный как тест — ретест. Он заключаете в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико Поэтому необходимо соблюдать требования единообразия процедуры проведения эксперимента.

При определении стабильности признака большое значение имеет промежуток времени между первым и повторным обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого, но не слишком, так как возможно, что испытуемые помнят свои ответы. В тестологической литературе наиболее часто называются вре­менные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные измене­ния и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.

Если тест исследует свойство, которое в период тестирования находится в процессе интенсивного развития (напри­мер, умение проводить обобщения), то коэффициент стабильности мо­жет оказаться невысоким, но это не следует истолковывать как недос­таток теста. Такой коэффициент стабильности должен интерпретиро­ваться как показатель определенных изменений, развития исследуемого свойства. Совсем другое требование предъявляется к коэффициенту ста­бильности, если автор методики считает, что измеряемое свойство уже сформировано и должно быть достаточно устойчивым. Коэффи­циент стабильности в этом случае должен быть достаточно высоким (не ниже 0,80).

Таким образом, вопрос о стабильности измеряемого свойства ре­шается не всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.

3. Определение константности, т.е. относительной независи­мости результатов от личности экспериментатора. Поскольку мето­дика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию лич­ности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правила­ми и примерами, указывающими, как проводить эксперимент, рег­ламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуе­мый в своем отношении к опыту всегда отразит то, как сам экспе­риментатор к этому опыту относится.. Если под воздействием но­вого экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздей­ствие экспериментатора на испытуемых различно: одни стали рабо­тать лучше, другие хуже, а третьи так же, как и при первом экспе­риментаторе. Другими словами, если испытуемые при новом экспе­риментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными эксперимен­таторами. Коэффициент корреляции не должен быть ниже 0,80.

 

2. Определение ретестовой надежности.

 

НАДЕЖНОСТЬ РЕТЕСТОВАЯ — ха­рактеристика надежности психодиагно­стической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надеж­ность в этом случае вычисляется по соот­ветствию результатов первого и второго обследований или по сохранению ранго­вых мест испытуемых в выборке при ретесте. Коэффициент надежности (г() соответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкалприменяет­ся коэффициент корреляции произведе­ния моментов Пирсона. Для шкал порядка в ка­честве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

При характеристике ретестовой надежности особое зна­чение имеет временной интервал между первым и вторым обследованиями. С его увеличением показатели корреляции име­ют тенденцию к снижению, существенно повышается вероятность воздействия по­сторонних факторов — могут наступить закономерные возрастные изменения из­меряемых тестом свойств, произойти раз­личные события, влияющие на состояние и особенности развития исследуемых ка­честв. По этой причине при определении ретестовой надежности стараются выбирать непродолжи­тельные временные интервалы (до не­скольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку воз­растные изменения и развитие в этом слу­чае происходят еще быстрее.

Несмотря на указанную тенденцию, при получении характеристик теста про­водятся повторные испытания и с дли­тельным временном промежутком. Определение ретестовой надежности ограничивается анализом краткосрочных случайных изменений, характеризующих тест как измери­тельную процедуру, а не его отношение к исследуемой области поведения.

Наряду с очевидной простотой ретестовая надежность как метод определения надежности обла­дает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интерва­ле между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуаль­ных результатов, хотя и не одинаково выраженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной вы­борке и, соответственно, ухудшению ко­эффициента надежности. Еще более за­метное воздействие на результаты анали­за надежности оказывает запоминание ис­пытуемыми отдельных решений, воспро­изведение в повторном обследовании пре­дыдущей картины правильных и непра­вильных решений. В этом случае резуль­таты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.

Один из путей устранения влияния тренировки на результаты оценки ретестовой надежности — формирование устойчивого навыка в ра­боте с соответствующей методикой перед проведением тест-ретеста. Однако коли­чество повторений теста при этом неиз­бежно возрастает, что приводит к увели­чению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, со­держащих большое количество элементов тестового материала.

Для других методик, очевидно, един­ственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоре­чие с определением надежности как ха­рактеристики теста.

Для большинства тестов общих спо­собностей характерно улучшение показа­телей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выпол­нения. Другим фактором увеличения рас­четных показателей Н. р. является отно­сительное замедление с возрастом темпа психического развития в области тех ха­рактеристик, которые могут стать объек­том измерения или влиять на результат теста. Благодаря этому, спустя время, со­ставляющее интервал ретеста, случайные искус­ственно завышает показатели Н. р. Эта закономерность требует отдельных изме­рений Н. р. в разных возрастных контингентах испытуемых, что особенно суще­ственно для методик, предназначенных для обследования в широком возрастном диапазоне.Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускаю­щих многократное повторное обследова­ние. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других мето­дик, отличающихся большим количеством пунктов.

 

3. Определение одномоментной надежности.

Одномоментная надежность теста. Понятие сопоставимых форм методи­ки. Варианты определения одномоментной надежности:

Метод параллельных форм.

Одни и те же испытуемые в выборке опре­деления надежности обследуются внача­ле с использованием основного набора заданий, а затем — с применением анало­гичных дополнительных наборов. Коэф­фициент надежности по типу параллельных форм мо­жет быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них пред­лагается форма А теста, а другой — фор­ма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.

Такая процедура обследования лише­на значительной части недостатков спосо­ба определения надежности ретестовой. Так как в параллельной форме ис­пользуется другой по содержанию мате­риал, возможность тренировки и запоми­нания отдельных решений уменьшается. Важнейшим преимуществом данного ме­тода является сокращение временного ин­тервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между резуль­татами первичного и повторного обследо­ваний, который позволяет оценить как временную стабильность теста (собствен­но надежность), так и степень соответ­ствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.

Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только от­вечать одним и тем же требованиям, измеряя идентичные показатели и давая сход­ные результаты, но вместе с тем быть от­носительно независимыми друг от друга. На практике эта задача осуществима да­леко не для всех тестовых. Другим недостатком характеристики надеж­ности по типу Н. п. ф. является возмож­ность усвоения испытуемым принципа ре­шения, общего для основной и параллель­ной форм. Таким образом, в случае оцен­ки Н. п. ф. влияние тренировки и навыка, приобретаемого при повторном обследо­вании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.

Метод расщепления.

Наиболее простым и распространен­ным способом определения Н. ч. т. явля­ется метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайногонабора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отно­шению к тесту в целом).

Для оценки надежности методом рас­щепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласован­ность, Трудность заданий теста). Раз­деление объема заданий теста на сопоста­вимые части достигается:

—распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);

- распределением пунктов по принципу близости или равенства значений индексов трудности и дискриминативности.

При расщеплении тестов скорости применяется особая процедура группи­ровки заданий. Определяется минималь­ное время (t^J решения целого теста, за­тем отсчитываются половина и четвертая часть этого времени. Все испытуемые ра­ботают половину минимального времени, после чего ставят отметку против зада­ния, выполняемого в момент подачи сиг­нала, и продолжают работать еще чет­верть минимального времени. Коэффици­ент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигна­ла (0,5tm]n) и решенных за время между первым и вторым сигналами (0,25fmln).

Разделение заданий теста на равно­ценные половины является лишь частным случаем Н. ч. т. Вполне возможно рас­щепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутрен­ней согласованности.

При разделении всего набора заданий теста на любое количество групп для пра­вильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания те­ста должны быть в высокой степени од­нородны по содержанию и трудности (го­могенны). При гетерогенных задачах значения rt ниже истинных.



Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кьюдера—Ричардсона

 

 

где σ х — дисперсия первичных оценок те­ста, р — индекс трудности, выраженный в виде доли индекса трудности U деленного на 100, q = 1 - р, rpb — коэффициент дискриминации

При отсутствии коэффициента диск­риминации применим вариант формулы Кьюдера—Ричардсона:

 

Где ∑σ² ‑ сумма дисперсий результатов отдельных заданий. В практике психологической диагностики считается, что тест надежен, если r>0,6.

Характеристика надежности по типу частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм, главным образом благодаря отсутствию необходимости в повторном обследова­нии. Таким образом, снимается влияние многих посторонних факторов, в частно­сти тренировки, запоминания решений и т. д. Это обстоятельство определяет ши­рокое распространение метода Кьюдера-Ричардсона по сравнению с другими типами надежности. К недостаткам мето­да относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комби­нирования метода Кьюдера-Ричардсона с другими типа­ми характеристики надежности психоло­гической методики

 

4. Надежность отдельных пунктов теста.

Надежность отдельных пунктов теста. Характеристика требований, обес­печивающих надежность отдельных пунктов теста: объективность, валидность, устойчивость, сила/трудность, дискриминативность. Процедуры определения надежности отдельных пунктов теста.




Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: