Понятие тестовых норм в психодиагностике

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации.

Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д.

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:

Школьные нормы	разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.
Профессиональные нормы	устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).
Локальные нормы	устанавливаются и применяются для узких категорий людей, отличающихся наличием общего- признака – возраста, пола, географического района, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.
Национальные нормы	разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой. Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования.

Определение норм для теста

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений.Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации. Правила формирования выборки стандартизации:

1. выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

2. выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой. Производные показатели получаются путем математической обработки первичных показателей. Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

"Любая норма, в чем бы она ни выражалась, ограничивается конкретной совокупностью людей, для которых она вырабатывалась... Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандартизации".

15. устойчивость норм, стандартные шкалы в психодиагностике

Репрезентативность – одна из ключевых психометрических характеристик теста. Она свидетельствует о возможности использования тестовых норм, выработанных на выборке стандартизации при разработке теста, для всей генеральной совокупности испытуемых, для которых данный тест предназначен.

Репрезентативность означает, что с некоторой определенной статистически погрешностью можно считать, что представленное в выборочной совокупности распределение изучаемых психических свойств соостветствует их реальному распределению

Если распределение тестовых баллов отличается от нормального, то для проверки репрезентативности необходимо решить вопрос об устойчивости тестовых норм. Для этого производится расщепление выборки пополам и сравнение распределений тестовых баллов в первой и второй половине выборки. Если не выявлено различий, то распределение тестовых баллов является устойчивым, а тестовые нормы репрезентативными.

Репрезентативность тестовых норм - это возможность использования тестовых норм, полученных по результатам выборочного тестирования, для оценки генеральной совокупности испытуемых.

Психодиагностическая шкала представляет собой количественную модель измеряемого диагностического свойства. Тестовый балл испытуемого соответствует шкальному значению измеряемого психического свойства. Для сравнения между собой показателей одного и того же испытуемого по разным шкалам используют стандартные тестовые шкалы (шкала стенов, Т-шкала, IQ).

Диагностические шкалы подразделяют по типам, предусмотренным в математической теории измерения: шкала наименований (номинальная шкала), шкала порядка, шкала интервалов.

В психодиагностике используются несколько типов стандартных шкал, позволяющих сравнивать между собой показатели разных тестов (субшкал одного теста) в едином масштабе. Как правило, стандартные шкалы основаны на модели нормального распределения и описываются двумя параметрами значением среднего и стандартного (или среднеквадратического) отклонения. Перевод в стандартную шкалу проводится путем процедуры стандартизации.

Под стандартизацией шкалы понимают линейное преобразование масштаба нормальной (или искусственно нормализованной) шкалы.

Шкала наименований (номинальная шкала). Это самая простая из всех шкал. В ней числа выполняют роль ярлыков и служат для обнаружения и различения изучаемых объектов. Числа, составляющие шкалу наименований, разрешается менять местами. В этой шкале нет отношений типа «больше—меньше», поэтому некоторые полагают, что применение шкалы наименований не стоит считать измерением. При использовании шкалы наименований могут проводится только некоторые математические операции. Например, ее числа нельзя складывать и вычитать, но можно подсчитывать, сколько раз (как часто) встречается то или иное число.
Шкала порядка. Места, занимаемые величинами в шкале порядка, называются рангами, а сама шкала называется ранговой, или неметрической. В такой шкале составляющие ее числа упорядочены по рангам (т.е. занимаемым местам), но интервалы между ними точно измерить нельзя. В отличие от шкалы наименований шкала порядка позволяет не только установить факт равенства или неравенства измеряемых объектов, но и определить характер неравенства в виде суждений: «больше—меньше», «лучше—хуже» и т.п.
Шкала интервалов. Это такая шкала, в которой числа не только упорядочены по рангам, но и разделены определенными интервалами. Особенность, отличающая ее от описываемой дальше шкалы отношений, состоит в том, что нулевая точка выбирается произвольно. Примерами могут быть календарное время (начало летоисчисления в разных календарях устанавливалось по случайным причинам, температура, потенциальная энергия поднятого груза, потенциал электрического поля и др.).
Шкала отношений. Эта шкала отличается от шкалы интервалов только тем, что в ней строго определено положение нулевой точки. Благодаря этому шкала отношений не накладывает никаких ограничений на математический аппарат, используемый для обработки результатов наблюдений.

Шкала абсолютных величин. Во многих случаях напрямую измеряется величина чего-либо. Например, непосредственно подсчитывается число дефектов в изделии, количество единиц произведенной продукции, сколько студентов присутствует на лекции, количество прожитых лет и т.д. и т.п. При таких измерениях на измерительной шкале отмечаются абсолютные количественные значения измеряемого.

БИЛЕТ 16

Надежность -- характеристика, отражающая точность измерения индивидуальных психологических черт при помощи данного теста. Известно, что на результат тестирования влияют многие факторы: повышенное эмоциональное напряжение, утомление, особенности обстановки и личности диагноста, мотивация испытуемого.

В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:

1. Воспроизводимость рез-тов исследования.

2. Точность измерения.

3. Устойчивость результатов.

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

1. нестабильность диагностируемого свойства;

2. несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечётко сформулированы указания по предъявлению методики испытуемым и т.д.);

3. меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещённость помещения, наличие или отсутствие посторонних шумов и т.д.);

4. различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);

5. колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом – утомление и т.д.);

6. элементы субъективности в способах оценки и интерпретации результатов (когда ведётся протоколирование ответов испытуемых, оценивают ответы по степени полноты, оригинальности.

Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.

На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.

Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

НАДЕЖНОСТЬ — одна из важнейших характеристик методик и тестов психодиагностических — один из критериев их качества, относимый к точности измерений психологических. Отражает точность измерения психологического и устойчивость результатов к действию посторонних факторов. Чем выше надежность теста или методики, тем они относительно свободнее от погрешностей измерения. При одном из подходов надежность теста рассматривается как устойчивость, стабильность результатов при повторном тестировании. При другом подходе — как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов. Надежность можно установить двумя общими способами: 1) путем сравнения результатов, получаемой посредством данной методики или теста разными диагностами; 2) путем сравнения результатов, получаемой применением данной методики или теста в идентичных условиях. Различается множество видов надежности и конкретных способов определения их уровня. Определение надежности теста бывает связано с понятием внутренней состоятельности теста; это выражается в расчленении теста на части с последующим сопоставлением результатов частей. Надежность теста определяется также методами анализа дисперсионного и факторного.

БИЛЕТ 17

Динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой врабатываемости — выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т. п.). (Надёжность).

Помехоустойчивость - способность противостоять действию внешних и внутренних помех. Внешние помехи - это шум, посторонние раздражители, источник внутренних помех — интерференция мнемических следов. Интерференция проявляется либо в потере информации под влиянием последующего поступления нового материала, либо в ошибках, вызванных конкуренцией мнемических следов. Ее действие обнаруживается как в кратковременной, так и в долговременной памяти. В кратковременной памяти деятельность, вклинивающаяся между предъявлением материала и проверкой сохранения, увеличивает скорость потери информации в зависимости от характера интерференции. В долговременной памяти новая поступающая информация интерферирует с уже хранящимся там материалом.

БИЛЕТ 18

Виды надежности..

Надежность как устойчивость к побочным факторам.

В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Надежность методики — это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов:

1.нестабильность диагностируемого свойства;

2.несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);

3.меняющаяся ситуация обследования;

4.различия в манере поведения экспериментатора;

5.колебания в функциональном состоянии испытуемого;

6.элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).

Виды. К. М. Гуревич предложил толковать надежность как комплексную характеристику, включающую:

1.надежность самого измерительного инструмента; коэффициентом надежности

2.стабильность изучаемого признака; коэффициентом стабильности

3.константность, т. е. относительную независимость результатов от личности экспериментатора; коэффициентом константности.

Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр. Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Определение стабильности изучаемого признака. Определить надежность самой методики — это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель. Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).

Определение константности (относительной независимости результатов от личности экспериментатора). Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики — это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.

БИЛЕТ 19

Характеристики психологических тестов

• Валидность – соответствие результатов теста той характеристике, для измерения которой он предназначен.

• Надёжность – свойство теста давать при повторном измерении близкие результаты. Надёжность как внутренняя согласованность – направленность всех элементов тестовой щкалы на измерение одного качества.

Вали́дность (англ. validity) – мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии.

Как в экспериментальной психологии, так и в статистике валидное измерение – такое измерение, которое измеряет то, что оно должно измерять. То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое. Безупречный эксперимент (возможный лишь в теории) будет обладать безупречной валидностью: он будет точно показывать, что экспериментальный эффект был вызван изменением независимой переменной, он будет полностью соответствовать реальности, его результаты можно обобщить без ограничений.

Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).

БИЛЕТ 20

Виды валидности

Внешняя валидность (англ. external validity) – вид валидности, определяющий то, насколько результаты конкретного исследования можно распространить на весь класс подобных ситуаций/явлений/объектов. Данное понятие можно рассматривать как междисциплинарное: оно широко применяется в экспериментальной психологии, а также в других сферах науки.

Операциональная валидность – частный случай внешней валидности, степень соответствия методики и плана эксперимента проверяемой гипотезе.

Операциональная валидность определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента.

Частью операциональной валидности можно считать конструктную валидность

Констру́ктная вали́дность – частный случай операциональной валидности, степень адекватности метода интерпретации экспериментальных данных теории, которая определяется правильностью употребления терминов той или иной теории.

Конструктная валидность имеет отношение к попыткам обозначения любых аспектов эксперимента. Опасности нарушения конструктной валидности заключаются в неправильном обозначении причины и эффекта с помощью абстрактных терминов, терминов, взятых из обыденного языка или формальной теории.

Внутренняя валидность (англ. internal validity) – вид валидности, степень влияния независимой переменной на зависимую переменную. Внутренняя валидность тем выше, чем больше вероятность того, что изменение зависимой переменной вызвано изменением именно независимой переменной (а не чего-либо ещё) Данное понятие можно рассматривать как междисциплинарное: оно широко применяется в экспериментальной психологии, а также в других сферах науки.

Экологическая валидность – степень соответствия условий эксперимента исследуемой реальности. Например, в известном эксперименте Курта Левина по изучению типов лидерства отношения в группах подростков мало соответствовали отношениям в государстве, следовательно, была нарушена экологическая валидность.

Надёжность как устойчивость

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это – эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Понятие тестовых норм в психодиагностике

Поиск по сайту