Стандартизация теста. Статистический подход к определению тестовых норм




Психометрические основы стандартизации, надежности и валидности теста

Стандартизация теста. Статистический подход к определению тестовых норм

Общая идея статистического подхода к определению тестовых норм заключается в следующем. Оценки по психологическим тестам интерпретируются посредством их сопоставления с нормами, отображающими выполнение теста в выборке стандартизации. Такие нормы устанавливаются эмпирически, путем определения того, как представители репрезентативной группы в действительности справляются с тестом. После этого «сырой» балл (первичную оценку, полученную конкретным человеком) можно соотнести с распределением оценок, полученных на выборке стандартизации, чтобы узнать, какое место он занимает в этом распределении. Нормы дают возможность ответить на такие вопросы: 1)соответствует ли «сырой» балл среднему результату группы, на которой проводилась стандартизация теста; 2) возможно, он ниже среднего уровня; 3) возможно, он попадает в верхний конец распределения, и таки образом превосходит средний результат?

Обратим внимание на те шаги, которые необходимо предпринять при разработке тестовых норм. Первым шагом является формирование выборки стандартизации теста. П. Клайн утверждает, что при формировании выборки необходимо учитывать две переменные: репрезентативность и объем выборки. Выборка должна точно отражать категорию лиц, для которых предназначен тест. О.Ю. Ермолаев-Томин видит суть репрезентативности в том, что репрезентативная выборка представляет собой меньшую по размеру, но достаточно точную модель той генеральной совокупности, которую она должна отражать (О.Ю. Ермолаев-Томин, 2016). Кроме этого, выборка должна быть достаточно большой, чтобы обеспечить настолько малую стандартную погрешность, что ею можно было бы пренебречь (П. Клайн, 1994).

П. Клайн предлагает правила достижения репрезентативности выборки: 1) определить наиболее важные переменные, релевантные для данных групп и использовать их как основания для стратификации; 2)подобрать настолько большую группу, насколько это возможно (минимум 300 человек); 3) при этом важно помнить, что маленькая выборка – это лучше, чем ничего, но использовать такие данные как нормативные можно с очень большой осторожностью (П. Клайн, 1994).

Получив ответы испытуемых, разработчик анализирует характер распределения показателей теста. Считается, что большинство распределений человеческих признаков – от роста и веса до способностей и свойств личности – приближаются к нормальной кривой. Колоколообразная кривая нормального распределения обладает рядом важных математических свойств, из которых для целей диагностики важны следующие. Во-первых, согласно закону нормального распределения, наибольшее число случаев скапливается вокруг центральной точки кривой и постепенно падает к ее краям. Во-вторых, кривая симметрична и имеет единственный максимум в центре. Если распределение результатов совпадает с нормальным или хотя бы приближается к нему (о нормальности распределения судят по двум показателям – ассиметрии и эксцессу; показатели ассиметрии и эксцесса в этом случае равны или близки к нулю), то в этом случае возможно использование статистической нормы, основанной на определении среднего арифметического (M или X), и среднего квадратичного (стандартного) отклонения (σ или SD). При этом средний уровень или статистическая норма укладывается в интервал «среднее арифметическое плюс-минус среднее квадратичное отклонение». Выбор таких границ тестовых норм обусловлен свойствами кривой нормального распределения: вычислено, что процент случаев, попадающих в интервал между M и + 1σ для нормального распределения равен 34, 13%. Поскольку кривая симметрична, то 34,13% случаев попадает также в интервал между M и -1σ, так что диапазон от -1σ до +1σ охватывает 68,26% случаев. Поскольку в описываемый интервал попадает больше половины всех случаев, то именно его и рассматривают как статистическую норму.

Таким образом, если в методических рекомендациях к тесту есть указания на два показателя – среднее арифметическое и среднее квадратичное отклонение, то уже можно сопоставить баллы обследуемого с данными нормативной выборки и сделать вывод об уровне выраженности диагностируемого свойства: если баллы испытуемого меньше, чем M – 1σ, то в этом случае можно полагать, что измеряемое свойство выражено на уровне ниже среднего, или ниже нормы; если баллы испытуемого больше, чем M + 1σ, то это позволяет говорить о том, что свойство выражено на уровне выше нормы или выше среднего. Если баллы обследуемого попадают в интервал от – σ <M< σ, то это свидетельствует о среднем уровне выраженности свойства.

Сегодня на практике тестовые нормы все чаще представляют в виде стандартных показателей. Такие показатели выражают отличие индивидуального результата от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели в тестах и опросниках чаще всего могут быть представлены либо в виде стенов, либо стенайнов, либо в виде шкал, основанных на линейном преобразовании z-показателей.

Надежность теста

В психометрии термин «надежность» имеет два значения. Тест считается надежным, если он дает одни и те же показатели для каждого испытуемого (при условии, что тест не изменился) при повторном тестировании. Также тест считается надежным, если он является внутренне согласованным.

Первый вид надежности – это надежность устойчивость или ретестовая надежность. Она измеряется с помощью повторного проведения теста на той же выборке испытуемых спустя определенное время после первого тестирования. П. Клайн утверждает, что возможным недостатком такого способа определения надежности является то, что испытуемые помнят свои ответы, что особенно в случае оценки способностей может в значительной мере повлиять на результаты выполнения теста. Но если между первым и вторым тестированием прошло достаточно много времени, то влиянием данного фактора можно пренебречь. По мнению П. Клайна, интервал между первым и повторным тестированием должен быть не менее шести месяцев (П. Клайн, 1994). А. Анастази имеет другую точку зрения на определение сроков ретестовой надежности. Она говорит о том, что хорошо бы знать, какими соображениями направлялся выбор интервала меду тестированиями. А. Анастази утверждает, что можно привести примеры тестов, надежность которых остается высокой в течение нескольких дней или недель, но спустя 10-15 лет их результаты уже практически не коррелируют с первоначальными. Поэтому на практике при проверке тестовой надежности стараются придерживаться небольших временных интервалов. При тестировании маленьких детей этот период должен быть короче, чем у испытуемых старшего возраста, поскольку в первые годы жизни изменения у ребенка, связанные с возрастным развитием, наблюдаются ежемесячно или даже быстрее. В целом, по мнению А.Анастази, для любого типа обследуемых лиц ретестовый интервал редко превышает шесть месяцев (А. Анастази, С. Урбина, 2002). Собственно по этим рассуждениям можно сделать вывод о том, что для определения ретестовой надежности важно выбирать такой интервал между первым и повторным тестированием, чтобы измеряемый показатель за это время не претерпевал естественных изменений, но при этом данный интервал был достаточным, чтобы испытуемый забыл свои ответы на первое тестирование.

Сопоставление результатов первичного и повторного тестирования производится с помощью различных коэффициентов корреляций (Пирсона, Спирмена, Кендалла и др.) При оценке надежности теста оценка значимости коэффициента корреляции основывается на иной логике, чем это обычно делается при проверке нулевой гипотезы – о равенстве корреляции нулю. В данном случае существеннее близость показателя к единице, а не отдаленность от нуля. Обычно в тестологической практике редко удается достичь коэффициентов корреляции, превышающих 0,7 - 0,8. Показатели ретестовой надежности равные 0,8 и выше считаются хорошими.

Важно заметить, что требование ретестовой надежности является корректным лишь по отношению к таким психическим характеристикам индивидов, которые сами являются устойчивыми во времени. Если мы строим тест для измерения эмоциональных состояний, то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Надежность – согласованность как разновидность надежности независима от устойчивости, и имеет свою особую содержательную и операциональную природу. П. Клайн утверждает, что чем выше надежность по внутренней согласованности, тем меньше погрешность в измерениях, тем ближе значение показателей по тесту к истинному показателю (П. Клайн, 1994). На основе этого очевидно, что одной из важнейших задач разработчиков тестов должно быть достижение высоких значений показателей надежности по внутренней согласованности.

Простейший способ определения данного показателя надежности заключается в расщеплении теста на две равноценные половины. При таком способе каждый испытуемый получает два показателя благодаря разделению теста на две эквивалентные части. Полученные показатели по двум частям теста коррелируются обычным образом. Хорошими считаются показатели равные 0,8 и выше. В настоящее время существуют и другие способы определения внутренней согласованности теста (например, коэффициент надежности Кьюдера - Ричардсона как среднее значение коэффициентов надежности частей теста, вычисляемых для всех возможных разбиений теста надвое).

Еще один вид надежности – это надежность параллельных форм теста, то есть характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста, предъявляемых одной и той же группе испытуемых. Параллельная форма теста – это вариант теста, близкий его основной форме по критериям валидности, надежности и другим характеристикам, и способный его заменить. Наличие параллельных форм теста может быть полезно в практических целях. Так, А. Анастази полагает, что они могут помочь при проведении повторных исследований и при изучении влияния некоторых промежуточных экспериментальных факторов на выполнение теста (А. Анастази, С. Урбина, 2002). Использование нескольких взаимозаменяемых форм служит, кроме того, средством уменьшения возможности натаскивания в выполнении тестов и обмана.

Валидность теста

Выделяют несколько видов валидности, остановимся на их характеристике.

Очевидная (внешняя) валидность. Говорят о том, что тест является очевидно валидным, если о нем складывается впечатление, что он измеряет именно то, что подразумевается, особенно с точки зрения испытуемых. Очевидная валидность не имеет отношения к истинной валидности теста, и важна лишь потому, что взрослые испытуемые не включаются в работу с тестами, которым не достает внешней валидности, порой полагая их глупыми и даже оскорбительными. Дети, привыкшие к школьным проверкам, не так чувствительны к внешней валидности теста. Таким образом, очевидная валидность лишь помогает добиться сотрудничества с испытуемыми.

Если по какой-то причине тест должен быть очевидно валидным, достаточно просто спросить у испытуемых, принимающих участие в процедуре оценки и отбора заданий теста, представляется ли он хорошим инструментом для измерения данной переменной или нет.

Конкурентная валидность. Она оценивается по корреля

 

 

ции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн утверждает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных (П. Клайн, 1994). Действительно, если существует другой валидный тест, достаточно эффективный, чтобы он мог использоваться, то новый тест, который предстоит валидизировать, в какой-то степени оказывается ненужным. Такая работа имеет смысл лишь в том случае, если новый тест будет обладать некоторой значимой характеристикой, не присущей другим валидным тестам (краткость, простота использования, удобство обработки и др.).

Текущая и прогностическая валидность. Валидность теста может быть установлена через предсказание критерия в том случае, если необходимо показать, что по тесту возможно прогнозировать выполнение индивидуумом точно определенной деятельности. Иногда эти два вида валидности относят к критериальной. Измерение критерия, относительно которого устанавливается валидность тестовых показателей, может производиться почти одновременно с ними или же через определенный промежуток времени. В зависимости от временных отношений между критерием и тестом различают текущую и прогностическую валидности (А. Анастази, С. Урбина, 2002).

Логическое различие между текущей и прогностической валидностью все же основано не на времени, а на цели тестирования. Текущая валидность определяется тогда, когда необходимо диагностика существующего положения дел, а не для предсказания будущих результатов. Прогностическая валидность – это информация о тесте, характеризующая степень точности и обоснованности суждения о диагностируемом психологическом качестве по его результату спустя определенное время после измерения, причем чем лучше тест, тем точнее он может прогнозировать критерий.

Как текущая, так и прогностическая валидность всегда измеряются с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений – баллов по тесту и показателей внешнего параметра, избранного в качестве критерия валидности.

П. Клайн придает особую значимость именно прогностической валидности теста, так, по его мнению, многие специалисты по психометрике именно ее рассматривают как наиболее убедительное подтверждение эффективности теста. П. Клайн говорит, что для определения прогностической валидности изучаются корреляции теста с некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Так, например, прогностическая валидность теста интеллекта может быть определена корреляцией между результатами теста в 11 лет и успеваемостью школьника в 16 лет, а то и в институте или в аспирантуре (П. Клайн, 1994).

П. Клайн обращает внимание на то, что основной трудностью при такой валидизации теста является выбор внешнего критерия. Он полагает, что в случае тестов интеллекта разумнее использовать успехи в обучении. Но очевидно, что помимо интеллекта существуют и другие переменные, которые могут повлиять на успешность обучения. Причем возможно, интеллект – наиболее простая переменная, для которой можно определить прогностическую валидность. Есть переменные, для которых определение прогностической валидности будет крайне затруднительным (нейротизм, тревожность, «сила Я» и др.) (П. Клайн, 1994).

Инкрементная валидность. Она имеет ограниченное значение и относится к случаям, когда один тест из батареи может иметь низкую корреляцию с критерием, но не перекрывается другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью для отбора в соответствии с данным критерием. Это может быть полезным в психологических испытаниях при профотборе.

Дифференциальная валидность имеет ограниченное значение, но может быть полезным показателем эффективности теста в процедурах отбора. Она может быть хорошо проиллюстрирована на примере тестов интересов. Эти тесты могут умеренно коррелировать с общей университетской успеваемостью, но корреляции для разных дисциплин могут существенно отличаться. Таким образом можно говорить, что эти тесты обладают дифференциальной валидностью для академической успеваемости. В противоположность дифференциальной валидностью тесты общего интеллекта имеют высокие корреляции с принятыми в университете учеными степенями, но не могут дифференцировать по отдельным дисциплинам.

Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Многие психологи обращают внимание на то, что данный вид валидности определяется для тестов, предназначенных для измерения того, насколько человек овладел конкретными навыками или учебными предметами. При этом высказывается мнение, что применение методов содержательной валидизации теста может быть расширено. А. Анастази обращает внимание на то, что определение содержательной валидности не так просто как кажется на первый взгляд. С ее точки зрения тестируемая область поведения сначала должна быть подвергнута систематическому анализу, с тем, чтобы существовала уверенность в полном и пропорциональном охвате ее главных аспектов заданиями теста. Поэтому рассматриваемую предметную область следует описать заранее и как можно полнее. Так, правильно построенные образовательные тесты должны охватывать цели обучения, а не только его конкретные темы (А. Анастази,С. Урбина, 2002).

Для практического определения содержательной валидности подбираются эксперты, которые указывают, какая область поведения наиболее важна, а затем исходя из этого генерируются задания, которые вновь оценивают эксперты.

Конструктная валидность демонстрируется полным, насколько это возможным описанием переменной, для измерения которой предназначается тест. Термин «конструктная валидность» был официально введен в лексикон психометристов в 1954 году, ознаменованном выходом в свет «Технических рекомендаций для психологических тестов и диагностических методик» (По А. Анастази, С. Урбина, 2002). Первое подробное описание конструктной валидности появилось в следующем году в статье Кронбаха и Мила. Развернувшиеся вокруг данного понятия дискуссии привлекли внимание к роли психологической теории в конструировании тестов и к необходимости формулировать гипотезы, которые можно было бы подтвердить или опровергнуть в процессе валидизации теста. Понятие конструктной валидности стимулировало также к поиску новых способов сбора данных о валидности.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2021-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: