Стабильность, согласованность и эквивалентность тестов

Основные понятия и требования к тестам

В результате занятий ФКиС происходят изменения в организме человека, которые необходимо контролировать. Измерение, которое проводится с целью оценки состояния человека или его способностей называется тестом. Термин в переводе с английского означает «проба» или «испытание».

Не всякое измерение может являться тестом, а только то, которое отвечает специальным требованиям:

1) стандартность процедуры тестирования — должны соблюдаться одинаковые условия и правила во всех случаях использования теста;

2) надежность и информативностьтеста; 3) наличие системы оценок.

Если тест является надежным и информативным он называется добротным, или аутентичным (греч. authentikos — достоверный).

Процедура выполнения теста называется тестированием; полученное в итоге числовое значение — результатом теста. Например, бег 100 м — это тест, процедура проведения забегов и хронометража — тестирование, время забега — результат теста.

Тесты, в основе которых лежат двигательные задания, называют двигательными, или моторными. Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т.п.), либо физиологические и биохимические показатели.

Группа тестов, преследующая единую конечную цель называется батареей тестов, например, оценка состояния спортсмена в соревновательном периоде тренировки.

Проводя тест, необходимо продумывать процедуру тестирования, оговаривать все условия проведения тестов и строго их соблюдать при повторном тестировании.

Характеристика надежности тестов

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.

Один и тот же тест, примененный к одним и тем же испытуемым, должен давать в равных условиях совпадение результатов (если только не изменились сами испытуемые). Однако при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Например, спортсмен, только что прыгнувший в длину с места на 260 см, в следующем прыжке показывает лишь 255 см.

Причины, вызывающие вариацию:

1) изменение состояния испытуемых (утомление, врабатывание, изменение мотивации, концентрации внимания и т.п.);

2) неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.) — все то, что объединяется термином «случайная ошибка измерения»;

3) изменение состояния человека, проводящего или оценивающего тест и, конечно, замена одного экспериментатора другим;

4) несовершенство теста (есть такие тесты, которые заведомо малонадежные), например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках.

Стабильность, согласованность и эквивалентность тестов

Говоря о надежности тестов, необходимо различать их стабильность, согласованность и эквивалентность.

Стабильность тестов — это такая разновидность надежности, которая проявляется в степени совпадения результатов тестирования, когда первое и последующие измерения разделены определенным временным интервалом. Повторное тестирование обычно называют ретестом.

Высокая стабильность теста свидетельствует о сохранении приобретенного в ходе тренировок технико-тактического мастерства, двигательных и психических качеств. Стабильность теста прежде всего зависит от содержания тренировочного процесса: при исключении (или уменьшении), например, силовых упражнений результаты ретеста, как правило, уменьшаются. Кроме того, на стабильность влияют также: сложность теста и длительность временного интервала между тестом и ретестом. Для количественной оценки стабильности используется дисперсионный анализ по той же схеме, что и в случае расчета обычной надежности.

Согласованность тестов характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест. Если результаты спортсменов в тесте, который проводят разные специалисты (эксперты, судьи, оценщики), совпадают, то это свидетельствует о высокой степени согласованности теста. Это свойство теста зависит от совпадения методик тестирования у разных специалистов.

Когда создается новый тест, нужно обязательно проверить его на согласованность. Делается это так: разрабатывается унифицированная методика проведения теста, а потом два или более специалиста по очереди в стандартных условиях тестируют одних и тех же спортсменов.

В случае инструментальной регистрации (например, времени бега на 30 м с помощью фотоэлектронных устройств) не должно быть несовпадения результатов у разных специалистов. Но на самом деле такое бывает, и вовсе не потому, что один специалист хорошо владеет навыками измерений, а другой плохо (такая ситуация вообще недопустима). Некоторые экспериментаторы более требовательны, умеют лучше мотивировать спортсменов, и это сказывается на результатах. Вот этот вклад «личностных» качеств специалиста в результат теста и оценивается по коэффициенту согласованности. Он также рассчитывается с помощью дисперсионного анализа.

В случае качественной оценки результатов теста (особенно если тест — сложнокоординационное упражнение) отклонения их значений могут быть большими. Причина — невозможность строго стандартизировать процедуру оценки, разные возможности восприятия качественных особенностей движения у специалистов.

Эквивалентность тестов. Одно и то же двигательное качество (способность, сторону подготовленности) можно измерить с помощью нескольких тестов, которые называются эквивалентными. Например, максимальную скорость — по результатам пробегания с ходу отрезков в 10, 20 или 30 м, силовую выносливость — по числу подтягиваний на перекладине, отжиманий в упоре лежа, количеству подъемов штанги в положении лежа на спине.

Эквивалентность тестов определяется следующим образом: спортсмены выполняют одну разновидность теста и затем, после небольшого отдыха, вторую и т.д. Если результаты оценок совпадают (например, лучшие в подтягивании оказываются лучшими и в отжимании), то это свидетельствует об эквивалентности тестов. Коэффициент эквивалентности определяется с помощью корреляционного или дисперсионного анализа.

Гомогенным называется комплекс из нескольких эквивалентных тестов. С их помощью можно дать оценку изучаемому свойству или качеству спортсмена. Например, комплекс, состоящий из прыжков с места, в длину, вверх будет гомогенным. Если нужно провести углубленное и быстрое обследование, то лучше применить гомогенный комплекс.

Во всех остальных случаях целесообразнее использовать гетерогенные комплексы: они состоят из неэквивалентных тестов. Например, гетерогенной батареей тестов будет подтягивание на перекладине, бег на 100 м и 1500 м, прыжки на скакалке и т.д.

Не существует универсальных гомогенных или гетерогенных комплексов.

Пути повышения надежности:

1. Более строгая стандартизация тестирования.

2. Увеличение числа попыток.

3. Увеличение числа экспертов и повышение согласованности их мнений.

4. Увеличение числа эквивалентных тестов.

5. Лучшая мотивация испытуемых.

Информативность теста

Информативность теста — это степень точности, с какой он измеряет свойство (качество, способность, характеристику и т.п.), для оценки которого используется. Информативность нередко называют валидностью (от англ. validity — обоснованность, действительность, законность).

Если говорить об оценке подготовленности спортсменов, то наиболее информативным показателем является результат в соревновательном упражнении. Он зависит от большего количества факторов, и один и тот же результат в соревновательном упражнении могут показывать люди, заметно отличающиеся друг от друга по структуре подготовленности. Например, спортсмен с отличной техникой плавания и относительно невысокой физической работоспособностью и спортсмен со средней техникой, но с высокой работоспособностью будут соревноваться одинаково успешно (при прочих равных условиях).

Для выявления ведущих факторов, от которых зависит результат в соревновательном упражнении, используются информативные тесты. Различают два вида информативности: логический (содержательный) и эмпирический(опытный).

Логический вид информативности чаще всего используется в видах спорта, где нет четкого количественного критерия. Он содержит качественную оценку результатов теста и определяется при помощи логических рассуждений. Например, в спортивных играх логический анализ фрагментов игры позволяет сначала сконструировать специфический тест, а затем проверить его информативность.

Эмпирический вид информативности позволяет сравнить результаты теста с некоторыми критериями. В качестве критерия могут быть выбраны:

1) спортивный результат, ранг спортсмена в команде;

2) количественная оценка спортивного упражнения (например, сила отталкивания в прыжках, процент точных передач в футболе и т.д.);

3) результаты другого теста, информативность которого доказана;

4) принадлежность к определенной группе. Например, можно сравнивать мастеров спорта и спортсменов низших разрядов; принадлежность к одной из этих групп является критерием;

5) составной критерий — сумма очков, набранная при выполнении комплекса тестов (в многоборье).

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена — о прогностической информативности. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Дополнительный материал

ТЕОРИЯ ТЕСТОВ

• Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом.

• Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичными (греч. аутентико — достоверным образом).

• Процесс испытаний называется тестированием; полученное в итоге измерения числовое значение — результатом тестирования (или результатом теста)

Тесты - это измерения, которые отвечают специальным требованиям. К ним относятся:

1) стандартизованность (процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста);

2) надежность;

3) информативность;

4) наличие системы оценок.

Тесты, в основе которых лежат двигательные задания, называют двигательными или моторными.

Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т.п.), либо физиологические и биохимические показатели.

В отдельных случаях используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа тестов называется комплексом или батареей тестов Тестирование (от англ. тест — проба, испытание, исследование) — это способ измерения свойств

(психофизиологических, физических и т.д.), которые не имеют числового выражения. Это означает, что тестируемые свойства измеряются косвенным путем.

Способности человека, его творческий потенциал, психические особенности, моральные качества, тренированность, специальная работоспособность и многие другие качества непосредственного измерения не имеют. В всех перечисленных случаях для оценки подобных свойств пользуются тестами.

• В практике физической культуры и спорта тестирование используется для контроля за состоянием спортсмена, т. е. производится систематическая оценка уровня тренированности испытуемого.

В физической культуре и спорте применяются два вида тестирования:

1) тестирование детей, где оценивается уровень их физической подготовленности, и

2) тестирование спортсменов при отборе на какой-либо вид спортивной деятельности.

А также тестируются различные немоторные свойства: быстрота переработки информации, способности к комбинации тактических приемов, вариации техники и т.д.

Существует два принципиально разных подхода к тестированию, как к научному методу.

Эти подходы называют европейским и американским тестированиями.

ЕВРОПЕЙСКОЕ ТЕСТИРОВАНИЕ

Идея тестирования состоит в том, что личный показатель испытуемого сравнивается с некоторым обобщенным показателем большинства лиц аналогичной категории.

При сравнении осуществляется оценка свойств испытуемого и с этой целью введены понятия тестов скорости и мощности.

Тест скорости предполагает работу с обычным тестом в ограниченное время.

Тест мощности регулирует сложность тестовых заданий.

Самым известным способом современного европейского тестирования является создание иерархии испытуемых в соответствии с формулой

где rv — качественный показатель места испытуемого в иерархии всех испытуемых; R — порядковое место испытуемого при выполнении теста;

N — количество

Европейское тестирование, создающее и уточняющее иерархию испытуемых, пригодно для интеллектуальных и для моторных (двигательных) тестов.

АМЕРИКАНСКОЕ ТЕСТИРОВАНИЕ

Аутентичность (добротность) — способность теста точно и надежно измерять изучаемое свойство.

От теста как от инструмента измерения свойств личности требуется точность и надежность измерений.

Под точностью следует понимать измерение именно того свойства, которое подлежит оценке. В такой ситуации нужно измерить одно, вполне определенное свойство.

Под надежностью измерений следует понимать такую особенность теста, которая гарантировала бы независимо от срока давности проведения тестирования и от пользователя один и тот же результат.

Надежность и точность теста являются основой американского тестирования.

• Информативность (идентично понятию «валидность» — цена) — способность теста изучать, оценивать именно данное свойство, а не какоелибо иное.

• Надежность — способность теста измерять изучаемое свойство.

• Стабильность — способность теста показывать практически один и тот же результат по истечении некоторого времени в равных условиях: первичный тест — это тест, повторный — это ретест.

• Согласованность — способность теста показывать практически один и тот же результат при осуществлении тестирования разными лицами.

• Эквивалентность — способность теста показывать практически один и тот же результат при использовании нескольких тестовых заданий.

Создание, или доказательство, аутентичности предполагает доказательство всех элементов аутентичности: информативности и надежности.

Основное доказательство аутентичности теста осуществляется посредством коэффициента корреляции Бравэ — Пирсона.

Информативность теста подтверждается следующим образом:

определяется некоторый численный показатель

или выбирается другой тест, проверенный на информативность (критерий информативности);

между критерием информативности и

предполагаемым тестом рассчитывается коэффициент корреляции;

если этот коэффициент окажется высоким (как правило, не ниже 0,8), то проверяемый тест следует считать информативным.

ВЫПОЛНИТЕ ЗАДАНИЕ № 2

Стабильность, согласованность и эквивалентность тестов

Поиск по сайту