Метрологические требования к тестам

Метрологические требования к тестам определяют их качество. В число этих требований входят стандартность методики тестирования, надежность и информативность тестов.

Стандартность методики тестирования подразумевает одинаковую процедуру и условия тестирования во всех случаях применения теста (одна и та же последовательность действий, инвентарь, измерительные приборы и т. д.).

Надежность (воспроизводимость) теста – это степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях. Однако полное совпадение результатов практически невозможно из-за случайных изменений состояния испытуемых в процессе тестирования (врабатывания, утомления и т. д.), неконтролируемых изменений внешних условий (температуры, влажности и т. д.), нестабильности характеристик технических средств измерений, изменения состояния экспериментатора и, наконец, несовершенства самого теста.

Составляющими надежности тестов являются их стабильность, согласованность и эквивалентность.

Стабильность теста характеризуется воспроизводимостью результатов тестирования при его повторении через определенное время в одинаковых условиях. Стабильность зависит от вида теста, контингента испытуемых, временнóго интервала. Например, стабильность измерения функциональных показателей (веса, объема легких и т. п.) при небольших временны΄х интервалах выше, чем у тестов на точность движений (бросков в цель). У взрослых тесты более стабильны, чем у детей; у спортсменов – более стабильны, чем у не занимающихся спортом. С увеличением временнóго интервала стабильность снижается.

Согласованность теста означает независимость результатов тестирования от личных качеств лица, проводящего тест (экспериментатора, судьи, эксперта). Лицо, проводящее тест, может только оценивать его результаты, не влияя (например, в гимнастике, боксе, при ручном хронометраже в легкой атлетике) или влияя на них (в случае высокой требовательности экспериментатора, лучшей мотивации). Совпадение результатов свидетельствует о более высокой степени согласованности теста. Особое значение согласованность имеет при измерении качественных показателей (в квалиметрии).

Эквивалентность тестов – это возможность измерения одного и того же физического качества или стороны подготовленности спортсмена с помощью нескольких тестов. Например, силовую выносливость можно оценить по числу подтягиваний на перекладине, отжиманий в упоре лежа, количеству подъемов штанги в положении лежа на спине и т. д. Если результаты оценок совпадают, то это свидетельствует об эквивалентности тестов. Комплекс, составленный из эквивалентных тестов, является гомогенным, а из неэквивалентных – гетерогенным. Однако следует учитывать, что не существует универсальных гомогенных или гетерогенных комплексов. Так, для недостаточно подготовленных людей комплекс, в который входят бег на 100 и 800 м, прыжок в длину с места, подтягивание на перекладине будет гомогенным, а для спортсменов высокой квалификации – гетерогенным.

Степень надежности теста можно установить с помощью дисперсионного анализа и расчета внутриклассового коэффициента корреляции (коэффициента надежности r) между показателями, собранными на аналогичных группах или несколькими экспериментаторами. В большинстве случаев в спорте имеет место представленная в таблице 1 градация надежности тестов.

Таблица 1. Надежность тестов

Надежность	r
Отличная	0,95 и более
Хорошая	0,90 – 0,94
Средняя	0,80 – 0,89
Приемлемая	0,70 – 0,79
Низкая	0,60 – 0,69

Надежность тестов может быть до определенной степени повышена следующими способами:

более строгой стандартизацией тестирования;
увеличением числа попыток;
увеличением числа экспертов;
увеличением числа эквивалентных тестов;
лучшей мотивацией испытуемых;
выбором технических средств, обеспечивающих заданную точность измерений в процессе тестирования.

При определении надежности тестов необходимо учитывать возможность такого явления, как тренд. Тренд – это систематическое повышение или понижение результатов тестирования от попытки к попытке. Причинами тренда являются, с одной стороны, адаптация (привыкание), а, с другой – утомление.

Информативность, или валидность, теста (англ. validity – обоснованность) – это степень точности, с которой он измеряет свойство, для оценки которого используется. Например, такой тест, как кистевая динамометрия, будет явно информативен для оценки специальной силовой подготовленности борцов и неинформативен для оценки этого же качества у бегунов-спринтеров.

Информативность подразделяют на диагностическую и прогностическую, содержательную и эмпирическую.

Диагностическая информативность характеризует тест, который используется для определения состояния спортсмена в момент наблюдения.

Прогностическая информативность характеризует тест, который используется для определения возможных будущих показателей спортсмена. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Содержательная (логическая) информативность основана на качественном содержательном анализе ситуации. Она определяется посредством логического сопоставления физиологических, биомеханических, психологических и других характеристик теста и факторов, от которых, прежде всего, зависит эффективность основного двигательного действия. Например, необходимо подобрать тест для оценки подготовленности квалифицированных бегунов на 400 м. Известно, что фактором, от которого приблизительно на 70% зависит эффективность бега на 400 м, то есть спортивный результат, является совершенство анаэробного механизма энергообеспечения. Следовательно, наиболее эффективными будут тесты, позволяющие выявить уровень анаэробных возможностей спортсмена: бег на отрезках 200 – 300 м с максимальной скоростью, прыжки с ноги на ногу в максимальном темпе на отрезках 100 – 200 м и т. п.

Логический метод определения информативности тестов является зачастую единственным для тех видов спорта, результаты в которых не могут быть выражены напрямую в метрических единицах (гимнастика, спортивные игры и т. д.).

Эмпирическая информативность (греч. эмпейриа – опыт) основана на количественном сравнении результата теста с эффективностью основного двигательного действия. В качестве критерия эффективности двигательного действия обычно используются:

результат в соревновательном упражнении;
какая-либо количественная характеристика наиболее значимых элементов соревновательного упражнения (длительность фазы опоры в беге, силы отталкивания в прыжках, процент точных передач в футболе т. п.);
результаты тестов, информативность которых для спортсменов данной квалификации была установлена ранее;
квалификация спортсменов (принадлежность к группе мастеров спорта служит критерием для спортсменов низших разрядов).

Если для сравнения выбран единичный критерий эффективности двигательного действия (например, для лыжников-гонщиков – длина шага при подъеме крутизной 7 град, так как именно она более других связана с результатами на соревнованиях), то для определения информативности теста рассчитывается коэффициент корреляции (коэффициент информативности) между критерием и результатом теста. Наибольшие коэффициенты корреляции будут указывать на высокую информативность тестов.

Если единичный критерий для сравнения результатов теста отсутствует (например, силовую подготовленность студентов можно оценить с помощью таких тестов, как отжимание в упоре на брусьях, подтягивание на перекладине, приседание со штангой, тяга штанги и т. п., но не ясно, какой критерий выбрать для определения их эффективности), то используется так называемый факторный анализ – один из методов математической статистики. Он позволяет, во-первых, сгруппировать тесты, имеющие общую качественную основу, то есть в которых результаты обусловлены одними и теми же факторами (например, силой мышц верхних конечностей), и, во-вторых, определить их удельный вес в этой группе. Тесты с наибольшим факторным весом считаются самыми информативными.

Определяя эмпирическую информативность, следует иметь в виду, что она неодинакова в разных по составу группах и сильно зависит от надежности теста. Тест с низкой надежностью всегда мало информативен. Информативность батареи тестов выше информативности одного теста.

Содержательный и эмпирический анализы информативности взаимосвязаны. Содержательный анализ всегда должен предшествовать эмпирическому. Заведомо неинформативные тесты нет смысла подвергать эмпирическому анализу.

Метрологические требования к тестам

Поиск по сайту