Опыт создания теста. Проблемы и решения

В СССР работа по разработке тестов началась в 1926 г. К ней были привлечены крупнейшие советские психологи и педагоги. Работа успешно продолжалась вплоть до 1936 г., когда в постановлении ЦК ВКП (б) «О педологических извращениях в системе Наркомпросов» было указано на ошибки в использовании тестов, которые к тому времени вводились в школы страны. После постановления все исследования и практические работы по тестированию были раз и навсегда свернуты.

Интерес к тестам вновь возник в нашей стране в 60-70-е годы. Однако в последние годы проблемы тестирования находятся в центре внимания научной и педагогической общественности. Сложилась даже некая мода на использование тестов и тестовых заданий в различных областях жизни: при приеме на работу, при поступлении детей в школу и даже детский сад и т.д. Это свое второе рождение в России тесты переживают исключительно благодаря Западу, откуда они пришли и на сей раз.

Проблема конструирования языковых тестов

В условиях повального увлечения тестами многие забывают о том, что создание теста – длительный, четко регламентируемый процесс, доступный хорошо подготовленным специалистам. К сожалению, сам термин «тест» иногда употребляется слишком широко – как синоним понятий «контроль», «контрольные задания». Возможно, плохую службу здесь сослужил буквальный перевод англ. test ‘пробное задание, исследование, испытание’.

Всякий тест должен отвечать определенным требованиям. Существует ряд строгих технологических правил составления тестовых заданий, благодаря чему последние резко отличаются от традиционных контрольных упражнений.

Во-первых, эти задания должны быть содержательно валидны, т.е. измерять уровень развития именно тех знаний, для измерения которых соответствующий тест предназначался. Валидность выражается, в частности, в способности тестового контроля отличить более подготовленных учащихся от менее подготовленных. Если нас интересует именностепень владения языком, то тест не должен давать преимущество учащимся, например, с более развитым мышлением, воображением, памятью и т.п.; он не должен также давать преимущество учащимся определенного эмоционального склада (например, более коммуникабельным, раскованным, уверенным в себе и т.п.).

Во-вторых, тест должен быть надежным, т.е. следует убедиться в том, что получаемые в нем результаты не случайны (например, они воспроизводимы при повторном тестировании). Следует убедиться и в том, что учащийся получает примерно одну и ту же сумму баллов по результатам выполнения разных вариантов одного и того же теста или двух его равных частей.

В-третьих, тест должен быть достаточно практичным, т.е. требовать минимальных затрат времени на его проведение и позволять учителю оперативно применять его в классе в рамках обычного учебного процесса, не привлекая при этом дополнительные силы и специальное оборудование.

Не ставя себе целью подробно излагать теорию составления тестов, перечислим основные этапы построения языкового теста, чтобы убедить читателя в том, насколько непрост этот путь.

1 Формулировка цели. В нашем случае составители должны сформулировать, что они хотят от теста. Например, ставится задача измерить степень усвоения определенного грамматического материала, или степень владения лексикой, пройденной за год, или, для целей ЕГЭ – степень усвоения школьной программы.

2 Идеология теста. Здесь, прежде всего, имеется в виду выбор процедуры, определение продолжительности теста, статистический аппарат, выбор вида количества заданий и т.д. Например, надо ли ограничиваться устной формой или сочетать ее с чтением текста и т.д. Самой распространенной формой является задание с множественным выбором ответов (multiple choice), когда тестируемый имеет возможность выбрать правильный ответ из нескольких предложенных вариантов. Однако не следует думать, что она является единственно возможной. Вот лишь некоторые другие варианты: перекрестный выбор (matching); альтернативный выбор (true / false); упорядочение (rearrangement); завершение (completion); замена / подстановка (substitution); трансформация или перефразирование; ответ на вопрос; перевод.

3 Определение знаний и умений, которые подлежат проверке в тесте. Очень ответственный этап. Следует установить список конкретных языковых навыков и умений, которые, собственно, и составят в сумме представление о степени владения языком. Сюда можно отнести способность говорения, включающую степень автоматизации произносительных навыков; достаточное мастерство в построении грамматических структур; точность и синонимическую вариативность способов выражения мысли и т.п. Сюда же может быть отнесено умение читать и понимать достаточно сложный текст. Для целей ЕГЭ может оказаться существенным проверка конкретных разделов школьной программы (например, знание определенного набора грамматических правил или лексико-тематических групп типа «Семья», «Экология», «Спорт»). Кто-то может еще посчитать важным умение переводить и т.д.

Одно время для оценки грамматических навыков широко использовались тесты, требующие грамматического анализа. Такие задания, как «указать часть речи», «дать определение грамматическому термину», «привести примеры на данное грамматическое явление», применялись, возможно, из-за того, что их часто выполняли в классе. Однако эффективность таких заданий вызывает большие сомнения. Во-первых, способность анализировать язык и способность им пользоваться – две совершенно разные вещи. Большая часть тех, кто хорошо говорит на языке, не умеют его правильно или полностью анализировать, а те, кто способен провести анализ, часто не способны хорошо изъясняться на нем. Во-вторых, в подобных заданиях проверяется не столько степень владения грамматическим явлением, сколько знание соответствующих терминов. Вообще чрезмерное увлечение терминологией грамматистов значительно усложняет процесс обучения учащихся и оценку их ответов. К счастью, сейчас грамматический анализ уже не имеет такого широкого применения

На этом же этапе полезно решить вопрос об относительной важности проверяемых умений, что, в свою очередь, поможет определить число заданий по каждому из них. При этом надо еще иметь в виду тот факт, что далеко не все виды речевой деятельности поддаются тестированию. Решения, принимаемые на данном этапе, должны быть плодом усилий опытных методистов, причем чаще всего они принимаются в ходе длительных обсуждений.

4 Составление (формулировка) тестовых заданий. Когда известно, в какой области и сколько заданий целесообразно включить в тест (предыдущий этап), можно приступить к созданию самих заданий.[2] Эта задача включает два одинаково важных шага.

1) Выбор аутентичных текстов (обычно берут оригинальные тексты для чтения или набор фраз для проверки грамматических знаний).

2) Конструирование набора возможных ответов, из которого испытуемый должен будет выбрать правильный. Существует ряд требований, предъявляемых к дистракторам (distractions, отвлекающие варианты), без выполнения которых выбор верного ответа станет слишком легким или, напротив, не допустимо трудным. Принципиально, чтобы количество заданий превышало необходимый объем, поскольку на последующих этапах некоторые задания могут быть отброшены как неудачные.

Существует ряд типичных содержательно-методических и языковых ошибок, допускаемых при составлении заданий. Приведем несколько примеров из реальных тестов, опубликованных в разных номерах журнала «Иностранные языки в школе».

1) Задание можно выполнить, опираясь но общую логику, а не на языковую компетенцию.

Примеры. а) В тексте излагается биография первой американской женщины-врача. Затем дается группа фраз, которые надо расположить в порядке разворачивания текста. Среди них есть фраза Elizabeth was born in 1821. Совершенно очевидно, что ее надо поставить на первое место: для этого достаточно знать значения глагола to be born, понимание всего текста совсем не обязательно. b) После прослушивания текста задается вопрос: «Что разрешается делать в автобусе?» и предлагается такой набор ответов: а) курить сигары; b) пить виски; с) курить трубку; d) курить сигареты (верно последнее). В предложенном наборе «пить виски» явно выпадает из серии и вряд ли будет выбранодаже в случае полногонепонимания прослушанного текста. Следовало сделать все 4 варианта со словом курить (четвертый вариант мог быть, скажем, курить папиросу). Если же противопоставлять «курить» и «пить», то следовало дать по два варианта на каждое действие (например, добавить пить пиво). Кстати, варианты (а) и (с) выглядят настолько экзотическими, что опять-таки трудно ожидать, что ученики будут их выбирать даже в случае полного непонимания текста.

2) Задание сформулировано весьма расплывчато, а ответ неоднозначен.

Пример: «Окончание -th является признаком: 1) существительного; 2) глагола 3) наречия; 4) числительного. Составитель теста имел в виду проверить знание правил образования порядковых числительных (sixth, tenth). Однако тестируемый может понять термин ‘окончание’ как «конечная часть слова» и, опираясь на примеры типа earth, tooth вполне обоснованно выберет в качестве верного ответа вариант (1).

3) Задание предполагает несколько правильных ответов, причем ученику не сообщается, сколько именно. Такого рода задание формулируется примерно так: «Отметь ответ(ы), который (ые) Вы считаете верным(и)». Подобный подход в корне противоречит принятым в тестологии правилам.

4) Задания формулируются без учета того факта, что им надо будет приписывать какие-то баллы. Можно подумать, что задания придумывают одни люди, а баллык ним приписывают другие, и первым совсем нет дела до вторых.

Пример: Ученикам предлагается расположить шесть фраз в порядке следования сюжетных событий. Решение предлагается оценивать по формуле 6 х 1= 6. Другими словами, подразумевается, что ученик совершает шесть неких действий, и за каждое правильно выполненное действие получает один балл. Но «действие» у тестируемого только одно: он должен написать последовательность из 6 цифр (допустим, правильная цепочка выглядит так: 3-4-1-6-2-5). Тогда возможны два исхода: верный (оценивается в 6 баллов) и любой другой (0 баллов). Такой подход противоречит самой сути тестирования. Система баллов на то и существует, чтобы различать уровни знаний. Одно дело, например, последовательность ученика А (3-4-1-6-5-2, где перепутан порядок двух последних фраз, и совсем другое ученика Б: 3-6-2-1-5-4, который мало общего имеет с истинным.

5) Составители тестов сильно переоценивают собственную языковую компетентность и не дают себе труда провести экспертизу своих языковых примеров. Достаточно сказать, что когда высококвалифицированного преподавателя английского языка попросили проверить один из тестов, предлагавшихся школьникам Центром тестирования, он нашел в одном из вариантов теста более 60 языковых ошибок! Ср.: a five years old child вместо a five-year-old child; the less number of students вместо the smaller number of students; to avoid relations with вместо to avoid contacts with; she failed to hide her emotions вместо she concealed her emotions и т.п.

Отметим еще и тот факт, что задания нередко апеллируют к цифровой памяти, а вовсе не к способности понимать текст.

Конечно, ошибки, даже мелкие, не желательны в любом случае. Однако ошибка в тесте, который претендует к тому же на роль основы ЕГЭ, недопустима вдвойне, ибо она провоцирует такие неприятные последствия, как апелляции тестируемых и их родителей. Урок для составителей тестов очевиден: необходимо проверять и перепроверять используемые материалы с привлечением опытных редакторов и грамотных носителей языка.

Есть еще и чисто технические соображения. Приведем примеры.

Неудачный вариант	Удачный вариант
Jane is. A a such fine girl C such fine a girl B such fine girl D such a fine girl	Jane is girl. A a such fine C such fine a B such fine D such a fine
В какой форме стоит глагол gone? 1. 2 3. это вообще не глагол 2. 3 4. 1	Назовите форму глагола gone. 1. вторая 3. четвертая 2. третья 4. первая
Описание логической структуры называется. 1. схема …	Описание логической структуры называется. 1. схемой …

Примечания. В первом примере следует избегать повторяющихся слов. Во втором примере явно выпадает вариант 3, это плохой дистрактор. Порядковые числительные лучше давать словами. Вообще здесь более уместно открытая форма заданий, без задания готовых вариантов ответа.

Существует и ряд других типичных ошибок: включение в состав вариантов для выбора выражений типа и то, и другое; любой; оба; апелляция к цифровой памяти, а не к способности понимать текст и т.д.

5 Предварительная проверка тестовых заданий. Сконструированные задания предъявляются большой группе испытуемых, в том числе эталонных (для тестов по иностранному языку – это те, для кого он родной или, по крайней мере, те, кто его хорошо знает – например, студенты языкового вуза). Наличие множества ответов по каждому заданию позволяет решить ряд важных задач. Прежде всего, опробуется и уточняется процедура: инструкция, время работы и т.п. Далее оценивается степень пригодности заданий. Устраняются те из них, которые оказались слишком легкими (их верно выполнили подавляющее большинство участников) или, наоборот, слишком трудными (выполнены лишь отдельными испытуемыми). Оба типа заданий не дифференцируют учащихся и потому оказываются мало полезными. И, наконец, выявляются возможные ошибки – орфографические и методические. Бывает, что в тест вкрадываются ошибки (ср. примеры выше). Еще одна важная функция этого этапа – определение шкалы тестовых баллов по каждому заданию. Однако этот шаг мы выделим в отдельный этап.

6 Присвоение тестовых баллов. Обычно набор ответов на тестовые задания содержит один правильный и несколько неправильных вариантов ответа. В большинстве тестов правильный ответ оценивается в один балл, а все неправильные получают оценку «0». Эта система явно несовершенна. Во-первых, не все задания равны по трудности, а значит, некоторые верные ответы должны быть оценены выше других. Во-вторых, неверные варианты также отнюдь не равнозначны, и тогда далеко не все равно, какой именно из неправильных вариантов выбирается испытуемым. Выбор наиболее нелепых ответов должен «наказываться» более весомо. Наконец, требует своего решения и проблема «случайной угадки». Мы поговорим об этих проблемах более подробно в следующем разделе.

7 Принятие окончательного варианта. По результатам предыдущих этапов тест принимает свой окончательный вид, включая формулировку заданий и сопутствующий аппарат (подробная инструкция, бланк анкеты, ключ, описание процедуры подсчета тестовых баллов, а также инструкция для проведения теста в аудитории).

8 Предъявление готового теста в широкой аудитории. Тест дается большому числу испытуемых (в идеале это тысячи и десятки тысяч учащихся). Полученные результаты используются для оценки валидности и надежности теста. Как мы уже говорили, надежность можно оценить, например, исходя из того, насколько совпадают показатели, полученные у одних и тех же испытуемых при повторном тестировании. Валидность же можно проверить, определив, насколько хорошо дифференцирует тест лиц, которые заведомо хорошо (и заведомо плохо) владеют языком.

9 Стандартизация теста. При организации массового тестирования важнейшей проблемой, о которой очень часто забывают, является нормирование теста. Насколько «хороша» набранная тестируемым сумма баллов? Это можно сказать, только сравнив его результат с данными многих других испытуемых, прошедших тот же тест. В теории тестов на этот счет выработан четкие методические приемы.

Прежде всего, необходимо определить границы «нормы», относительно которой итоговый тестовый балл испытуемого может быть признан в той или иной степени успешным/неуспешным.

Сам термин «норма» уже указывает на нормальное, или среднее, выполнение заданий. Стандартизация осуществляется проведением теста на репрезентативной выборке испытуемых заданного уровня подготовки (например, учащихся 11 класса общеобразовательной школы). Относительно этой группы испытуемых и вырабатываются нормы, указывается не только средний уровень выполнения, но и его относительная вариативность выше и ниже среднего уровня. Благодаря этому можно оценить степень успешности/не успешности выступления в тесте и определить положение индивида относительно нормативной выборки (именно так устроены тесты типа TOEFL). Известные нам отечественные тесты в своем большинстве страдают именно отсутствием должной нормировки. Обычно вся шкала тестовых баллов совершенно произвольно делится на четыре категории, а учащимся соответственно выставляется одна из четырех оценок – «5», «4», «3» или «2».

Более подробно мы поговорим об этом в следующем разделе.

Опыт создания теста. Проблемы и решения

Попробуем вместе пройти весь тот путь, который был описан в предыдущем разделе и показать процесс создания конкретного теста, который может быть использован для практического применения при оценке знаний по английскому языку.[3]

Излагая процедуру создания теста, мы будем придерживаться той последовательности этапов создания теста, которая была представлена выше.

Этапы 1-3 (цель, идеология теста, определение умений и навыков, подлежащих проверке).

Тест предназначался для проверки навыков и умений по английскому языку у выпускников средних общеобразовательных школ. Предполагается, что он может быть в принципе использован как основной инструмент ЕГЭ по английскому языку.

Основной вид тестовых измерений – задания с множественным выбором. При этом использовались два типа заданий: вопросы с выбором правильного ответа (на каждый вопрос четыре варианта ответов) и множество фраз, каждая из которых может либо полностью соответствовать содержанию текста, либо ему противоречить, либо быть нейтральной (в тексте нет информации, позволяющей отнести ее к той или другой группе). В этом случае был выбор из трех вариантов.

При определении видов языковой деятельности, подлежащих тестовой оценке, необходимо было принять во внимание два обстоятельства.

Во-первых, надо было определить состав набора языковых навыков и речевых умений, определяющих понятие «владение языком». Рассматривая традиционные виды речевой деятельности (чтение, перевод, аудирование и т.д.), мы не могли не учесть, что многие из них не поддаются объективной оценке в тестовой форме. В этом смысле явно не подходящими для проверки в тесте оказываются, например, спонтанная устная речь или письменное сочинение. В результате для теста были отобраны два речевых умения (аудирование, чтение) и лексико-грамматические навыки.

Во-вторых, надо было установить удельный вес каждого из отобранных аспектов в общем объеме тестовых баллов.

Начнем с того, что при конструировании общей оценки естественно было исходить из шкалы баллов с максимально возможной суммой 100, что делает удобным, в частности, сравнение результатов с данными тестов по другим предметам. Устанавливая удельный вес каждому из трех аспектов, можно было принять решение «в лоб» – попросту уравнять все разделы, приписав каждому из них максимальную оценку в 33 балла. Однако на практике их важность представляется отнюдь не одинаковой. Как именно соотносятся по важности наши аспекты, можно выяснить, например, путем экспертного опроса. Этот вариант и был принят. Было опрошено 50 преподавателей английского языка и студентов-старшекурсников языкового вуза, которых напрямую спрашивали, какую долю итогового тестового балла они отвели бы каждому из трех перечисленных аспектов.

После усреднения мнений было получено следующее соотношение:

аудирование – 30 %;

чтение – 25 %;

лексико-грамматические навыки – 45 %.

Соответственно, из общей суммы в 100 баллов на долю грамматического раздела отведено 45 баллов, на аудирование – 30 и на чтение – 25 баллов.

Отдельную проблему процедуры составляла продолжительность работы с тестом. В литературе нет каких-либо научно обоснованных рекомендаций относительно времени работы над заданиями разных типов. Существует поразительный разнобой мнений на этот счет у разных составителей тестов. Кроме того, не решен пока и вопрос о том, какова должна быть максимально возможная продолжительность теста. Например, «Итоговый тест по английскому языку для выпускников школ», опубликованный в журнале Иностранные языки в школе, рассчитан на 3,5 астрономических часа, что на наш взгляд недопустимо много. Так, известный экзамен TOEFL рассчитан всего на два часа.

В ходе предварительного тестирования (см. ниже, этап 5) было выявлено, что конструируемый нами тест вполне реально сделать за два академических часа.

Этап 4 (подготовка тестовых заданий). Для каждого из трех аспектов необходимо было определить вид и количество тестовых заданий. Обязательным условием включения текста в тестовый набор была его аутентичность: тексты брались из оригинальных англо-американских источников (публицистика, художественная литература, учебные пособия). Только подобные материалы являются мерилом для установления подлинного владения языковыми умениями.

Умениеаудирования проверяется на достаточно простом лексико-грамматическом материале. Для успешного выполнения этой части теста достаточно иметь минимальную практику прослушивания аудиокассет хотя бы в объеме тех приложений, которые имеются в ряде учебников. Из устоявшейся практики длина текстов была определена следующим образом: монологические тексты 700 – 800 знаков, а диалогические – порядка 600 знаков. В обоих случаях звучание имеет продолжительность от 40 до 60 секунд. Для более или менее полного представления о степени умения понимать устную речь предъявлялись два монологических текстов и два диалога. Что касается заданий, то они были двух типов: вопросы с выбором правильного ответа (из четырех вариантов) и отнесение фраз к группам («верно», «неверно», «не известно») – выбор из трех вариантов.

Для тестирования навыков чтенияподбирались тексты длиной порядка 2 тыс. знаков, включающие до 5-10 % незнакомых слов. Применялись те же типы заданий, что и в случае с аудированием.

Для проверки лексико-грамматических навыков выбрана форма предложений с пропусками, для которых имеется по 4 варианта слов для вставки. Тест включает 40 фраз, охватывающих основные разделы школьного курса грамматики: употребление артикля, степени сравнения прилагательных, образование отрицания и вопросительных предложений, основные времена глагола (группы Indefinite, Continuous и Perfect), Passive Voice, правило согласования времен т т.д. Наряду с этим в тест были включены несколько примеров на словоупотребление (выбор между make-do; still-else; teach-study; work-job; speak-talk-tell и т.п.)и некоторые фразовые глаголы (типа look for, look after).

Для выявления продвинутых учащихся в тест включены несколько заданий повышенной трудности (по грамматике – этоPerfect Continuous, Subjunctive Mood; по лексике –Phrasal Verbsтипа get on и смысловое различение слов из синонимических рядов типа worry-bother-trouble и др.).

При подборе дистракторов были соблюдены соответствующие правила (не было заведомо бессмысленных ответов или ответов, неправильность которых на момент тестирования не может быть обоснована учащимися; не допускались ситуации, когда ответы на одни задания могли служить подсказкой для ответов на другие и т.д.).

Этап 5 (предварительная проверка тестовых заданий).

Главная цель предварительного тестирования – проверка качества тестовых заданий. Помимо традиционной технической правки (опечатки и т.п.), уточнения формулировок инструкций и окончательного определения времени работы с тестом, необходимо было определить содержательное качество самих заданий. Некоторые требовали уточнения в плане формулировки вопросов ивариантов ответа. А некоторые вообще следовало устранить. Так, исключались задания, которые правильно выполнялись в 90 %случаев и более. Они слишком легкие и не дифференцируют испытуемых должным образом. Так же неудачно задание, выполняемое очень малым числом тестируемых (оно слишком трудное). Обычно «хорошими» считаются те задания, которые правильно выполняются примерно половиной тестируемых. По этому параметру были отбракованы несколько текстов для чтения и аудирования, и скорректированы формулировки некоторых заданий к оставшимся текстам.

Индивидуальная оценка по тесту, естественно, основана на системе баллов, приписываемых отдельным заданиям. К описанию этой системы мы и переходим.

Этап 6 (присвоение тестовых баллов).

Как мы уже говорили выше, варианты ответов на тестовые задания содержат один правильный и несколько неправильных. Отметили мы и неприемлемость подхода, при котором за правильный ответ каждый раз ставится балл «1», а за неправильный – «0». Задания имеют разную степень трудности, а значит, некоторые верные ответы должны быть оценены выше других. Степень сложности задания можно оценить эмпирически, выяснив долю испытуемых, давших правильный ответ. Ясно, что если задание А правильно выполнили 70 % опрошенных, а задание В – только 15%, А значительно легче В и, следовательно, за верный ответ на задание А следует дать меньше баллов, чем за ответ в задании В.

Далее. Не все равно, какой именно из неправильных вариантов выбирается тестируемым. Некоторые дистракторы лишь незначительно отличаются от верного ответа, в то время, как другие вообще не имеют никакого смысла. Выбор бессмысленного варианта (например, в ситуации откровенного «угадывания») должен штрафоваться, и, во всяком случае, оцениваться не так, как выбор ответа, который не лишен определенной (хотя и ошибочной) логики.

Так или иначе, возникает необходимость в дифференцированной балльной оценке каждогоиз вариантов. Технически этого можно достичь разными способами. Опишем один их них. С этой целью приведем реальный пример выполнения заданий по разделу «Аудирование» (задания 1-4 по одному из текстов, на которые ответили 62 человека) и приведем всю последовательность действий в виде алгоритма.

На входемы имеем следующие данные:

1. Ответы на каждое задание ранжированы по степени близости к правильному: «верный ответ»; «ответ похуже», «еще хуже», «самый неудачный». Это ранжирование осуществлялось на основе оценок опытных преподавателей-экспертов.

2.Комплект индивидуальных протоколов испытуемых вида:

	Ученики	Задания
	И.	1	2	3	4
	П.	B	D	C	D
	С.	C	B	С	А
…	…
	М.	B	A	C	A

3.Итоговая матрица ответов по всем 62 испытуемым, где отмечено число выборов каждого варианта ответа. Приведем эту матрицу (табл. 1) и покажем, как она используется.

Сначала решается задача определения тестовых баллов для правильных ответов. Как мы и ожидали, задания оказались отнюдь не равнотрудными. Матрица это хорошо иллюстрирует: задание 3 оказывается значительно сложнее других (всего 18 человек из 62 сумели выбрать верный ответ). Соответственно, будет целесообразно присваивать правильным ответам разные баллы: чем более трудным является задание, тем более высокие баллы надо давать за его правильное решение.

Таблица 1.

Задания	Варианты ответов[4]	Именно такой подход имеется в виду, когда говорят о необходимости введения «взвешенных» баллов. Поскольку «вес» оценки, напрямую связан со степенью трудности задания, его естественнее всего определять по итоговой матрице данного текста.
A	B	C	D

Для каждого правильного варианта ответа вычислим долю от общего числа испытуемых (в %). Эта доля, собственно, и отражает степень трудности задания: чем она выше, тем легче оказалось задание для опрошенных учащихся. Для нашего примера эти данные выглядят так.

Задания	Доля правильных ответов (в %)	Теперь преобразуем долю правильных ответов в конкретные «взвешенные» баллы, которые как раз и отразят степень трудности заданий. Здесь без определенного субъективизма не обойтись. Предлагаемая ниже схема перехода (табл. 2) выглядит вполне разумной, но в принципе допустимы, конечно, и иные количественные решения.
Варианты ответов
A	B	C	D

Таблица 2

Вариант присвоения тестовых баллов

	Доля правильных ответов, в %
менее 10	10-19	20-39	40-49	50-64	65-80	81-90	более 90
Балл	*							*

Звездочкой помечены неудачные задания (слишком легкие или слишком трудные); они подлежит замене. Установленный по этой шкале балл и приписывается всем правильным ответам.

Перейдем к процедуре определения тестовых баллов для ошибочных ответов. Во-первых, оценки неверных ответов должны быть «соизмеримы» с оценкой правильного ответа на данное задание. Если правильный ответ имеет балл 7, то неправильный может быть оценен, скажем, 2 или 3 балла, но если правильный ответ получил оценку 2 балла, то для сохранения «дистанции» неправильные ответы должны получать отрицательные баллы. Какой должна быть дистанция между правильным и самым лучшим из неправильных ответов решить объективно трудно. Мы предложили считать эту дистанцию, равной трем-четырем баллам.

Во-вторых, решающим фактором является ранжирование ответов по степени серьезности ошибки (чем более «ошибочен» вариант ответа, тем меньше его балл). Указанное ранжирование задается на входе (1-ый ранг – правильный ответ; 2-ой ранг – «ответ чуть хуже верного», 3-ий ранг – «еще хуже», 4-ый ранг – «самый неудачный ответ»).

После соответствующих подстановок каждый неверный вариант ответа получает свой оценочный балл. Вместе с баллами для верных ответов система приписанных баллов принимает вид традиционного «проверочного ключа» – таблицы тестовых баллов, с помощью которой можно оценить работу испытуемого.

Приведем проверочный ключ для рассматриваемого примера.

Задание	Варианты ответа	Именно в таком виде и представлены ключи ко всем заданиям. Что касается вычисления индивидуального итогового балла, то подробная инструкция на этот счет дается в приложении к тесту.
A	B	C	D
		-1		-2
			-1	-2
		-1		-2
	-2	-1	-3

Этапы 7-8 (окончательный вариант теста и его реальное применение в широкой аудитории).

Окончательный вариант текстов и заданий к ним, инструкции и ключи к заданиям приводятся в упомянутой выше книге [Василевич 2005].

Определяя состав тестируемых, необходимо было, в частности, предусмотреть возможность оценить валидность заданий. Именно поэтому были привлечены группы испытуемых, которые представляли три заведомо разных уровня знаний: старшеклассники обычной средней школы (условно можно считать, что эта группа представляла низший уровень знаний); продвинутые ученики (учащиеся спецшкол или дети, интенсивно занимающиеся с частными преподавателями) и студенты языкового вуза. В случае хорошей валидности теста, его результаты должны четко дифференцировать эти три группы испытуемых. Кроме того, для контроля был проведен эксперимент по случайной угадке правильного ответа (большая группа ребят выбирала ответ, не знакомясь с текстом, наугад). К настоящему времени тест был опробован на аудитории, включающей более 200 учащихся. Этого, конечно, явно не достаточно, чтобы в полной мере оценить валидность и надежность создаваемого теста. Однако предварительные данные говорят о безусловной дифференциации выделенных групп – это сильный аргумент в пользу валидности теста.

Этап 9 (стандартизация теста).

О стандартизации имеет смысл говорить применительно к конкретной группе тестируемых, в том числе учитывая те результаты, которые были получены путем случайной угадки.

Для человека, который организует тест, очень важно различать две разных ситуации. Одно дело, когда тестируемый обладает недостаточным знанием, которое позволяет ему правильно выполнить, например, лишь треть заданий. И совсем другое дело, когда он вообще ничего не знает и отвечает наугад (имея хорошие шансы в результате набрать ту же треть верных ответов). Противники тестирования часто ссылаются на то, что при выборе ответа из множества заданных вариантов, испытуемый может указать на правильное решение чисто случайно. В самом деле, при наличии выбора ответов на задание и при относительно низкой степени владения языком у тестируемого появляется естественное желание попытаться «угадать» правильный ответ. Скажем прямо: при наличии всего трех-четырех вариантов шанс «попасть в точку» довольно велик и встает проблема случайного угадывания правильного ответа. Именно поэтому «не в моде» альтернативные вопросы, где выбор ответа ограничивается двумя возможностями (здесь шанс угадать катастрофически высок).

Данная проблема хорошо известна в теории вероятностей. Тесты, обеспеченные соответствующим математическим аппаратом обработки данных, обычно снабжаются «поправочными коэффициентами», которые основаны на чисто математических процедурах. Обычно эти процедуры связаны с механизмом порождения случайных чисел. Однако в реальной ситуации случайного выбора испытуемый вряд ли прибегает к помощи случайных чисел. Волей-неволей он выбирает некоторую стратегию, причем, возможно, арсенал этих стратегий ограничен, и тогда появляется шанс совпадения стратегии у разных испытуемых. Чтобы исследовать этот возможно существующий феномен стратегии, в ходе предварительного тестирования группе школьников был предложен «тест без текста». Другими словами, их просили заполнять бланки ответов в отсутствие самих заданий, произвольно вписывая варианты (А, В, С или D) в клетки бланка. В результате было собрано множество заполненных бланков, в чистом виде иллюстрирующих стратегию выполнения тестовых заданий наугад.

Моделирование ситуации случайного выбора в реальном тесте может существенно помочь при определении шкалы тестовых баллов и, в особенности, при решении проблемы стандартизации теста. Результаты эксперимента были учтены при осуществлении стандартизации теста.

Как мы уже говорили выше, мало определить итоговый тестовый балл. Надо еще «поставить оценку» учащемуся. Что можно сказать об уровне знаний ученика, набравшего, скажем, 77 баллов из 100?

Располагая данными по большой группе испытуемых (более 200 человек с разным уровнем владения языком), мы имеем возможность построить до

Опыт создания теста. Проблемы и решения

Поиск по сайту