Опыт создания теста. Проблемы и решения




В СССР работа по разработке тестов началась в 1926 г. К ней были привлечены крупнейшие советские психологи и педагоги. Работа успешно продолжалась вплоть до 1936 г., когда в постановлении ЦК ВКП (б) «О педологических извращениях в системе Наркомпросов» было указано на ошибки в использовании тестов, которые к тому времени вводились в школы страны. После постановления все исследования и практические работы по тестированию были раз и навсегда свернуты.

Интерес к тестам вновь возник в нашей стране в 60-70-е годы. Однако в последние годы проблемы тестирования находятся в центре внимания научной и педагогической общественности. Сложилась даже некая мода на использование тестов и тестовых заданий в различных областях жизни: при приеме на работу, при поступлении детей в школу и даже детский сад и т.д. Это свое второе рождение в России тесты переживают исключительно благодаря Западу, откуда они пришли и на сей раз.

Проблема конструирования языковых тестов

В условиях повального увлечения тестами многие забывают о том, что создание теста – длительный, четко регламентируе­мый процесс, доступный хорошо подготовленным специали­стам. К сожалению, сам термин «тест» иногда употребляется слишком широко – как синоним понятий «контроль», «кон­трольные задания». Возможно, плохую службу здесь сослужил буквальный перевод англ. test ‘пробное задание, исследование, испытание’.

Всякий тест должен отвечать определенным требованиям. Существует ряд строгих технологических правил составления тестовых заданий, благодаря чему последние резко отличаются от традиционных контрольных упражнений.

Во-первых, эти задания должны быть содержательно ва­лидны, т.е. измерять уровень развития именно тех знаний, для измерения которых соответствующий тест предназначался. Ва­лидность выражается, в частности, в способности тестового контроля отличить более подготовленных учащихся от менее подготовленных. Если нас интересует именностепень владения языком, то тест не должен давать преимущество учащимся, например, с более развитым мышлением, воображением, памя­тью и т.п.; он не должен также давать преимущество учащимся определенного эмоционального склада (например, более ком­муникабельным, раскованным, уверенным в себе и т.п.).

Во-вторых, тест должен быть надежным, т.е. следует убе­диться в том, что получаемые в нем результаты не случайны (например, они воспроизводимы при повторном тестировании). Следует убедиться и в том, что учащийся получает примерно одну и ту же сумму баллов по результатам выполнения разных вариантов одного и того же теста или двух его равных частей.

В-третьих, тест должен быть достаточно практичным, т.е. требовать минимальных затрат времени на его проведение и позволять учителю оперативно применять его в классе в рамках обычного учебного процесса, не привлекая при этом дополни­тельные силы и специальное оборудование.

Не ставя себе целью подробно излагать теорию составления тестов, перечислим основные этапы построения языкового теста, чтобы убедить читателя в том, насколько непрост этот путь.

1 Формулировка цели. В нашем случае составители должны сформулировать, что они хотят от теста. Например, ста­вится задача измерить степень усвоения определенного грамма­тического материала, или степень владения лексикой, пройден­ной за год, или, для целей ЕГЭ – степень усвоения школьной программы.

2 Идеология теста. Здесь, прежде всего, имеется в виду выбор процедуры, определение продолжительности теста, ста­тистический аппарат, выбор вида количества заданий и т.д. Например, надо ли ограничиваться устной формой или сочетать ее с чтением текста и т.д. Самой распространенной формой яв­ляется задание с множественным выбором ответов (multiple choice), когда тестируемый имеет возможность выбрать пра­вильный ответ из нескольких предложенных вариантов. Од­нако не следует думать, что она является единственно воз­можной. Вот лишь некоторые другие варианты: перекрестный выбор (matching); альтернативный выбор (true / false); упорядо­чение (rearrangement); завершение (completion); замена / под­становка (substitution); трансформация или перефразирование; ответ на вопрос; перевод.

3 Определение знаний и умений, которые подле­жат проверке в тесте. Очень ответственный этап. Следует установить список конкретных языковых навыков и умений, которые, собственно, и составят в сумме представление о сте­пени владения языком. Сюда можно отнести способность гово­рения, включающую степень автоматизации произноситель­ных навыков; достаточное мастерство в построении граммати­ческих структур; точность и синонимическую вариативность способов выражения мысли и т.п. Сюда же может быть отне­сено умение читать и понимать достаточно сложный текст. Для целей ЕГЭ может оказаться существенным проверка конкрет­ных разделов школьной программы (например, знание опреде­ленного набора грамматических правил или лексико-тематиче­ских групп типа «Семья», «Экология», «Спорт»). Кто-то может еще посчитать важным умение переводить и т.д.

Одно время для оценки грамматических навыков ши­роко использовались тесты, требующие грамматического анализа. Такие задания, как «указать часть речи», «дать определение грамматическому термину», «при­вести примеры на данное грамматическое явление», применя­лись, возможно, из-за того, что их часто выполняли в классе. Однако эффективность таких заданий вызывает большие сомнения. Во-первых, способность анализировать язык и способность им пользо­ваться – две со­вершенно разные вещи. Большая часть тех, кто хорошо говорит на языке, не умеют его правильно или полностью анализиро­вать, а те, кто способен про­вести анализ, часто не способны хорошо изъясняться на нем. Во-вторых, в подобных заданиях проверяется не столько степень владения грамматическим явле­нием, сколько знание соответствующих терминов. Вообще чрез­мерное увлечение терминологией грамматистов значи­тельно усложняет процесс обучения учащихся и оценку их от­ветов. К счастью, сейчас грамматический анализ уже не имеет такого широкого применения

На этом же этапе полезно решить вопрос об относительной важности проверяемых умений, что, в свою очередь, поможет определить число заданий по каждому из них. При этом надо еще иметь в виду тот факт, что далеко не все виды речевой дея­тельности поддаются тестированию. Решения, принимаемые на данном этапе, должны быть плодом усилий опытных методи­стов, причем чаще всего они принимаются в ходе длительных обсуждений.

4 Составление (формулировка) тестовых заданий. Когда известно, в какой области и сколько заданий целесооб­разно включить в тест (предыдущий этап), можно приступить к созданию самих заданий.[2] Эта задача включает два одинаково важных шага.

1) Выбор аутентичных текстов (обычно берут оригинальные тексты для чтения или набор фраз для проверки грамматических знаний).

2) Конструирование набора возможных ответов, из которого испытуемый должен будет выбрать правильный. Существует ряд требований, предъявляемых к дистракторам (distractions, отвле­кающие варианты), без выполнения которых выбор верного от­вета станет слишком легким или, напротив, не допустимо труд­ным. Принципиально, чтобы количество заданий превышало необходимый объем, поскольку на последующих этапах некото­рые задания могут быть отброшены как неудачные.

Существует ряд типичных содержательно-методических и языковых ошибок, допускаемых при составлении заданий. При­ведем несколько примеров из реальных тестов, опубликованных в разных номерах журнала «Иностранные языки в школе».

1) Задание можно выполнить, опираясь но общую логику, а не на языковую компетенцию.

Примеры. а) В тексте излагается биография первой американ­ской женщины-врача. Затем дается группа фраз, которые надо расположить в порядке разворачивания текста. Среди них есть фраза Elizabeth was born in 1821. Совершенно оче­видно, что ее надо поставить на первое место: для этого до­статочно знать значения глагола to be born, понимание всего текста совсем не обязательно. b) После прослушивания тек­ста задается вопрос: «Что разрешается делать в автобусе?» и пред­лагается такой набор ответов: а) курить сигары; b) пить виски; с) ку­рить трубку; d) курить сигареты (верно послед­нее). В предложенном наборе «пить виски» явно выпадает из серии и вряд ли будет выбранодаже в случае полногонепо­нимания прослушанного текста. Следовало сделать все 4 варианта со словом курить (четвертый вариант мог быть, скажем, курить папиросу). Если же противопоставлять «ку­рить» и «пить», то следовало дать по два варианта на каждое действие (например, добавить пить пиво). Кстати, варианты (а) и (с) выглядят настолько экзотическими, что опять-таки трудно ожидать, что ученики будут их выбирать даже в случае полного непо­нимания текста.

2) Задание сформулировано весьма расплывчато, а ответ неодно­значен.

Пример: «Окончание -th является признаком: 1) существи­тельного; 2) глагола 3) наречия; 4) числительного. Состави­тель теста имел в виду проверить знание правил образования порядковых числительных (sixth, tenth). Однако тестируемый может понять термин ‘окончание’ как «конечная часть слова» и, опираясь на примеры типа earth, tooth вполне обоснованно выберет в качестве верного ответа вариант (1).

3) Задание предполагает несколько правильных ответов, причем ученику не сообщается, сколько именно. Такого рода задание формулируется примерно так: «Отметь ответ(ы), который (ые) Вы считаете верным(и)». Подобный подход в корне про­тиворечит принятым в тестологии правилам.

4) Задания формулируются без учета того факта, что им надо будет приписывать какие-то баллы. Можно подумать, что задания придумывают одни люди, а баллык ним приписы­вают другие, и первым совсем нет дела до вторых.

Пример: Ученикам предлагается расположить шесть фраз в порядке следования сюжетных событий. Решение предлага­ется оценивать по формуле 6 х 1= 6. Другими словами, под­разумевается, что ученик совершает шесть неких действий, и за каждое правильно выполненное действие получает один балл. Но «действие» у тестируемого только одно: он должен написать последовательность из 6 цифр (допустим, правиль­ная цепочка выглядит так: 3-4-1-6-2-5). Тогда возможны два исхода: верный (оценивается в 6 баллов) и любой другой (0 баллов). Такой подход противоречит самой сути тестирова­ния. Система баллов на то и существует, чтобы различать уровни знаний. Одно дело, например, последовательность уче­ника А (3-4-1-6-5-2, где перепутан порядок двух послед­них фраз, и совсем другое ученика Б: 3-6-2-1-5-4, который мало общего имеет с истинным.

5) Составители тестов сильно переоценивают собственную язы­ковую компетентность и не дают себе труда провести экс­пертизу своих языковых примеров. Достаточно сказать, что когда высококвалифицированного преподавателя англий­ского языка попросили проверить один из тестов, предлагав­шихся школьникам Центром тестирования, он нашел в одном из вариантов теста более 60 языковых ошибок! Ср.: a five years old child вместо a five-year-old child; the less number of students вместо the smaller number of students; to avoid rela­tions with вместо to avoid contacts with; she failed to hide her emotions вместо she concealed her emotions и т.п.

Отметим еще и тот факт, что задания нередко апеллируют к цифровой памяти, а вовсе не к способности пони­мать текст.

Конечно, ошибки, даже мелкие, не желательны в любом случае. Однако ошибка в тесте, который претендует к тому же на роль основы ЕГЭ, недопустима вдвойне, ибо она провоци­рует такие неприятные последствия, как апелляции тестируемых и их родителей. Урок для составителей тестов очевиден: необ­ходимо проверять и перепроверять используемые материалы с привлечением опытных редакторов и грамотных носителей языка.

Есть еще и чисто технические соображения. Приведем при­меры.

Неудачный вариант Удачный вариант
Jane is. A a such fine girl C such fine a girl B such fine girl D such a fine girl Jane is girl. A a such fine C such fine a B such fine D such a fine
В какой форме стоит глагол gone? 1. 2 3. это вообще не глагол 2. 3 4. 1 Назовите форму глагола gone. 1. вторая 3. четвертая 2. третья 4. первая
Описание логической структуры называется. 1. схема Описание логической струк­туры называется. 1. схемой

Примечания. В первом примере следует избегать повторя­ющихся слов. Во втором примере явно выпадает вариант 3, это плохой дистрактор. Порядковые числительные лучше давать словами. Вообще здесь более уместно открытая форма заданий, без задания готовых вариантов ответа.

Существует и ряд других типичных ошибок: включение в состав вариантов для выбора выражений типа и то, и другое; любой; оба; апелляция к цифровой памяти, а не к способности пони­мать текст и т.д.

5 Предварительная проверка тестовых заданий. Сконструированные задания предъявляются большой группе испытуемых, в том числе эта­лонных (для тестов по иностран­ному языку – это те, для кого он родной или, по крайней мере, те, кто его хорошо знает – например, студенты языкового вуза). Наличие множества ответов по каждому заданию позволяет решить ряд важных задач. Прежде всего, опробуется и уточня­ется процедура: инструкция, время работы и т.п. Далее оцени­вается степень пригодности заданий. Устраняются те из них, которые оказались слишком легкими (их верно выполнили по­давляющее большинство участников) или, наоборот, слишком трудными (выполнены лишь отдельными испытуемыми). Оба типа заданий не дифференцируют учащихся и потому оказыва­ются мало полезными. И, наконец, выявляются возможные ошибки – орфографические и методические. Бывает, что в тест вкрадываются ошибки (ср. примеры выше). Еще одна важная функция этого этапа – определение шкалы тестовых баллов по каждому заданию. Однако этот шаг мы выделим в отдельный этап.

6 Присвоение тестовых баллов. Обычно набор ответов на тестовые задания содержит один пра­вильный и несколько неправильных вариантов ответа. В большинстве тестов правиль­ный ответ оценивается в один балл, а все неправильные полу­чают оценку «0». Эта система яв­но несовершенна. Во-первых, не все задания равны по трудности, а значит, неко­торые верные ответы должны быть оценены выше других. Во-вторых, невер­ные варианты также отнюдь не равнозначны, и тогда далеко не все равно, какой именно из неправильных вариантов выбира­ется испытуемым. Выбор наиболее нелепых ответов должен «наказываться» более весомо. Наконец, требует своего решения и проблема «случайной угадки». Мы поговорим об этих про­блемах более подробно в следующем разделе.

7 Принятие окончательного варианта. По результа­там предыдущих этапов тест принимает свой окончательный вид, включая формулировку заданий и сопутствующий аппарат (подробная инструкция, бланк анкеты, ключ, описание проце­дуры подсчета тестовых баллов, а также инструкция для прове­дения теста в аудитории).

8 Предъявление готового теста в широкой аудито­рии. Тест дается большому числу испытуемых (в иде­але это тысячи и десятки тысяч учащихся). Полученные резуль­таты используются для оценки валидности и надежности теста. Как мы уже говорили, надежность можно оценить, например, исходя из того, насколько совпадают показатели, полученные у одних и тех же испытуемых при повторном тестировании. Ва­лидность же можно проверить, определив, насколько хорошо дифференцирует тест лиц, которые заведомо хорошо (и заведомо плохо) владеют языком.

9 Стандартизация теста. При организации массового тестирования важнейшей проблемой, о которой очень часто за­бывают, является нормирование теста. Насколько «хороша» набранная тестируемым сумма баллов? Это можно сказать, только сравнив его результат с данными многих других испыту­емых, прошедших тот же тест. В теории тестов на этот счет вы­работан четкие методические приемы.

Прежде всего, необходимо определить границы «нормы», относительно которой итоговый тестовый балл испытуемого может быть признан в той или иной степени успеш­ным/неуспешным.

Сам термин «норма» уже указывает на нормальное, или среднее, выполнение заданий. Стандартизация осуществляется проведением теста на репрезентативной выборке испытуемых заданного уровня подготовки (например, учащихся 11 класса общеобразовательной школы). Относительно этой группы ис­пытуемых и вырабатываются нормы, указывается не только средний уровень выполнения, но и его относительная вариа­тивность выше и ниже среднего уровня. Благодаря этому можно оценить степень успешности/не успешности выступле­ния в тесте и определить положение индивида относительно нормативной выборки (именно так устроены тесты типа TOEFL). Известные нам отечественные тесты в своем большин­стве страдают именно отсутствием должной нормировки. Обычно вся шкала тестовых баллов совершенно произвольно делится на четыре категории, а учащимся соответственно вы­ставляется одна из четырех оценок – «5», «4», «3» или «2».

Более подробно мы поговорим об этом в следующем разделе.

Опыт создания теста. Проблемы и решения

Попробуем вместе пройти весь тот путь, который был опи­сан в предыдущем разделе и показать процесс создания кон­кретного теста, который может быть использован для практиче­ского применения при оценке знаний по английскому языку.[3]

Излагая процедуру создания теста, мы будем придержи­ваться той последовательности этапов создания теста, которая была представлена выше.

Этапы 1-3 (цель, идеология теста, определение умений и навы­ков, подлежащих проверке).

Тест предназначался для проверки навыков и умений по ан­глийскому языку у выпускников средних общеобразовательных школ. Предполагается, что он может быть в принципе использо­ван как основной инструмент ЕГЭ по английскому языку.

Основной вид тестовых измерений – задания с множе­ственным выбором. При этом использовались два типа заданий: вопросы с выбором правильного ответа (на каждый вопрос че­тыре варианта ответов) и множество фраз, каждая из которых может либо полностью соответствовать содержанию текста, либо ему противоречить, либо быть нейтральной (в тексте нет информации, позволяющей отнести ее к той или другой группе). В этом случае был выбор из трех вариантов.

При определении видов языковой деятельности, подлежа­щих тестовой оценке, необходимо было принять во внимание два обстоятельства.

Во-первых, надо было определить состав набора языковых навыков и речевых умений, определяющих понятие «владение языком». Рассматривая традиционные виды речевой деятельно­сти (чтение, перевод, аудирование и т.д.), мы не могли не учесть, что многие из них не поддаются объективной оценке в тестовой форме. В этом смысле явно не подходящими для про­верки в тесте оказываются, например, спонтанная устная речь или письменное сочинение. В результате для теста были ото­браны два речевых умения (аудирование, чтение) и лексико-грамматические навыки.

Во-вторых, надо было установить удельный вес каждого из отобранных аспектов в общем объеме тестовых баллов.

Начнем с того, что при конструировании общей оценки естественно было исходить из шкалы баллов с максимально возможной суммой 100, что делает удобным, в частности, сравнение результатов с данными тестов по другим предметам. Устанавливая удельный вес каждому из трех аспектов, можно было принять решение «в лоб» – попросту уравнять все разделы, приписав каждому из них максимальную оценку в 33 балла. Однако на практике их важность представляется отнюдь не одинаковой. Как именно соотносятся по важности наши ас­пекты, можно выяснить, например, путем экспертного опроса. Этот вариант и был принят. Было опрошено 50 преподавателей английского языка и студентов-старшекурсников языкового вуза, которых напрямую спрашивали, какую долю итогового тестового балла они отвели бы каждому из трех перечисленных аспектов.

После усреднения мнений было получено следующее соот­ношение:

аудирование – 30 %;

чтение – 25 %;

лексико-грамматиче­ские навыки – 45 %.

Соответственно, из общей суммы в 100 баллов на долю грамматического раздела отведено 45 баллов, на аудирование – 30 и на чтение – 25 баллов.

Отдельную проблему процедуры составляла продолжи­тельность работы с тестом. В литературе нет каких-либо научно обоснованных рекомендаций относительно времени работы над заданиями разных типов. Существует поразительный разнобой мнений на этот счет у разных составителей тестов. Кроме того, не решен пока и вопрос о том, какова должна быть максимально возможная продолжительность теста. Например, «Итоговый тест по английскому языку для выпускников школ», опублико­ванный в журнале Иностранные языки в школе, рассчитан на 3,5 астрономических часа, что на наш взгляд недопустимо много. Так, известный экзамен TOEFL рассчитан всего на два часа.

В ходе предварительного тестирования (см. ниже, этап 5) было выявлено, что конструируемый нами тест вполне реально сделать за два академических часа.

Этап 4 (подготовка тестовых заданий). Для каждого из трех аспектов необходимо было определить вид и количество тесто­вых заданий. Обязательным условием включения текста в те­стовый набор была его аутентичность: тексты брались из ориги­нальных англо-американских источников (публицистика, худо­жественная литература, учебные пособия). Только подобные материалы являются мерилом для установления подлинного владения языковыми умениями.

Умениеаудирования проверяется на достаточно простом лексико-грамматическом материале. Для успешного выполне­ния этой части теста достаточно иметь минимальную практику прослушивания аудиокассет хотя бы в объеме тех приложений, которые имеются в ряде учебников. Из устоявшейся практики длина текстов была определена следующим образом: монологи­ческие тексты 700 – 800 знаков, а диалогические – порядка 600 знаков. В обоих случаях звучание имеет продолжительность от 40 до 60 секунд. Для более или менее полного представления о степени умения понимать устную речь предъявлялись два моно­логических текстов и два диалога. Что касается заданий, то они были двух типов: вопросы с выбором правильного ответа (из четырех вариантов) и отнесение фраз к группам («верно», «не­верно», «не известно») – выбор из трех вариантов.

Для тестирования навыков чтенияподбирались тексты дли­ной порядка 2 тыс. знаков, включающие до 5-10 % незнакомых слов. Применялись те же типы заданий, что и в случае с аудиро­ванием.

Для проверки лексико-грамматических навыков выбрана форма предложений с пропусками, для которых имеется по 4 варианта слов для вставки. Тест включает 40 фраз, охватываю­щих основные разделы школьного курса грамматики: употреб­ление артикля, степени сравнения прилагательных, образование отрицания и вопросительных предложений, основные времена глагола (группы Indefinite, Continuous и Perfect), Passive Voice, правило согласования времен т т.д. Наряду с этим в тест были включены несколько примеров на словоупотребление (выбор между make-do; still-else; teach-study; work-job; speak-talk-tell и т.п.)и некоторые фразовые глаголы (типа look for, look after).

Для выявления продвинутых учащихся в тест включены не­сколько заданий повышенной трудности (по грамматике – этоPerfect Continuous, Subjunctive Mood; по лексике –Phrasal Verbsтипа get on и смысловое различение слов из синонимических рядов типа worry-bother-trouble и др.).

При подборе дистракторов были соблюдены соответству­ющие правила (не было заведомо бессмысленных ответов или ответов, неправильность которых на момент тестирования не может быть обоснована учащимися; не допускались ситуации, когда ответы на одни задания могли служить подсказкой для ответов на другие и т.д.).

Этап 5 (предварительная проверка тестовых заданий).

Главная цель предварительного тестирования – проверка качества тестовых заданий. Помимо традиционной технической правки (опечатки и т.п.), уточнения формулировок инструкций и окончательного определения времени работы с тестом, необхо­димо было определить содержательное качество самих заданий. Некоторые требовали уточнения в плане формулировки вопро­сов ивариантов ответа. А некоторые вообще следовало устра­нить. Так, исключались задания, которые правильно выполня­лись в 90 %случаев и более. Они слишком легкие и не диффе­ренцируют испытуемых должным образом. Так же неудачно задание, выполняемое очень малым числом тестируемых (оно слишком трудное). Обычно «хорошими» считаются те задания, которые правильно выполняются примерно половиной тестиру­емых. По этому параметру были отбракованы несколько текстов для чтения и аудирования, и скорректированы формулировки некоторых заданий к оставшимся текстам.

Индивидуальная оценка по тесту, естественно, основана на системе баллов, приписываемых отдельным заданиям. К описа­нию этой системы мы и переходим.

Этап 6 (присвоение тестовых баллов).

Как мы уже говорили выше, варианты ответов на тестовые задания содержат один правильный и несколько неправильных. Отметили мы и неприемлемость подхода, при котором за пра­вильный ответ каждый раз ставится балл «1», а за неправильный – «0». Задания имеют разную степень трудности, а значит, неко­торые верные ответы должны быть оценены выше других. Сте­пень сложности задания можно оценить эмпирически, выяснив долю испытуемых, давших правильный ответ. Ясно, что если задание А правильно выполнили 70 % опрошенных, а задание В – только 15%, А значительно легче В и, следовательно, за вер­ный ответ на задание А следует дать меньше баллов, чем за от­вет в задании В.

Далее. Не все равно, какой именно из неправильных вари­антов выбирается тестируемым. Некоторые дистракторы лишь незначительно отличаются от верного ответа, в то время, как другие вообще не имеют никакого смысла. Выбор бессмыслен­ного варианта (например, в ситуации откровенного «угадыва­ния») должен штрафоваться, и, во всяком случае, оцениваться не так, как выбор ответа, который не лишен определенной (хотя и ошибочной) логики.

Так или иначе, возникает необходимость в дифференциро­ванной балльной оценке каждогоиз вариантов. Технически этого можно достичь разными способами. Опишем один их них. С этой целью приведем реальный пример выполнения заданий по разделу «Аудирование» (задания 1-4 по одному из текстов, на которые ответили 62 человека) и приведем всю последова­тельность действий в виде алгоритма.

На входемы имеем следующие данные:

1. Ответы на каждое задание ранжированы по степени близо­сти к правильному: «верный ответ»; «ответ похуже», «еще хуже», «самый неудачный». Это ранжирование осуществля­лось на основе оценок опытных преподавателей-экспертов.

2.Комплект индивидуальных протоколов испытуемых вида:

  Ученики Задания
  И. 1 2 3 4
  П. B D C D
  С. C B С А
       
  М. B A C A

3.Итоговая матрица ответов по всем 62 испытуемым, где отме­чено число выборов каждого варианта ответа. Приведем эту матрицу (табл. 1) и покажем, как она используется.

Сначала решается задача определения тестовых баллов для правильных ответов. Как мы и ожидали, задания оказались от­нюдь не равнотрудными. Матрица это хорошо иллюстрирует: задание 3 оказывается значительно сложнее других (всего 18 человек из 62 сумели выбрать верный ответ). Соответственно, будет целесообразно присваивать правильным ответам разные баллы: чем более трудным является задание, тем более высокие баллы надо давать за его правильное решение.

Таблица 1.

Задания   Варианты ответов[4] Именно такой подход имеется в виду, когда говорят о необходимости введения «взвешенных» баллов. По­скольку «вес» оценки, напря­мую связан со степенью труд­ности задания, его естествен­нее всего определять по ито­говой матрице данного текста.  
A B C D
         
         
         
         

Для каждого правильного варианта ответа вычислим долю от общего числа испытуемых (в %). Эта доля, собственно, и от­ражает степень трудности задания: чем она выше, тем легче ока­залось задание для опрошенных учащихся. Для нашего примера эти данные выглядят так.

  Зада­ния   Доля правильных ответов (в %) Теперь преобразуем долю правильных ответов в конкретные «взвешенные» баллы, которые как раз и отразят степень труд­ности заданий. Здесь без опреде­ленного субъективизма не обой­тись. Предлагаемая ниже схема перехода (табл. 2) выглядит вполне разумной, но в принципе допустимы, конечно, и иные ко­личественные решения.
Варианты ответов
A B C D
         
         
         
         

Таблица 2

Вариант присвоения тестовых баллов

  Доля правильных ответов, в %
ме­нее 10 10-19 20-39 40-49 50-64 65-80 81-90 бо­лее 90
Балл *             *

Звездочкой помечены неудачные задания (слишком легкие или слишком трудные); они подлежит замене. Установленный по этой шкале балл и приписывается всем правильным ответам.

Перейдем к процедуре определения тестовых баллов для ошибочных ответов. Во-первых, оценки неверных ответов должны быть «соизмеримы» с оценкой правильного ответа на данное задание. Если правильный ответ имеет балл 7, то непра­вильный может быть оценен, скажем, 2 или 3 балла, но если правильный ответ получил оценку 2 балла, то для сохранения «дистанции» неправильные ответы должны получать отрица­тельные баллы. Какой должна быть дистанция между правиль­ным и самым лучшим из неправильных ответов решить объек­тивно трудно. Мы предложили считать эту дистанцию, равной трем-четырем баллам.

Во-вторых, решающим фактором является ранжирование ответов по степени серьезности ошибки (чем более «ошибочен» вариант ответа, тем меньше его балл). Указанное ранжирование задается на входе (1-ый ранг – правильный ответ; 2-ой ранг – «ответ чуть хуже верного», 3-ий ранг – «еще хуже», 4-ый ранг – «самый неудачный ответ»).

После соответствующих подстановок каждый неверный ва­риант ответа получает свой оценочный балл. Вместе с баллами для верных ответов система приписанных баллов принимает вид традиционного «проверочного ключа» – таблицы тестовых бал­лов, с помощью которой можно оценить работу испытуемого.


Приведем проверочный ключ для рассматриваемого примера.

Задание Варианты ответа Именно в таком виде и представлены ключи ко всем заданиям. Что касается вычис­ления индивидуального итого­вого балла, то подробная ин­струкция на этот счет дается в приложении к тесту.
A B C D
    -1   -2
      -1 -2
    -1   -2
  -2 -1 -3  

Этапы 7-8 (окончательный вариант теста и его реальное применение в широкой аудитории).

Окончательный вариант текстов и заданий к ним, инструк­ции и ключи к заданиям приводятся в упомянутой выше книге [Василевич 2005].

Определяя состав тестируемых, необходимо было, в част­ности, предусмотреть возможность оценить валидность заданий. Именно поэтому были привлечены группы испытуемых, кото­рые представляли три заведомо разных уровня знаний: старше­классники обычной средней школы (условно можно считать, что эта группа представляла низший уровень знаний); продви­нутые ученики (учащиеся спецшкол или дети, интенсивно зани­мающиеся с частными преподавателями) и студенты языкового вуза. В случае хорошей валидности теста, его результаты должны четко дифференцировать эти три группы испытуемых. Кроме того, для контроля был проведен эксперимент по случай­ной угадке правильного ответа (большая группа ребят выбирала ответ, не знакомясь с текстом, наугад). К настоящему времени тест был опробован на аудитории, включающей более 200 уча­щихся. Этого, конечно, явно не достаточно, чтобы в полной мере оценить валидность и надежность создаваемого теста. Од­нако предварительные данные говорят о безусловной диффе­ренциации выделенных групп – это сильный аргумент в пользу валидности теста.

Этап 9 (стандартизация теста).

О стандартизации имеет смысл говорить применительно к конкретной группе тестируемых, в том числе учитывая те ре­зультаты, которые были получены путем случайной угадки.

Для человека, который организует тест, очень важно разли­чать две разных ситуации. Одно дело, когда тестируемый обла­дает недостаточным знанием, которое позволяет ему правильно выполнить, например, лишь треть заданий. И совсем другое дело, когда он вообще ничего не знает и отвечает наугад (имея хорошие шансы в результате набрать ту же треть верных отве­тов). Противники тестирования часто ссылаются на то, что при выборе ответа из множества заданных вариантов, испытуемый может указать на правильное решение чисто случайно. В самом деле, при наличии выбора ответов на задание и при относи­тельно низкой степени владения языком у тестируемого появля­ется естественное желание попытаться «угадать» правильный ответ. Скажем прямо: при наличии всего трех-четырех вариан­тов шанс «попасть в точку» довольно велик и встает проблема случайного угадывания правильного ответа. Именно поэтому «не в моде» альтернативные вопросы, где выбор ответа ограни­чивается двумя возможностями (здесь шанс угадать катастро­фически высок).

Данная проблема хорошо известна в теории вероятностей. Тесты, обеспеченные соответствующим математическим аппа­ратом обработки данных, обычно снабжаются «поправочными коэффициентами», которые основаны на чисто математических процедурах. Обычно эти процедуры связаны с механизмом по­рождения случайных чисел. Однако в реальной ситуации слу­чайного выбора испытуемый вряд ли прибегает к помощи слу­чайных чисел. Волей-неволей он выбирает некоторую страте­гию, причем, возможно, арсенал этих стратегий ограничен, и тогда появляется шанс совпадения стратегии у разных испытуе­мых. Чтобы исследовать этот возможно существующий фено­мен стратегии, в ходе предварительного тестирования группе школьников был предложен «тест без текста». Другими сло­вами, их просили заполнять бланки ответов в отсутствие самих заданий, произвольно вписывая варианты (А, В, С или D) в клетки бланка. В результате было собрано множество заполнен­ных бланков, в чистом виде иллюстрирующих стратегию вы­полнения тестовых заданий наугад.

Моделирование ситуации случайного выбора в реальном тесте может существенно помочь при определении шкалы те­стовых баллов и, в особенности, при решении проблемы стан­дартизации теста. Результаты эксперимента были учтены при осуществлении стандартизации теста.

Как мы уже говорили выше, мало определить итоговый тестовый балл. Надо еще «поставить оценку» учащемуся. Что можно сказать об уровне знаний ученика, набравшего, ска­жем, 77 баллов из 100?

Располагая данными по большой группе испытуемых (бо­лее 200 человек с разным уровнем владения языком), мы имеем возможность построить до



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-10-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: