Общие требования к тестам

В заданиях теста не должно быть лишних слов, каждое задание должно содержать четкие и короткие вопросы, ответы должны быть конкретными и содержательными. По форме тестовые задания можно разделить на следующие основные группы:

- задание с выбором верного ответа (или несколько верных) из набора предлагаемых - тесты закрытого типа;

- ввод предполагаемого ответа на задание самим тестируемым - тесты открытого типа.

При компьютерном тестировании вторая форма тестов трудно реализуется. Задания открытого типа формируют ответы, которые формально трудно оценить ни как правильные, ни как неправильные. Поэтому при компьютерном тестировании чаще используют тесты закрытого типа. При этом следует иметь в виду, что неправильные варианты ответов должны быть правдоподобны. Удачно составленные задания отвлекают внимание примерно половины испытуемых, незнающих правильного ответа на вопрос. Нужным и важным шагом в развитии и разработке тестов является оценка его качества и надежности. Опыт формирования тестов показывает, что создание качественного теста предполагает совместную работу преподавателя- предметника со специалистами по тестам. Оценка качества теста достигается путем обсуждения несколькими экспертами формы, содержания теста и вариантов ответов. Трудность теста можно определить экспериментально (по частоте появления верных ответов на задания), надежность тестов обосновывается воспроизводимостью результатов при повторном тестировании и также может быть установлено экспериментально [12].

Одним из наиболее трудных этапов в разработке тестов является этап составления заданий. Тест должен отражать контролируемый материал, не содержать лишних заданий и соответствовать целям тестирования. Под структурой теста можно понимать определенный порядок связывания заданий в тесте: задания считаются связанными, если верный (неверный) ответ на одно задание предполагает верный (неверный) ответ на другое. В этом случае при ответе на одно задание учитываются ответы на все задания, структурно с ним связанные. Для такой структуры нужно выстроить все задания теста по степени сложности и установить между ними связи [13].

Контроль формируется следующим образом: тестируемому предъявляется некоторое задание. Если на задание ответили верно, предполагается, что также верны результаты всех заданий, предшествующих выбранному на данном шаге. Если ответ неверный, то предполагается неверными результаты всех заданий следующих в структуре теста за отвеченным. Дальнейшее выполнение таким образом задания отсекаются (включая предъявленное задание), и формируется новая структура из заданий с еще неопределенным результатом, из числа которых выбираются очередные задания для предъявления тестируемому. Таким образом, данный алгоритм позволяет исключить из запроса те задания, ответы на которые предопределены ответами на уже заданные.

В каждом шаге вычисляется количество правильно выполненных заданий. Опрос завершается, если это количество станет большим или равно некоторой величине, заданной преподавателем и определяющей полноту опроса. Такой алгоритм позволяет проводить тестирование начиная с более легких или со сразу сложных заданий в зависимости от целей тестирования [14].

Основные виды тестов

На сегодняшний день имеются два главных вида тестов: нетрадиционные и традиционные.

В тест входят состав, целостность и структура. Он заключается в задании, правил их использования, получение оценок за выполнение любого задания и рекомендаций по интерпретации результатов теста. Целостность теста означает взаимосвязь заданий, их принадлежность совместному измеряемому фактору. Любое задание теста осуществляет отдаленную ему роль. Поэтому ни какое из них не может быть исключено из теста без потери качества измерения. Способ связи образует структуру теста заданий между собой. Чаще всего, это факторная структура. В ней каждое задание объединено с другими с помощью общего содержания и общую вариацию тестовых итогов.

Традиционный тест - представляет собой единство, как минимум, трех систем:

содержательной системы знаний, описываемой языком проверяемой учебной дисциплины;

формальной системы заданий возрастающей трудности;

статистических характеристик заданий и результатов испытуемых.

Традиционный тест необходимо разбирать в двух смыслах. Это как результат применения теста и как метод педагогического измерения. Поразительно, что на русском языке тексты тяготеют по отношению к смыслу метода, в то время как во многих работах западных авторов термин тест чаще всего рассматривается по смыслу результатов. Оба эти смысла объясняют тест с различными мнениями, так как тест надо понимать в то же время и как метод, и как результат оптимального измерения. Одно, дополняет другое. Тест как метод, не считается без итогов, свидетельствующих о качестве его самого, а так же качестве оценок измерения испытуемых разнообразного уровня готовности.

В описанном выше определении традиционного теста, несколько идей получили развитие:

тест разбирается не как обыкновенная совокупность, или набор задач вопросов, а в виде понятия "система заданий". Не всякая совокупность образует такую систему, а лишь та, которая определяет появление нового интегративного качества. Это качество отличающего тест от элементарного набора заданий, а так же и от других средств контроля. Из массы всевозможных систем оптимальную образует та единая совокупность, в которой качество теста выражается в довольно большей степени. Следовательно складывается мысль о выделении первого, из двух основных системообразующих факторов - лучшего состава тестовых заданий, делающих целостность. Можно дать самое коротких определение. Тест - это система заданий, создающих лучшую методическую целостность. Устойчивое взаимодействие заданий, образующих тест, как развивающуюся систему- это целостность теста.

идея заключается в том, что в этом определении теста произведен отход от традиции анализа теста как простого средства контроля, пробы. Каждый тест включает в себя элемент испытания, однако он не сводится весь к нему. Поскольку тест - это еще и концепция, форма, содержание, интерпретация и результаты, требующее обоснования. Таким образом подразумевается, что тест является надежным орудием педагогического измерения. В соответствии с положениями теории, тестовые оценки не являются точными оценками испытуемых. Верно говорить, что они всего лишь репрезентируют настоящие значения с определенной точностью. идея, формируемая в определении традиционного теста - это введение абсолютного понятия - эффективность теста, который не рассматривался раньше в литературе по тестам в качестве анализа и создания тестов. Главная идея традиционного теста - минимальным числом заданий, за малое время, резво, качественно и с минимальными расходами сопоставить знания как можно большего числа учащихся.

По сути, этим отражается идея результативности педагогической работы в сфере контроля знаний. Хотелось бы понимать, что против этой идеи противоречить уже незачем и некому. Если наш учитель умеет объяснить учебный материал не хуже своего иностранного коллеги, то отлично проверить необходимые знания, у всех учеников, по всему материалу, полностью, он не может, из-за преобладающей в наших школах классно-урочной системы обучений, недостатка компьютерной техники, программ и тестов для создания автоматизированного самоконтроля - одной из самой гуманной формы контролирования знаний. Учитель просто физически не в состоянии сделать это. Будем честными и прямо скажем, что заработная плата наших учителей далека от идеала, она не компенсирует затраты даже физической энергии, которая не обходима для хорошего преподавания. На сегодняшний день квалифицированный работник у нас получает гораздо меньше того уровня зарплаты, за границами которого разрушается обыденная жизнедеятельность и возникает нарушение трудового потенциала.

Хоть в литературе и содержатся сотни примеров определений теста, с которыми либо нельзя согласиться, либо вообще очень трудно, это отнюдь не означает, что определение традиционного теста - правда в последней инстанции. Как и все другие понятия, оно требует постоянного улучшения. Оно просто представляется автору на данный момент более аргументированным, чем кое-какие другие популярные понятия педагогического теста. Стремление к совершенствованию понятий - явление совершенно нормальное и важное для нормально формирующейся науки и практики. Всегда полезны конструктивные попытки дать иные определения теста или оспорить уже имеющиеся. Как раз именно этого нам не хватает.

К традиционным тестам причисляются тесты гомогенные и гетерогенные. Гомогенный тест, это тест представляющий из себя систему заданий постепенно повышающейся трудности, характерной формы и конкретного содержания - система, создаваемая для выявления качественного, эффективного, и объективного метода оценки структуры и выявления степени готовности учащихся по какой ни будь одной учебной дисциплине. Несложно заметить, что в своем основании определение гомогенного теста сходится с определением традиционного теста.

Гомогенные тесты, они распространены больше остальных. В педагогике они разрабатываются для контроля знаний только одной учебной дисциплине или по одному разделу такой, например, большой учебной дисциплины, как физика. В гомогенном педагогическом тесте не разрешается использование заданий, которые выявляющих другие свойства. Наличие последних, разрушает требование дисциплинарной чистоты педагогического теста. Поскольку каждый тест замеряет что-то заблаговременно определенное.

К примеру, тест по физике замеряет умения, навыки, знания, и представления испытуемых в этой науке. Существует несколько трудностей такого измерения, главная из них заключается в том, что физическое знание значительно сопряжено с математическим. Посему в тесте по физике, экспертно определяется уровень математических знаний, употребляемых для решении физических заданий. Если превысить принятый уровень, то это может привести к смещению результатов; по ходу превышения последние гораздо чаще начинают зависеть не настолько от знания физики, на сколько от знания какой либо другой науки, к примеру математики. Еще один не менее важный аспект - стремление некоторых авторов объединяет в тесты не столько проверку знаний, сколько умение решать физические задачи, втягивая, тем самым, интеллектуальный компонент в измерение готовности по физике.

Гетерогенный тест - это тест представляющий собой систему заданий по возрастающей трудности, характерной формы и установленного содержания - система, формируемая с целью непредвзятого, эффективного, и качественного метода оценки структуры и измерения уровня готовности учащихся по сразу нескольким учебным дисциплинам. Зачастую в такие тесты вводятся и психологические задания для того чтобы оценить уровень интеллектуального развития.

Зачастую гетерогенные тесты употребляются для комплексной оценки выпускников школ, выведения оценки личности при принятии на работу и для выявление наиболее грамотных абитуриентов при приеме в вузы. Так как каждый гетерогенный тест включает в себя гомогенные тесты, толкование итогов тестирования ведется по ответам на задания каждого теста (они здесь получают название шкала) помимо этого, посредством разнообразных методов агрегирования баллов происходят попытки дать совместную оценку подготовленности испытуемого.

Нужно не забывать, что традиционный тест, представляет собой метод диагностики испытуемых, в нем они отвечают на одни задания, в одно время, в равных условиях и с одно и той же оценкой. При подобной ориентации, задачи определения четкой структуры и объема изученного учебного материала отступают, при необходимости, на задний план. В тест подбавляется такое минимальное число заданий, какое позволяет довольно точно определить, не того "кто что знает", а того "кто знает больше". Интерпретация результатов проведенного тестирования производится предпочтительно на языке тестологии, опираясь на среднюю арифметическую, медиану или моду, и на так именуемые процентильные нормы, представляющие - сколько процентов испытуемых обладают тестовым результатом хуже, чем у каждого взятого для анализа испытуемого с его тестовым баллом. Эта интерпретация получает название нормативно-ориентированной. Вывод здесь достраивается рейтингом: задания, ответы, выводы о знаниях испытуемого - рейтинг, понимаемый как вывод о ранге или месте испытуемого.

Интегративные тесты. Тест который, состоит из системы заданий и который отвечает требованиям интегративного содержания, возрастающей трудности заданий, тестовой формы, направленных на обобщенную конечную диагностику подготовленности выпускника общеобразовательного учреждения, можно назвать - интегративным. Диагностика проводится посредством предъявления таких заданий, правильные ответы на которые требуют интегрированных (обобщенных, явно взаимосвязанных) знаний более двух учебных дисциплин. Формирование подобных тестов вручаться только преподавателям, которые обладают знаниями, ряда учебных дисциплин, смыслят важную роль меж предметных взаимоотношений в обучении, могут создавать задания, верные ответы на которые требуют от учащихся образовательного учреждения, знаний разнообразных дисциплин и навыков применять такие знания.

Интегративному тестированию, предшествует организация интегративного обучения. К глубокому сожалению, сейчас существующая классно-урочная форма проведения урока, в совмещении с чрезмерным делением учебных дисциплин, совместно с традицией преподавания некоторых дисциплин (а не обобщенных курсов), ещё длительное время будут замедлять внедрение интегративного подхода в процессы учебы, и контроля подготовленности. Преимущественной чертой интегративных тестов перед гетерогенными, состоит в гораздо большей содержательной информативности каждого задания, и в гораздо меньшем числе самих заданий. Необходимость написания интегративных тестов усиливается по мере роста уровня образования и числа осваиваемых учебных дисциплин. Из этого следует, что попытки написания таких тестов замечаются, в основном, в высших школах. Крайне полезны интегративные тесты для повышения эффективности и объективности проведения итоговой государственной аттестации студентов и учащихся. Методика создания интегративных тестов достаточно схожа с методикой создания традиционных тестов, не считая работы по определению содержания заданий. Обязательным является содержания интегративных тестов для отбора использование экспертных методов. Это объясняется тем, что лишь эксперты могут установить адекватность содержания заданий, целям теста. В первую очередь самим экспертам важно будет определиться с целями изучения и образования тех или иных программ образования, а потом и условиться между собой по принципиальным вопросам, оставив для экспертизы только лишь вариации в осознании степени значимости отдельных элементов в общей структуре подготовленности. Согласованный, по принципиальным вопросам, отобранный состав экспертов в зарубежной литературе нередко панелью. Или учитывая различия в смысле последнего слова, в русском языке, такой состав можно назвать представительной экспертной группой. Группа набирается так, чтобы правильно представлять подход, употребляемый при создании должного теста.

Адаптивные тесты. Целесообразность адаптивного контроля выливается из нужды рационализации традиционного тестирования. Всякий учитель понимает, что неплохо подготовленному ученику нет нужды давать легкие либо очень легкие задания. Птак как очень высока вероятность верного решения. Так же, легкие материалы не располагают заметным развивающим потенциалом. Из-за большой вероятности неверного решения не имеет смысл давать тяжелые задания слабому ученику. Не секрет, что трудные и очень трудные задания уменьшают учебную мотивацию большинства учащихся. Необходимо было найти сопоставимую, в одной шкале, меру уровня знаний и меру трудности заданий. Такая мера была найдена в теории педагогических измерений. Математик из Дании Г. Раск назвал такую меру словом "логит". После того как появились компьютеры эта мера пала в основу методики адаптивного контроля знаний, где употребляются способы регулирования числа предъявляемых заданий и трудности, в зависимости от ответа учеников. При верном ответе следующий вопрос компьютер подбирает более сложным, а при неуспешном наоборот более легким. Конечно, этот алгоритм требует заранее опробовать все задания, идентификации их меры трудности, а также создания специальной программы и банка заданий.

Применение заданий, отвечающих уровню подготовленности, значительно повышает точность измерений и доводит до минимума время индивидуального тестирования до 5 - 10 минут. Адаптивное тестирование разрешает обеспечить ЭВМ выдачу заданий на наилучшем, примерно 50%-ом уровне возможности правильного ответа, для всех учеников.

Три варианта адаптивного тестирования выделяется в западной литературе. Первый получил название пирамидальным тестированием. Когда отсутствуют предварительные оценки, всем испытуемым предоставляться задание содержащее средний уровень трудности, а уже потом, в зависимости от того как ученик справился с ним, всем испытуемым дается задание труднее или легче; на каждом шаге нужно пополам употреблять правило деления шкалы трудности. Во втором варианте проверка начинается с любого желаемого, уровня трудности, с пошаговым приближением к реальному уровню знаний. Третий вариант это когда тестирование проводится посредством банка заданий, распределенных по уровням сложности.

От сюда вытекает, что адаптивный тест представляет из себя вариант системы автоматизированного тестирования, в которой заблаговременно известны параметрами сложности и дифференцирующей способности всех заданий. Такая система написана в виде компьютерного банка заданий, упорядоченных в соответствии с интересующими характеристиками заданий. Главная характеристика заданий адаптивного теста - это степень их сложности, полученная опытным путем. Это означает что прежде чем оказаться в банке, все задания проходят эмпирическую апробацию на довольно большом числе характерных учащихся интересующего круга. Слова "интересующего круга" вызвано представлять смысл знаменитого в науке определения, более строгого понятия "генеральная совокупность".

Знаменитая у нас образовательная модель адаптивной школы Ямбурга Е.А., идет, по существу, из общественных идей адаптивного контроля знаний и адаптивного обучения. Корни такого подхода можно просмотреть с момента появления педагогических трудов Песталоцци, Дистервега и Коменского, которых связывают идеи природосообразности и гуманности обучения. Ученик был в середине их педагогических систем. К примеру, в достаточно плохо известной у нас работе А. Дистервега "Дидактические правила" можно найти такие слова: "Преподавай сообразно природе... Учи без пробелов... Начинай преподавание с того, на чем остановился ученик... Прежде чем приступить к преподаванию, нужно исследовать точку исхода... Без знания того, на чем остановился ученик, невозможно порядочно обучить его". Плохая информированность о настоящем уровне знаний учеников и натуральные различия в их способностях изучить предлагаемые знания. Они стали главной причиной образования адаптивных систем, основывающиеся на принципе индивидуализации обучения. Такой принцип очень трудно реализуем в традиционной, классно-урочной форме.

До как появились первые компьютеры самой популярной системой, близкой к адаптивному обучению, была так именуемая "Система полного усвоения знаний".

Критериально-ориентированные тесты. При критериально-ориентированном подходе формируются тесты для сравнения учебных достижений каждого ученика с рассчитываемым к усвоению объемом знаний, навыков или умений. В таком случае, в качестве интерпретационной системы отсчета, употребляется определенная область содержания, а не та или другая выборка учеников. При этом акцент делается на то, что ученик может выполнить и что он знает, а не на то, как он выглядит на фоне других учеников.

При критериально-ориентированном подходе есть и свои сложности. Это как правило связанно с отбором содержания теста. В облости критериально-ориентированного подхода, в тесте стремятся отразить все содержание проверяемого курса или, то, что можно принять за этот полный объем. Процент верного выполнения заданий анализируют как уровень подготовки или как степень усвоения общим объемом содержания курса. Безусловно, в рамках критериально-ориентированного подхода для конечной интерпретации есть все основания, так как тест включает все, что можно принять за 100%. Довольно широкий спектр задач закрывают критериально-ориентированные тесты. Они помогают собрать объективную и полную информацию об учебных достижениях всех учащихся, в отдельности и группы учеников; сравнить навыки, умения, знания и ученика с требованиями, описанных в государственных образовательных стандартах; выбрать учеников, достигших предполагаемого уровня подготовленности; оценить результативность профессиональной деятельности отдельных групп преподавателей и преподавателей; провести оценку эффективности различных программ обучения.

Благотворное влияние на педагогическое тестирование в целом может оказать акцент на содержательном подходе. От такого подхода выигрывает, к примеру, интерпретация тестовых баллов при текущем контроле. Ученику предоставляются сведения не о том, как он смотреться на фоне других, а о том, что может делать и что он знает по сравнению с установленными требованиями к уровню подготовки по предмету. Конечно, такая интерпретация не опускает сочетания с отнесением результатов к нормам, что, как обычно, случается при текущем контроле знаний учеников в обыденном учебном процессе. В таком варианте тестирование интегрировано с обучением и способствует учащемуся выявить возможные затруднения, а также вовремя поправить ошибки в усвоении содержания учебного материала.

Уровни тестов

Для проверки качества усвоения материала на первом уровне (уровне знакомства) должны использоваться тесты, требующие выполнения действий, направленных на узнавание. Это распознавание, различения, классификация объектов, явлений и понятий. Тесты первого уровня - это тесты на опознания («да»- «нет») и тесты на различение (избирательные или выборочные).

Тесты второго уровня требуют от учащихся выполнение действий по воспроизведению по памяти информации об объекте изучения. Например [15]:

- дополните текст;

- напишите формулу;

- нарисуйте схему.

В случае а) испытуемый должен дать полную формулировку, в случае б) необходимо написать лишь нужную формулу, в случае в) требуется вставить по памяти расположение элементов.

Мы можем выделить два типа тестов второго уровня: тесты на дополнение или подстановку, тесты на понимание и воспроизведение. Тесты третьего уровня требуют от испытуемого умение применить свои знания в практической деятельности для решения типовых и некоторых нетиповых заданий. При этом всегда имеет место продуктивная деятельность ученика, в результате которой усвоение знания проверяются на уровне мышления. Такими тестами являются задачи, требующие готового способа решения без его существенного преобразования. Воспроизведение знания происходит в том виде, в котором они были приобретены в процессе обучения.

Тесты четвертого уровня требуют таких знаний и умений, которые позволяют принимать решения в определенных, новых проблемных ситуациях. К этому уровню относятся задания, для выполнения которых испытуемый должен ориентироваться в сложной, незнакомой ему ситуации.

Следует подчеркнуть также важность оценки трудности теста. Нередко составители теста путают трудность теста со сложностью измеряемого или интеллектуального процесса. Тест, требующий простого воспроизведения, может быть очень трудным из-за некорректно поставленного вопроса или большого объема элементарных операций. С другой стороны, задания, требующие интерпретации данных или применения принципов решения, могут быть простыми, потому что сами принципы или методы решения хорошо известны.

Свойства тестов

Тесты должны обладать следующими свойствами:

- валидность (адекватность, обоснованность);

- определенность (общепонятность);

- надежность;

- практичность;

- простота в использовании;

- прогностическая ценность.

Валидность теста отражает, что именно должен измерить тест и на сколько хорошо он это делает; показывает, в какой мере тест измеряет то качество (свойство, способности и т.п.), для оценки которого он предназначен. Не обладающие валидностью тесты негодны для практического использования. Выделят три типа валидности:

- содержательная - дает ответы на вопросы, охватывает ли содержание теста весь комплекс программных требований к значению данного конкретного предмета и насколько данные задания (выбранные из множества возможных) пригодны для оценки знаний по этому предмету;

- эмпирическая - означает проверку теста с помощью другого теста, измеряющего тот же показатель, что и данный, с целью оценить индивидуальную прогностичность теста;

- концептуальная - устанавливается путем доказательств правильности теоретических концепций, положенных в основу теста. Определенность теста означает, что при его чтении испытуемый хорошо понимает, какие задания и в каком объеме он должен выполнить, чтобы полученный результат соответствовал поставленной задачи [16].

Надежность теста - это вопрос о том, в какой мере его повторение приведет к тем же результатам. Повышению надежности теста способствует его простота, строгое соблюдение условий тестирования, исключение возможностей влияния посторонних факторов (подсказки, списывание и т.п.).

Прогностическая ценность теста означает, что тест должен быть таким, чтобы результаты обследования могли быть использованы в последующей деятельности, например, при повторении плохо усвоенного материала.

При составлении тестов должны учитываться такие следующие требования:

- строгое соответствие источникам информации, которыми пользуются учащиеся;

- простота- каждое задание должно заключаться в требовании от испытуемого ответа только на один вопрос;

- однозначность- формулировка задания должна исчерпывающим образом разъяснять поставленную перед испытуемым задачу, при чем язык и термины, обозначения, графические изображения и иллюстрации задания и ответов к нему должны быть безусловно и однозначно понятыми учащимся.

Общие требования к тестам

Поиск по сайту