Анализ и обоснование тестирования.

Случайная величина – числовая переменная (числовая функция), определённая на выборочном пространстве (или приписываемая некоторому выборочному пространству) таким образом, что каждой точке выборочного пространства соответствует одно и только одно значение этой переменной.

Если множество всех теоретически возможных значений величины x конечно или счётно, то её называют дискретной случайной величиной.

Функция f(x), которая для каждого возможного значения x_i, i=1,2,…,n (или i=1,2,…,n,…) дискретной случайной величины x равна вероятности p_i₌f(x_i) появления этого значения, задаёт распределение вероятностей случайной величины. Таким образом, эта функция задаёт множество значений, которые может принимать случайная величина, вместе с соответствующими им вероятностями.

Величину M(x), определяемую формулой

называют математическим ожиданием дискретной случайной величины X.

Величину, определяемую формулой

называют дисперсией этой случайной величины.

Математическое ожидание характеризует центр распределения (аналог среднего выборки), а дисперсия – степень рассеяния значений случайной величины вокруг центра (аналог рассеяния в выборке). Эти формулы дают возможность получить оценку математического ожидания и дисперсии на основе опытных данных.

Если случайная величина распределена непрерывно и задана некоторой функцией распределения f(x), то M(x) и D(x) определяются по соответствующим формулам (для ограниченного и бесконечного множества изменения случайной величины):

Основная цель статистических расчетов, как правило, состоит в том, чтобы по характеристикам выборки получить достоверную информацию о свойствах исходных генеральных совокупностей.

Рассмотрим теперь укрупнено (не приводя, как выше, алгоритмы на уровне, достаточном для реализации, программирования) комплекс задач, который связан с обоснованием принятия гипотез тестирования.

Есть процедуры, позволяющие отвергнуть проверяемую гипотезу как противоречащую имеющимся данным, либо убедиться в том, что гипотеза этим данным не противоречит.

Располагая каким-то распределением данных тестирования, можно исследовать возможность описания этой совокупности каким-то типовым распределением, если тип распределения неизвестен, а затем найти неизвестный параметр распределения, а также эффективность описания.

Наиболее часто рассматриваются гипотезы в основе которых лежат известные распределения: нормальное (Гаусса), , Стьюдента и Фишера. Существуют различные процедуры проверки гипотезы о принадлежности заданного эмпирического распределения к некоторому теоретическому типу.

Рассмотрим нормальное распределение (распределение Гаусса).

Это распределение – наиболее часто встречающееся непрерывное распределение (точнее было бы сказать, что это распределение, к которому "подгоняется" большинство изучаемых распределений). Такому закону или его различным модификациям подчиняются многие наборы случайных величин. Общий вид нормального распределения задаётся функцией:

Часто используется стандартное нормальное распределение или распределение вероятностей нахождения (попадания) случайной величины в интервал (a;b). Для вычисления значений такой функции используется интеграл (таблица значений этого, не берущегося в квадратурах, интеграла):

Необходимо на основе имеющихся результатов тестирования проверить гипотезу нормального распределения результатов тестирования, например, достижений (можно в качестве достижения принять среднее арифметическое по всем тестам) тестированных в зависимости от выборки.

Самый простой, но математически менее надежный алгоритм – построения графика (эскиза) и его анализ.

Процедура может быть следующей.

1. Эти данные могут быть изображены графически, что даёт наглядное представление о центре их распределения и изменчивости. Для этого по оси абсцисс откладывают в порядке возрастания значения а по оси ординат – частоты, т.е. количества случаев получения одинаковых показателей (или изменяющихся в определённых пределах).

2. Соединяя построенные точки линиями, получаем диаграмму распределения. Для многих систем и процессов, при большом числе испытаний, диаграмма распределения близка к нормальной кривой распределения симметричной формы. Эта кривая имеет "колоколообразный" вид.

3. Построив диаграмму распределения и заметив его схожесть с этой кривой, можно обосновать справедливость нормального распределения для ряда.

4. Конец алгоритма.

Оценку соответствия рассматриваемого распределения нормальному распределению можно осуществить также и по величине асимметрии:

Если имеет место левая асимметрия (сдвиг влево), то это говорит о том, что в тесте были облегченные задания, на которые сумели правильно ответить подавляющее большинство испытуемых, а также были усложненные задания, с которыми не смогли справиться подавляющее большинство испытуемых.

Если имеет место правая асимметрия (сдвиг вправо), то это говорит о том, что в тесте был очень низкий порог трудности для данного контингента испытуемых.

Алгоритм проверки гипотезы о нормальном законе распределения с помощью коэффициента асимметрии может реализовываться следующими шагами.

1. Вычислить среднее арифметическое

2. Вычислить коэффициент асимметрии K по вышеприведенной формуле.

3. Так как для нормальной кривой распределения характерна симметричность относительно среднего значения, то значение K, равное или достаточно близкое к нулю свидетельствует о симметричности распределения; чем больше значение K, тем больше отклоняется наиболее часто встречающаяся в распределении величина от средней (больше смещена ось симметрии, больше асимметрия кривой), а сдвиг "колоколообразной" части кривой влево или вправо свидетельствует от чрезмерной легкости или сложности заданий.

4. Конец алгоритма.

Знание закона распределения баллов необходимо для выработки нормативной шкалы, которая позволит соотнести равные отрезки под кривой распределения равным количествам правильных ответов.

Распределение можно получить следующей процедурой:

1. Сгенерировать случайную выборку тестируемых (из генеральной совокупности).

2. Протестировать выборку и получить первичные баллы.

3. Оценить баллами каждого испытуемого по отношению к баллам других участников.

4. Найти число интервалов, на которые делится числовая прямая оценок и границы интервалов (например, для четырёхбалльной системы оценок квартили). Обычно находят балл некоторого испытуемого как процентную долю испытуемых, первичный балл которых ниже первичного балла данного испытуемого. Если распределение подчиняется нормальному закону, то интерквантильная широта равна , где – среднеквадратичное отклонение; если же распределение не подчиняется нормальному закону, то либо изменяют тесты до тех пор пока не получим нормальное распределение, либо принудительно нормализуют распределение, либо используют шкалы, ориентированные на другие типы распределений.

Необходимо искусственно приводить распределение первичных тестовых оценок к нормальному виду, так как она наиболее изучена (проста) в математической статистике и дает возможность описывать диагностические нормы в компактной форме. Обычно рассматриваются гистограммы распределения первичных тестовых оценок. Они позволяют выявлять лево- и правостороннюю асимметрию, положительный или отрицательный эксцесс и другие "ненормальности". Применение известных статистических программных пакетов позволяет автоматизировать подгонку требуемого преобразования первичных тестовых оценок к комбинациям различных базисных аналитических функций, что также позволяет стандартизировать тестовые оценки.

2.6. Дидактические и методические вопросы организации контроля в компьютерных обучающих средах.

Компьютерные технологии тестирования по сравнению с традиционными методиками предлагают расширенные средства контроля знаний, умений и навыков (ЗУН) – от диалоговых систем вопрос-ответ до ситуационно-имитационных моделирующих тестовых систем виртуальной реальности.

Спектр задач контроля в КОС включает начальный (входной), текущий и завершающий контроль/диагностику. Задачи контроля/диагностики уровня подготовки обучаемого делятся на две группы:

(а) диагностика усвоения знаний,

(б) диагностика овладения умениями и навыками.

В настоящее время наиболее распространенным является метод компьютерного тестирования: "выбери правильный ответ из предложенных вариантов".Основные недостатки этого метода:

1. Большая вероятность обучиться неправильному (запомнить неправильный ответ),

2. Формирование привычки угадывания ответа,

3. Блокирование / торможение системы размышлений обучаемого при формировании ответов,

4. Необходимость иметь большую базу вопросов по учебной теме для случайной генерации текущей группы неповторяющихся тестовых вопросов при многократном использовании тестирующей системы,

5. Высокая трудоемкость создания качественных тестов при практическом отсутствии возможности автоматизировать процесс порождения правдоподобных, но неправильных ответов,

6. Невозможность эффективной оценки умений и навыков.

Из-за перечисленных недостатков использовать такие тесты при начальной и текущей диагностике нельзя. Возможно их использование при завершающем контроле, но с учетом всех недостатков.

Предлагаемая альтернатива:

(А) при оценке знаний – создание систем автоматизированного семантического анализа, которые позволяют обучаемому формировать ответ на естественном языке,

(Б) при оценке умений и навыков – создание имитационно-ситуационных моделирующих программных систем, позволяющих обучаемому выполнять реальные действия в моделирующей среде.

Предложения по созданию тестирующей системы на основе семантического анализатора

Основной задачей автоматизированного семантического анализа является выделение смыслового содержания произвольного высказывания, записанного в условном соответствии с грамматикой некоторого неформализованного (в общем случае) языка.

Формализованное смысловое содержание высказывания называется смысловой структурой высказывания или просто смысловой структурой. Для разработки и описания алгоритмов выделения и обработки смысловых структур, удобнее представлять их графами, вершины которых отождествлены с объектами, действиями и свойствами, а ребра с соотношениями между ними. В неформализованных языках часто случается что одно и то же высказывание может быть интерпретировано по-разному, в особенности, если в записи высказывания допустимы ошибки, поэтому одному высказыванию изначально следует ставить в соответствие не один, а несколько графов (смысловых структур), и уже после этого производить отбор среди них по дополнительным критериям. Множество неэквивалентных графов, соответствующих одному высказыванию, называется интерпретацией. Таким образом, в рамках перечисленных определений, анализатор есть алгоритм, генерирующий по заданному высказыванию его интерпретацию.

Анализ и обоснование тестирования.

Поиск по сайту