Недостатки классической теории тестирования и преимущества современной теории тестирования (irt)




Скачать 32,52 Kb.
НазваниеНедостатки классической теории тестирования и преимущества современной теории тестирования (irt)
Дата03.02.2016
Размер32,52 Kb.
ТипДокументы
Недостатки классической теории тестирования

и преимущества современной теории тестирования (IRT)


Карданова Е.Ю. Преимущества современной теории тестирования по сравнению с классической теорией тестирования. Вопросы тестирования в образовании. 2004, № 10


Важнейшие отличительные признаки тестирования в рамках моделей семейства Раша IRT по сравнению с тестированием в рамках КТТ, рассмотренные ранее:





КТТ

IRT (модели Раша)

1

Оценки трудности тестовых заданий зависят от уровня подготовленности конкретной выборки испытуемых

Оценки трудности тестовых заданий инвариантны относительно контингента испытуемых, по результатам тестирования которых они получены

2

Оценки уровня подготовленности испытуемых (первичные баллы) зависят от уровня трудности конкретного теста

Оценки уровня подготовленности испытуемых инварианты относительно тестовых заданий, по результатам выполнения которых они получены

3

Ошибка измерения является величиной постоянной для всех испытуемых. Ошибка измерения заданий не оценивается

Ошибка измерения оценивается индивидуально для каждого испытуемого и каждого задания. Причем ошибка подсчитывается непосредственно, а не косвенно

4

Методы оценивания надежности требуют существенных ограничений и дают искаженные результаты

Возможно оценить отдельно надежность измерения испытуемых и надежность оценивания заданий теста

5

Шкала первичных баллов является порядковой. Никакое преобразование первичных баллов в КТТ не повышает уровня шкалы

Шкала логитов является интервальной, что дает возможность перейти от ранжирования испытуемых и заданий к измерению соответственно уровня подготовленности и уровня трудности

6

Нормальное распределение баллов испытуемых и трудностей заданий теста играет существенную роль

Нормальность распределения параметров не требуется

7

Способы установления соответствия между баллами испытуемых, выполнявших различные варианты, требуют трудновыполнимых предположений

Возможно выполнить процедуру выравнивания показателей различных вариантов и осуществить шкалирование на единой метрической шкале. Возможно создание банков заданий

8

Не подходит для компьютерного адаптивного тестирования


Вся теория компьютерного адаптивного тестирования базируется на IRT

9

Анализ концентрируется только на оценивании трудности заданий и мер испытуемых

Возможен анализ влияния дополнительных факторов на оценки параметров заданий и мер испытуемых

10

Искусственное назначение весов заданиям может привести к искажению информации об уровне подготовленности испытуемых

Вес (информационный вклад) тестового задания может быть вычислен отдельно вне зависимости от характеристик других заданий


Введение в современную теорию тестирования IRT


Hambleton R., Swaminathan H., Rogers H.J. Fundamentals of Item Response Theory. – London.: Sage publications, 1991

Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. – М.: Прометей, 2000

Карданова Е.Ю. Моделирование и параметризация тестов: основы теории и приложения.

М.: Федеральный центр тестирования, 2008


Цель тестирования – получить объективные оценки уровня подготовленности испытуемых и трудностей заданий теста. Объективность оценок подразумевает выполнение следующих двух условий:

- инвариантность оценок испытуемых относительно тестовых заданий, по результатам выполнения которых эти оценки получены. Это означает, что при тестировании одного и того же испытуемого различными тестами (с подобной содержательной валидностью) должны получаться близкие, с точностью до погрешности вычислений, результаты;

- инвариантность характеристик тестовых заданий относительно контингента испытуемых, по результатам тестирования которых эти характеристики получены. Это означает, что при выполнении одного и того же теста различными группами испытуемых должны получаться близкие, с точностью до погрешности вычислений, оценки трудности тестовых заданий.

Очевидно, что в рамках традиционной теории тестирования (КТТ) невозможно добиться объективности оценок.

Отметим, что по существу мы имеем дело со случайными событиями: даже зная правильный ответ на задание, с некоторой вероятностью испытуемый может ошибиться. Поэтому матрица тестирования содержит в себе лишь результаты формальных наблюдений над случайными событиями. Первичные баллы, по существу, не являются баллами, что-либо оценивающими, а лишь фиксируют количество положительных исходов случайных событий. Эти количества естественно образуют порядковую шкалу. Максимум, что можно сделать в рамках этой шкалы, это распределить участников тестирования и тестовые задания по классам в соответствии с их первичными баллами. При этом следует отметить, что первичные баллы способны ранжировать испытуемых только применительно к данному конкретному тесту. Это означает, что если испытуемым будет предложен другой тест (в рамках той же учебной дисциплины), то это приведет к другому ранжированию. То же самое справедливо относительно первичных баллов заданий теста: даже небольшое изменение контингента испытуемых приведет к другим результатам тестирования и соответственно к другим первичным баллам заданий.

Задача состоит в том, чтобы преобразовать формальные наблюдения за исходом отдельных случайных событий в измерения, то есть непрерывные переменные со значениями на метрической шкале. В результате получим объективные оценки параметров уровня подготовленности испытуемых и трудностей заданий теста, что позволит обоснованно пользоваться методами статистического анализа, оценивать точность тестовых баллов, строить доверительные интервалы и т.д.

Преобразовать наблюдения в измерения можно только в рамках некоторой математической модели. Основная цель теории моделирования и параметризации тестов (ТМПТ) состоит в разработке математической модели процесса тестирования, параметрами которой, подлежащими определению, служат характеристики участников тестирования и самого теста. В основе всех моделей ТМПТ лежит функция успеха, определяющая зависимость вероятности правильного выполнения задания (или какой-либо его части) от уровня подготовленности участника тестирования и параметров задания.

Выбор вида функции успеха определяется математической моделью. В настоящее время известно довольно много различных математических моделей тестирования. Ниже перечислены некоторые из широко применяемых моделей;


  1. основная дихотомическая модель Раша (Dichotomous Rasch Model);

  2. двух- и трехпараметрические модели (модели Бирнбаума);

3) Partial Credit Model (модель с произвольными промежуточными категориями выполнения заданий; модель частичного оценивания);

4) Rating Scale Model (модель с фиксированными промежуточными категориями выполнения заданий; модель рейтинговых шкал);

5) многопараметрическая модель (Many-Facet Rasch Model, Linacre J.M.);

6) многомерные модели (Multidimensional Rasch Model, Wilson M., и др.).


Для работы с моделями, оценивания параметров, анализа заданий, оценивания испытуемых необходимо специальное программное обеспечение. Ниже перечислены некоторые из известных программ:

  1. Winsteps (модели Раша – дихотомическая, Partial Credit Model, Rating Scale Model);

  2. Bilog, Multilog, Parscale (модели Бирнбаума и их расширения для политомических заданий);

  3. Facets (Many-Facet Rasch Model);

  4. Conquest (многомерные модели).



Преимущества моделей Раша:


- простейшие модели, в рамках которых обеспечивается инвариантность параметров, характеризующих уровни подготовленности испытуемых и уровни трудности заданий теста;

- число параметров, входящих в эти модели, минимально;

- параметры допускают простую интерпретацию, могут быть достаточно легко оценены, причем на метрической шкале и с указанием точности;

- могут быть применены к заданиям всех форм, которые наиболее часто встречаются в педагогическом тестировании;

- хорошо развита теория анализа заданий и испытуемых;

- легко решаемы все специфические проблемы тестирования.


Простейшие модели Раша


Основное предположение ТМПТ подразумевает, что наблюдаемые результаты выполнения теста порождаются взаимодействием двух множеств: множества значений(n=1,…,N) латентного (то есть скрытого от непосредственного наблюдения) параметра, характеризующего уровень знаний испытуемого n, и множества значений (i=1,…,I) латентного параметра, характеризующего уровень трудности i-го задания теста.

Предположим, что параметры и оцениваются в одной и той же шкале. Тогда значение параметраможно рассматривать как положение испытуемого n, а как положение задания i на одной и той же оси переменных , .

Пусть Pni - вероятность того, что испытуемый n правильно выполнит i-ое задание теста. Тогда разумно предположить, что если уровень знаний испытуемого выше уровня трудности данного задания (что означает, что ), то Pni >, то есть более вероятно, что испытуемый выполнит это задание верно. Если же уровень трудности задания выше уровня знаний испытуемого (что означает, что ), то Pni <, то есть более вероятно, что испытуемый выполнит это задание неверно. Наконец, если , то разумно считать Pni=. Таким образом, вероятность Pni может быть представлена как функция разности переменных и :



В ТМПТ эту функцию принято называть функцией успеха. Различные модели отличаются видом функции успеха.

Основная дихотомическая модель Раша:

,

где Pni - вероятность того, что испытуемый n, n=1,…,N, с уровнем подготовленности θn правильно выполнит задание i, i=1,…,I, с уровнем трудности δi.

Если в этой формуле зафиксировать переменную , а рассматривать как независимую переменную, то эта формула будет представлять вероятность правильного выполнения испытуемыми с различными уровнями подготовки i-го задания теста. Примерный график функции представлен на рис.1 и называется характеристической кривой i-го задания теста.



Рис.1 Характеристическая кривая i-го задания теста


Для дальнейших рассуждений полезно ввести вероятности и как вероятности получить испытуемым n соответственно 0 баллов и 1 балл за выполнение задания i. Очевидно, что в дихотомическом случае - это просто вероятность Pni выполнения первого и единственного шага в задании i, а =1-=1- Pni. На рис.2 представлены типичные графики вероятностей и .




Рис.2 Графики вероятностей категорий для дихотомического задания


Рассмотрим модель Раша с произвольными промежуточными категориями выполнения заданий, которая часто используется в педагогическом тестировании. В частности, она может применяться в следующих случаях:

  1. когда предполагается оценивать частично правильные ответы (например, 3 балла – за полностью выполненное задание, 2 балла – за вполне хорошее качество, 1 балл – за удовлетворительное качество и 0 баллов – за невыполненное задание);

  2. когда задание требует последовательности шагов в его выполнении, то есть задание допускает пошаговую интерпретацию (например, задания части «С» КИМов ЕГЭ).

В простейшем случае задание – двухшаговое, за выполнение которого испытуемый может получить либо 0 баллов (задание выполнено полностью неверно), либо 1 балл (задание выполнено частично верно), либо 2 балла (задание выполнено полностью верно). Таким образом, в этом задании введен промежуточный уровень оценивания, который позволяет дать дополнительный балл за частично выполненное задание. Будем говорить, что такое задание имеет три возможных категории выполнения.

Пусть - вероятность того, что испытуемый n получит 0 баллов за выполнение i-го задания, соответственно и - вероятности того, что этот испытуемый получит 1 или 2 балла в этом задании. На рис.3 представлены типичные графики вероятностей и Любой ответной категории в задании соответствует одна вероятностная кривая. Как и в дихотомическом случае, точке пересечения кривых и соответствует значение - трудность выполнения 1-го шага в задании i. Аналогично, точке пересечения кривых и соответствует значение - трудность выполнения 2-го шага в задании i. В данном случае .




Рис.3 Графики вероятностей категорий в двухшаговом задании


Основные этапы анализа данных в рамках современной теории тестирования:


  1. Выбор модели измерения

  2. Оценивание параметров

  3. Исследование согласия эмпирических данных с моделью

  4. Анализ заданий теста (согласие с моделью, функционирование категорий политомических заданий, оптимизация схемы оценивания)

  5. Анализ испытуемых (обнаружение невалидных профилей и их анализ)

  6. Анализ теста (размерность теста, ошибка измерения и надежность, совместное функционирование заданий различных типов, валидность, функционирование заданий по отношению к различным группам испытуемых)

  7. Специфические проблемы (анализ деятельности экспертов, назначение проходного балла, обнаружение недостоверных результатов тестирования, выравнивание результатов).

Анализ испытуемых


Рассмотрим анализ испытуемых на примере реальных данных тестирования. Общее число испытуемых, выполнявших данный вариант теста, равно 655.

Для анализа испытуемых используются различные статистики и методы. Рассмотрим метод, основанный на статистиках согласия и анализе профилей испытуемых. В данном примере рассматриваются 4 статистики согласия: и и их стандартизованные версии - и . В качестве допустимых значений этих статистик рассматривается интервал [0,8;1,2] для статистик и , и интервал [-2;+2] для статистик и .

Отметим, что ответы абсолютного большинства участников тестирования находятся в достаточно хорошем согласии с моделью измерения (значения всех статистик согласия находятся в допустимых пределах). В плохом согласии были ответы 27 человек, то есть 4 % от общего количества испытуемых, выполнявших данный тест. В табл. 1 представлены данные о нескольких из них. В 1-ой колонке представлен номер испытуемого, во 2-ой – оценка уровня его подготовленности, в 3-ей – ошибка его измерения. В следующей колонке таблицы представлен коэффициент корреляции баллов испытуемого с трудностью заданий. Далее следуют значения статистик согласия.

Табл. 1

Номер

испытуемого

Оценка уровня подготовл.

Ошибка

измерения

Коэффициент

корреляции


Статистики согласия




Un(1)



tn(1)



Un(2)



tn(2)

10

1,01

0,31

-0,01

1,90

2,70

1,65

2,50

15

2,07

0,39

-0,16

1,65

1,10

1,69

1,90

148

1,21

0,32

0,22

1,22

0,70

1,41

1,50

156

1,31

0,32

0,13

1,46

1,30

1,01

0,10

482

-1,38

0,34

-0,18

3,34

4,00

1,63

2,70

517

-0,04

0,29

0,09

1,55

2,40

1,37

2,00

307

0,29

0,29

0,71

0,62

-2,20

0,80

-1,30


В табл.2 представлены результаты анализа профилей для некоторых испытуемых из табл. 1. В таблице для каждого испытуемого представлены его индивидуальный номер, тестовый балл (на шкале логитов), ряд его баллов по всем заданиям теста. Под каждым пунктом ряда баллов испытуемого при наличии существенного отклонения от статистически ожидаемого ответа стоит пометка: звёздочкой помечены случаи существенного по величине отрицательного остатка, а знаком плюс - существенного положительного остатка.

Рассмотрим испытуемого № 10. Его тестовый балл, довольно высок: . При этом все 4 статистики согласия имеют значения, большие правых критических. Проанализируем профиль его ответов. В части А теста этот испытуемый допускает несколько ошибок в очень легких заданиях, почти не выполняет часть В, но имеет 10 из 12 баллов за выполнение части С. Достаточно высокий первичный балл за выполнение теста обеспечил этому испытуемому высокий тестовый балл, но статистики согласия сигнализируют о возможной недостоверности его результата. Возможно, этот испытуемый много сил отдал на выполнение заданий части С, и ему не хватило времени на задания части В. Но, возможно, ему была оказана помощь при выполнении части С, и в этом случае его истинный тестовый балл ниже того, что он получил.

Табл. 2

Индивидуальный номер

Тестовый балл

Ряд ответов

с пометками существенных отклонений

(* — существенное отрицательное,

+ — существенное положительное)

Часть А | Часть В | Часть С

10

1,01

11100 11100 11111 11011 11111 11110 10010 10001 10001 12213

** * * * +

15

2,07

11110 11011 11110 11011 11101 11111 01020 11111 11111 22213

* * * * * * * * +

148

1,21

11111 11111 11111 11111 11111 00000 10021 11002 11111 12000

***** *

156

1,31

10001 10111 11111 11111 11101 11111 11020 11121 00111 10012

*** *

482

-1,38

01000 00000 10000 00001 00010 00000 00001 00120 00011 11100

+ + ++ ++ + +

517

-0,04

11110 10000 00000 00110 01011 11111 01100 00120 11011 01020

* * + + + +

307

0,29

11111 11010 11111 11111 11011 01111 11010 00000 01001 00000




Рассмотрим испытуемого № 15. Его тестовый балл очень высок, две статистики согласия имеют значения выше критических - и . Этот испытуемый очень хорошо выполнил задания частей В и С, но допустил несколько ошибок при выполнения заданий части А: 6 легких заданий части А выполнены неверно. В этом случае можно предположить, что данный испытуемый невнимателен или небрежен. Возможно, он выполнял эти задания очень быстро, без должной аккуратности. В результате оценка его уровня подготовленности может быть даже несколько занижена по сравнению с его истинным значением из-за допущенных по невнимательности ошибок.

Далее, рассмотрим испытуемого № 148. Этот испытуемый выполнил безошибочно 25 первых заданий теста, а из оставшихся 7 заданий части А выполнил только одно. Затем этот испытуемый хорошо выполнил задания части В (9 заданий из 12 выполнены верно) и части С (3 задания из 6). Задания части А, которые этот испытуемый не выполнил, не являются трудными. Скорее всего, это испытуемый очень тщательно выполнял задания части А и потратил на это много времени. Не закончив, перешел к частям В и С, также тщательно их выполняя. Последние 3 задания части С он выполнить не успел. В условиях дефицита времени он попытался дать ответы на те задания части А, на которые не успел ответить. Испытуемый выбирал ответ, не пытаясь выполнить задание, то есть гадал. В результате, возможно, истинный уровень подготовленности данного испытуемого несколько выше: если бы у него было больше времени, он бы выполнил те задания, которые не успел.

Рассмотрим испытуемого № 156. Только одна статистика согласия имеет значение выше правого критического – статистика . При довольно высоком тестовом балле этот испытуемый не смог выполнить несколько очень легких заданий в начале теста. При этом за серией неожиданно неправильных ответов в начале теста следует серия ответов, соответствующих уровню подготовленности данного испытуемого. Такую ситуацию можно объяснить наличием волнения у испытуемого в начале тестирования. В результате тестовый балл данного испытуемого, по всей вероятности занижен по сравнению с его истинным значением.

Рассмотрим испытуемого № 482. Его тестовый балл, очень низок: . При этом все 4 статистики согласия имеют значения, большие правых критических. Проанализируем профиль его ответов. В части А этот испытуемый выполнил правильно только 4 задания из 32, причем одно из них – довольно трудное (задание А24, уровень трудности ). В части В он выполнил только 3 задания, но все – трудные. В части С этот испытуемый получил баллы по 4 заданиям, причем все они – очень трудные. Таким образом, профиль ответов данного испытуемого носит неправильный характер: легкие задания не выполнены, трудные – выполнены. Причины такой ситуации могут быть различны, но, скорее всего, уровень подготовленности данного испытуемого еще ниже, чем указанный выше, о чем свидетельствует невыполнение очень легких заданий части А.

Рассмотрим испытуемого № 517. Его тестовый балл несколько ниже среднего значения тестовых баллов всех испытуемых (), статистики согласия ненамного превышают правые критические значения. В каждой из частей теста этот испытуемый выполнил около половины заданий. При этом он не выполнил 2 очень легких задания части А и выполнил 4 трудных задания в частях В и С. Относительно этого испытуемого можно предположить, что его знания имеют пробелы: некоторые темы программы им не усвоены.

Отметим, что у почти всех рассмотренных испытуемых коэффициент корреляции их баллов с трудностью заданий отрицательный или очень близок к 0, что говорит о том, что профили ответов этих испытуемых носят не совсем правильный характер: ряд легких заданий не выполнены, ряд трудных – выполнены.

Рассмотрим испытуемого № 307, имеющего тестовый балл =0,29. Он выполнил правильно почти все задания части А (28 из 32) и получил только 2 балла за выполнение заданий части В и 1 балл – за выполнение заданий части С. Задания части А, которые данный испытуемый не выполнил, имеют более высокий уровень трудности, чем остальные задания этой части. Задания частей В и С – намного более трудные, чем задания части А. Таким образом, профиль ответов этого испытуемого очень правильный, близок к каноническому: легкие задания выполнены, трудные – нет. Уровень подготовленности этого испытуемого по результатам выполнения легкого субтеста 1 существенно превышает уровень подготовленности по результатам трудного субтеста 2, что также может свидетельствовать об искажениях в его оценивании. Наиболее вероятная причина – чрезмерная осторожность этого испытуемого, но возможны и другие причины. В результате тестовый балл данного испытуемого, по всей вероятности, занижен по сравнению с его истинным значением.


Похожие:

Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconКомпьютерное тестирование
Преимущества компьютерного тестирования по сравнению с традиционными формами тестирования
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconСценарий интеллектуальной игры
Цели урока: Знать основные положения теории А. М. Бутлерова и их доказательства, значение теории для развития современной теории...
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconИспользование it при переводе Выпускная работа по дисциплине «Основы информационных технологий» Магистранта гуманитарного факультета, кафедры теории и практики перевода
Программное обеспечение, используемое при переводе, его преимущества и недостатки 14
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconЛекция на тему: «Методика разработки тестов по биологии»
Преимущества педагогического тестирования перед экзаменами – многочисленны и не вызывают сомнения
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconОб организации проведения тестирования на основе компетентностного подхода (фгос)
В рамках подготовки к аккредитации заведующим обеспечивающими кафедрами обеспечить организацию тестирования всех студентов 1-го и...
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconЛекция на тему: «Основные формы педагогических тестовых заданий по биологии»
Преимущества педагогического тестирования перед экзаменами – многочисленны и не вызывают сомнения
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconИнтернет-тренажеры в сфере образования
Руководство предназначено для выпускников школ и абитуриентов, студентов, выпускников бакалавриата/специалитета, аспирантов и соискателей,...
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) icon«Раннее выявление первичных признаков злоупотребления пав»
Взять на личный контроль организацию и проведение добровольного тестирования обучающихся образовательных учреждений на предмет употребления...
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconПравила проведения единого национального тестирования Общие положения
Закона Республики Казахстан от 27 июля 2007 года «Об образовании» и устанавливают порядок проведения единого национального тестирования...
Недостатки классической теории тестирования и преимущества современной теории тестирования (irt) iconЭлективный курс «Элементы теории множеств, логики, комбинаторики и теории вероятностей»
Поэтому знание основ теории множеств, логики и теории вероятностей даёт возможность учащимся определиться в профессиональной деятельности,...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib2.znate.ru 2012
обратиться к администрации
Библиотека
Главная страница