Надежность. В традиционной тестологии термин «надежность» означает относительное посто­янство, устойчивость, согласованность ре­зультатов теста при первичном и повторном

*Надежность и валидность теста - это характеристики соответствия исследования формальным критериям, определяющим качество и пригодность к применению на практике.

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием.

Надежность теста - это критерий, который свидетельствует о Существенными считаются следующие свойства тестов:

  • воспроизводимость результатов, полученных по итогам исследования;
  • степень точности или соответствующих приборов;
  • устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

  • надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
  • стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
  • объективность результата (то есть его независимость от личных предпочтений исследователя).

Факторы надежности

На степень надежности может повлиять целый ряд негативных факторов, наиболее существенными из которых являются следующие:

  • несовершенство методики (неверная или неточная инструкция, нечеткая формулировка заданий);
  • временная нестабильность или постоянные колебания значений показателя, который подвергается исследованию;
  • несоответствие обстановки, в которой проводятся первоначальные и повторные исследования;
  • меняющееся поведение исследователя, а также нестабильность состояния испытуемого;
  • субъективный подход при оценке результатов теста.

Способы оценки надежности теста

При определении надежности теста могут быть использованы следующие методики.

Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.

  • конструктивная валидность теста - это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
  • валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
  • валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
  • прогностическая валидность - это который позволяет оценить перспективное развитие параметра.

Типы критериев валидности

Валидность теста - это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:

  • критерий исполнителя (речь идет о квалификации и опыте исследователя);
  • субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
  • физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
  • критерий случайностей (имеет место в определении вероятности наступления того или иного события).

Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.

Основные требования к критериям

Внешние критерии, которые влияют на показатель валидности теста, должны отвечать следующим основным требованиям:

  • соответствие именно той сфере, в которой проводится исследование, релевантность, а также смысловая связь с диагностической моделью;
  • отсутствие каких-либо помех или резких разрывов в выборке (суть состоит в том, что все участники эксперимента должны соответствовать заранее установленным параметрам и находиться в схожих условиях);
  • исследуемый параметр должен быть надежным, постоянным и не подвергаться резким перепадам.

Способы установления валидности

Проверка валидности тестов может осуществляться несколькими способами.

Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.

Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:

  • конвергентную валидизацию - проверку взаимосвязи оценок, полученных с использованием различных комплексных методик;
  • дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.

Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.

Выводы

Валидность и надежность тестов - это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.

Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.

Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).

Тест обычно считается надежным , если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.

надежность по внутренней согласованности: если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое.

Надежность ретестовая - предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных (не меньше 1 мес после 1, коэф кор больше 0,7).

Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами (СЛОЖНОСТЬ, 2 набора заданий).

Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.

наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные временные интервалы .

Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надежность - важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.

7.Валидность теста

Тест называется валидным , если он измеряет то, для измерения чего предназначен.

Очевидная валидность - описывает представление о тесте, сложившееся у испытуемого.

Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена

Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время.

Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.

Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин.

эмпирическая – рассчитывается величина статистической связи между результатами обследования одних и тех же испытуемых с помощью данной методики и известными методиками, измеряющими данное свойство.

Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест.

критериальная – количественная мера связи между полученными результатами тестирования и внешними критериями оценки диагностируемого свойства.

Одним из важных отличий психометрических тестов является то, что они стандартизированы , а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах.

Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.

При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.

В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели , удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения.

Созданием стандартизованного теста и его публикацией обычно завершается работа психолога , однако следует помнить и о том, что с течением времени необходим пересмотр (ревизия) теста.

При создании теста можно пользоваться факторным анализом для сжатия информации или, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. чтобы найти несколько фундаментальных факторов, которые объясняли бы большую часть дисперсии в группе оценок по различным тестам или другим психометрическим измерениям.

Существует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизацию матрицы корреляций, с тем чтобы получилась первоначальная факторная матрица; 2) вращение факторной матрицы, с тем чтобы обнаружить наиболее простую конфигурацию факторных нагрузок.

В традиционной тестологии термин «надежность» означает относительное посто­янство, устойчивость, согласованность ре­зультатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази [ 10, т. 1 ], вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале неде­ли ребенок имел показатель, равный 110, а к концу - 80. Повторное применение надежных методик дает сходные оценки. При этом в оп­ределенной мере могут совпадать как сами результаты, так и порядко­вое место (ранг), занимаемое испытуемым в группе. И в том, и в дру­гом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной груп­пы. Таким образом, можно сказать, что надежность методики - это такой критерий, который говорит о точности психологических изме­рений, т. е. позволяет судить о том, насколько внушают доверие полу­ченные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка со­ставить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составле­на инструкция, задания по своему характеру разнородны, нечет­ко сформулированы указания, как методику предъявлять испы­туемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, на­личие или отсутствие посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опы­ту по-разному предъявляет инструкции, по-разному стимулиру­ет выполнение заданий и т. д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утом­ление и т. д.);

6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испы­туемых, оцениваются ответы по степени полноты, оригинально­сти и т. п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно до­биться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики яв­ляется единообразие процедуры обследования, его строгая регламен­тация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с ис­пытуемыми, порядок предъявления заданий и т. д. При такой стандар­тизации процедуры исследования можно существенно уменьшить вли­яние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.

На характеристику надежности методик большое влияние оказыва­ет исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повтор­ном обследовании новые результаты также расположатся тесной груп­пой. Возможные изменения ранговых мест испытуемых будут незна­чительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента слу­чайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каж­дой такой выборки приводятся свои коэффициенты надежности. При­водимый показатель надежности применим только к группам, подоб­ным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Так как надежность отражает степень согласованности двух неза­висимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность мето­дики - это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.

В данной книге при описании видов надежности основной упор де­лается на работы К. М. Гуревича , который, проведя тщатель­ный анализ зарубежной литературы по этой проблеме, предложил тол­ковать надежность как комплексную характеристику, включающую:

♦ надежность самого измерительного инструмента;

♦ стабильность изучаемого признака;

♦ константность, т. е. относительную независимость результатов от личности экспериментатора.

Основные показатели он предложил обозначить следующим образом:

♦ показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности;

♦ показатель, характеризующий стабильность измеряемого свой­ства - коэффициентом стабильности;

♦ показатель оценки влияния личности экспериментатора - коэф­фициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку ме­тодики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием констант­ности.

Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.

Определение надежности измерительного инструмента. Оттого, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания акту­ализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так назы­ваемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух получен­ных рядов коррелируются между собой. Для применения этого спосо­ба нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким по­ловинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Можно делить задания и другим путем. Например, можно сопоста­вить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечет­ные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Определение стабильности изучаемого признака. Определить на­дежность самой методики - это не значит решить все вопросы, связан­ные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабиль­ность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные вы­воды об уровне представленности измеряемого признака у такого ис­пытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть исполь­зован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он зак­лючается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреля­ции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуе­мым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тес­тирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих рав­ных условиях) больше шансов, что диагностируемый признак сохра­нит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрас­тает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тести­рование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать опти­мальным для повторного эксперимента. Только исследователь, исхо­дя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В те-стологической литературе наиболее часто называются временные ин­тервалы в несколько месяцев (но не более полугода). При обследова­нии детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка несколь­ких недель .

Коэффициент стабильности методики должен быть достаточно вы­соким (не ниже 0,80).

Определение константности (относительной независимости резуль­татов от личности экспериментатора). Поскольку методика, разрабо­танная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в ка­кой мере ее результаты поддаются влиянию личности эксперимента­тора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указыва­ющими, как проводить эксперимент, однако регламентировать мане­ру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опы­ту всегда отразит то, как сам экспериментатор к этому опыту относит­ся (допускает небрежность или действует точно в соответствии с тре­бованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности поль­зуются нечасто, однако это не может служить основанием для его не­дооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагно­стической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность мето­дики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспе­риментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными экспери­ментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Итак, были рассмотрены три показателя надежности психодиагно­стических методик. Может возникнуть вопрос, нужно ли при созда­нии методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.

Так, авторы «Стандартных требований к педагогическим и психо­логическим тестам» в главе «Надежность» отмечают, что коэффици­ент надежности - это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич . По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность из­меряемого свойства? Чего стоит диагностическая методика, если не­известно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заме­нит других способов проверки и, следовательно, не может рассматри­ваться в качестве необходимой и достаточной характеристики надеж­ности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического при­менения.

МЕТОДИКА РАСЧЕТА ТЕСТОВЫХ ХАРАКТЕРИСТИК

Бовтрукевич Мария Викторовна,

студент 3 курса г. Минск

Киреенко Анна Владимировна

студент 3 курса , кафедра информационных технологий, БГУ, г. Минск

Сиротина Ирина Казимировна

научный руководитель, ст. преподаватель, БГУ, г. Минск

На сегодняшний день вопрос тестового контроля очень актуален. Широкое применение он получил при проведении вступительной компании в вузы, при проверке знаний учащихся школ, лицеев, средних специальных и высших учебных заведений, при приеме на работу.Поскольку тестыпомогают определить человеку его способности, задатки, склонности, а также уровень знаний, умений и навыков, то они занялизначимую позицию в сфере образования.

Тест - это инструмент, состоящий из квалиметрически выверенной системы тестовых заданий, стандартизированной процедуры проведения и заранее спроектированной технологии и анализа результатов для измерения качеств и свойств личности, учебных достижений, изменение которых возможно в процессе систематического обучения .

Педагогическим тестом называется система заданий специфической формы, определенного содержания, равномерно возрастающей трудности - система, создаваемая с целью объективно оценить структуру и измерить уровень подготовленности учащихся (студентов). .

Главная проблема тестовогоконтролязнаний- сам процесссозданиятестов, ихунификацияианализ.Чтобы довеститестдополнойготовностикприменениюнеобходимонесколько лет собирать статистические данные.Довольночастовстречаетсязначительныйсубъективизмвформированиисодержаниясамих тестов, в отборе и формулировке тестовых вопросов. Многое такжезависитот конкретной тестовой системы, от того, сколько времени отводится наконтроль знаний, от структуры включенных в тестовое задание вопросов и т. д.Для объективной оценки уровня знаний необходимо грамотное составление теста: недостаточно придумать вопросы и варианты ответов, так как в этом случае может возникнуть немало противоречий, ошибок, неопределенностей, задания могут оказаться слишком простымиили же наоборот, слишком сложными. Всвязи с чемтестовые задания проходят процесс специальной оценки, который мы и рассмотрим в нашей работе.

Целью нашей работы является систематизация методов, позволяющих рассчитывать тестовые характеристики. Проведя анализ научной литературы по теме исследования , мы отобрали самые распространенные тестовые характеристики, собрали их воедино, подробно расписали их применение, составили общие правила для создания качественного теста, привели примеры. Мы надеемся, что данная работа усовершенствует такую форму проверки знаний, как тестовый контроль, что в свою очередь улучшит качество образования.

В теории и практике тестовых измерений последователи выделяют разнообразные тестовые характеристики: надежность, валидность, дискриминативность, социокультутраняя адаптированность, достоверность, однозначность, стандартизированность, точность, сложность, нормирование и др. В данной работе в силу спецификации нашего исследования мы рассмотрели следующие из них: надежность, валидность, дискриминативность.

Дискриминативность задач определяется, как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью. .

Для вычисления дискриминативности мы будем использовать метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов. Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Нижняя граница «отсечения групп»составляет 10 % от общего числа испытуемых в выборке, верхняя -33 %. В нашей работемы будем использовать 27 % группу, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности.

Индекс дискриминации D определяетсякак разность между долей лиц, правильно решивших задачу, из «высокопродуктивной»и «низкопродуктивной»групп и находится поформуле:

где: Nn max - количество студентов в группе лучших, верно выполнивших задание; Nn min - количество студентов в группе худших, верно выполнивших задание; N max - общее количество испытуемых в группе лучших; N min - общее количество испытуемых в группе худших.

В. К. Гайда и В. П. Захаров предлагают вычислять коэффициент дискриминации, рассчитывая меру соответствия между успешностью решения одной задачи и всего теста. Этот показатель будет являться коэффициентом дискриминации, для его расчета используют формулу:

, (2)

где: x - среднее арифметическое значение всех индивидуальных оценок по тесту;

x n - среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу;

δ x - среднеквадратическое отклонение индивидуальных оценок по тесту для выборки;

n - число испытуемых, правильно решивших задачу;

N d - общее число испытуемых.

Коэффициент дискриминации может принимать значения от -1 до +1. Высокое положительное значение дискриминативности тестового задания свидетельствует об эффективности деления испытуемых, высокое отрицательное значение свидетельствует о непригодности данной задачи для теста, о ее несоответствии суммарному результату. Результат D ≥0,3 считается удовлетворительным. Если значение коэффициента близко к 0, то задачи должны рассматриваться как некорректно сформулированные.

Валидность означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование . Валидность -это характеристика способности теста служить поставленной цели измерения . Валидность определяет, насколько тест отражает то, что он должен оценивать .

Различают следующие ее виды: с одержательная валидность - характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям и умениям ;к онструктная (концептуальная) валидность - характеристика адекватного измерения теоретического конструкта,т. е. действительно ли тест на умственное развитие определяет коэффициент умственного развития; к ритериальная валидность-определяет способность теста служить индикатором строго определенных особенностей, форм поведения;т екущая валидность - характеристика теста, отражающая его способность различать испытуемых на основании того признака, который является объектом выявления в данной методике;п рогностическая валидность предоставляет информацию о том, насколько точно можно судить о качестве, выявленном в ходе тестирования, по прошествии определенного времени после измерения .

Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний студентов без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек.

Валидностьпо количественным способам определенияпреимущественно выясняетсяс помощью качественных оценок, как правило, с привлечением экспертов :офакторном анализе говорят, когда для определения валидности используется факторный анализ с целью определения факторных нагрузок и факторного состава теста; консенсусная валидность - для получения второго ряда оценок используют данные внешних экспертов; эмпирическа я валидность - для получения второго ряда оценок используют результаты, полученные путем применения методики известной ранее или из других источников.

В данной работе мы рассмотрим пример расчета валидности с учетом результатов тестирования и экспертных оценок:

, (3)

где: - среднееарифметическоеэкспертных оценок,

Стандартное отклонение этих оценок:

(3.2)

Аналогично - среднееарифметическоетестовых баллов студентов, а
- стандартное отклонение этих баллов, вычисляются также по формулам (3.1), (3.2).

Надежностью называется характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов .

Различают два вида надежности: надежность как устойчивость; надежность как внутреннюю согласованность.

Надежность как устойчивость. Устойчивость результатов теста - возможность получения одинаковых результатов у испытуемых в различных случаях. Надежность как устойчивостьизмеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Надежность теста тем выше, чем более согласованы результаты одного и того же человека при повторной проверке знаний посредством того же теста или эквивалентной его формы (параллельного теста). Для нахождения данной характеристики предлагают в , использовать формулу Пирсона:

, (4)

где X i - тестовый балл i-го испытуемого при первом измерении;

Y i - тестовый балл того же испытуемого при повторном измерении;

N -количество испытуемых.

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Для проверки внутренней согласованности рассматриваются следующие методы: метод расщепления или метод автономных частей; метод эквивалентных бланков; метод Альфа Кронбаха. В методе расщепления применяются формулы: Спирмана-Брауна; Рюлона; Кьюдера-Ричардсона; Стенли. Если значения коэффициента r попадают в интервал 0,80-0,89, то говорят, что тест обладает хорошей надежностью, а если этот коэффициент не меньше 0,90, то надежность можно назвать очень высокой. При применении метода расщепления тестовую матрицу разбивают на две половины, состоящие из заданий с четными и нечетными номерами.

Формула Спирмена -Брауна выглядит так:

Перед применением этой формулы, надо применить формулу (3). Обратите внимание на то, что в данном случаи X i - тестовый балл i -го испытуемого за задания с четным номером; Y i

Формула Рюлона выглядит так:

Дисперсия разностей между результатами каждого испытуемого по обеим половинам тестаS 2 d находится по формуле:

где:X i - тестовый балл i-го испытуемого за задания с четным номером;

Y i - тестовый балл того же испытуемого за задания с нечетным номером.

Дисперсия суммарных баллов результатаS 2 z находится по формуле:

, (6.2)

где: Z i - суммарный балл за весть тест i -го студента.

Формула Кьюдера-Ричардсонавыглядит так:

, (7)

где: p j - доля правильных ответов на j -ое задание, т.е. кол-во правильных ответов, деленное на кол-во студентов;

q j - доля неправильных ответов на j -ое задание, т. е. кол-во неправильных ответов, деленное на кол-во студентов (q j = 1 -p j );

S 2 z - дисперсия суммарных баллов результата, которая вычисляется по формуле (5.2).

При подсчете надежности по формуле Стенли студентов необходимо разделить на две группы. В первую группу войдут 27% «сильных» студентов (те, кто набрал наибольшее количество баллов), а в слабую 27% «слабых» студентов (те, кто набрал наименьшее количество баллов).

Формула Стенли:

, (8)

где W L - количество неправильных ответов на данный вопрос в слабой группе;

W H - количество неправильных ответов на данный вопрос в сильной группе;

n - количество вопросов в тесте;

k - количество испытуемых в сильной (слабой) группе, т. е. 27 % от общего числа испытуемых.

Коэффициент Альфа Кронбаха показывает внутреннюю согласованность характеристик, описывающих один объект, и находится по формуле:

, (9)

где: S 2 Y - дисперсия суммарных баллов результата, которая вычисляется по формуле (3.2);

S 2 Yi - дисперсия элемента i .

Методику расчета тестовых характеристик покажем на конкретном примере . Мы получили результаты тестирования студентов, представленные в таблице 1.

Таблица 1

Результаты первого тестирования

Ст удент

i

Экспертная оценка

Номер задания

1 0

Спустя две недели тест провели повторно и получили результат, представленный в таблице 2.

Таблица 2

Результаты второго тестирования

i

Экспертная оценка

Номер задания

1 0

Используя данные таблиц, перейдем к расчету всех вышеперечисленных характеристик.

Дискриминативность

1.Рассчитываем количество студентов в крайних группах, сразу округляя до целых:.

2. Рассмотрим группу лучших и группу худших, в каждой из которых будет по 3 человека. Получим таблицу 3.

Таблица 3

Сводная таблица тестирования с экспертными оценками

i

Экспертная оценка, Ei

Номер задания

Общий балл за тест

1 0

Таким образом в группу лучших входят студенты под номером 1, 10, 4; в группу худших: 3, 5, 2 (если встречаются студенты с одинаковым баллом за тест, учитываем экспертные оценки).

3. Составимтаблицу4, состоящую только из студентов группы лучших и студентов группы худших, сразу рассчитывая количество студентов в каждой группе, правильно выполнивших задание.

Таблица 4

Сводная таблица тестирования с экспертными оценками
для крайних групп

i

Экспертная оценка, Ei

Номер задания

1 0

Группа лучших

Группа худших

4. Рассчитываем индекс дискриминативности для каждого задания по формуле (1):

, , , , , , , , , .

Длаем вывод, что задания 6 и 7 недискриминативны.

Валидность

В таблице 6найдены E i (экспертная оценка),Z i (общий балл за тест), n - известно, в нашем случае равно 10.

1. Находим и по формуле (3.1):

2. Находим и по формуле (3.2):

,.

3.Валидность рассчитывается по формуле (3). Для удобства отдельно посчитаем:

Получим: .

Надежность как устойчивость

1. Для начала построим таблицу 5.

Таблица 5

Нахождения надежности по формуле Пирсона

Номер ученика i

Балл при первом тестировании X i

Балл при повторном тестировании Y i

X i Y i

(X i ) 2

(Y i ) 2

2. Применим формулу (4):

Надежность как внутренняя согласованность. Данную характеристику мы будем считать методом расщепления по формуле Рюлона (6).

1. Для начала найдем дисперсию разностей между результатами каждого испытуемого по обеим половинам теста. Заполним таблицу 6.

Таблица 6

Расчет дисперсии разностей результатов

i

Балл за задания с четным номером X i

Балл за задания с нечетным номером Y i

X i -Y i

2. Применим формулу (6.1): .

3. Найдем дисперсию суммарных баллов результата, предварительно построив таблицу 7.

Таблица 7

Расчет дисперсии суммарных баллов

I

Балл за все задания Z i

4. Применяя формулу (6.2), а затем и формулу (6), получим:

, .

Интерпретация результатов

1. Надежность как устойчивость: поскольку значение коэффициента приблизительно равно 0,923, то тест имеет высокую степень надежности. Значит, с этой точки зрения он составлен очень хорошо.

2. Надежность как внутренняя согласованность: значение коэффициента корреляции приблизительно равно 0,198. Это говорит о низкой надежности, поэтому лучше провести повторное тестирование с целью определения, какие тестовые задания необходимо заменить.

3. Дискриминативность: недискриминативны задания 6 и 7, так как неудовлетворительным считается коэффициент дискриминации менее 0,3. Это значит, что эти задания непригодны для теста и их необходимо заменить.

4. Валидность: степень корреляции между результатами теста и внешним критерием (экспертными оценками) достаточно высока и составляет 0,962823. Данный результат говорит о высокой валидности рассмотренного теста.

Обращаем ваше внимание на особые случаи .

  • Иногда при нахождении коэффициента надежности происходит деление на нуль. Это может произойти, если все студенты имеют одинаковое количество правильных и неправильных ответов. Такое редко бывает на практике, скорее всего, произошла утечка ответов. В данном случае следует тест провести повторно.
  • При нахождении надежности как устойчивости, так же возможен случай, который дает в ответе неопределенность, т. е. происходит деление нуля на нуль. Такое может произойти, когда студент дал одинаковое количество правильных и неправильных ответов на первом и повторном тестировании. Это означает, что тест составлен очень удачно или же наоборот, очень неудачно. Советуем вам проверить другие тестовые характеристиками и, исходя из них, сделать заключение.
  • При расчете валидности также возможен случай, когда происходит деление на 0. Это может произойти в том случае, если все студенты имеют одинаковое количество правильных и неправильных ответов или, если все экспертные оценки одинаковы. Такой случай редко может произойти на практике, скорее всего, произошла утечка ответов, и данный результат искажен.

Если мы хотим составить тестовые задания, обладающие удовлетворительной дискриминативностью, то необходимо избегать следующего: 1) излишней сложности, запутанности формулировок; 2) неоднозначности условий; 3) очевидности решения; 4) зависимости результата от памяти или от других индивидуальных особенностей испытуемого, а не от уровня развития тех умений и навыков, для оценки которых разрабатывается тест; 5) абсурдности, нереальности вариантов ответов; 6) появления двух и более правильных ответов, не оговоренных в условии.

Существуют следующие способы повышения валидности теста: 1) подбор оптимальной трудности заданий для обеспечения нормального закона распределения баллов по тесту; 2) экспертиза качества содержания теста;
3) расчет оптимального времени выполнения теста; 4) подбор заданий с высокой дискриминативностью.

Предварительное исследование источников ненадежности позволяет по возможности устранить их влияние при конструировании теста. К числу таких источников обычно относят: 1. Субъективизм при оценке результатов выполнения заданий теста. Наиболее эффективный метод преодоления отмеченного недостатка - использование закрытых заданий, которые благодаря возможности объективной оценки результатов выполнения при прочих равных ведут к повышению надежности теста. 2. Угадывание. Как показывают специальные исследования, угадывание существенно снижает надежность теста, особенно в тех случаях, когда тестируется группа слабых учеников, которые обычно прибегают к догадке при выполнении наиболее трудных заданий теста. 3. Отсутствие логической корректности формулировок заданий теста. Как правило, некорректные задания пропускают сильные ученики, что в целом негативно отражается на надежности теста. 4. Неоправданный выбор весовых коэффициентов. При правильном положении вещей выбор весовых коэффициентов в процессе подсчета индивидуальных баллов обучаемых должен базироваться на соответствующей теории. 5. Длина теста. Надежность растет по мере увеличения длины теста. Для удовлетворительной, но не хорошей надежности обычно достаточно 30 заданий теста. 6. Отсутствие стандартной инструкции к тесту. Инструкции к тесту должны быть предельно стандартизованы и точны. Любые неоднозначности, двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности теста. 7. Иные источники ненадежности связаны с испытуемыми, а не с заданиями теста. Например, испытуемый может плохо себя почувствовать во время работы над тестом либо ошибиться в инструкции. На результаты выполнения теста могут повлиять усталость и скука, температура в помещении, шум за окном и т. п.

В заключение отметим, что в рамках нашего проекта с целью оптимизации процесса эмпирической обработки тестовых характеристикстудентами специальности «Информатика» Фалеем Александром и Березюком Сергеем разработани реализован онлайн сервис .Обработка пользовательских данных разделена на три этапа: прием информации от клиента и формирование массивов исходных данных, обработка значений с помощью расчетных формул и алгоритмов, компоновка и вывод результатов пользователю. Целевой аудиторией данного сервиса преимущественно могут стать учителя школ и преподаватели вузов.Адрес проекта: www.qualitester.com .

Список литературы:

1. Аванесов В. С. Композиция тестовых заданий/ В. С. Аванесов. - М.: Адепт, 1998. - 217 с.

2. Аванесов В. С. Применение заданий в тестовой форме в новых образовательных технологиях / В.С. Аванесов // Школьные технологии. - 2007. - № 3. - С. 146-163.

3. Аванесов В. С. Форма тестовых заданий: учеб. пособие / В. С. Аванесов. М.: Центр тестирования, 2005. - 120 с.

4. Гуцанович С. А., Радьков А. М. Тестирование в обучении математике: диагностико-дидактические основы / С. А. Гуцанович, А. М. Радьков. - Мозырь: Издательский Дом «Белый Ветер», 2001. - 168 с.

5.Майоров А. Н. Теория и практика создания тестов для системы образования. - Москва: «Интеллект-Центр», 2002. - 296 с.

6.Челышкова,М.Б. Теория и практика конструирования педагогических тестов. - Москва: «Логос», 2002. - 432 с.

Статьи по теме: