Ошибки при проверке гипотез и интервальное оценивание

При статистическом выводе, независимо от того, проверяются ли гипотезы, или оцениваются параметры, исследователь принимает решение (например, следует ли отклонить данную гипотезу) относительно одного или более параметров. Принятие решения осуществляется в ситуации неопределенности, обусловленной невозможностью наблюдать все элементы генеральной совокупности. Решение относительно параметра основывается на соответствующей выборочной статистике, которая содержит не только свойства параметра, но и случайные флуктуации самой выборки. Какое бы решение ни было принято, всегда существует вероятность ошибки. Хотя вероятность извлечения смещенной (нерепрезентативной) выборки очень мала при правильном использовании метода случайных выборок, всё-таки эта вероятность не равна нулю и всегда существует возможность того, что это редкое событие (получение смещенной выборки) произойдет.

При проверке гипотез у исследователя существуют варианты, связанные с нулевой гипотезой: а) отклонить гипотезу; б) принять гипотезу. В зависимости от принятого решения может быть допущена одна из двух возможных ошибок: а) отклонить нулевую гипотезу, когда она на самом деле является верной; б) не отклонять нулевую гипотезу, когда она на самом деле является ложной.

Выражение «гипотеза принимается» используется чаще, чем фраза «гипотеза не отклоняется», хотя в очень многих ситуациях они синонимичны. Однако часто неотклонение нулевой гипотезы, выдвинутой на основе отдельной выборки, может рассматриваться как недостаточное для признания ее верной, т.е. соответствующей действительности.

Ошибки I рода и ошибки II рода

В табл. 23 показаны возможные комбинации между вариантами принятия решения на основе выборочных данных и фактической ситуацией.

Таблица 23

Возможные варианты нри проверке гипотез

Решение

Действительное состояние в генеральной совокупности

Нулевая гипотеза верна

Нулевая гипотеза не верна

Нулевая гипотеза отвергается

Ошибка I рода

Верное решение

Нулевая гипотеза не отвергается

Верное решение

Ошибка II рода

Как видно из таблицы, гипотеза на самом деле может быть или верной, или ложной для исследуемой генеральной совокупности. Также видно, что возможны два решения: а) исследователь может отклонить гипотезу; б) не отвергать ее на основании наблюдений по выборке. Если гипотеза верна и исследователь не отклонил ее, то решение соответствует действительности. Если гипотеза не верна, а исследователь отклонил ее, также имеем соответствие между решением и фактическим состоянием. С другой стороны, если исследователь принимает ложную гипотезу или же не принимает верную гипотезу, то в обоих случаях решение будет ошибочным. Таким образом, допускается ошибка I рода, если отвергается верная нулевая гипотеза, и ошибка IIрода, если принимается неверная нулевая гипотеза.

Возникает вопрос, какая из двух возможных ошибок считается серьезнее. Не существует однозначного и безусловного ответа. Тяжесть ошибки зависит от контекста решаемой задачи. Это особенно важно для социологии. К сожалению, два рода ошибок имеют сложную взаимосвязь и невозможно их минимизировать одновременно. Поэтому на практике всегда стремятся к какому-то компромиссу.

Рассмотрим пример. Опыт преподавания математической статистики студентам в одном из вузов показывает, что их успехи в этой области низки. Обсуждается вопрос о том, что использование готовых статистических программ поднимет успеваемость по этой дисциплине. Решено провести соответствующий эксперимент. Первый шаг - это выбрать две группы (сформировать две выборочные совокупности) студентов, репрезентативные для генеральной совокупности. Одна группа будет обучаться по методике, используемой традиционно (контрольная выборка), а другая (экспериментальная выборка) - по новой программе, которая включает в себя использование статистических программ, например программы SPSS или блока формул из Excel. Так как почти нет предварительной информации, целесообразно было бы сформулировать двухстороннюю альтернативную гипотезу. Нулевая гипотеза утверждает, что нет разницы в полученных результатах для студентов, которые обучались по стандартной программе, и теми, кто использовал статистические программы. Имеем

где ,ц. - среднее для студентов, обучающихся по стандартной программе;

це - среднее для студентов, обучающихся с использованием статистических программ.

Обсудим последствия, которые могли бы быть при совершении ошибок первого или второго рода. Если выборочное среднее для экспериментальной группы больше, чем для контрольной, и нулевую гипотезу отвергают, когда на самом деле она верна (имеет место ошибка I рода), результатом будет внедрение статистических программ в обучение, что связано с существенными излишними расходами. С другой стороны, если нулевая гипотеза не будет отклонена, когда на самом деле она неверна (получаем ошибку II рода), то не будут выделены деньги на статистические программы, такие программы не будут использованы как элемент обучения, что не будет способствовать повышению уровня успеваемости и, возможно, будет иметь более серьезные последствия в профессиональной подготовке социологов. В итоге видим, что результат ошибки I рода - излишнее расходование средств, а результат ошибки II рода - игнорирование современных эффективных учебных методов и технологий.

Цель этого примера - проиллюстрировать последствия совершения одной из двух ошибок при проверке гипотез. Предположение о том, какая из двух ошибок может дать более серьезные последствия, зависит исключительно от контекста проблемы, и решение может быть принято только на экспертном уровне.

Основная идея проверки гипотез, как уже говорилось выше, - показать правильность альтернативной гипотезы, когда отвергается нулевая гипотеза. Этот подход направляет внимание прежде всего на ошибки I рода, т. е. на отказ от нулевой гипотезы, когда она в действительности верна, но это не означает, что ошибка I рода является более серьезной. Специфичные условия конкретного исследования определяют допущения, ошибка какого рода будет иметь более тяжелые последствия. В идеальном случае - одновременно минимизируются вероятности совершения возможных ошибок обоих родов.

Вероятность совершения ошибки I рода, когда нулевая гипотеза отвергается, называется уровнем значимости и обозначается маленькой греческой буквой а (альфа). По этой причине очень часто используется и синоним «a-уровень». Вероятность совершения ошибки II рода обозначается маленькой греческой буква Р (бета). Ошибки II рода нелегко определить. Для того чтобы найти вероятность ошибки II рода, альтернативное значение исследуемого параметра должно быть точно фиксированным, т.е. не следует использовать соотношения типа «больше», «меньше», «не равно» и т.д. Выражение (1 - Р) называется мощностью теста, и это одна из основных характеристик статистических качеств данного метода проверки гипотез. Как мы уже упоминали, два рода ошибок находятся в сложной взаимозависимости и не могут быть минимизированы одновременно. Например, если зафиксируем все сопутствующие факторы (объём выборки, форму распределения и т.д.) и изменим уровень значимости, скажем, с 0,05 на 0,1, то вероятность ошибки II рода снижается с увеличением вероятности ошибки I рода. С другой стороны, если уменьшать уровень значимости с 0,05 до 0,01, это приводит к увеличению вероятности ошибки II рода. Отсюда логически следует и практический подход, который часто используется: фиксируется уровень значимости и выбирается такой тест, который при определенных условиях приведет к меньшей вероятности ошибки II рода. Вывод этого суждения в том, что, когда выбирается уровень значимости, следует внимательно оценить последствия от ошибок данного рода, для того чтобы правильно выбрать оптимальный а-уровень.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >