P-распределение Фишера - Снедекора

^-распределение Фишера - это выборочное распределение случайной переменной

где U и V - независимые случайные переменные, распределенные по закону х2 со степенями свободы kx и k2.

Плотность распределения выражается формулой тдеС»= r(fe, /2)r(fe, /2) '

Таким образом, распределение Фишера - Снедекора определяется двумя параметрами - числами степеней свободы. Вид функции распределения представлен на рис. 6. Распределение положительно асимметрично, т.е. вытянуто вправо.

Функция плотности F-распределения, критические значения и табулированные процентные значения (заштрихованная область) для .Р-распределения с 10 и 17 степенями свободы

Рис. 6. Функция плотности F-распределения, критические значения и табулированные процентные значения (заштрихованная область) для .Р-распределения с 10 и 17 степенями свободы

Распределение случайной величины F названо в честь знаменитого английского математика Р. Фишера (1890-1962), активно использовавшего его в своих статистических работах.

Распределение Фишера - Снедекора применяют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики.

?-распределение Стыодента

При проверке гипотез, когда а неизвестно и в качестве оценки используется S, нормальное распределение не подходит в качестве модели для описания поведения выборочного среднего. Этот факт доказал в начале XX века Уильям С. Госсет (William S. Gosset), молодой химик, работавший на пивоварне в ирландском Дублине. В своей работе, посвященной контролю качества, он показал, что традиционные статистические процедуры, которые используют нормальное распределение как исправленное выборочное, непригодны для малых выборок. Не используя строгий математический подход, У. С. Госсет начал изучать эмпирически полученные распределения при различных объемах выборки. В процессе экспериментов он установил, что для малых выборок распределение существенно отклоняется от нормального. Он также заметил, что с изменением объема выборки меняется и распределение. Это показывает, что мы имеем дело не с отдельным распределением, а с целым семейством распределений. Кроме того, становится ясно, что с ростом объема выборки изучаемое распределение приближается к нормальному. Позже в сотрудничестве с математиками была получена основная форма этого выборочного распределения, и в 1908 году У. С. Госсет опубликовал окончательные результаты под псевдонимом Стьюдент (студент). Это семейство выборочных распределений сегодня известно под названием «распределение Стьюдента» или «t-распределение».

^-распределение Стьюдента - это распределение случайной переменной

где Z - стандартная нормальная случайная величина, математическое ожидание которой равно нулю - M(Z) = 0, а стандартное отклонение равно единице - о = 1;

V - независимая от Z величина, которая распределена по закону х2 с k степенями свободы.

В результате и возникает ^распределение (рис. 7), которое непрерывно и имеет плотность следующего вида:

гдев,=_М_.

%/я(п-1)Г[(п-1)/2]

Плотностная функция, критические значения и табулированные процентные значения (заштрихованная область) для if-распределения с 8 степенями свободы

Рис. 7. Плотностная функция, критические значения и табулированные процентные значения (заштрихованная область) для if-распределения с 8 степенями свободы

Таким образом, распределение Стьюдента зависит только от объема выборки п, или, что то же самое, от числа степеней свободы k = п - 1, и не зависит от неизвестных параметров и и а, что является его большим достоинством. В то же время вероятность того,

Х-р

что значение -т= окажется меньше заданного уровня дове-

S / у/п

рия у, можно оценить как

Введя двойное неравенство под круглые скобки в левой части уравнения, получаем

Тем самым определяется доверительный интервал, покрывающий неизвестный параметр р с надежностью у. При этом случайные величины X и S заменяются неслучайными величинами х и s, найденными по выборке. Таблица ^-распределения Фишера - Снеде- кора (см. при л. 3) позволяет по заданному значению у и известному параметру п находить соответствующее значение t .

Остается отметить, что данное распределение симметрично относительно нуля. Распределение приближается к стандартному нормальному распределению с увеличением объема выборки п. Когда п стремится к бесконечности (я^оо), оба распределения становятся идентичными.

Использование распределения Стьюдента в процессе проверки гипотез подобно использованию нормального распределения. Как мы уже отметили, выборочное распределение среднего меняется с изменением объема выборки. Таким образом, существует ^-распределение для каждой выборки с фиксированным объемом.

Так, например, если вернуться к рассмотрению табл. 21, то можно уточнить вероятность (или, иначе говоря, уровень доверия), с которой обнаруженные нами выбросы за границы интервала возможного истинного значения средней могут наблюдаться на генеральной совокупности. Так, при 4 степенях свободы (а перейдя к процентной представленности ответов респондентов, мы вынуждены параметр я рассматривать как число градаций переменной, в данном случае - «оценки экономической ситуации...») и уровне значимости а = 0,05 будет иметь место t = 2,78. Тогда значения р. определяются следующим образом:

В двух случаях - среднеобеспеченных (68,9 и 69,2) и низкообеспеченных (24,7) респондентов - it-распределение показывает расположение полученных результатов исследования на самой границе интервала возможного истинного среднего. Тем не менее сделанным при анализе таблице выводам мы, таким образом, можем доверять и переносить результат на генеральную совокупность с вероятностью его повторения Р = 0,95.

Для того чтобы определить соответствующее ^распределение для данной выборки, необходимо взглянуть на одно базовое понятие при проверке гипотез, известное как степени свободы.

Для иллюстрации связи понятия степени свободы с распределением Стьюдента на рис. 8 показаны кривые для трех ^-распределений с 4, 12 степенями свободы и с бесконечным числом их (оо).

if-распределение Стьюдента с 4, 12 и оо степенями свободы

Рис. 8. if-распределение Стьюдента с 4, 12 и оо степенями свободы

Подобно нормальной кривой, различные ^-распределения являются симметричными и имеют колоколообразную форму. Критические точки it-распределения при различных степенях свободы приведены в таблице ^-распределения (прил. 3). Табулирование распределения - представление его в стандартизированном виде со средним равным нолю и стандартным отклонением равным 1. Отметим, что ^-распределение с бесконечным числом степеней свободы идентично стандартному нормальному распределению.

Таблица критических значений t-распределения отличается от таблицы нормального распределения. В каждой строке таблицы (прил. 3) представлено одно значение f-распределения, и каждое такое распределение связано с определенным количеством степеней свободы. Числа 0,1, 0,05, 0,025 и т.д. (соответствующие уровню значимости а) даны как заголовок для каждого столбца таблицы и показывают часть площади поверхности под кривой, которая лежит в правой части графика.

Для иллюстрации рассмотрим t-распределение с 15 степенями свободы (рис. 9).

t-распределение Стьюдента с 15 степенями свободы

Рис. 9. t-распределение Стьюдента с 15 степенями свободы

Для этого распределения 2,5% площади поверхности под кривой лежит справа от точки 2,1314 стандартного отклонения. Аналогично 5% площади будет лежать слева от точки -1,753 стандартного отклонения (распределение симметрично относительно среднего). Числа 2,1314 и -1,753 - стандартизированные значения, соответствующие площадям в 2,5 и 5%. Заметим, что для бесконечного числа степеней свободы (последняя строка в таблице прил. 3) точке 1,96 соответствует площадь 2,5%, а для -1,645 - площадь 5 % (слева от этой точки), т. е. так же, как в соответствующих точках нормальной кривой.

Если при проверке гипотез предполагается использовать нормальное распределение как аппроксимацию (приближение) для ^-распределения, то для этой аппроксимации будет возрастать точность с увеличением числа степеней свободы (или объема выборки). Точность аппроксимации - это вопрос субъективной оценки. С практической точки зрения нормальное распределение может быть использовано почти всегда, как и соответствующее приближение для t-распределения, если число степеней свободы последнего больше 120.

Таким образом, выборка с объемом до 120 элементов может рассматриваться как малая. Ряд ученых под малыми выборками подразумевают выборки объемом до 100 элементов, другие же - до 150. Такие решения являются субъективными и зависят от точности, с которой проводится исследование. Если выбранная точность - два знака после запятой, то 120 элементов - это предел. Если мы работаем с точностью в четыре знака, то возможно принять за малую выборку совокупность из 150 элементов.

Рассматриваемая ситуация не должна быть смешана с ситуацией, когда выборки с объемом п = 30 связываются с нормальным распределением. Центральная предельная теорема утверждает, что если генеральная совокупность, из которой взята выборка, нормально распределена, то выборочное распределение среднего тоже нормальное. Математически доказано, что, если объём выборки больше 30, выборочное распределение среднего нормальное, даже если генеральная совокупность, из которой извлечена выборка, не является нормально распределенной. Это другая концепция, связанная с использованием нормального распределения при проверке гипотез.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >