КРИТЕРИЙ ФИШЕРА

Выражение Sj-act в формуле (11.5) встречается как в числителе, так и в знаменателе. Поэтому значение этого критерия не может превышать единицы. Для приближенных вычислений это не очень удобно, так как заведомо снижает их результирующую погрешность. В качестве другого критерия эффективности предсказания Фишер предложил использовать отношение

Величина /’называется /’-статистикой. Она имеет распределение Фишера и может быть использована в качестве критерия для проверки статистической гипотезы о наличии связи между факторами и откликом. Нулевая гипотеза формулируется так: «Связи между Y и факторами нет». Вычисляется вероятность того, что при отсутствии связи величина F принимает такое значение. Если эта вероятность меньше допустимой доверительной вероятности, нулевая гипотеза отвергается. Такая вероятность для заданных F, чисел степеней свободы (п — т - 1) и т вычисляется по таблицам распределения Фишера. В Excel для этого используется функция FPACn(F;dl;d2). Аргументами этой функции является F-статистика Фишера, вычисленная по формуле (11.6) по результатам моделирования; dl=n-m-l — число степеней свободы числителя; d2=m — число степеней свободы знаменателя.

Таким образом, для проверки статистической гипотезы о влиянии факторов на отклик нам нужно выполнить следующие действия:

  • 1) на основании гипотезы о том, как влияют факторы на отклик объекта, вычислить для каждого наблюдения ожидаемые (полученные из модели) значения отклика Т(;
  • 2) рассчитать /'’-статистику и оценить вероятность нулевой гипотезы (отсутствия влияния) при данном значении F
  • 3) если это достаточно маленькая вероятность (например, (3 = 0,05), мы можем утверждать, что с вероятностью 1 — Р (т.е. 95%) гипотеза о наличии связи принимается.

Справка.

Пусть Y(d 1) и Y2(d2) — две случайные величины, имеющие распределение х2со степенями свободы d 1 и dl соответственно. Тогда величина F

имеет распределение Фишера, которое широко применяется для проверки статистических гипотез.

Пример. Сэр Фишер проиллюстрировал применение своего критерия на следующем шутливом примере. Английские леди любят пить чай со сливками. При этом строго следят за процессом приготовления напитка: необходимо чай добавлять в сливки, а не наоборот. Истинная леди утверждает, что всегда может распознать подделку. Для проверки этого факта Фишер предложил провести серию экспериментов, предлагая леди оценить, правильно ли приготовлен напиток.

Пусть леди угадала способ приготовления напитка в 70 случаях из 100. Можно ли с доверительной вероятностью 95% утверждать, что леди умеет его угадывать? Нулевую гипотезу сформулируем так: «Леди не может угадать способ приготовления чая. Полученные результаты случайны». Если вероятность нулевой гипотезы меньше 5%, мы будем считать, что леди действительно может угадывать способ приготовления чая.

Построим в Excel модель этого эксперимента. Способы приготовления чая будем обозначать так: 0 — неправильный и 1 — правильный. Будем считать, что вероятности правильного и неправильного приготовления чая одинаковы. В столбце А таблицы Excel запишем 100 случайных чисел, используя функцию СЛЧИС(). В столбце С сгенерируем 100 тестов: если случайное число в ячейке А|<0,5, то чай приготовлен неправильно, если иначе, то правильно, т.е. С|=если (Aj<0,5;0; 1). Запишем среднее значение Y (среднее по столбцу С) в ячейку К2.

Для моделирования результата тестирования запишем во втором столбце еще 100 случайных чисел. Оценку леди промоделируем следующим правилом:

Способ

приготовления

Правило

угадывания

Оценка леди

Комментарий

Правильный

СЛЧИС()<0.7

Правильный

Угадала

СЛЧИС()>0.7

Неправильный

Не угадала

Неправильный

СЛЧИС()<0.7

Неправильный

Угадала

СЛЧИС()>0.7

Правильный

Не угадала

Запишем вероятность угадывания в ячейку К4. Оценку чая, данную леди, запишем в столбец D: Di=ECJlH(Bi<$K$4;Ci;ECJIH(Ci=0; 1;0)).

Для вычисления статистики Фишера используем еще два столбца. В столбце Е вычислим разности Y(-Y, используемые в числителе: ЕрСг$К$2, а в ячейке К5 вычислим сумму квадратов этих значений: К5=СУММКВ(Е1:Е100). В столбце F вычислим разности Yt - Yh используемые в знаменателе. Сумму квадратов этих разностей запишем в ячейке Кб: K6=CyMMKB(Fl:F100).

В нашем примере число наблюдений n= 100, число факторов т=1. Следовательно, число степеней свободы числителя dl=n-m-l=98, а знаменателя d2=m=l. Значение статистики Фишера F запишем в ячейку К7: К7=К5/К6*98/1. Вероятность нулевой гипотезы оценим с помощью функции =FPACn(F;d 1 ;d2) и запишем в ячейку К8: К8= FPACn(K7;98;l).

Итак, мы построили имитационную модель эксперимента Фишера. Так как мы использовали генераторы случайных чисел, результаты у нас будут получаться разные. Поэтому, для проверки гипотезы, проведем не один, а серию из 10 экспериментов. Проведя эксперименты с этой моделью, Вы убедитесь, что значение FPACn в каждом из них не ниже 8%. Следовательно, гипотезу о чудесных способностях леди принять нельзя.

Большим преимуществом критерия Фишера является то, что в нем нигде не учитывается вид связи. Поэтому его можно использовать для оценки качества и достоверности связей любого вида.

Например, если связь описывается множественной регрессией, то:

где xf — значение ^-признака в /-м наблюдении.

ОПРЕДЕЛЕНИЕ ЧИСЛА ПРОГОНОВ ДЛЯ КАЖДОЙ КОМБИНАЦИИ ФАКТОРОВ

Знание того, как устроен критерий Фишера, поможет нам правильно оценить, сколько прогонов модели требуется для оценки результатов моделирования с заданной доверительной вероятностью. В этом случае т — число факторов, влияние которых мы хотим учесть в модели, п — число наблюдений (т.е. прогонов модели). Таким образом, зная значение F (например, из предварительных расчетов) и число факторов, которые мы собираемся учесть, т, мы можем оценить общее число прогонов п, необходимых нам для того, чтобы судить о выявленной закономерности с заданной доверительной вероятностью.

Контрольные вопросы и задания

  • 1. Имитационное моделирование — случайный процесс. Как с его помощью выявить свойства объекта, отделив их от случайного стечения обстоятельств?
  • 2. Что является наблюдением в имитационной модели? Как получить заданное число наблюдений?
  • 3. Сформулируйте основную идею применения дисперсионного анализа для оценки достоверности результатов моделирования.
  • 4. Почему при построении модели не рекомендуется включать в нее слишком много факторов?
  • 5. В чем разница между величинами Dfact и Sjach используемыми в формулах (11.1) и (11.3)?
  • 6. В каком диапазоне может изменяться величина статистики Фишера?
  • 7. Как изменится статистика Фишера при включении в модель слабо влияющего фактора?
  • 8. Постойте в Excel модель примера Фишера. Оцените, можно ли с доверительной вероятностью 95% принять гипотезу о способности леди распознать подделку, если леди угадала способ приготовления чая в 80 случаях из 100. Как часто леди должна угадывать, чтобы с 95%-й доверительной вероятностью можно было заявить: «Леди действительно способна определить способ заварки чая»?

9. В модели учитываются пять влияющих факторов. Для оценки ее достоверности значения отклика, вычисленные с помощью модели Yh сравниваются с сотней результатов наблюдения У(. Получены следующие результаты:

Вычислите статистику Фишера и оцените вероятность нулевой гипотезы.

 
Посмотреть оригинал