НЕКОТОРЫЕ ВОПРОСЫ ПРИМЕНЕНИЯ КРИТЕРИЕВ
О ВЫЧИСЛЕНИИ ДОСТИГНУТОГО УРОВНЯ ЗНАЧИМОСТИ
Принятие решения о результатах проверки гипотезы Н0 на основании достигнутого уровня значимости (p-value) всегда более обосновано (см. раздел 1.2), чем в результате сравнения полученного значения статистики с заданным критическим значением, извлекаемым из соответствующей таблицы процентных точек. В последнем случае остаётся не ясным, насколько далеко на самом деле истинное распределение, которому принадлежит анализируемая выборка (и которое в действительности всегда остается неизвестным), от равномерного закона.
Вычисление достигнутых уровней значимости в соответствии с соотношениями (1.2) для правостороннего критерия или (1.3) для двустороннего не вызывает труда при известном распределении статистики критерия. Если информация о распределении статистики соответствующего критерия отсутствует и представлена лишь таблицей процентных точек, либо объёмы выборок относительно невелики и таковы, что распределение статистики существенно отличается от предельного (асимптотического), то корректное вычисление достигнутого уровня значимости (p-value) представляет собой некоторую проблему.
К сожалению, распределения большинства специальных критериев проверки равномерности существенно зависят от объемов выборок, в связи с чем при формировании решения о результатах проверки гипотезы Н0 (отклонять - не отклонять) опираются на таблицы процентных точек. Исключение составляет лишь возможность использования аппроксимирующих распределений в случае некоторых критериев: Шермана при п > 20, Морана 2 (распределения модификаций статистик этого критерия не очень удачно аппроксимируются х2 -распределением и нормальным законом), Янга при п >15, Фросини при и >50, Неймана-Бартона при п > 20.
Аналогичная проблема с применением непараметрических критериев согласия Жанга со статистиками ZA, Zc и ZK, распределения которых зависят от п.
При ограниченных объемах выборок п < 20 следует учитывать, что распределения статистик непараметрических критериев согласия Колмогорова, Купера, Крамера-Мизеса-Смирнова, Ватсона и Андерсона- Дарлинга будут несколько отличаться от своих предельных распределений.
Следует иметь в виду, что статистика критерия J2 Пирсона представляет собой дискретную случайную величину, и её действительное распределение при справедливости проверяемой гипотезы Н0 может существенно отличаться от асимптотического /I -распределения (см. рис. 4.1). Поэтому оценка достигнутого уровня значимости, вычисляемая в соответствии с xl -распределением обладает определённой погрешностью.
Каким же образом можно повысить качество статистических выводов?
В настоящее время в связи с резким увеличением возможностей вычислительной техники и информационных технологий существенно возрастает роль использования компьютерных технологий анализа данных в программных системах статистического анализа. Например, когда распределение статистики критерия, используемого для проверки некоторой гипотезы, к моменту начала проверки (в силу разных причин) оказывается неизвестным (при данном объёме выборки п), появляется возможность исследования распределения статистики в реальном времени проверки гипотезы (в интерактивном режиме) [23, 25, 26, 27, 28, 76, 77, 78]. Например, в интерактивном режиме можно исследовать неизвестное распределение статистики любого критерия равномерности, зависящее от объема выборки, при том значении п , которое соответствует анализируемой выборке, и оценить по найденному в результате моделирования эмпирическому распределению статистики достигнутый уровень значимости.
При таком подходе необходимое для проверки гипотезы эмпирическое распределение Gw(5,n|//0) статистики соответствующего критерия строится в результате статистического моделирования с точностью, зависящей от числа экспериментов N в методе Монте-Карло [68]. Затем по эмпирическому распределению GA,(S'n|//0) и вычисленному по анализируемой
выборке значению статистики S* критерия в соответствии с соотношением (1.2) для правостороннего критерия или по соотношению (1.3) для двустороннего критерия определяется оценка достигнутого уровня значимости (p-value).
При проведении статистического моделирования в интерактивном режиме (в ходе осуществляемого статистического анализа) его результаты могут использоваться при формировании вывода по итогам проверки гипотезы.
Реализация такого интерактивного режима требует наличия развитого программного обеспечения, позволяющего (как в [79]) в целях ускорения распараллеливать процессы моделирования и привлекать доступные вычислительные ресурсы. В условиях распараллеливания время построения распределения GN(SnH0) статистики критерия оказывается не очень заметным на фоне полного решения задачи статистического анализа.
В качестве примера для рассмотренных в руководстве критериев проверки равномерности продемонстрируем зависимость точности оценивания достигнутых уровней значимости от величины выборки N моделируемых в интерактивном режиме эмпирических распределений статистик.
Пример 6.1. Точность оценивания p-value в зависимости от N.
В данном случае проверялась простая гипотеза о принадлежности равномерному закону на интервале [0, 1] следующей выборки объемом п = 25 , представленной вариационным рядом:
- 0.03 0.07 0.16 0.17 0.18 0.19 0.30 0.32 0.38 0.41
- 0.49 0.50 0.51 0.59 0.62 0.68 0.73 0.74 0.78 0.88
- 0.89 0.94 0.97 0.98 0.99
Напомним, что для того чтобы погрешность оценивания достигнутого уровня значимости (p-value) с доверительной вероятностью 0.99 не превышала величины 0.01, количество экспериментов имитационного моделирования N должно быть порядка 16 600, для того, чтобы не превышала 0.001 - количество экспериментов должно быть порядка 1 660 000 [68].
В таблице 6.1 приведены значения статистик, вычисленные в соответствии с представленной выборкой, и достигнутые уровни значимости, полученные по смоделированным распределениям статистик соответствующих критериев при количестве экспериментов Л/'=103, 104, 105, 106.
Достигнутые уровни значимости, полученные при проверке равномерности по рассматриваемым критериям при различных N
Таблица 6.1
Критерий, статистика |
Значение статистики |
N= 103 |
о II |
N= 105 |
N= 106 |
Шермана (2.1) |
0.33692 |
0.698 |
0.681 |
0.683 |
0.686 |
Кимбелла (2.4) |
0.02494 |
0.803 |
0.808 |
0.809 |
0.811 |
Морана 1 (2.5) |
0.06340 |
0.803 |
0.808 |
0.809 |
0.811 |
Морана 2 (2.6) |
9.30475 |
0.934 |
0.915 |
0.918 |
0.917 |
Ченга-Спиринга J23_ |
0.46839 |
0.596 |
0.633 |
0.629 |
0.634 |
Критерий, статистика |
Значение статистики |
N= 103 |
II о |
N= 105 |
N = 106 |
Хегази-Грина (2.10) |
0.04548 |
0.704 |
0.695 |
0.691 |
0,691 |
Хегази-Грина (2.11) |
0.00286 |
0.735 |
0.725 |
0.720 |
0.721 |
Хегази-Грина (2-14) |
0.04227 |
0.791 |
0.783 |
0.784 |
0.784 |
Хегази-Грина (2.15) |
0.00221 |
0.871 |
0.856 |
0.856 |
0.856 |
Янга (2.17) |
0.49000 |
0.876 |
0.926 |
0.925 |
0.920 |
Фросини (2.20) |
0.2120 |
0.754 |
0.748 |
0.746 |
0.746 |
Гринвуда (2.21) |
1.6484 |
0.803 |
0.808 |
0.809 |
0.811 |
Гринвуда- Кэсенберри- Миллера (2.22) |
0.0953 |
0.884 |
0.885 |
0.884 |
0.884 |
Неймана-Бартона N2 (2.24) |
0.98893 |
0.618 |
0.620 |
0.617 |
0.615 |
Неймана-Бартона N3 (2.24) |
2.11458 |
0.548 |
0.554 |
0.550 |
0.552 |
Неймана-Бартона N4 (2.24) |
2.56396 |
0.667 |
0.641 |
0.636 |
0.637 |
Дудевича-ван дер Мюлена (2.25) |
0.15048 |
0.855 |
0.8595 |
0.858 |
0.857 |
Модификация энтропийного 1 (2.26) |
-0.02255 |
0.855 |
0.857 |
0.855 |
0.854 |
Модификация энтропийного 2 (2.27) |
-0.04873 |
0.920 |
0.922 |
0.921 |
0.921 |
Кресси 1 (2.28) |
0.03727 |
0.961 |
0.964 |
0.965 |
0.966 |
Кресси 2 (2.29) |
-0.01514 |
0.960 |
0.969 |
0.966 |
0.969 |
Пардо (2.30) |
1.26344 |
0.718 |
0.742 |
0.745 |
0.744 |
Шварца (2.31) |
0.11000 |
0.952 |
0.956 |
0.955 |
0.955 |
Колмогорова (3.1) |
0.63333 |
0.842 |
0.820 |
0.820 |
0.821 |
Критерий, статистика |
Значение статистики |
N= 103 |
о II |
N= 105 |
N= 106 |
Купера (3.5) |
0.91667 |
0.904 |
0.919 |
0.919 |
0.918 |
Крамера-Мизеса- Смирнова (3.6) |
0.06373 |
0.802 |
0.797 |
0.795 |
0.795 |
Ватсона (3.8) |
0.02053 |
0.974 |
0.979 |
0.977 |
0.976 |
Андерсона- Дарлинга (3.11) |
0.57833 |
0.677 |
0.672 |
0.666 |
0.667 |
ZA Жанга (3.13) |
3.36593 |
0.746 |
0744 |
0.738 |
0.739 |
Zc Жанга (3.14) |
6.22722 |
0.758 |
0.762 |
0.758 |
0.760 |
ZK Жанга (3.15) |
1.32465 |
0.612 |
0.612 |
0.592 |
0.593 |
Х~ Пирсона (4.1) |
1.20000 |
0.900 |
0.889 |
0.888 |
0.888 |
Вид эмпирической функции распределения, соответствующей анализируемой выборке, и функции равномерного на [0,1] закона представлены на рис. 6.1.
Для большинства непараметрических критериев согласия известны предельные распределения статистик, имеющие место при проверке справедливости проверяемой гипотезы Н0. В таблице 6.2 представлены
оценки достигнутых уровней значимости для этих критериев, вычисленные в соответствии с предельными распределениями.
Отличие оценок, представленных таблице 6.2 от оценок, полученных в результате моделирования распределений статистик непараметрических критериев согласия связано с тем, что при п = 25 эти распределения ещё заметно отличаются от предельных.

Рис. 6.1. Эмпирическая и теоретическая функции распределения, соответствующие примеру 6.1
Достигнутые уровни значимости, вычисленные по предельным законам
Таблица 6.2
Критерий, статистика |
Значение статистики |
Оценка p-value |
Колмогорова (3.1) |
0.63333 |
0.8173 |
Купера (3.5) |
0.91667 |
0.9096 |
Крамера-Мизеса-Смирнова (3.6) |
0.06373 |
0.7905 |
Ватсона (3.8) |
0.02053 |
0.9874 |
Андерсона-Дарлинга (3.11) |
0.57833 |
0.6687 |
X2 Пирсона (4.1) |
1.20000 |
0.8781 |
В случае критерия /2 Пирсона это отличие усиливается ещё одним фактором. При проверке по критерию /2 Пирсона область определения была разбита на 5 интервалов равной длины (равных вероятностей).
Оценка достигнутого уровня значимости, вычисленная по асимптотическому х -распределению, равна 0.8781, что заметно отличается от значения 0.888, представленного для критерия по смоделированному распределению статистики при iV=106. В большей степени имеющееся отличие объясняется фактом дискретности реального распределения статистики (см. рис. 4.1).
Можно обратить внимание, что для обоснованного принятия решения не требуется высокой точности оценивания p-value и, следовательно, больших объёмов моделирования. И в то же время очевидно, что использование интерактивного режима и реализация возможности вычисления достигнутых уровней значимости при использовании критериев, для которых неизвестны распределения статистик (при конкретных п), существенно повышают информативность результатов проверки статистических гипотез и качество (корректность) статистических выводов.
Пример 6.2. Проверка простой гипотезы о равномерности на заданном интервале. В данном случае необходимо проверить простую гипотезу о принадлежности равномерному закону на интервале [0, 2] выборки объемом п = 30, представленной следующим вариационным рядом:
- 0.071 0.179 0.185 0.391 0.418 0.487 0.560 0.675 0.693 0.725
- 0.727 0.820 0.906 0.916 1.063 1.110 1.154 1.169 1.170 1.189
- 1.302 1.327 1.391 1.422 1.452 1.502 1.544 1.563 1.582 1.647
Вид эмпирической функции распределения, соответствующей анализируемой выборке, и теоретической функции распределения равномерного на [0,2] закона представлены на рис. 6.2.
В соответствии с разделом 1.4 по элементам x{j) имеющегося вариационного ряда а = 0<х(1) <х(2) <...<х(л) <Ь = 2 пересчитываем в соответ-
х(п - а —
ствии с соотношением Ji =-, i = ,п , U0 = 0, U , = 1 и получаем
b-a
вариационный ряд ?/,. объёмом п =30 :
- 0.0355 0.0895 0.0925 0.1955 0.2090 0.2435 0.2800 0.3375 0.3465
- 0.3625 0.3635 0.4100 0.4530 0.4580 0.5315 0.5550 0.5770 0.5845
- 0.5850 0.5945 0.6510 0.6635 0.6955 0.7110 0.7260 0.7510 0.7720
- 0.7815 0.7910 0.8235

Рис. 6.2. Эмпирическая и теоретическая функции распределения, соответствующие примеру 6.2
Этот ряд проверяем на равномерность уже на интервале [0, 1]. Результаты проверки приведены в таблице 6.3.
Таблица 6.3
Результаты проверки равномерности в примере 6.2
Критерий, статистика |
Значение статистики |
Оценка p-value (TV = 106) |
Шермана (2.1) |
0.36240 |
0.488 |
Кимбелла (2.4) |
0.03780 |
0.187 |
Морана 1 (2.5) |
0.07006 |
0.187 |
Критерий, статистика |
Значение статистики |
Оценка p-value (N = 106) |
Морана 2 (2.6) |
17.4088 |
0.466 |
Ченга-Спиринга (2.9) |
0.45483 |
0.549 |
Хегази-Грина (2.10) |
0.05184 |
0.490 |
Хегази-Грина (2.11) |
0.00410 |
0.468 |
Хегази-Грина (2.14) |
0.06769 |
0.286 |
Хегази-Грина (2.15) |
0.00654 |
0.292 |
Янга (2.17) |
0.42850 |
0.780 |
Фросини (2.20) |
0.32480 |
0.368 |
Гринвуда (2.21) |
2.17178 |
0.187 |
Г ринвуда-Кэсенберри-Миллера (2.22) |
0.09299 |
0.415 |
Неймана-Бартона N2 (2.24) |
5.30403 |
0.069 |
Неймана-Бартона N3 (2.24) |
6.79144 |
0.077 |
Неймана-Бартона N4 (2.24) |
6.84439 |
0.139 |
Дудевича-ван дер Мюлена (2.25) |
0.36891 |
0.014 |
Модификация энтропийного 1 (2.26) |
0.20238 |
0.013 |
Модификация энтропийного 2 (2.27) |
0.20199 |
0.012 |
Кресси 1 (2.28) |
0.07757 |
0.693 |
Кресси 2 (2.29) |
5.60246 |
0.056 |
Пардо (2.30) |
1.52931 |
0.079 |
Шварца (2.31) |
0.49792 |
0.022 |
Колмогорова (3.1) |
0.99259 |
0.278 |
Купера (3.5) |
1.59813 |
0.110 |
Крамера-Мизеса-Смирнова (3.6) |
0.15832 |
0.566 |
Ватсона (3.8) |
0.15551 |
0.093 |
Критерий, статистика |
Значение статистики |
Оценка p-value (ЛГ = 106) |
Андерсона-Дарлинга (3.11) |
1.13677 |
0.292 |
ZA Жанга (3.13) |
3.71819 |
0.028 |
Zc Жанга (3.14) |
21.2489 |
0.080 |
ZK Жанга (3.15) |
4.05289 |
0.048 |
X2 Пирсона (4.1) |
8.0000 |
0.088 |
В данном случае анализируемая выборка была смоделирована по закону, существенно отличающемуся от равномерного на интервале [0, 2]. При этом, как видим, отсутствуют наблюдения в конце интервала. Тем не менее, при задании уровня значимости а = 0.1 далеко не по всем критериям простая проверяемая гипотеза о равномерности случайной величины на интервале [0, 2] будет отклонена. Причина этого в “недостаточной” мощности критериев при таком относительно малом объёме выборки.
Пример 6.3. Проверка сложной гипотезы о равномерности на произвольном интервале. В данном случае проверяется сложная гипотеза о принадлежности равномерному закону на интервале [а, Ь] той же выборки объемом п = 30, представленной в предыдущем примере 6.2.
В соответствии с указаниями раздела 1.5 по исходной выборке из примера 6.2 находим оценку параметра сдвига
оценку правой границы области
и оценку параметра масштаба равномерного закона
С учетом, что U0= 0, = 1, в соответствии с соотношениями
J ^ _
Ui 1 = —-— , / = 2, (и -1), находим значения порядковых статистик Ui,
*(»>"*( 1)
/ = 1,(л-2):
- 0.0688 0.0725 0.2033 0.2205 0.2638 0.3107 0.3832 0.3950 0.4150
- 0.4163 0.4756 0.5301 0.5365 0.6295 0.6593 0.6874 0.6971 0.6978
- 0.7096 0.7814 0.7971 0.8375 0.8577 0.8764 0.9085 0.9347 0.9468
- 0.9593
При справедливости сложной проверяемой гипотезы о равномерности исходной выборки объёмом п на интервале [ а, Ъ ] элементы данного вариационного ряда Uп i - 1,(л - 2), должны подчиняться равномерному закону на интервале [0, 1] (при проверке простой гипотезы). На рис. 6.3 показаны эмпирическая функции распределения, соответствующая преобразованному вариационному ряду, и теоретическая функция распределения равномерного на [0, 1] закона. Следует обратить внимание на отличие картины на рис. 6.3 от представленной на рис. 6.2.
Результаты проверки преобразованного ряда объёмом п = 28 на принадлежность равномерному закону на интервале [0, 1] приведены в таблице 6.4.
Как можно видеть, сложная гипотеза о принадлежности исходной выборки, представленной в примере 6.2, равномерному закону на интервале [0.01658, 1.68432] не будет отклонена ни по одному из критериев при задании а<0.157 [см. таблицу 6.4 для критерия Хегази-Грина (2.14)].
В результате оценивания параметров расхождение между эмпирическим распределением, соответствующим преобразованной выборке, и равномерным на [0.01658, 1.68432] законом стало менее выраженным и труднее различаемым соответствующими критериями. А вследствие невысокой мощности при объёме выборки п = 28 ни один из критериев и не отклоняет гипотезу о равномерности.

Рис. 6.3. Эмпирическая и теоретическая функции распределения, соответствующие преобразованной выборе из примера 6.3
Таблица 6.4
Результаты проверки равномерности в примере 6.3
Критерий, статистика |
Значение статистики |
Оценка p-value (TV = 106 ) |
Шермана (2.1) |
0.34269 |
0.655 |
Кимбелла (2.4) |
0.02610 |
0.679 |
Морана 1 (2.5) |
0.06058 |
0.679 |
Морана 2 (2.6) |
14.0854 |
0.670 |
Ченга-Спиринга (2.9) |
0.45729 |
0.880 |
Хегази-Г рина (2.10) |
0.08157 |
0.170 |
Хегази-Г рина (2.11) |
0.00821 |
0.207 |
Хегази-Г рина (2.14) |
0.08518 |
0.157 |
Хегази-Г рина (2.15) |
0.00921 |
0.192 |
Янга (2.17) |
0.45820 |
0.633 |
Фросини (2.20) |
0.43789 |
0.160 |
Критерий, статистика |
Значение статистики |
Оценка p-value (N = 106) |
Гринвуда (2.21) |
1.75679 |
0.679 |
Г ринвуда-Кэсенберри-Миллера (2.22) |
0.08523 |
0.913 |
Неймана-Бартона N2 (2.24) |
2.35298 |
0.309 |
Неймана-Бартона N3 (2.24) |
2.36503 |
0.502 |
Неймана-Бартона N4 (2.24) |
2.63193 |
0.624 |
Дудевича-ван дер Мюлена (2.25) |
0.22288 |
0.306 |
Модификация энтропийного 1 (2.26) |
0.07039 |
0.313 |
Модификация энтропийного 2 (2.27) |
0.06347 |
0.293 |
Кресси 1 (2.28) |
0.06323 |
0.780 |
Кресси 2 (2.29) |
2.48107 |
0.543 |
Пардо (2.30) |
1.34132 |
0.439 |
Шварца (2.31) |
0.14669 |
0.859 |
Колмогорова (3.1) |
0.92531 |
0.360 |
Купера (3.5) |
1.17217 |
0.585 |
Крамера-Мизеса-Смирнова (3.6) |
0.24331 |
0.192 |
Ватсона (3.8) |
0.05720 |
0.609 |
Андерсона-Дарлинга (3.11) |
1.27078 |
0.242 |
ZA Жанга (3.13) |
3.46334 |
0.315 |
Zc Жанга (3.14) |
13.5467 |
0.270 |
ZK Жанга (3.15) |
1.45194 |
0.552 |
X2 Пирсона (4.1) |
3.78571 |
0.475 |