Проверка гипотез, когда закон распределения неизвестен

Первой характеристикой генеральной совокупности, которая должна быть установлена в целях определения выбросов и факторов, их вызывающих, является форма распределения генеральной совокупности. Конечно, если выборка имеет значительный объём, можно безошибочно (т.е. с приемлемым уровнем погрешности) переносить закон ее распределения на генеральную совокупность. При этом существует достаточно доказательств того, что большинство изучаемых параметров многих генеральных совокупностей, которые становятся предметом исследования социологии, имеют приблизительно нормальное распределение либо могут быть им аппроксимированы. По этой причине собственно закон (вид, форма) распределения редко вызывает необходимость пристального внимания и специального анализа.

Вторая неизвестная характеристика - это среднее значение ц. При проверке гипотез исследователь предполагает, какое значение имеет среднее генеральной совокупности, и решает, расходится ли оно с наблюдаемым в выборке средним х или нет. Выше было сказано, что с заданным уровнем доверия значение среднего генеральной совокупности лежит в интервале [x-to / х + to / yfn j.

Третьей неизвестной характеристикой генеральной совокупности является стандартное отклонение о. Полученное на выборочной совокупности, оно может быть, в случае нормального распределения и выборочной, и генеральной совокупностей, принято как параметр последней в виде исправленного выборочного

отклонения

V п-1

Понятия надежности, точности и доверительного интервала

Вернемся к рассмотрению среднего значения р генеральной совокупности.

Допустим, что имеется несколько проведенных исследований, по результатам которых установлено, что для некоторого количественного признака X (скажем, одной и той же переменной с одинаковыми ответными позициями) характерно среднее значение X. В единичном исследовании для данного признака получены частоты xv х2, ..., хп, которые дают среднее значение х. Допустим также, что во всех исследованиях распределение частоты X подчинено закону нормального распределения. Очевидно, что, сколько бы исследований ни проводилось, каждый раз частоты Хг, Х2,..., Хп будут различными величинами и, соответственно, будут различаться и их средние значения X. В этом случае среднее значение на генеральной совокупности будет представлять собой математическое ожидание случайной величины X, т.е. в принятых нами обозначениях - величину р:

а значит,

Тогда вероятность разности каждого из X и генеральной средней будет меньше некоторого заданного числа 8, но равна определенной величине у:

Данную величину у принято называть уровнем доверия. Между тем выражение, помещенное в скобки, равносильно двойному неравенству

следовательно,

Отсюда, заменив о(х) = а/л//г, получаем

где t = 5л/л / о;

O(t) - функция Лапласа.

Таким образом, если задать значение вероятности, которая равна соответствующему уровню доверия повторения результата одиночного исследования или его распространения на генеральную совокупность, получаем рабочую формулу

Интерпретация этого формального выражения такова: с надежностью у можно утверждать, что доверительный интервал

  • (х-to/ рп x + to / 4п j покрывает параметр р с точностью оценки
  • 8 = 1а/Гп. Число t определяется из равенства 2Ф(?) = у так: по таблице (см. прил. 1) находят соответствующее аргументу t значение функции Лапласа, равное у/2. Так, для t = 1,96 значение функции Лапласа Ф(*) = 0,475 и, соответственно, уровень доверия определяется как у = 0,95. В свою очередь, это означает, что в 95 случаях из ста наша гипотеза о попадании генеральной

средней в интервал (х - to/-Jn; х + to/ sjn^ будет верна и лишь в 5 % случаев (выборок, извлеченных из генеральной совокупности) данный параметр генеральной совокупности может выйти за границы доверительного интервала. Последняя величина, будучи противоположной уровню доверия у, называется уровнем значимости и обозначается индексом а.

Формулу Iх-j называют классической. Из нее ясно, что при возрастании объема выборки п происходит уменьшение величины 5, а это приводит к увеличению точности оценки параметра ц. С другой стороны, увеличивая надежность его оценки, мы уменьшаем ее точность.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >