ОСНОВЫ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА ДАННЫХ

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

В курсе математического анализа изучается функциональная зависимость между величинами л: и у. Эта жесткая зависимость предполагает, что если известно значение переменной х, то величина у однозначно определена: у = f(x).

В отличие от этого зависимость (связь) между случайными величинами Хи Уобычно проявляется в более мягком виде: значение х, принятое величиной X, влияет лишь на закон распределения величины Y, но не определяет однозначно значение у, которое она примет.

Такая зависимость случайных величин называется статистической зависимостью {связью). Примерами пар статистически зависимых случайных величин X и У являются: высота полета авиалайнера и его скорость; рост человека и его вес; число ясных дней в году и количество осадков в этом году.

Если статистическая связь случайных величин Хи Yимеет линейный и вообще монотонный характер, то степень (тесноту) этой связи численно можно оценить коэффициентом корреляции р|Т, У], см. п. 22.8. Корреляционный анализ это совокупность методов обнаружения, а также оценки тесноты статистической связи между случайными величинами. Обычно в корреляционный анализ включают следующие действия.

  • 1. Построение корреляционного поля и составление корреляционной таблицы.
  • 2. Вычисление выборочного коэффициента корреляции.
  • 3. Проверка статической гипотезы о значимости корреляционной связи.

Рассмотрим их подробнее.

1. Корреляционное поле и корреляционная таблица являются исходными данными в корреляционном анализе. Корреляционное поле — это графическое представление результатов измерений (xk, ук), к = = 1,2,..., п, случайного вектора (X, У) в виде точек в декартовой системе координат. По характеру расположения точек поля можно составить предварительное представление о наличии зависимости случайных величин и ее виде (например, о том, что одна из величин в среднем возрастает или убывает с возрастанием другой) (рис. 22.5).

Пример 27.1. В результате измерения значений(хЛ, ук) случайного вектора (X, Y) получена следующая выборка объема п = 30:

ч

4,856

4,927

2,093

3,482

4,588

2,728

4,502

4,434

3,896

2,253

Ук

4,340

5.122

9,110

7,411

6,080

7,544

7,161

7,290

6,138

9,998

ч

3,074

4,713

4,040

3,136

3,887

4,216

4,961

2,729

3,594

2,850

Ук

9,368

6,480

7,195

7,891

5,859

7,329

4,001

8,813

6,978

9,585

ч

3,715

2,252

2,752

4,403

2,007

5,000

4,549

3,139

4,441

4,047

Ук

6,375

9,374

8,954

6,818

9,887

7,740

7,109

9,288

6,459

7,510

Построить корреляционное поле и сделать предварительный вывод о форме зависимости случайных величин.

? Корреляционное поле, построенное по статистическим данным, приведено на рис. 27.1.

Рис. 27.1

Анализ рис. 27.1 приводит к выводу о заметной монотонной статистической зависимости между случайными величинами X и У. При этом характер монотонности — убывание, т.е. с ростом одной из них другая в среднем убывает. ?

При большом объеме выборки результаты группируются и представляются в виде корреляционной таблицы. Рассмотрим ее построение на конкретном примере.

Пример 27.2. Построить корреляционную таблицу для выборки из примера 27.1 и сделать предварительный вывод о форме зависимости случайных величин Хи Y.

? Сгруппируем выборку, разбив отрезки [2; 5] z> {хА} и [4; 10] з {уЛ} на равные промежутки группировки Axi и Ayj соответственно. Число промежутков т = 6 для выборки объема п = 30 найдем, как при построении гистограммы (см. п. 24.2), например, по формуле т ~ 1 + log2 п = 5,87. В центральной части корреляционной таблицы запишем частоты п попадания выборочных векторов (хк, У*) в прямоугольникип9 = {(х, у) | х е Дх/, у е Ayj;} (табл. 27.1).

Таблица 27.1

Промежутки группировки (разряды) Axi и Ау: Центры промежутков х, и у=

[4; 5] 4,5

[5; 6] 5,5

[6; 7]

6,5

[7; 8] 7,5

[8; 9] 8,5

[9; Ю]

9,5

[2; 2,5] 2,25

0

0

0

0

0

4

4

9,50

[2,5; 3] 2,75

0

0

0

1

2

1

4

8,50

[3; 3,5] 3,25

0

0

0

2

0

2

4

8,50

[3,5; 4] 3,75

0

1

3

0

0

0

4

6,25

[4; 4,5] 4,25

0

0

2

4

0

0

6

7,17

[4,5; 5] 4,75

3

1

2

2

0

0

8

5,88

n.j = IX

i

3

2

7

9

2

7

-

Кроме того, поместим в таблицу центры промежутков группировки Xj и y>j, частоты щ, = и n,j = попадания значений хк

j ‘

ук в промежутки Axi и Ayj соответственно, а также выборочные средние у, величины Y, соответствующие значениям хк е Axi. Эти данные будут нужны для дальнейших расчетов и анализа.

Корреляционная таблица, как и корреляционное поле, уже при беглом анализе позволяет выдвинуть предположение о наличии или отсутствии связи между Хи Уи выяснить ее характер. Если большие значения частот пу в этой таблице имеют тенденцию располагаться ближе к диагонали между левым верхним и правым нижним углами, то можно предположить наличие положительной корреляции между случайными величинами. Если же большие частоты расположены поблизости от другой диагонали, то предполагают наличие отрицательной корреляции.

Для рассматриваемой выборки реализуется второй случай (см. табл. 27.1, где для наглядности большие частоты выделены более темным цветом). Таким образом, между компонентами случайного вектора (X, Y), скорее всего, имеется статистическая зависимость с отрицательной корреляцией, т.е. при увеличении одной из компонент другая проявляет тенденцию в среднем убывать. Это подтверждает и тенденция к убыванию выборочных средних у,- с возрастанием центральных значений х,- промежутков Дх/, см. правый столбец табл. 27.1. ?

2. Выборочный коэффициент корреляции по негруппированной выборке {(х/5 у, )} объема «ипо группированной корреляционной таблице размера тх х т2 находится, соответственно, с помощью формул

где хну — выборочные средние случайных величин X и Y.

Выборочные коэффициенты корреляции рху и рхуЦ) являются точечными оценками теоретического коэффициента корреляции р[Х, Y] и обладают всеми его свойствами (см. п. 22.8), в частности, для любой выборки |р^| < 1.

Пример 27.3. Вычислить выборочный коэффициент корреляции по корреляционной таблице, построенной в примере 27.2, а также непосредственно по выборке из примера 27.1.

? Сначала по статистическим данным примера 27.1 находим выборочные средние: х = 3,71, у = 7,34. Далее, для упрощения расчетов по группированной выборке, можно использовать формулу

где

j '"1 j '«I

— выборочная ковариация, a Sqx гр = — ^- х)2 = — - х2,

п /=1 п /=1

| т2 ] '«2

‘S'ovrp = -Y,n-j(yj - У)2 = - у2 — выборочные дисперсии.

С помощью табл. 27.1 находим: Sq = -0,92, Sqxtp = 0,84, =

= 2,77, откуда рх>;гр = -0,61.

Аналогично по негруппированной выборке находим: S0xy = -1,31, Sqx = 0,86, SQy = 2,63, поэтому р^ = -0,87.

Значения р,^ и заметно различаются из-за недостаточно большого объема выборки, вследствие чего оценка рхугр получается слишком грубой. ?

3. Проверка статической гипотезы о значимости корреляционной связи.

Чем ближе абсолютная величина выборочного коэффициента корреляции к единице, тем сильнее в данной выборке выражена линейная зависимость между X и Y. Однако значимость такой зависимости должна быть подкреплена проверкой гипотезы.

Проверка гипотезы о наличии корреляции осуществляется следующим образом. Основная гипотеза Н0 = {р[Х, Y] = 0} соответствует отсутствию корреляции, а альтернативной может быть любая из гипотез:

Если обосновано предположение о нормальном распределении случайного вектора вектора (X, Y) (см. п. 22.12), то для проверки основной гипотезы Н0 используют статистику

где через р обозначен выборочный коэффициент корреляции.

Пример 27.4. На уровне значимости а = 0,05 проверить гипотезу о наличии корреляции компонент генеральной совокупности (X, Y), по выборке {(х*, ук)} из примера 27.1.

? В качестве альтернативной выберем гипотезу Нх = = {р[Х, Y] 0}. Тогда следует использовать двухсторонний критерий (см. п. 26.2), для которого доверительная область

где tkp — /7-квантиль распределения St(k), см. приложение 3. В дан-

ос

ном случае п- 2 = 28,1 - — = 0,975. По таблице квантилей распределения Стьюдента находим St2s 0975 = 2,048, поэтому Gx_a = (-2,048; 2,048).

Выборочный коэффициент корреляции найден в примере 27.3: р = -0,87. Отсюда находим выборочное значение статистики (27.2): ^выб = -9,52.

Поскольку ZBbl6 е G{_a, гипотеза Н0 отвергается: между случайными величинами X и Yимеется корреляция. ?

Замечание. Для получения надежных выводов при использовании статистики (27.2) обычно используют выборки достаточно большого объема (п > 100). Менее чувствительной к объему выборки является статистика

которая уже при п > 30 имеет приближенно нормальное распределе-

1 , 1 + Р 2 1 г V

ние с параметрами mz ~ ? In—- и az =-, где р = р[Х, У].

1 2 1 - р 1 п - 3

Приводя Z, к стандартному нормальному закону, получим статистику

Заметим, что с помощью указанной статистики можно проверять более общую гипотезу #0 = {p[Z, Y ] = р0} против любой из трех возможных альтернатив.

Пример 27.5. Перепроверить гипотезу о наличии корреляции, рассмотренную в примере 27.4, используя статистику (27.3).

? Найдем параметры статистики Zx при условии Н0 = {р = 0}: 1 1+0 1 1

mZ{ ~ - ? In-—- = 0, oZi = ^ ^ Поэтому из (27.3) прибли

женно следует

В данном случае доверительная область Gx_a = (-«i_a/2; Щ-a/2), гДе ир — /7-квантиль распределения 7V(0, 1). По таблице квантилей этого распределения (см. приложение 1) для a = 0,05 находим «0 975 = 1,96, откуда Gx_a = (-1,96; 1,96). Вычисляем выборочное значение Z2Bbl6 статистики Z2 для р = -0,87:

Поскольку С/выб g Gt_a, гипотеза Н0 и на этот раз отвергается: корреляция между случайными величинами Хи Yесть. ?

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >