Корреляционно-регрессионный анализ

Для многих явлений в природе типичны случайные зависимости. Случайные величины находятся в корреляционной зависимости, если каждому значению одной из них соответствует некоторое распределение другой, что математически отражается в уравнении регрессии одной случайной величины на другую.

По результатам эксперимента сначала оформляется таблица наблюдений системы дискретных случайных величин {X, Y) - матрица распределения - прямоугольная таблица, в которой записаны наблюдаемые значений дляX:{xh х2, ..., хк}, для Y:{yh у2, ..., ут} и соответствующая каждой паре {xif yj } вероятность pt j = ?{X=xi9 Y=yj }, удовлетворяющая условию 2^ Pij = 1 • При этом система двух случайных * j

величин (X, Y) характеризуется набором начальных и центральных моментов (см. п. 1.1.5).

В общем случае Y и X связаны вероятностной зависимостью, справедливой лишь в среднем, так как при фиксированном значении Х=х зависимая переменная Y имеет случайный разброс (столбец значений) из-за ошибок измерения, влияние неучтенных факторов или других причин. Таким образом, фиксированному значению X=xt соответствует усредненное значение Yx_ =M|T/(X=xz)] - условное математическое

ожидание, вычисляемое по формуле

В итоге исходная таблица {xif yj} эквивалентна таблице {xit yt}.

Условное математическое ожидание Yx =M[Y/(X=x) называется

регрессией Y на X, график зависимости Yx(x) называется линией регрессии. Аналогично определяется регрессия X на Y.

Таблица 1.11

Регрессионная матрица распределения двумерной случайной величины

Рассмотрим модель линейной по параметрам регрессии Y на X, находящей линейную комбинацию Yx(x)= f(x) = ^PJfj(x) базисных

м

функций f ., которая лучше всего в смысле метода наименьших квадратов аппроксимирует массив {х., уг}. В этом случае результаты наблюдений представляются в виде

где 8/ - случайные некоррелированные ошибки наблюдений в предположении, что M[Si] = 0, D[e.] = M[г]] = а]. Таким образом, при выбранных базисных функциях f. оценки р. коэффициентов р. определяются из условия

Качество аппроксимации результатов наблюдений регрессивной

~ 2 8 ,

моделью определяется остаточной дисперсией s =- (ир - число

к -

оцениваемых параметров р.), которую можно использовать для сравнительного анализа нескольких регрессивных моделей.

Рассмотрим простую линейную регрессию, которая считается вы-

2

полненной /(х) = = Pj + Р2х, если найдем оценки коэффициен-

j=1

тов р, и р2 из условия минимизации выражения -р, -р 1xifpi:

В этом случае Р, и Р2 можно выразить через точечные оценки числовых характеристик системы дискретных случайных величин:

к

где х = ^xipi - оценка тх по массиву {xf},

i=1 т

у = ^Гу .р. - оценка ту по массиву { ук },

м

о2х = ?(*, - x)1pi — Dx- оценка Dx по массиву { xt},

i

К = ~ yfPj = А “оценка Dyпо массиву к },

j

А = YM,-*)lyj-y)P9 ~ оценка ковариации по ук},

i,j

у = - выборочный коэффициент корреляции Пирсона, значение

которого по модулю равно единице в случае линейной зависимости Y иХ. Таким образом, | | характеризует степень тесноты линейной зависимости между Y и X, проявляющейся в том, что при возрастании одной случайной величины другая проявляет тенденцию также возрастать (в этом случае 0) или убывать (в таком случае гху< 0). В первом

случае говорят, что Y и X связаны положительной корреляцией, а во втором корреляция отрицательна. При этом зависимость тем ближе к линейному закону, чем | | ближе к единице слева. Если = 0, то это

означает только отсутствие линейной связи между Y и X, любой другой вид связи может при этом присутствовать.

Рассмотрим гипотезу о значимости выборочного коэффициента корреляции.

Пусть дана нормально распределенная система дискретных случайных величин (X, Y) - совокупность к пар наблюдаемых значений {**>»?}, характеризуемая, в частности, выборочным коэффициентом корреляции г Пирсона (см. и. 1.1.5), который оказался отличным от ноля. При этом возникает необходимость при заданном уровне значимости проверить нулевую гипотезу Н0: г—О при альтернативной Н г ^ О (двусторонняя критическая область). Если нулевая гипотеза отвергается, то выборочный коэффициент корреляции значимо отличается от ноля, а X и Y коррелированны. В качестве критерия проверки нулевой гипотезы Н0: г= 0 принимается случайная величина

а критическое значение Ткр = Да, к) находится с помощью калькулятора распределения (1.13) вероятности Стьюдента (см. рис. 1.1) по заданному уровню значимости а и числу степеней свободы к = п- 2.

Гипотеза Н0: г = 0 отвергается, т. е. выборочный коэффициент корреляции значимо отличается от ноля или иными словами X и Y коррелированны, если |Гя | > Гкр .

Если выборки малы или распределения существенно отличаются от нормального закона, то для проверки гипотезы о наличии корреляционной связи можно использовать непараметрический аналог коэффициента корреляции г Пирсона - ранговый коэффициент корреляции R Спирмена, вычисляемый аналогично г заменой наблюдаемых значений случайных величин их рангами (порядковыми номерами наблюдаемых значений в объединенной выборке, записанной в порядке возрастания). Значимость коэффициента корреляции R Спирмена проверяется аналогично значимости коэффициента корреляции г Пирсона.

Аналогично рассматривается регрессия Дх) = pi + Р2Х + рз*2, которая лучше всего аппроксимирует массив {xi, у.} в смысле метода наименьших квадратов, то есть определяющая коэффициенты р. из условия e=ZH,-/(*,)]2 Д = min, где у. вычисляются по формуле (1.33).

/

Таким образом, наряду с прямой линейной регрессии строятся кривые полиномиальных регрессий, построенных методом наименьших квадратов и аппроксимированных полиномами порядка М:

Оценка значимости регрессии (качество уравнения регрессии) проверяется с помощью F-критерия [6, 33]

имеющего F-pacпределение (1.14) со степенями свободы М и к - М - 1. Если уравнение регрессии служит для прогнозирования, то для повышения надежности рекомендуется добиться путем подбора соответствующего уравнения регрессии выполнения соотношения

Степень адекватности регрессионной модели можно оценить, например, скорректированным коэффициентом детерминации

лежащим в пределах от 0 до 1. Он измеряет качество построенной регрессии: чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость в данных.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >