КОРРЕЛЯЦИЯ, ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ

ОЦЕНКА ТЕСНОТЫ ЛИНЕЙНОЙ СВЯЗИ

Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Одной из основных задач в экономических исследованиях является анализ зависимостей между переменными.

Рассматривая зависимости между признаками, необходимо выделить прежде всего два типа связей:

  • функциональные — характеризуются полным соответствием между изменением факторного признака и изменением результативной величины: каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Этот тип связи выражается в виде формульной зависимости. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина заработной платы при повременной оплате труда зависит от количества отработанных часов;
  • корреляционные — между изменением двух признаков нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем, при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

Следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака.

Изучая взаимосвязи между признаками, их классифицируют по направлению, форме, числу факторов:

  • по направлению связи делятся на прямые и обратные. При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора. При обратной связи направление изменения результативного признака противоположно направлению изменения признака- фактора. Например, чем выше квалификация рабочего, тем выше уровень производительности его труда (прямая связь). Чем выше производительность труда, тем ниже себестоимость единицы продукции (обратная связь);
  • по форме (виду функции) связи делят на линейные (прямолинейные) и нелинейные (криволинейные). Линейная связь отображается прямой линией, нелинейная — кривой (парабол ой, гиперболой и т.п.). При линейной связи с возрастанием значения факторного признака происходит равномерное возрастание (убывание) значения результативного признака;
  • по количеству факторов, действующих на результативный признак, связи подразделяют на однофакторные (парные) и многофакторные.

Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции[1].

При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит п наблюдений.

При изучении взаимосвязи между двумя факторами их, как правило, обозначают Х=р х2,...п) и Y= (у{, у2, ...,уи).

Ковариация — это статистическая мера взаимодействия двух переменных. Например, положительное значение ковариации доходности двух ценных бумаг показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону.

Ковариация между двумя переменными X и Y рассчитывается следующим образом:

где— фактические значения переменных

X и г;

Если случайные величины Хи Y независимы, теоретическая ковариация равна нулю.

Ковариация зависит от единиц, в которых измеряются переменные Хи У, она является ненормированной величиной. Поэтому для измерения силы связи между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции.

Для двух переменных X и Y коэффициент парной корреляции

определяется следующим образом:

где SSy — оценки дисперсий величин Хи Y. Эти оценки характеризуют степень разброса значений х{2, ...,хп12п) вокруг своего среднего х (у соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений.

Дисперсия (оценка дисперсии) определяется по формуле

В общем случае для получения несмещенной оценки дисперсии сумму квадратов следует делить на число степеней свободы оценки (п-р), где п — объем выборки, р — число наложенных на выборку связей. Так как выборка уже использовалась один раз для определения среднего X, то число наложенных связей в данном случае равно единице (р = 1), а число степеней свободы оценки (т.е. число независимых элементов выборки) равно (п - 1).

Более естественно измерять степень разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый среднеквадратическим отклонением (стандартным отклонением) или стандартной ошибкой переменной X (переменной Y) и определяемый соотношением

Слагаемые в числителе формулы (3.2.1) выражают взаимодействие двух переменных и определяют знак корреляции (положительная или отрицательная). Если, например, между переменными существует сильная положительная взаимосвязь (увеличение одной переменной при увеличении второй), каждое слагаемое будет положительным числом. Аналогично, если между переменными существует сильная отрицательная взаимосвязь, все слагаемые в числителе будут отрицательными числами, что в результате дает отрицательное значение корреляции.

Знаменатель выражения для коэффициента парной корреляции [см. формулу (3.2.2)] просто нормирует числитель таким образом, что коэффициент корреляции оказывается легко интерпретируемым числом, не имеющим размерности, и принимает значения от -1 до +1.

Числитель выражения для коэффициента корреляции, который трудно интерпретировать из-за необычных единиц измерения, есть ковариация ХиУ. Несмотря на то что иногда она используется как самостоятельная характеристика (например, в теории финансов для описания совместного изменения курсов акций на двух биржах), удобнее пользоваться коэффициентом корреляции. Корреляция и ковариация представляют, по сути, одну и ту же информацию, однако корреляция представляет эту информацию в более удобной форме.

Для качественной оценки коэффициента корреляции применяются различные шкалы, наиболее часто — шкала Чеддока. В зависимости от значения коэффициента корреляции связь может иметь одну из оценок:

  • 0,1—0,3 — слабая;
  • 0,3—0,5 — заметная;
  • 0,5—0,7 — умеренная;
  • 0,7—0,9 — высокая;
  • 0,9—1,0 — весьма высокая.

Оценка степени тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе более или менее ограниченной информации об изучаемом явлении. В связи с этим возникает необходимость оценки существенности линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность.

Оценка значимости коэффициента корреляции при малых объемах выборки выполняется с использованием 7-критерия Стьюдента. При этом фактическое (наблюдаемое) значение этого критерия определяется по формуле

Вычисленное по этой формуле значение /набл сравнивается с критическим значением 7-критерия, которое берется из таблицы значений /-критерия Стьюдента (см. Приложение 2) с учетом заданного уровня значимости ос и числа степеней свободы (п - 2).

Если 7набл > 7табл, то полученное значение коэффициента корреляции признается значимым (т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если значение гу х близко к нулю, связь между переменными слабая. Если корреляция между случайными величинами:

  • • положительная, то при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать;
  • • отрицательная, то при возрастании одной случайной величины другая имеет тенденцию в среднем убывать. Удобным графическим средством анализа парных данных является диаграмма рассеяния, которая представляет каждое наблюдение в пространстве двух измерений, соответствующих двум факторам. Диаграмму рассеяния, на которой изображается совокупность значений двух признаков, называют еще корреляционным полем. Каждая точка этой диаграммы имеет координаты х(. и уг По мере того как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина г будет ближе к единице.

Матрица коэффициентов парной корреляции

Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества признаков получают матрицу коэффициентов парной корреляции.

Пусть вся совокупность данных состоит из переменной Y = =р у2, ..., уп) и т переменных (факторов) X, каждая из которых содержит п наблюдений. Значения переменных Y и X, содержащиеся в наблюдаемой совокупности, записываются в таблицу (табл. 3.2.1).

Таблица 3.2.1

Переменная

Номер

наблюдения

У

*2

К

I

У1

*п

*21

Хт

2

У 2

*12

*22

Хт2

3

Уз

*13

*23

ХтЗ

п

Уп

*1 п

*2„

Хтп

На основании данных, содержащихся в этой таблице, вычисляют матрицу коэффициентов парной корреляции R, она симметрична относительно главной диагонали:

Анализ матрицы коэффициентов парной корреляции используют при построении моделей множественной регрессии.

Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим в многомерном корреляционном анализе рассматривается две задачи:

  • 1. Определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ.
  • 2. Определение тесноты связи между двумя величинами при фиксировании или исключении влияния остальных величин.

Эти задачи решаются соответственно с помощью коэффициентов множественной и частной корреляции.

Решение первой задачи (определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ) осуществляется с помощью выборочного коэффициента множественной корреляции по формуле

где R — определитель корреляционной матрицы R [см. формулу (3.2.6)]; Rjj — алгебраическое дополнение элемента той же матрицы R.

Квадрат коэффициента множественной корреляции Щ j 2 j_j J+l m принято называть выборочным множественным коэффициентом детерминации; он показывает, какую долю вариации (случайного разброса) исследуемой величины Xj объясняет вариация остальных случайных величин Х{, Х2,..., Хт.

Коэффициенты множественной корреляции и детерминации являются величинами положительными, принимающими значения в интервале от 0 до 1. При приближении коэффициента R2 к единице можно сделать вывод о тесноте взаимосвязи случайных величин, но не о ее направлении. Коэффициент множественной корреляции может только увеличиваться, если в модель включать дополнительные переменные, и не увеличится, если исключать какие-либо из имеющихся признаков.

Проверка значимости коэффициента детерминации осуществляется путем сравнения расчетного значения /’-критерия Фишера

с табличным Fraбл. Табличное значение критерия (см. Приложение 1) определяется заданным уровнем значимости а и степенями свободы vl = mnv2 = n-m-l. Коэффициент R2 значимо отличается от нуля, если выполняется неравенство

Если рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния других случайных величин (одной или нескольких).

Выборочный частный коэффициент корреляции определяется по формуле

где RJk, Rjj, Rkk алгебраические дополнения к соответствующим элементам матрицы R [см. формулу (3.2.6)].

Частный коэффициент корреляции, также как и парный коэффициент корреляции, изменяется от -1 до +1.

Выражение (3.2.9) при условии т = 3 будет иметь вид

Коэффициент г12(3) называется коэффициентом корреляции между х{ и х2 при фиксированном ху Он симметричен относительно первичных индексов 1, 2. Его вторичный индекс 3 относится к фиксированной переменной.

Пример 3.2.1. Вычисление коэффициентов парной,

множественной и частной корреляции.

В табл. 3.2.2 представлена информация об объемах продаж и затратах на рекламу одной фирмы, а также индекс потребительских расходов за ряд текущих лет.

  • 1. Построить диаграмму рассеяния (корреляционное поле) для переменных «объем продаж» и «индекс потребительских расходов».
  • 2. Определить степень влияния индекса потребительских расходов на объем продаж (вычислить коэффициент парной корреляции).
  • 3. Оценить значимость вычисленного коэффициента парной корреляции.
  • 4. Построить матрицу коэффициентов парной корреляции по трем переменным.
  • 5. Найти оценку множественного коэффициента корреляции.
  • 6. Найти оценки коэффициентов частной корреляции.

Решение

1. В нашем примере диаграмма рассеяния имеет вид, приведенный на рис. 3.2.1. Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение, что существует некоторая объективная тенденция прямой линейной связи между значениями переменных Х2 (индекс потребительских расходов) и Y(объем продаж).

Диаграмма рассеяния

Рис. 3.2.1. Диаграмма рассеяния

2. Промежуточные расчеты при вычислении коэффициента корреляции между переменными Х2 (индекс потребительских расходов) и Y(объем продаж) приведены в табл. 3.2.3.

Средние значения случайных величин Х2 и Y, которые являются наиболее простыми показателями, характеризующими последовательности jCj, х2, ..., х16 и yvy2, ..., у16, рассчитаем по следующим формулам:

Объем продаж Y, тыс. руб.

Затраты на рекламу Xv тыс. руб.

Индекс

потреби

тельских

расходов

*2>%

Объем продаж Y, тыс. руб.

Затраты на рекламу Хх, тыс. руб.

Индекс

потреби

тельских

расходов

х2,%

126

4

100,0

367

19,8

108,3

137

4,8

98,4

367

10,6

109,2

148

3,8

101,2

321

8,6

110,1

191

8,7

103,5

307

6,5

110,7

274

8,2

104,1

331

12,6

110,3

370

9,7

107,0

345

6,5

111,8

432

14,7

107,4

364

5,8

112,3

445

18,7

108,5

384

5,7

112,9

Таблица 3.2.3

Y

*2

Я-у

л:, - х

(И - У)(х, - х)

(х, - х)2

(у,- - у)2

1

126

100,0

-180,813

-7,231

1307,500

52,291

32693,160

2

137

98,4

-169,813

-8,831

1499,657

77,991

28836,285

3

148

101,2

-158,813

-6,031

957,838

36,376

25221,410

4

191

103,5

-115,813

-3,731

432,125

13,922

13412,535

5

274

104,1

-32,813

-3,131

102,744

9,805

1076,660

6

370

107,0

63,188

-0,231

-14,612

0,053

3992,660

7

432

107,4

125,188

0,169

21,125

0,028

15671,910

8

445

108,5

138,188

1,269

175,325

1,610

19095,785

9

367

108,3

60,188

1,069

64,325

1,142

3622,535

10

367

109,2

60,188

1,969

118,494

3,876

3622,535

11

321

110,1

14,188

2,869

40,700

8,230

201,285

12

307

110,7

0,188

3,469

0,650

12,032

0,035

13

331

110,3

24,188

3,069

74,225

9,417

585,035

14

345

111.8

38,188

4,569

174,469

20,873

1458,285

15

364

112,3

57,188

5,069

289,869

25,692

3270,410

16

384

112,9

77,188

5,669

437,557

32,135

5957,910

Сумма

4909

1715,7

0

0

5681,994

305,474

158718,438

Среднее

306,81

107,23

Дисперсия характеризует степень разброса значений xvx2[6 р у2,..., у16) вокруг своего среднего х (у соответственно):

Стандартные ошибки случайных величин Х2и Y рассчитаем по следующим формулам:

Коэффициент парной корреляции рассчитаем по формуле (3.2.2):

3. Оценим значимость коэффициента корреляции. Для этого рассчитаем значение /-статистики по формуле (3.2.5):

Табличное значение критерия Стьюдента ^табл(а = 0,i; v = п - 2 = Ы) равно 1,7613 (см. Приложение 2). Сравниваем числовые значения критериев: /расч > /табл, т.е. полученное значение коэффициента корреляции значимо.

Таким образом, индекс потребительских расходов оказывает весьма сильное влияние на объем продаж.

4. Матрица R коэффициентов парной корреляции, вычисленных по формуле (3.2.2) для трех факторов, будет иметь вид

5. Вычислим множественный коэффициент корреляции Y с Х{ иХ2:

где Я — определитель корреляционной матрицы R — равен 0,1304 (см. параграф 1.2), a Rn алгебраическое дополнение первого диагонального элемента г,, той же матрицы R:

6. Вычислим коэффициенты частной корреляции по формуле (3.2.9):

где Rn, Rl3 алгебраическое дополнение элемента гп, гп матрицы R соответственно, a R22 алгебраическое дополнение второго диагонального элемента г22:

Коэффициенты частной корреляции можно вычислить, используя коэффициенты парной корреляции [см. формулу (3.2.10)]:

Рассмотрим теперь решение примера 3.2.1 в Excel.

Чтобы вычислить корреляцию средствами Excel, можно воспользоваться функцией =коррел ( ), указав адреса двух столбцов чисел, как показано на рис. 3.2.2. Ответ помещен в D8 и равен 0,816.

Вычисление коэффициента парной корреляции с помощью функции КОРРЕЛ

Рис. 3.2.2. Вычисление коэффициента парной корреляции с помощью функции КОРРЕЛ

(Примечание. Аргументы функции коррел должны быть числами или именами, массивами или ссылками, содержащими числа. Если аргумент, который является массивом или ссылкой, содержит текст, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки, которые содержат нулевые значения, учитываются.

Если массив! и массив2 имеют различное количество точек данных, то функция коррел возвращает значение ошибки #н/д.

Если массив1 либо массив2 пуст или если о (стандартное отклонение) их значений равно нулю, то функция коррел возвращает значение ошибки #дел/0 !.)

Критическое значение /-статистики Стьюдента может быть также получено с помощью функции стьюдраспробр1 пакета Excel. В качестве аргументов функции необходимо задать число степеней свободы, равное п - 2 (в нашем примере 16 — 2= 14) и уровень значимости а (в нашем примере а = 0,1) (рис. 3.2.3). Если фактическое значение /-статистики, взятое по модулю, больше критического, то с вероятностью (1 - а) коэффициент корреляции значимо отличается от нуля.

Критическое значение /-статистики равно 1,7613

Рис. 3.2.3. Критическое значение /-статистики равно 1,7613

В Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения различных статистических задач. Для вычисления матрицы коэффициентов парной корреляции R следует воспользоваться инструментом Корреляция (рис. 3.2.4) и установить параметры анализа в соответствующем диалоговом окне. Ответ будет помещен на новый рабочий лист (рис. 3.2.5).

1 В Excel 2010 название функции стьюдраспробр изменено на стью-

ДЕНТ.ОБР.2Х.

Вычисление матрицы коэффициентов парной корреляции с помощью инструмента Корреляция

Рис. 3.2.4. Вычисление матрицы коэффициентов парной корреляции с помощью инструмента Корреляция

Матрица коэффициентов парной корреляции

Рис. 3.2.5. Матрица коэффициентов парной корреляции

  • [1] Основоположниками теории корреляции считаются английские статистики Ф. Гальтон (1822—1911) и К. Пирсон (1857—1936). Термин «корреляция» был заимствован из естествознания и обозначает «соотношение, соответствие». Представление о корреляции как взаимозависимости между случайными переменными величинами лежит воснове математико-статистической теории корреляции.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >