СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ

ОСНОВНЫЕ ПОНЯТИЯ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА

Изучение экономических и социальных процессов предполагает анализ взаимосвязей между наблюдаемыми явлениями. Обнаружение этих связей, оценка их характера и особенностей воздействия одних факторов на другие, выделение наиболее существенных связей и факторов — одна из основных задач статистики. Для описания статистических связей разработана система количественных оценок.

Формы проявления взаимосвязей весьма разнообразны. В самом общем виде выделяют связи функциональные и корреляционные. В случае функциональной связи величине факторного признака соответствуют одно или несколько строго определенных значений функции (признака-результата). Достаточно часто функциональная связь проявляется в естественных науках. В экономике примером может служить пропорциональная зависимость объема произведенной продукции от уровня производительности труда, зависимость суммы выручки от количества товара и его цены и т.д.

Корреляционная связь (которую также называют неполной или статистической) проявляется в среднем для массовых наблюдений, когда каждому конкретному значению независимой переменной X соответствует некоторое множество вероятных значений зависимой переменной Y. Объясняется это сложностью непосредственных взаимосвязей между анализируемыми факторами и тем, что на каждый из них влияют случайные неучтенные причины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. Некоторое изменение аргумента может повлечь лишь среднее увеличение или уменьшение функции (в зависимости от направленности связи). Конкретные значения функции у отдельных единиц наблюдения будут отличаться от среднего уровня функции при конкретном для данного наблюдения значении аргумента.

Такие зависимости встречаются повсеместно. В сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последнее участвует в формировании урожая.

Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений определяет разный уровень урожайности, поскольку во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. В среднем же такая связь наблюдается: увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми (положительными), когда зависимая переменная возрастает с увеличением факторного признака, и обратными (отрицательными), когда рост факторного признака сопровождается уменьшением функции.

По своей аналитической форме связи проявляются как линейные и нелинейные. В первом случае между признаками в среднем проявляются линейные соотношения, во втором — переменные связаны между собой не линейно, например параболической, экспоненциальной, гиперболической и т.д. зависимостью.

Важной является характеристика связей с точки зрения количества взаимодействующих факторов. Если изучается связь двух признаков, то ее принято называть парной. Если изучаются зависимости между системами признаков (предполагается, что хотя бы в одной из систем число признаков больше двух), связь принято называть множественной.

По полноте охвата системы взаимосвязанных признаков различают корреляционные связи:

  • полные, учитывающие связь как непосредственную в данной паре признаков, так и опосредованную влиянием прочих признаков системы;
  • частные, т.е. непосредственные для данной пары признаков;
  • ложные.

Для полной связи характерно участие какой-то третьей переменной (одной или нескольких), которая опосредует дополнительную связь между двумя изучаемыми признаками. В случае частной связи изучается взаимодействие признаков с исключенным влиянием «посредников». Ложная связь — это связь, установленная формально и подтвержденная только количественными оценками. Она не имеет под собой качественной основы или бессмысленна.

По степени (силе, тесноте) различаются связи слабые и сильные. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в изучении взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая — регрессионный анализ. Иногда эти методы объединяют в один корреляционно-регрессионный анализ (КРА), что имеет под собой определенные основания: наличие ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов. Поэтому можно говорить о корреляционном анализе в широком смысле, когда взаимосвязь характеризуется всесторонне. В то же время выделяют корреляционный анализ в узком смысле, когда исследуется сила связи, и регрессионный анализ, в ходе которого оцениваются форма связи и воздействие одних признаков на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на вариацию результативного признака. Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей. Традиционные методы анализа корреляции и регрессии широко представлены в современных системах обработки статистических данных на ПЭВМ (например, Statistica, SPSS). Исследователь должен подготовить исходную информацию и быть готовым к интерпретации полученных результатов. В настоящее время вряд ли целесообразно проводить такой сложный анализ вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи разделяются на параметрические (корреляционные) и непараметрические. Параметрические методы основаны на использовании оценок параметров распределения вероятностей изучаемых величин: математического ожидания, дисперсии и т.д., а следовательно, применяются в случаях, когда эти параметры можно предварительно вычислить. На практике в начале исследования обычно считают, что первичные данные подчиняются закону нормального распределения вероятностей. Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин и обычно более просты в вычислениях. Поэтому непараметрические методы применяют для оценки корреляционных связей, и особенно широко для оценки связи атрибутивных (качественных) признаков.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >