Оценка точности предсказанного отклика

Завершающим этапом статистического анализа регрессии является оценка точности предсказанного отклика.

По полученному уравнению регрессии можно предсказать значение функции отклика в любой точке факторного пространства. При этом, однако, необходимо помнить о том, что у* есть случайная величина. Следовательно, точность предсказанного отклика необходимо характеризовать дисперсией о2[у*] (дисперсией предсказанного отклика).

В простейшем случае (полином первого порядка одного аргумента), используя теоремы о дисперсии линейной функции случайных аргументов, можно получить выражение для дисперсии предсказанного отклика:

Если предположить, что дисперсия воспроизводимости однородна по всему факторному пространству и начало координат перенесено в центр эксперимента, то

где

Из этой формулы следует, что дисперсия предсказанного отклика минимальна в центре проведения эксперимента и зависит от целого ряда моментов.

Во-первых, от положения в факторном пространстве точки х, в которой предсказывается отклик. С удалением от центра эксперимента дисперсия предсказанного отклика возрастает.

Во-вторых, от неправильного выбора вида функции отклика, что приводит к существенным ошибкам в предсказании функции отклика.

В-третьих, от дисперсии воспроизводимости ау эксперимента, поскольку она определяет дисперсию коэффициентов уравнения регрессии а2[Ь*]. Очевидно, чем хуже эксперимент (больше дисперсия воспроизводимости), тем больше будет дисперсия предсказанного отклика.

В-четвертых, от расположения точек х. в факторном пространстве, в которых ставились опыты. Влияние расположения экспериментальных точек на точность предсказания рассматривается в теории планирования эксперимента.

В-пятых, от способа оценивания коэффициентов уравнения регрессии. Метод наименьших квадратов приводит к эффективным оценкам параметров при нормальном распределении Y. Однако при других распределениях Y этот метод может привести к неэффективному оцениванию. Например, при распределении Y по закону Лапласа следует воспользоваться методом наименьших модулей. Неэффективное оценивание параметров регрессионной модели увеличивает дисперсию предсказанного отклика.

В-шестых, от общего числа опытов IV, по результатам которых оценивается уравнение регрессии. Чем больше число опытов, тем более точно можно оценить коэффициенты уравнения регрессии и, следовательно, более точно предсказать отклик.

Для иллюстрации применения метода регрессионного анализа рассмотрим пример.

Пример 9.1. При изучении термической чувствительности самолетного тормозного твердотопливного двигателя измеряли его тягу на стенде при различных значениях температуры топлива. Результаты испытаний сведены в табл. 9.1.

Таблица 9.1

Температура [°С]

-60

-40

-20

0

+20

+40

+60

Тяга [кг]

340

400

440

430

520

570

550

Дисперсия воспроизводимости эксперимента была известна и характеризовалась величиной = 529 кг2. Требуется построить уравнение регрессии и провести его статистический анализ.

Решение.

Рассмотрим линейную зависимость тяги двигателя от температуры. По выражениям (9.16) и (9.17) получим оценки коэффициентов уравнения регрессии с учетом того, что в рассматриваемом примере

Запишем уравнение линейной регрессии

По полученной зависимости можно предсказывать тягу двигателя при различных значениях температуры топлива в пределах диапазона, в котором проводились испытания.

Однако для того чтобы быть уверенным в практической пригодности полученного уравнения регрессии необходимо провести его статистический анализ.

1. Проверим значимость коэффициентов уравнения регрессии. Значимость коэффициента ?>0, оцененная с помощью Ъ*0 = 464,3 не вызывает сомнений. Поэтому проверим значимость коэффициента Ьг Для этого рассчитаем дисперсию оценки этого коэффициента по выражению

Рассчитаем значение показателя согласованности Стъю- дента

Полученное значение показателя согласованности в связи с его большой величиной нет необходимости сравнивать с табличным значением.

2. Проверим адекватность полученной регрессионной модели, для чего рассчитаем значение остаточной дисперсии

Получим расчетное значение показателя согласованности Фишера

Из таблиц распределения Фишера находим критические значения показателя согласованности при числе степеней свободы, равных fcj = 5, /с2 = оо, и вероятности ошибки первого рода равной а = 0,1 и 0,01.

Как видим, в том и другом случае расчетное значение показателя согласованности меньше критического. Следовательно, полученная регрессионная модель признается адекватно отражающей реальную зависимость тяги двигателя от температуры топлива.

3. Оценим точность модели эксперимента, которая определяется дисперсией предсказанного отклика а2[у*]. Для проведения расчета воспользуемся выражением (9.27).

Полученное выражение для дисперсии предсказанного отклика свидетельствует о том, что точность предсказания результатов с помощью полученной модели минимальна в центре проведения эксперимента а2 = 0] = 75,57 и убывает по мере удаления от него по параболической зависимости.

Как было показано выше, при статистическом анализе уравнения регрессии для проверки его адекватности реальному процессу необходимо проверить гипотезу о равенстве дисперсии воспроизводимости и остаточной дисперсии.

Однако в некоторых случаях определить дисперсию воспроизводимости и, следовательно, проверить ее однородность не представляется возможным, так как в каждой точке факторного пространства получено только по одному результату. Например, получены статистические данные в различных отраслях экономики с разбивкой по некоторым временным интервалам и необходимо провести их обработку для принятия соответствующих решений. Метод наименьших квадратов позволяет получить уравнение регрессии в соответствии с выбранной функцией отклика.

Как же в таком случае оценить практическую значимость полученной модели? Ответ на этот вопрос может быть получен с привлечением аппарата корреляционного анализа [Общая теория статистики: Учебник / под ред. Башиной О. Э., Спирина А. А. — М.: Финансы и статистика, 2003.]. Правомерность его применения оправдана лишь в тех случаях, когда изучаемая связь переменных не слишком существенно отстоит от функциональной (жесткой) связи.

Проверка практической значимости моделей осуществляется с использованием показателей тесноты связи между входной и выходной переменными. При анализе тесноты этой связи применяют следующие показатели вариации:

1) общая дисперсия выходной переменной а2у, отражающая совокупное влияние всех факторов

2) факторная дисперсия выходной переменной у., отражающая влияние только независимой переменной

Отклонения в этой формуле характеризуют разброс значений г/г, полученных по уравнению регрессии от их общего математического ожидания;

3) остаточная дисперсия сге, отражающая разброс выходной переменной от всех остальных (неконтролируемых) факторов, кроме независимой переменной

Отклонения в этой формуле характеризуют разброс фактических значений у. от значений, полученных по уравнению регрессии у*.

Соотношение между факторной и общей дисперсиями характеризует меру тесноты связи между независимой и выходной переменными

Показатель R2 называется индексом детерминации (причинности). Он выражает долю факторной дисперсии в общей дисперсии, т. е. характеризует, какая часть общей вариации выходной переменной объясняется влиянием входной переменной.

При функциональной (однозначной) связи значения!/*полностью совпадают с соответствующими значениями у., тогда

е = 0. При отсутствии связи изменения х. никак не отражаются на изменении у{. В этом случаеа при наличии корреляционной связи

С учетом теоремы сложения дисперсий

получают формулу для расчета показателя тесноты связи — индекса корреляции

R =

Для оценки значимости индекса корреляции применяют показатель согласованности Фишера

где s — число коэффициентов в уравнении регрессии.

Входами в таблицу при заданном уровне вероятности ошибки первого рода а служат величины kl = s ~ 1 и к2 = N - s. Если /к > fa,kltk2i т0 величина индекса корреляции признается значимой.

Практическую ценность полученной линейной модели можно оценить с использованием индекса корреляции, в этом случае называемого коэффициентом корреляции

Для проверки значимости коэффициента корреляции применяют показатель согласованности Стъюдента

Если вычисленное значение показателя согласованности окажется больше критического, то коэффициент корреляции признается значимым.

При значениях индекса корреляции менее 0,7 значение индекса детерминации будет менее 0,5. Это означает, что влияние факторного признака (независимой переменной х) оказывается меньше, чем влияние остальных неучтенных факторов. Полученные в таком случае модели не имеют практического значения.

Показатели вариации выходной переменной используются при выборе адекватного (наиболее соответствующего) эмпирическим данным уравнения регрессии. Именно от адекватности полученного уравнения регрессии зависит правильность практических выводов.

Наибольшее распространение получили два подхода к выбору наиболее подходящего уравнения регрессии на основе анализа остаточной дисперсии выходной величины и средней ошибки аппроксимации

Рассмотрим конкретный пример, заимствованный из упомянутого учебника.

Пример 9.2. Имеется информация по однотипным предприятиям торговли о сроках эксплуатации типового оборудования и затратах на его ремонт (табл. 9.2).

Таблица 9.2

№ предприятия

1

2

3

4

5

6

7

8

9

10

Срок эксплуатации [лет]

4

5

5

6

8

10

8

7

11

6

Затраты [тыс. руб.]

1,5

2,0

1,4

2,3

2,7

4,0

2,3

2,5

6,6

1,7

В целях нормирования расходования средств произвести синтезирование адекватной экономико-математической модели и осуществить выбор наиболее адекватной из трех:

  • • линейная функция у = Ъ0 + Ъхх;
  • • логарифмическая функция Ъ0 + bjlg х
  • • показательная функция у = bfi*.

Решение.

Как принято при использовании регрессионного анализа, построение адекватной модели целесообразно начать с наиболее простой — линейной модели по выражениям:

Используя эти выражения, получим оценки коэффициентов регрессии

Таким образом, получаем уравнение регрессии в виде

Смысловое содержание полученной модели состоит в том, что она характеризует изменение математического ожидания выходной переменной при вариации независимой входной переменной х.

Проведем статистический анализ полученной регрессионной модели.

Проверка значимости коэффициентов регрессии производится с использованием показателя согласованности Стъюден- та. Выдвигаем гипотезы:

Определяем расчетные значения показателя согласованности:

а) для коэффициента Ь0

где N = 10 — количество значений независимой переменной,

среднее квадратическое отклонение выходной переменной у. от линии регрессии;

б) для коэффициента

среднее квадратическое отклонение независимой переменной от своего среднего значения. Эта оценка является смещенной. Для получения несмещенной оценки необходимо в знаменателе поставить величину N — 1.

Полученные значения показателей согласованности сравниваются с критическим значением t , взятым из таблицы распределения Стьюдента с учетом принятого уровня значимости а и числа степеней свободы к. Коэффициенты уравнения регрессии признаются значимыми, если фактическое значение показателя согласованности больше критического

Результаты промежуточных расчетов помещены в табл. 9.3.

Таблица 9.3

№ пр

X.

Уг

V2i

у

Уг~У*

(у*-у*)2

х. - X

t ср

(х.~х )2

v г ср'

1

4

1,5

2,25

0,868

0,632

0,399

-3

9

2

5

2,0

4,00

1,479

0,521

0,271

-2

4

3

5

1,4

1,96

1,479

-0,079

0,006

-2

4

4

6

2,3

5,29

2,090

0,210

0,044

-1

1

5

8

2,7

7,29

3,312

-0,612

0,374

1

1

6

10

4,0

16,00

4,534

-0,534

0,285

3

9

7

8

2,3

5,29

3,312

-1,012

1,024

1

1

8

7

2,5

6,25

2,700

-0,200

0,040

0

0

9

11

6,6

43,56

5,145

1,455

2,117

4

16

10

6

1,7

2,89

2,090

-0,390

0,152

1

1

?

70

27,0

94,78

27,009

4,712

46

Определяем значение среднего квадратического отклонения выходной переменной у от линии регрессии

Определяем значение показателя согласованности Стъю- дента

Определяем значение среднего квадратического отклонения независимой переменной от своего среднего значения

Определяем значение показателя согласованности Стъю- дента

При а = 0,05 и к = 10 - 2 = 8 (число коэффициентов равно 2) получаем табличное критическое значение ta к = 2,306.

Поскольку условие выполняется, то полученные коэффициенты уравнения регрессии следует признать значимыми (существенно отличающимися от нуля).

Произведем оценку практической значимости линейной модели с использованием коэффициента корреляции

Оценку значимости коэффициента корреляции проведем с использованием показателя согласованности Стъюдента

Критическое значение, полученное из таблицы Стьюдента, равно 2,306, меньше расчетного. Следовательно, коэффициент корреляции является значимым. Из значения г2 = 0,792 следует, что 79,2% общей вариации выходной величины объясняется влиянием факторного признака. Поэтому линейная модель может быть использована для практических целей.

Рассмотрим возможность применения логарифмической модели Ъ0 + bxlg х.

Параметры данной модели определяются по формулам, аналогичным рассмотренным ранее для линейной модели с заменой х. на lg х.:

Результаты промежуточных расчетов помещены в табл. 9.4.

Таблица 9.4

№ пр

X

г

Vi

(lg^)2

yigxi

V*i

Vi ~Vi

(Уг-У'г?

y2i

1

4

1,5

0,60206

0,36248

0,90309

0,65

0,85

0,7225

2,25

2

5

2,0

0,69897

0,48856

1,39794

1,54

0,46

0,2116

4,00

3

5

1,4

0,69897

0,48856

0,97856

1,54

-0,14

0,0196

1,96

4

6

2,3

0,77815

0,60552

1,78975

2,27

0,03

0,0009

5,29

5

8

2,7

0,90309

0,81557

2,43834

3,42

-0,72

0,5184

7,29

6

10

4,0

1,0

1,0

4,0

4,31

-0,31

0,0961

16,00

7

8

2,3

0,90309

0,81557

2,07711

3,42

-1,12

1,2544

5,29

8

7

2,5

0,84510

0,71419

2,11275

2,89

-0,39

0,1521

6,25

9

11

6,6

1,04139

1,08450

6,87319

4,70

1,90

3,6100

43,56

10

6

1,7

0,77815

0,60552

1,32286

2,27

-0,57

0,3249

2,89

2

70

27

8,24897

6,98047

23,8936

27,01

6,9105

94,78

С использованием итоговых данных табл. 9.4 рассчитываем значения коэффициентов

Следовательно, уравнение регрессии имеет вид

Проведем проверку значимости коэффициентов уравнения регрессии. По итоговым данным табл. 9.4 определяем

Далее вычисляем расчетные значения показателя согласованности Стъюдента

Сравнив расчетные значения показателя согласованности с критическим (2,306), получаем tb >takbi. Следовательно, вычисленные значения коэффициентов уравнения регрессии являются значимыми.

Оценка практической значимости нелинейной модели проводится с использованием индекса корреляции R. Для этого вначале по итоговым данным табл. 9.4 определяют общую дисперсию

При известной С7е =0,83 =0,691 определяем индекс корреляции R

Полученное значение индекса корреляции свидетельствует о том, что связь между независимой переменной х и выходной переменной у достаточно высокая.

Оценка значимости индекса корреляции R проводится с использованием показателя согласованности Фишера

При уровне значимости а = 0,05 и числах степеней свободы = 2 - 1 = 1 и fc, = 10-2 = 8 получаем критическое значение /ц к к^ = 5,32. Так как fR > /a fci>fc2, делаем вывод о значимости показателя тесноты связи.

Значение индекса детерминации R2 = 0,8272 = 0,684 свидетельствует о том, что 68,4% общей вариации объясняется вариацией фактора х. Поэтому логарифмическая модель может быть признана пригодной для практических целей.

Рассмотрим возможность использования показательной функции

Для определения коэффициентов уравнения регрессии предварительно прологарифмируем показательную функцию

В этом случае выражения для проведения расчетов коэффициентов уравнения регрессии примут вид

Результаты промежуточных расчетов помещены в табл. 9.5.

Таблица 9.5

№ пр

X.

Vi

lg У,

xlg у ,

У*

Vi-у*

(у* - у*)2

1

4

1,5

16

0,17609

0,70436

1,36

0,14

0,0196

2

5

2,0

25

0,30103

1,50515

1,64

0,36

0,1296

3

5

1,4

25

0,14613

0,73065

1,64

-0,24

0,0576

4

6

2,3

36

0,36173

2,17038

1,99

0,31

0,0961

5

8

2,7

64

0,43136

3,45088

2,93

-0,23

0,0529

6

10

4,0

100

0,60206

6,02060

4,31

-0,31

0,0961

7

8

2,3

64

0,36173

2,89384

2,93

-0,63

0,3969

8

7

2,5

49

0,39794

2,78558

2,41

0,09

0,0081

9

11

6,6

121

0,81954

9,01494

5,23

1,37

1,8769

10

6

1,7

36

0,23045

1,38270

1,99

-0,29

0,0841

I

70

27,0

536

3,82806

30,65908

26,43

2,8179

По итоговым данным табл. 9.5 определяем коэффициенты уравнения регрессии

Получаем уравнение регрессии в виде

Для проверки значимости коэффициентов регрессии вначале определяем

Значения показателя согласованности Стъюдента равны:

Сравнив расчетные значения показателя согласованности с критическим (2,306), получаем Следовательно,

вычисленные значения коэффициентов уравнения регрессии являются значимыми.

Оценка практической значимости нелинейной модели проводится сиспользованием индекса корреляции R. При и определяем

Полученное значение индекса корреляции свидетельствует о том, что связь между независимой переменной х и выходной переменной у очень высокая.

Оценка значимости индекса корреляции R проводится с использованием показателя согласованности Фишера

При уровне значимости а = 0,05 и числах степеней свободы к1 = 2 - I = 1 и к2 = 10-2 = 8 получаем критическое значение foL,kltk2 = 5,32. Так как fR > fa к к, делаем вывод о значимости показателя тесноты связи.

Значение индекса детерминации R2 = 0,932 = 0,865 свидетельствует о том, что 86,5% общей вариации объясняется вариацией фактора х. Поэтому полулогарифмическая модель может быть признана пригодной для практических целей.

Таким образом, все три модели следует признать имеющими практическую значимость. Осталось решить вопрос о том какую же из рассмотренных моделей следует признать наиболее адекватной. Для ответа на этот вопрос необходимо проанализировать и сравнить величину остаточной дисперсии каждой из них.

Расчеты с использованием данных табл. 9.3, 9.4, 9.5 дали следующие результаты (табл. 9.6).

Таблица 9.6

Модель

Остаточная дисперсия

1. Линейная у = -1,576 + 0,611а:

0,480

2. Логарифмическая у = -4,9027 + 9,2166 lg х

0,691

3. Показательная у = 0,6238 • 1,2133х

0,282

Следовательно, предпочтение должно быть отдано модели на основе показательной функции.

Ответим на тот же вопрос на основе анализа средней ошибки аппроксимации scp (табл. 9.7).

Таким образом, предпочтение вновь должно быть отдано показательной модели, имеющей минимальную ошибку аппроксимации.

№ пр

Vi

Линейная модель

Логарифмическая

модель

Показательная

модель

Vi -у*

(Уг-2/*)/?А

Vi -у*

(Уг~У*)/У{

У г -У*

(Уг~У*)/У{

1

1,5

0,632

0,4210

0,85

0,5667

0,14

0,0933

2

2,0

0,521

0,2610

0,46

0,2300

0,36

0,1800

3

1,4

0,079

0,0560

0,14

0,1000

0,24

0,1714

4

2,3

0,210

0,0910

0,03

0,0130

0,31

0,1348

5

2,7

0,612

0,2270

0,72

0,2667

0,23

0,0852

6

4,0

0,534

0,1330

0,31

0,0775

0,31

0,0775

7

2,3

1,012

0,4400

1,12

0,4469

0,63

0,2739

8

2,5

0,200

0,0080

0,39

0,1660

0,09

0,0360

9

6,6

1,455

0,2200

1,90

0,2879

1,37

0,2075

10

1,7

0,390

0,2290

0,57

0,3353

0,29

0,1706

I

27

2,1580

0,2520

1,4302

Средняя ошибка аппроксимации

21,58%

25,2%

14,3%

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >