Тема: Множественная регрессия и корреляция.




Лабораторная работа №2

Представлены данные о величине ежемесячных доходов (тыс. у.е.ыс. е о величине ежемесячных доходов ()), затратах на питание (тыс. у.е.ыс. е о величине ежемесячных доходов ()) и численности членов семьи (человек).

 

Семья                        
Расходы на питание, тыс.у.е. (Y) 2,4 4,8 3,9 5,9 7,5 3,5 2,1 5,4 3,3 4,2 3,4 1,6
Доход семьи, тыс.у.е. (X1) 7,8 12,5 12,9 14,6 22,7 10,5 5,4 18,8 9,6 14,6 9,1 5,2
Количество членов семьи (X2)                        

 

Задание:

1. Рассчитать парные и частные коэффициенты корреляции. Проанализировать линейные коэффициенты парной и частной корреляции.

2. Построить уравнение множественной регрессии в стандартизованной и естественной форме.

3. Рассчитать частные коэффициенты эластичности, сравнить их с -коэффициентами, пояснить различия между ними.

4. Рассчитать коэффициент множественной корреляции и значение скорректированного коэффициента множественной детерминации.

5. С помощью общего F-критерия Фишера оценить статистическую надежность уравнения регрессии на 95% уровне.

6. С помощью частных F-критериев Фишера оценить, насколько целесообразно включение в уравнение регрессии фактора после фактора и насколько целесообразно включение в уравнение регрессии фактора после фактора .

7. Оценить с помощью t-критерия Стьюдента статистическую значимость коэффициентов при переменных и множественного уравнения регрессии.

8. Построить 95% доверительные интервалы для коэффициентов регрессии.

 

Решение.

 

1). Рассчитаем средние значения и средние квадратические отклонения переменных. Вычисления запишем в таблицу:

 

 

Таблица 1

 

№ п/п Y X1 X2
       
  2,4 7,8  
  4,8 12,5  
  3,9 12,9  
  5,9 14,6  
  7,5 22,7  
  3,5 10,5  
  2,1 5,4  
  5,4 18,8  
  3,3 9,6  
  4,2 14,6  
  3,4 9,1  
  1,6 5,2  
Сум ма   143,7  
Сред нее   11,98 2,5
σ 1,621 4,993 1,190

 

Определим парные коэффициенты корреляции по формулам, для этого построим корреляционную матрицу, используя функцию «Сервиз. Анализ данных. Корреляция» табличного процессора MS Excel. В появившемся окне отмечаем «Метки в первой строке», «Группирование по столбцам», «Входной интервал» (выделяем весь диапазон данных с названием столбцов) и «Выходной интервал» (указать одну ячейку) или «Новый рабочий лист». Получим следующую таблицу:

Таблица 2

  Y X1 X2
Y      
X1 0,952161    
X2 0,924184 0,935994  

 

Из матрицы выпишем , , ,

Значение парного коэффициента корреляции свидетельствует о сильной линейной связи между переменными и . Связь между и немного слабее. Кроме того, связь между переменными и также довольно сильная. Таким образом, можно сделать предварительное заключение, что доход семьи существенно влияет на расходы на питание, при этом количество членов семьи имеет также большое влияние.

Рассчитаем частные коэффициенты корреляции по формулам:

Коэффициенты частной корреляции свидетельствуют о средней связи между и , другие связи значительно слабее. При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости между и происходит завышение оценки тесноты связи между переменными.

2). Линейное уравнение регрессии от и имеет вид:

.

Для расчета его параметров используем функцию «Сервис. Анализ данных. Регрессия». Задав соответствующие диапазоны данных в окне, получим таблицы:

Таблица 3

ВЫВОД ИТОГОВ  
   
Регрессионная статистика
Множественный R 0,95675549
R-квадрат 0,91538107
Нормированный R-квадрат 0,89657687
Стандартная ошибка 0,54455701
Наблюдения  

 

Таблица 4

Дисперсионный анализ          
  df SS MS F Значи-мость F
Регрессия   28,871119 14,43556 48,6796 1E-05
Остаток   2,668881 0,296542    
Итого   31,54      

 

Таблица 5

  Коэффи-циенты Стандарт-ная ошибка t-ста-тистика P-Зна- чение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение 0,36006 0,413540 0,87068 0,4065 -0,5754 1,29556 -0,5754 1,29556
Переменная X 1 0,228308 0,0894393 2,552663 0,03106 0,026 0,43063 0,0259 0,43063
Переменная X 2 0,362377 0,3751956 0,965835 0,35936 -0,4864 1,21113 -0,4864 1,21113

 

Из таблицы 5 находим коэффициенты и получим уравнение регрессии в естественной форме .

Интерпретация коэффициентов регрессии. Константа оценивает агрегированное влияние прочих (кроме учтенных в модели и ) факторов на результат и означает, что расходы на питание вне зависимости от доходов и количества членов семьи составили бы 0,36 тыс.у.е. Коэффициенты b1 и b2 указывают, что с увеличением и на единицу их значений расходы на питание увеличиваются, соответственно, на 228 и 362 условные денежные единицы.

Для построения уравнения регрессии в стандартизованной форме , -коэффициенты, используя формулы для перехода от к :

;

; .

Получим уравнение в стандартизованном масштабе

3). Для характеристики относительной силы влияния и на рассчитаем средние коэффициенты эластичности:

;

.

Значение коэффициентов эластичности позволяет сделать вывод о большем влиянии на расходы на питание дохода семьи, нежели количества членов семьи. В частности с увеличением среднего дохода семьи () на 1% от своего среднего уровня и при фиксированном воздействии на y другого фактора x2 расходы на питание возрастут на 0,683%.

К аналогичным выводам о силе влияния приходим при сравнении модулей значений стандартизованных коэффициентов и :

.

Различия в силе влияния фактора на результат, полученные при сравнении и , объясняются тем, что коэффициент эластичности исходит из соотношения средних, а -коэффициент из соотношения средних квадратических отклонений.

4). Из таблицы 3 находим множественный коэффициент корреляции, множественный коэффициент детерминации и скорректированный (нормированный) коэффициент детерминации:

, .

Зависимость от и характеризуется как тесная, в которой 91,5% вариации расходов на питание определяются вариацией учтенных в модели факторов: дохода семьи и количества членов семьи. Прочие факторы, не включенные в модель, составляют соответственно 8,1% от общей вариации .

Скорректированный индекс множественной детерминации содержит поправку на число степеней свободы.

5). Общий F-критерий проверяет гипотезу о статистической незначимости уравнения регрессии и показателя тесноты связи:

Проверим значимость уравнения регрессии на 95%уровне. Находим фактическое значение F статистики в таблице 4:

По таблице распределения Фишера находим F0,05;2;9=4,26.

Так как 48,68= F > F0,05;2;9=4,26, то нулевая гипотеза отклоняется, и с вероятностью 0,95 делаем заключение о статистической значимости уравнения в целом и показателя тесноты связи, которые сформировались под неслучайным воздействием факторов и .

6). Частные F-критерии - и оценивают статистическую значимость присутствия факторов и в уравнении множественной регрессии. оценивает, насколько целесообразно включение в уравнение регрессии фактора после фактора , а указывает целесообразность включения в уравнение регрессии фактора после фактора .

Фактическое значение частного F-критерия рассчитываетcя по формуле:
.

Находим .

Так как , то гипотезу о несущественности прироста за счет включения дополнительного фактора отклоняем, и приходим к выводу о статистически подтвержденной целесообразности включения в уравнение регрессии фактора после фактора .

Целесообразность включения в модель фактора после фактора проверяет :

.

Так как , то гипотезу о несущественности прироста за счет включения дополнительного фактора принимаем. Это означает нецелесообразность включения в уравнение регрессии фактора после фактора .

7). Оценка с помощью t-критерия Стьюдента значимости коэффициентов и связана с сопоставлением их значений с величиной их случайных ошибок и . Расчёт значений случайных ошибок достаточно сложен и трудоёмок. Поэтому рассчитаем значения t-критерия Стьюдента по следующим формулам:

;

.

Табличные (критические) значения t-критерия Стьюдента зависят от принятого уровня значимости и от числа степеней свободы , где -число единиц совокупности, -число факторов в уравнении.

В нашем примере . Так как , то коэффициент регрессии является статистически значимым и надежным в силу того, что формируются преимущественно под воздействием неслучайных факторов. Так как , то коэффициент регрессии является статистически незначимым, ненадежным в силу того, что формируется преимущественно под воздействием случайных факторов.

8). Аналогичные выводы можно сделать по доверительным интервалам для коэффициентов регрессии. Границы доверительных интервалов выпишем из таблицы 5:

0,0259≤b1≤0,43; -0,486≤b2≤1,212.

Проверка значимости коэффициентов: поскольку доверительный интервал для b1 не включают в себя ноль, то этот коэффициент значим, а доверительный интервал для b2 включает в себя ноль, то этот коэффициент не значим. Еще раз подтверждается статистическая значимость влияния на и ненадежность, незначимость влияния на .

Проведенные выше исследования показывают, что в данном примере парная регрессионная модель зависимости расходов на питание от доходов семьи является достаточно статистически значимой, и нет необходимости улучшать ее, включая дополнительный фактор (количество членов семьи).

 

Варианты индивидуальных заданий

По 10 однотипным фирмам (i – номер фирмы) имеются данные за год по зависимости цены товара yi, тыс. руб. от дальности его перевозки xi1, км и расходов на рекламу в месяц xi2, тыс. руб. (варианты 1 – 21).

2.1

i                    
yi 48,72 53,02 51,39 73,71 67,16 69,27 42,09 46,42 51,11 49,09
xi1                    
xi2                    

 

2.2

i                    
yi 47,22 50,41 49,39 70,61 65,16 67,07 40,59 71,51 64,46 66,67
xi1                    
xi2                    

 

2.3

i                    
yi 39,99 45,92 48,81 47,59 67,91 62,56 64,47 39,69 47,62 49,41
xi1                    
xi2                    

 

2.4

i                    
yi 48,79 68,01 63,76 65,47 41,39 36,52 36,61 36,19 52,51 49,56
xi1                    
xi2                    

 

2.5

i                    
yi 51,07 31,09 35,42 33,71 34,09 48,31 47,06 48,27 30,19 40,32
xi1                    
xi2                    

 

 

2.6

i                    
yi 35,42 34,61 35,59 52,51 50,96 52,17 28,99 41,91 42,49 63,31
xi1                    
xi2                    

 

2.7

i                    
yi 59,86 61,37 32,89 49,52 52,21 52,19 74,11 69,56 71,27 42,09
xi1                    
xi2                    

 

2.8

i                    
yi 36,22 38,01 37,39 56,61 52,36 54,07 29,99 50,12 51,91 51,29
xi1                    
xi2                    

 

2.9

i                    
yi 70,51 66,26 67,97 43,89 37,52 35,91 35,69 49,11 47,46 48,77
xi1                    
xi2                    

 

2.10

i                    
yi 32,89 49,92 51,81 50,59 69,01 64,36 66,17 44,29 49,92 50,91
xi1                    
xi2                    

 

2.11

i                    
yi 51,09 70,11 66,86 68,37 43,29 40,72 40,81 40,39 56,71 53,76
xi1                    
xi2                    

 

2.12

i                    
yi 55,27 35,29 42,92 46,51 45,09 66,41 60,46 62,47 36,49 58,02
xi1                    
xi2                    

 

2.13

i                    
yi 62,61 61,19 81,41 77,76 79,87 50,99 44,72 46,61 45,39 63,81
xi1                    
xi2                    

 

 

2.14

i                    
yi 59,16 60,97 39,09 37,92 39,21 39,59 59,51 56,16 57,67 30,89
xi1                    
xi2                    

 

2.15

i                    
yi 42,82 43,81 43,99 63,01 59,76 61,27 36,19 47,12 49,21 48,79
xi1                    
xi2                    

 

2.16

i                    
yi 68,91 64,56 66,27 40,49 51,12 50,71 51,29 68,31 66,26 67,57
xi1                    
xi2                    

 

2.17

i                    
yi 44,89 53,12 57,01 55,79 78,01 71,96 73,97 46,29 43,12 45,71
xi1                    
xi2                    

2.18

i                    
yi 44,29 63,71 58,46 60,37 37,29 53,12 56,61 55,79 77,91 72,36
xi1                    
xi2                    

 

2.19

i                    
yi 74,27 46,09 49,52 51,21 51,19 71,21 67,36 68,97 42,69 43,72
xi1                    
xi2                    

 

2.20

i                    
yi 48,01 46,39 68,71 62,16 64,27 37,09 47,22 50,51 48,89 69,31
xi1                    
xi2                    

 

2.21

i                    
yi 63,46 65,47 41,19 36,92 39,41 38,59 58,81 53,96 55,77 30,49
xi1                    
xi2                    

 

 

2.22

При изучении влияния стоимости основных и оборотных средств на величину валового дохода по 12 торговым предприятиям были получены следующие данные:

Номер предприятия Валовой доход за год, млн. руб. (y) Среднегодовая стоимость, млн. руб.
основных фондов оборотных фондов
       
       
       
       
       
       
       
       
       
       
       
       

 

2.23

Имеются данные о деятельности крупнейших компаний США в 1996 г.

№ п/п Чистый доход, млрд. долл. США, y Оборот капитала, млрд. долл. США, x1 Использованный капитал, млрд. долл. США, x2
  6,6 6,9 83,6
  3,0 18,0 6,5
  6,5 107,9 50,4
  3,3 16,7 15,4
  0,1 79,6 29,6
  3,6 16,2 13,3
  1,5 5,9 5,9
  5,5 53,1  
  2,4 18,8 11,2
  3,0 35,3 16,4

 

2.24

Имеются данные о деятельности крупнейших компаний США в 1996 г.

№ п/п Чистый доход, млрд. долл. США, y Оборот капитала, млрд. долл. США, x1 Использованный капитал, млрд. долл. США, x2
  4,2 71,9 32,5
  2,7 93,6 25,4
  1,6 10,0 6,4
  2,4 31,5 12,5
  3,3 36,7 14,3
  1,8 13,8 6,5
  2,4 64,8 22,7
  1,6 30,4 15,8
  1,4 12,1 9,3
  0,9 31,3 18,9

 

2.25

Имеются данные по странам

 

Страна Индекс человеческого развития, y Ожидаемая продолжительность жизни при рождении в 1997г., лет x1 Суточная калорийность питания населения, ккал на душу, x2
1 Австрия 0,904 77,0  
2 Австралия 0,922 78,0  
3 Аргентина 0,827 72,9  
4 Белоруссия 0,763 68,0  
5 Бельгия 0,923 77,2  
6 Бразилия 0,739 66,8  
7 Великобритания 0,918 77,2  
8 Венгрия 0,795 70,9  
9 Германия 0,906 77,2  
10 Греция 0,867 78,1  
11 Дания 0,905 75,7  
12 Египет 0,616 66,3  

 

2.26

Имеются данные по странам

 

Страна Индекс человеческого развития, y Ожидаемая продолжительность жизни при рождении в 1997г., лет x1 Суточная калорийность питания населения, ккал на душу, x2
1 Израиль 0,883 77,8  
2 Индия 0,545 62,6  
3 Испания 0,894 78,0  
4 Италия 0,900 78,2  
5 Канада 0,932 79,0  
6 Казахстан 0,740 67,7  
7 Китай 0,701 69,8  
8 Латвия 0,744 68,4  
9 Нидерланды 0,921 77,9  
10 Норвегия 0,927 78,1  
11 Польша 0,802 72,5  
12 Республика Корея 0,852 72,4  

 

2.27 Имеются данные по странам

Страна Индекс человеческого развития, y Ожидаемая продолжительность жизни при рождении в 1997г., лет x1 Суточная калорийность питания населения, ккал на душу, x2
1 Россия 0,747 66,6  
2 Румыния 0,752 69,9  
3 США 0,927 76,6  
4 Турция 0,728 69,0  
5 Украина 0,721 68,8  
6 Финляндия 0,913 76,8  
7 Франция 0,918 78,1  
8 Чехия 0,833 73,9  
9 Швейцария 0,914 78,6  
10 Швеция 0,923 78,5  
11 ЮАР 0,695 64,1  
12 Япония 0,924 80,0  

 

2.28 Имеются данные о рынке строящегося жилья в Санкт-Петербурге: y - цену квартиры, тыс. долл.; x1 - количество комнат в квартире; x2 - общая площадь квартиры, м2.

№ п/п y x1 x2
  15,9   39,0
  27,0   68,4
  13,5   34,8
  15,1   39,0
  21,1   54,7
  28,7   74,7
  27,2   71,7
  28,3   74,5
  52,3   137,7
  22,0   40,0

 

2.29 Имеются данные о рынке строящегося жилья в Санкт-Петербурге: y - цену квартиры, тыс. долл.; x1 - количество комнат в квартире; x2 - общая площадь квартиры, м2.

№ п/п y x1 x2
  28,0   53,0
  45,0   86,0
  51,0   98,0
  34,4   62,6
  24,7   45,3
  30,8   56,4
  15,9   37,0
  29,   67,5
  15,4   37,0
  28,6   69,0

 

2.30 Имеются данные о рынке строящегося жилья в Санкт-Петербурге: y - цена квартиры, тыс. долл.; x1 - количество комнат в квартире; x2 - общая площадь квартиры, м2.

№ п/п y x1 x2
  15,6   40,0
  27,7   69,1
  34,1   68,1
  37,7   758,3
  41,9   83,7
  24,4   48,7
  21,3   39,9
  36,7   68,6
  21,5   39,0
  26,4   48,6

 

2.31 Имеются данные о рынке строящегося жилья в Санкт-Петербурге: y - цена квартиры, тыс. долл.; x1 - колич



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-11-20 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: