Главная

Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






ПОСТРОЕНИЕ ТРЕНДА ДЛЯ ДВУХ РЯДОВ ДАННЫХ


Задача построения функциональной зависимости может быть выполнена с помощью команды Добавить линию тренда. В этом случае необходимо визуально исследовать зависимость между х и у и выбрать график элементарной функции, который даст лучшее приближение к экспериментальным данным.

Прежде всего, надо исследовать корреляционное поле и сделать вывод о характере зависимости между переменными.

Ниже построена линия тренда для Примера 1.1 (тип Линейный). Включены параметры Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации (R2).

 

 

ИНСТРУМЕНТ АНАЛИЗА РЕГРЕССИЯ

Дает возможность провести более полный анализ, полученного уравнения линейного тренда с использованием методов математической статистики.

Коэффициенты уравнения линейной регрессии находятся по выборочным данным и являются величинами случайными, поэтому надо провести анализ их значимости. Надо определить значимость всего уравнения регрессии, построить прогноз, провести оценку его значимости.

При построении линейного тренда предполагается, что линейная модель наилучшим образом характеризует зависимость между х и у:

У = b0+ b1х + e, (1.1)

где b0 и b1 параметры модели; e – случайная величина (возмущение), характеризующая влияние неучтенных факторов.

Уравнение прямой, коэффициенты которого находят по выборочным данным, называют уравнением регрессии и обозначают ŷ:

ŷ = b0 + b1 х, (1.2)

Коэффициенты регрессии b0 и b1 находят по методу наименьших квадратов. Они являются только оценками параметров модели (соответственно b0 и b1). Для получения наилучших оценок необходимо, чтобы выполнялся ряд предпосылок относительно случайного отклонения

еi = yiŷi = yib0b1xi

индекс i означает значение факторов в одноименном испытании. Это условия Гаусса-Маркова, а так же предположения:

случайные отклонения имеют нормальный закон распределения;

отсутствуют ошибки спецификации;

число наблюдений достаточно большое: как минимум в шесть раз превышает число объясняющих факторов и другие.

Оценку b1 называют коэффициентом регрессии. Ее значение показывает среднее изменение результата у с изменением фактора х на одну единицу.

Можно установить зависимость между коэффициентом регрессии и коэффициентом корреляции:

. (1.3)

В качестве меры рассеивания фактическогозначения у относительно теоретическогозначения ŷ (находится по уравнению регрессии) используется стандартная ошибкауравнения регрессии, которая определяется по формуле:

. (1.4)

ОЦЕНКА КАЧЕСТВА ПОЛУЧЕННОГО УРАВНЕНИЯ РЕГРЕССИИ СОДЕРЖИТ СЛЕДУЮЩИЕ ПУНКТЫ:

- Оценка значимости коэффициентов регрессии;

- Построение доверительных интервалов для каждого коэффициента;

- Оценка значимости всего уравнения регрессии;

- Построение прогнозного значения и доверительного интервала к ним.

Для определения статистической значимостикоэффициентов регрессии и корреляции необходимо рассчитать t-статистикиСтьюдента лучше всего это сделать с помощью встроенной функции СТЬДРАСПОБР.

ОЦЕНКА ЗНАЧИМОСТИ КОЭФФИЦИЕНТОВ РЕГРЕССИИ И КОРРЕЛЯЦИИ

Устанавливает надежность полученных результатов. Случайные ошибки коэффициента корреляции и оценок параметров линейной модели вычисляются по формулам:

(1.4)

стандартное отклонение коэффициента b1.

. (1.4)

стандартное отклонение коэффициента b0.

. (1.5)

стандартное отклонение коэффициента корреляции

Любое стандартное отклонение иногда называют стандартной ошибкойсоответствующего коэффициента.

Рассматривается основная гипотеза о равенстве параметров регрессии нулю.

H0: bi= 0 – коэффициент незначим;

H1: bi ≠ 0 – коэффициент значимый

По выборке находят t-статистики (Тнабл.):

. (1.8)

Критическое значение Ткр для t-статистик находят с помощью распределения Стьюдента. Для этого надо знать объемвыборки и задать уровень значимости. Например, для a = 0,05 и n = 14, Ткр = ta/2,n-2= t0,025,12 = 2,179.

Выдвинутая гипотеза:

принимается, если выполняется неравенство |Тнабл| < Ткри делают вывод, что коэффициент незначим (равен нулю);

отвергается, если |Тнабл| > Ткри делают вывод, что коэффициент значим.

Часто при проверке качества коэффициентов используют «грубое правило»:

если |t| £ 1 (bj < Sj), то коэффициент статистически незначим;

если 1 < |t| £ 2 (bj < 2Sj), то коэффициент относительно слабо значим, рекомендуется воспользоваться таблицей критических точек распределения Стьюдента;

если 2 < |t| £ 3, то коэффициент значим (это утверждение считается гарантированным при n > 20 и a ³ 0,05);

если 3 < |t|, то коэффициент считается сильно значимым (вероятность ошибки при достаточном числе наблюдений не превосходит 0,001).

Каждая оценка дополняется доверительным интервалом. Для этого определяют предельную ошибку для каждого коэффициента:

Di = ta/2, n – 2 Si, (1.9)

откуда границы доверительных интервалов находятся по формуле:

bi ± Dbi. (1.10)

Коэффициент детерминации для парной регрессии совпадает с квадратом коэффициента корреляции R2 = r2xy и характеризует долю дисперсии результативного признака у, объясняемую регрессией в общей дисперсии результативного признака. Соответственно величина 1 – R2 характеризует долю дисперсии у, вызванную влиянием неучтенных факторов в общей дисперсии признака у.

. (1.11*)

Разделив обе части уравнения на общую сумму квадратов отклонений, получим:

,

. (1.11)

Таким образом, коэффициент детерминации R2 является мерой, позволяющей определить, в какой степени найденная прямая регрессии дает лучший результат для объяснения поведения зависимой переменной у, чем горизонтальная прямая у = . Очевидно, что 0 ≤ R2 ≤ 1. Откуда следует, что чем ближе он к единице, тем больше уравнение регрессии объясняет поведение фактических значений у. Поэтому следует строить регрессию с наибольшим значением R2.

Корень квадратный из коэффициента детерминации называется индексом корреляции и обозначают rxy.

Для проверки общего качества уравнения регрессии выдвигается предположение, что коэффициенты b0 и b1 одновременно равны нулю, тогда уравнение считают незначимым, в противном случае значимым. Данная гипотеза проверяется на основе дисперсионного анализа, при этом сравниваются объясненная и остаточная дисперсии:

– уравнение незначимо,

– уравнение значимо.

Строится F-статистика:

. (1.12)

При выполнении условий МНК статистика имеет распределение Фишера с числом степеней свободы n1 = 1, n2 = n – 1. При уровне значимости находят критическую точку Fa, 1, n – 1 = Fкр с помощью функции FРАСПОБР и сравнивают его с наблюдаемым значением F. Так как рассматриваемая гипотеза правосторонняя, то:

- если F > Fкр, то гипотеза H0 отклоняется в пользу H1, что означает объясненная дисперсия существенно больше остаточной, следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной от объясняющей.

- если F < Fкр, то гипотеза H0 принимается, т.е. объясненная дисперсия соизмерима с остаточной дисперсией, вызванной случайными факторами. Это позволяет считать влияние объясняющих переменных модели несущественным, а, следовательно, общее качество уравнения регрессии невысоким.

В случае линейной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для tr-статистики для коэффициента корреляции:

,

Можно доказать равенство:

. (1.13)

ПОИСК ПРОГНОЗНОГО ЗНАЧЕНИЯ И ЕГО ОЦЕНКА

Прогнозное значение ŷр определяется, если в уравнение регрессии подставить значение хр:

ŷр = b0 + b1 хр. (1.14)

Границы доверительного интервала для параметра ур будут равны:

ŷр ± ta/2, n – 2 Sp. (1.15)

Чтобы найти стандартную ошибку Sp прогнозного значения ŷр можно использовать два подхода: либо рассматривать параметр ур как отдельное значение переменной хр; или разброс ур найти как условное среднее значение при известном значении хр.

Доверительный интервал для отдельного значения ур учитывает источники рассеяния: для коэффициентов регрессии (1.5, 1.6) и всего уравнения регрессии (1.4). В этом случае стандартная ошибка прогноза Sр вычисляется по формуле:

, (1.16)

Доверительный интервал для условного среднего не учитывает дисперсию для всего уравнения регрессии (1.4), поэтому формула для вычисления ошибки прогноза имеет вид:

, (1.17)

Пример 1.3. Воспользуемся данными примера 1.1 для выполнения следующих заданий:

1. по данным выборок построить линейную модель у = b0+ b1x + e;

a. оценить параметры уравнения регрессии ŷх;

b. оценить статистическую значимость коэффициентов регрессии;

c. оценить силу линейной зависимости между х и у;

d. спрогнозировать потребление при доходе х = 160.

2. построить модель, не содержащую свободный член у = vx + u.

a. найти коэффициент регрессии а;

b. оценить статистическую значимость коэффициента а;

c. оценить силу общее качество уравнения регрессии;

3. значимо или нет различаются коэффициенты b1 и а?

4. какую модель вы выбираете?

Инструкции для выполнения примера с помощью инструмента Регрессия пакета анализа.

Для задания 1.

1. Скопировать данные примера 1.1 на новый лист.

2. С помощью инструмента Регрессия Пакета анализа данных выведите регрессионную статистику с остатками и уровнем надежности 98%.

 

Все оценки по умолчанию проводятся в Excel с уровнем значимости a =0,05 (g =1 – a =0,95)

Описание результатов по данным примера 1.1

Результат состоит из четырех блоков: Регрессионная статистика, Дисперсионный анализ данных для коэффициентов регрессии и их оценок, вывод остатков.

РЕГРЕССИОННАЯ СТАТИСТИКА содержит строки, характеризующие построенное уравнение регрессии:

Для парной регрессии Множественный R равен коэффициенту корреляции (rxe). По его значению 0,98 можно сказать, что между х и у существует сильная линейная зависимость.

Строка R–квадрат равна коэффициенту корреляции в квадрате.

Нормированный R–квадрат рассчитывается с учетом степеней свободы числителя (n – 2) и знаменателя (n – 1) по формуле 1.11.

Стандартная ошибка (S) регрессии вычисляется по формуле 1.4.

Последняя строка содержит количество выборочных данных (n).

ДИСПЕРСИОННЫЙ АНАЛИЗ позволяет исследовать общую дисперсию у (строка ИТОГО), дисперсию для теоретических данных (строка Регрессия) и остаточную дисперсию (строка Остаток).

Второй столбец (df) содержит число степеней свободы для каждой из сумм формулы (1.11*).

В третьем столбе (SS) находятся суммы квадратов (1.11*).

Четвертый столбец (MS) содержит средние значения SS/df для регрессии и остатков.

В пятом столбце вычисляется по выборочным данным значение статистики F (1.12).

Последний столбец, содержит F-значение равное Р(F > Fнабл) = FРАСП(Fнабл; 1; 10) с уровнем значимости 0,05. С его помощью можно оценить значимость всего уравнения регрессии. Это значение можно считать вероятностью выполнения гипотезы Н0.

В нашем случае она практически равна нулю, следовательно, построенное уравнение дает хорошее приближение к исходным данным.



Последнее изменение этой страницы: 2016-06-10

headinsider.info. Все права принадлежат авторам данных материалов.