Главная

Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Использование статистики ХИ-квадрат для изучения зависимостей двух переменных


Одним из приложений критерия c2 является его использование при анализе таблиц сопряженности двух переменных для установления факта наличия и уровня значимости их взаимосвязи. Для этого выдвигается нулевая гипотеза: связи между рассматриваемыми переменными нет, в противном случае связь между переменными существует с уровнем значимости альфа.

Пример 5.5. Компания продает четыре сорта колы в Москве. Чтобы определить, будет ли успешным тот же способ распространения в Ростове и Краснодаре, фирма анализирует связь между предпочтениями и городом потребителя. Аналитик распределяет покупателей на четыре класса по предпочтениям сортов колы: обычная, без кофеина и сахара, только без кофеина, только без сахара. Опрашивают 250 случайно выбранных потребителей колы из трех городов и записывают их предпочтения. В результате получается таблица частот.

 

  Обычная Без коф. и сах. Без коф. Без сах.
Москва
Ростов
Краснодар

 

Так как аналитик определяет связь между городом и предпочтением определенного вида колы, то нулевая и альтернативная гипотезы следующие:

Н0: Классификации статистически независимы.

Н1: Классификации зависимы.

На лист Excel поместить данные о распространении сортов колы. Расчет ожидаемых частот проводится в предположении, что нулевая гипотеза выполняется, то есть переменные независимые, а значит вероятность их произведения равна произведению вероятностей каждой их них. Поэтому таблица ожидаемых частот строится по формуле:

Ожидаемая частота = Сумма по столбцу * Сумма по строке / Общая сумма.

Ожидаемые частоты поместить в диапазон В12:Е14: =$F5*B$8/$F$8 (для В12). Здесь для вычисления удобно использовать смешанную и абсолютную ссылки на ячейки.

Для сравнения ожидаемых и фактических частот в ячейку В17 внести: = ХИ2ТЕСТ(B5:E7; B12: E14). Полученное р-значение устанавливает вероятность выполнения нулевой гипотезы. Оно очень мало, поэтому можно сделать вывод, что нулевая гипотеза отвергается, то есть люди из разных городов предпочитают различные сорта колы.

Проверим эту же гипотезу с помощью статистики ХИ-квадрат. Слагаемые формулы 5.1 найдем с помощью Фактических и Ожидаемых частот. Для этого ввести в ячейку В21 формулу =(B5-B12)^2/B12 и растиражировать ее на весь диапазон В21:F23.

Сумму слагаемых ХИ-квадрат рассчитать в В25.

В27 и В28: рассчитать Число строк и Число столбцов (=СЧЁТ(B5:B7) и =СЧЁТ(B5:E5)).

В29: Число степеней свободы: =(Число строк – 1)*(Число столбцов – 1)

В30: уровень значимости 1%.

Критическое значение найдем с помощью =ХИ2ОБР(B30;B29).

Для принятия решения в В32: =ЕСЛИ(B25<B31;"Принять Н0";"Отвергнуть Н0").

Таким образом принимается гипотеза Н1.

Вывод: классификации зависимы (люди из разных городов предпочитают различные сорта колы).

КРИТЕРИЙ КОЛМОГОРОВА–СМИРНОВА

Этот критерий является альтернативой критерию ХИ-квадрат. Его применение не требует вычисления ожидаемых частот и может использоваться для малых выборок. Данные должны представлять случайную выборку и обязательно должна быть сформулирована гипотеза о распределении генеральной совокупности. Нулевая гипотеза утверждает, что генеральная совокупность имеет выбранное распределение с определенным уровнем значимости.

Применение критерия Колмогорова-Смирнова основано на оценке разности функции накопленных частот F*(х) и функции распределения F(х), найденной в предположении, что нулевая гипотеза верна. Статистика критерия вычисляется по формуле:

,

где ,

F*(xi) – функция накопленных частот для i-того значения или интервала;

F(xi) – функция распределения в точке xi.

Если l больше критического значения, взятого из таблицы соответствующего критерия для уровня значимости a, то нулевая гипотеза отклоняется. В противном случае нулевая гипотеза принимается. Для большого объема выборки используется предельное распределение критерия.

Если необходимо проверить нулевую гипотезу о принадлежности двух выборок (объема n1 и n2) одной и той же генеральной совокупности, то строится статистика:

,

где , – функции накопленных частот, построенные по первой и второй выборкам соответственно;

N = n1 n2 /(n1 + n2).

Статистика сравнивается с критическим значением la = Р(l ³ la), значения которой находятся по таблице критических точек распределения Колмогорова:

Уровень значимости 20% 10% 5% 2% 1% 0,1%
la 1,073 1,224 1,358 1,520 1,627 1,950

 

Гипотеза Н0 принимается, если lla и отклоняется в противном случае.

Пример 6.1. Получена случайная выборка о среднем дневном заработке, руб./день, для пяти работников: 288, 231, 249, 146, 291. Можно ли считать на 10% уровне значимости, что выборка проведена из нормально распределенной генеральной совокупности со средним значением a = 200 руб./день и s = 50 руб./день.

Н0: выборка взята из нормально распределенной генеральной совокупности с a = 200 руб./день и s = 50 руб./день;

Н1: нет оснований утверждать, что выборка взята из нормально распределенной генеральной совокупности с a = 200 руб./день и s = 50 руб./день.

ШАГ 1. Заполнить диапазон А5:А9 выборочными данными и отсортировать по возрастанию. Рассчитать В11: =СЧЁТ(A5:A9).

ШАГ 2. Найти относительные частоты для перечисленных вариант и поместить в столбец В =1/$B$11.

ШАГ 3. Для определения значений функции накопленных частот в ячейку С5 внести формулу: = В5, в ячейку С6: =C5+B6 и растиражировать по диапазону С7:С9.

ШАГ 3. D5: =НОРМРАСП(A5;$B$2;$B$3;1) и растиражировать на D6: D9.

ШАГ 4. Е5: =ABS(C5 – D5) и растиражировать на Е5:Е9

ШАГ 5. Найти максимальное значение статистики Е. В13 рассчитать l =(6*B11*B12+1)/(6*B11^0,5). Критическое значение взять из таблицы при уровне значимости 10%. Решение принять в В16: =ЕСЛИ(B13<B14;"Принять Н0";"Отвергнуть Н0").

 

 



Последнее изменение этой страницы: 2016-06-10

headinsider.info. Все права принадлежат авторам данных материалов.