Главная

Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Нормальное (колоколообразное, гауссово) распределение


 

 

 

Нормальное распределение подразумевает, что большая часть значений признака находится в районе так называемого среднего значения (на графике это значение обозначено греческой буквой мю µ).

 

При нормальном распределении наиболее часто в выборке встречаются значения близкие по величине к среднему по выборке и располагающиеся симметрично ему (значений больше среднего и значений меньше среднего приблизительно одинаковое количество). Или если выражать в процентном соотношении (используя относитльные частоты встречаемости), то можно говорить, что наибольший процент значений признака находится в районе среднего значения, тогда как всего несколько процентов – по краям кривой

При изучении распределений как теоретической базы статистических заключений наибольший интерес представляет площадь под нормальной кривой. Эту площадь можно представить как интеграл от функции f(x).

Как было сказано выше площадь под кривой распределения всегда равна 1 (при выражении частоты встречаеости в виде отьносительных значений), а площадь ограниченная какими-то значениями признака соответствует вероятности или доле.

На графике изображено распределение случайной величины. Оно соответствует нормальному распределению, если разделить область под кривой пополам, то обе половины будут равной площади равной 0,5, отсюда можно говорить, что вероятность возникновения значений признака больших 45 (согласно графику) равна 0,5, следоватльно доля членов выборки со значением больше 45 также равна 0,5 (т.е. половине все членов выборки).

Если же мы захотим узнать какая вероятность возникновения признака со значениями больше 65, то изобразив это на графике:

видно, что доля таких членов выборки существенно меньше и вычислив площадь под кривой получим около 3,5%, соответственно меньше 65 равна 100%-3,5%=96,5%

Равномерное распределение

 

 

Равномерное распределение указывает на малое влияние переменной на исследуемый процесс или малое влияние процесса на снимаемые показатели.

 

Ассиметричное (если ассиметрия левосторонняя – логнормальное распределение)

 

Если функцию f(x) логнормального распределения преобразовать на ее логарифм log(f(x)), то в этом случае полученная функция будет иметь нормальное распределение и характеризоваться теми же параметрами.

Используя графическое представление такой случай можно продемонстрировать следующим образом:

 

 

Теперь если рассчитать логарифм десятичный от х, и построить распределение получившихся значений, то мы получим следующий график:

 

 

Соответствующий нормальному распределению.

 

Полимодальное распределение

 

 

Полимодальное распределение может быть обусловлено действием нескольких скрытых факторов. Или о, возможно, неправильном построении исследования, например, выборка не является достаточно репрезентативной.

 

В зависимости от типа распределения выбираются методы статистического анализа

 

Если распределение является нормальным или логнормальным, то применяют методы так называемой параметрической статистики.

 

Лекция 2

 

Описательная статистика

 

В результате проведения эксперимента исследователь получает данные для их дальнейшей обработки и формирования выводов и заключений.

Данные, которые необходимо подвергнуть статистическому анализу, чаще всего представлены большим массивом чисел, показателей или другими возможными значениями проявления признака.

Например, при исследовании влияния анестетика на падение артериального давления при операции на открытом сердце исследователь получает таблицу результатов, в которой перечислены значения давления у каждого пациента выборки (например, до и во время проведения операции), выживаемость после операции (умер пациент или нет) и т.п.

 

Так как работать с большим массивом данных сложно и неудобно, его стремятся представить в более приемлемом и наглядном виде для дальнейшего анализа.

Поэтому одним из первых этапов статистического анализа является краткое описание данных или описательная статистика.

Описательная статистика включает в себя:

· Формирование таблиц результатов анализа (строго говоря, это предварительный этап)

· Проверка данных на возможное наличие артефактов (выбросов)

· Построение графика распределения (полигона частот) значений признака

· Расчет основных параметров распределения

· Формирование выводов относительно полученных данных эксперимента о принадлежности их к тому или иному типу распределения и как следствие – выбор метода дальнейшего анализа.

Вариационный ряд. Типы распределения значений признака

Варианта – это конкретное значение случайной переменной Хi , т.е. величины, изменяющиеся под влиянием многих случайных причин.

Изобразить распределение признака можно различными способами: вариационным рядом, гистограммой, вариационной кривой.

При увеличении числа наблюдений обычно отмечаются повторения отдельных вариант. В этом случае для построения вариационного ряда необходимо выписать все значения вариант в порядке возрастания, а затем подсчитать число повторений (частоту – f) каждой варианты и записать их рядом с соответствующими значениями вариант. Подобная запись зовется вариационным рядом.

Вариационный ряд – это упорядоченная запись значений признака (исследуемого параметра) по отдельным особям (членам) изучаемой группы.

Другими словами, при измерении значений какого-то признака (например, температуры тела, роста или артериального давления), у разных членов исследуемой группы значение этого признака будут различными. Упорядоченная запись этих значений и называется вариационным рядом

Вариационный ряд отражает, то сколько раз та или иная переменная встречается в полученных данных эксперимента.

 

Каждая генеральная совокупность (или выборка) характеризуется распределением значений исследуемой переменной (признака) или графическим представлением частоты встречаемости. Т.е. графическим представлением того с какой частотой встречается в результатах эксперимента то или иное значение переменной.

Для построения графика распределения для приведенного выше вариационного ряда на горизонтальной оси отмечаются значения «Количество дней госпитализации», на вертикальной оси – отмечается сколько раз то или иное значение (дней госпитализации) появилось в ходе исследования.

 

 

Примеры графиков распределения частот:

 

 

Столбчатую диаграмму чаще всего называют полигоном частот или гистограммой, огибающую линию – графиком распределения частот или вариационной кривой.

Внешний вид наиболее часто встречающихся типов распределения признака

Нормальное (колоколообразное, гауссово) распределение

Равномерное распределение

 

Ассиметричное распределение (если ассиметрия левосторонняя – логнормальное распределение)

 

Если функцию f(x) логнормального распределения преобразовать на ее логарифм log(f(x)), то в этом случае полученная функция будет иметь нормальное распределение и характеризоваться теми же параметрами.

 

Полимодальное распределение

 

 

Полимодальное распределение может быть обусловлено действием нескольких скрытых факторов. Или о, возможно, неправильном построении исследования, например, выборка не является достаточно репрезентативной.

 

В зависимости от типа распределения выбираются соответствующие ему методы статистического анализа

 

 

Основные параметры распределения

Если распределение является нормальным, то применяют методы так называемой параметрической статистики. Если имеет место нормальное распределение признака выборка практически исчерпывающе характеризуется параметрами: средним значением (математическое ожидание), дисперсией и стандартным отклонением (среднеквадратичное отклонение).

Среднее значение определяется формулой

 

Т.е. отношение суммы значений всех переменных к их количеству (N – количество для совокупности, n – для выборки, Х – значение переменной)

 

Среднее значение – величина абстрактная. В выборке может не быть значений равных среднему значению по выборке, так же среднее значение может принимать величину, которую не может принять признак, например 5,5 человек на место и т.п.

Величина, характеризующая разброс значений от среднего называется дисперсией.

 

Дисперсия - средний квадрат отклонения значений выборки от среднего по выборке. Т.к. оперировать квадратом размерности величины не удобно (например если варьируемая величина имеет размерность см, то дисперсия измеряется в см2), на практике чаще используют корень квадратный от дисперсии называемый стандартным отклонением.

Стандартное отклонение также характеризует разброс значений, но измеряется в той же размерности, что и сами значения (в случае с распределением роста – сантиметры или метры).

 

Другими словами, каждое значение признака отличается от среднего значения, причем либо на большую величину (большая разность по модулю), либо на меньшую (меньшая разность по модулю)

 

 

 

Стандартное (среднеквадратичное) отклонение характеризует эти различия по всей выборке и выражает их одним числом, что дает достаточное представление о среднем разбросе значений от среднего

 

Для генеральной совокупности стандартное отклонение вычисляется по формуле:

 

 

Для выборки формула имеет вид:

 

Пример:

Стандартное отклонение — важный статистический показатель, но когда сообщаются статистические результаты, о нем часто забывают. Без этого показателя вы видите только часть информации относительно данных. Статистики часто приводят в пример историю о человеке, одной ногой стоящем в ведре с ледяной водой, а второй — в ведре с кипятком. В среднем несчастный должен чувствовать себя отлично! Но вспомните о разнице двух температур для каждой его ноги.

Другой пример. Средняя зарплата может не в полной мере отражать реальное положение дел в компании, если разброс окладов очень большой. Кто-то ест мясо, а кто-то капусту, в среднем вместе едят голубцы.

Важность замечаний в следующем: нельзя полагаться только на знание среднего значения без учета величины стандартного отклонения. Представления об объекте могут быть представлены в искаженном виде.

Чем больше разброс значений, тем больше дисперсия.

Как видно из формулы, дисперсия измеряется в единицах, равных квадрату единицы измерения соответствующей величины. Это довольно неудобно. Поэтому чаще используют квадратный корень из дисперсии — стандартное отклонение σ

Грубо говоря, стандартное отклонение — это среднее расстояние от среднего значения

 

Нормальное распределение подразумевает, что большая часть значений признака находится в районе так называемого среднего значения (на графике это значение обозначено греческой буквой мю (µ)).

Другими словами, если имеет место нормальное распределение признака, то наиболее часто в выборке встречаются значения близкие по величине к среднему значению по выборке и расположены они симметрично относительно среднего значения

Нормальное распределение полностью характеризуется средним значением µ и стандартным отклонением σ

Статистики показали, что при нормальном распределении «большая часть» результатов, располагающаяся в пределах одного стандартного отклонения по обе стороны от средней, в процентном отношении всегда одна и та же и не зависит от величины стандартного отклонения: она соответствует 68% исследуемой группы (т.е. 34% ее элементов располагается слева и 34% — справа от средней):

Точно так же рассчитали, что 94,45% элементов популяции при нормальном распределении не выходит за пределы двух стандартных отклонений от средней:

 

и что в пределах трех стандартных отклонений умещается почти вся популяция — 99,73%.

Правило трех сигм

Правило трёх сигм (трех стандартных отклонений σ) — практически все значения нормально распределённой случайной величины лежат в интервале от – 3*σ до +3*σ. Более строго — приблизительно с 0,9973 вероятностью значение нормально распределённой случайной величины лежит в интервале от – 3*σ до +3*σ.

В случае нормального распределения 68% наблюдаемых значений отклоняются от среднего значения μ не более чем на величину стандартного отклонения σ, 95% значений не выйдут из пределов μ ± 2σ и практически все значения уместятся в пределы μ ± 3σ. Вероятность отклонения за пределы 3σ равна 0,0026 ≈ 0,003, т. е. такое событие наступит только в среднем в 3 случаях из 1000 испытаний.

 

Следовательно, зная среднее значение и величину стандартного отклонения при условии нормальности распределения можно говорить о том в каких пределах находится большая часть результатов измерения.

Например: средний рост людей в выборке 174 см, а стандартное отклонение – 10 см, отсюда следует, что в основном в выборке присутствуют люди ростом в интервале от 164 до 184 и маловероятно встретить человека ростом 207 см или 145 см.

 

С помощью графика нормального распределения можно представить зависимость ширины «колокола» от стандартного отклонения: чем больше дисперсия (или стандартное отклонение), тем шире «колокол», т.е. разброс значений признака больше.

 

 

Медиана, мода, процентили

 

Если же распределение отлично от нормального (например, значения распределены несимметрично относительно среднего) параметры среднее значение и дисперсия не являются информативными и могут ввести в заблуждение как самого исследователя, так и читателя результатов исследования. В случае другого типа распределния обычно совокупность описывается с помощью моды и медианы, а также процентилей.

Медиана – значение, которое делит распределение пополам, в результате справа и слева от него находится равное число значений.

Мода – наиболее часто встречающееся значение.

Иногда весь диапазон значений разбивают на четыре интервала – процентили (квартили).

В природе наиболее часто встречается нормальное распределение. Однако в медицинских исследованиях так бывает не всегда. Очень часто речь идет о том, что исследователь не может однозначно сказать, что распределение является нормальным, этому могут быть несколько причин, например, недостаточное количество данных полученных в ходе эксперимента.

 

Для распределения, не являющегося нормальным параметрические методы неприменимы, их использование может привести к серьезным ошибкам в выводах об исследуемой совокупности. В таких случаях разумнее воспользоваться непараметрическими или ранговыми методами, которые можно применять для любых распределений.

 

В случае с нормальным распределением значение медианы, моды и среднего значения обычно близки по своей величине. На графике это можно представить следующим образом (идеальный случай):

 

Как видно из графика, медиана и среднее значение равны 20, таким же по величине является и наиболее часто встречаемое в совокупности значение признака – мода.

Критерии проверки распределения случайных величин на соответствие нормальному распределению.

Критерий Шапиро-Уилка

Критерий Шапиро-Уилка используется для проверки предположения: что случайная величина Х распределена нормально и является одним наиболее эффективных критериев проверки нормальности.

Критерий Колмогорова-Смирнова (λ (лямбда))

Критерий λ предложен советскими учеными А.Н. Колмогоровым и Н.В. Смирновым. Он может применяться для определения достоверности расхождения между фактическими и теоретическими распределениями, а также различий между любыми двумя распределениями частот одного и того же признака даже в том случае, когда число классов и число данных у этих распределений неодинаково. Единственным условием применения критерия лямбда является достаточная численность сравниваемых распределений – не менее нескольких десятков данных.



Последнее изменение этой страницы: 2016-06-10

headinsider.info. Все права принадлежат авторам данных материалов.