Главная

Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






SPSS (Statistical Package for Social Science)


Самый часто используемый пакет статистической обработки данных с более чем 30-и летней историей http://www.spss.com Отличается гибкостью, мощностью применим для всех видов статистических расчетов применяемых в биомедицине. Недавно вышла 13-я англоязычная версия. Существует русскоязычное представительство компании http://www.spss.ru которое предлагает полностью русифицированную версию SPSS 12.0.2 для Windows. Появился учебник на русском языке, позволяющий шаг за шагом освоить возможности SPSS, репетитор по статистике на русском языке, помогающий в выборе нужной статистической или графической процедуры для конкретных данных и задач, а также справка по SPSS Base и SPSS Tables.

STATISTICA

Производителем программы является фирма StatSoft Inc. (США) http://www.statsoft.com которая выпускает статистические приложения, начиная с 1985 года. STATISTICA включает большое количество методов статистического анализа (более 250 встроенных функций) объединенных следующими специализированными статистическими модулями: Основные статистики и таблицы, Непараметрическая статистика, Дисперсионный анализ, Множественная регрессия, Нелинейное оценивание, Анализ временных рядов и прогнозирование, Кластерный анализ, Факторный анализ, Дискриминантный функциональный анализ, Анализ длительностей жизни, Каноническая корреляция, Многомерное шкалирование, Моделирование структурными уравнениями и др. Несложный в освоении этот статистический пакет может быть рекомендован для биомедицинских исследований любой сложности.

Российское представительство компании (http://www.statsoft.ru/) предлагает полностью русифицированную версию программы. Сайт компании содержит много информации по статистической обработке медицинских данных, учебник по статистике на русском языке. Сам пакет STATISTICA описан в нескольких книгах, одна из которых, для медицинских работников: О.Ю. Реброва «Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA.

STATGRAPHICS PLUS

Довольно мощная статистическая программа. Содержит более 250 статистических функций, генерирует понятные, настраиваемые отчеты. Последнюю доступную версию можно получить на сайте http://www.statgraphics.com Есть возможность скачать демо-версию. Следует отметить, что ранние версии этой программы были весьма популярны у отечественных исследователей.

PRISM

Эта программа создавалась специально для биомедицинских целей. Интуитивно понятный интерфейс позволяет в считанные минуты проанализировать данные и построить качественные графики. Программа содержит основные часто применяемые статистические функции, которых в большинстве исследований будет достаточно. Однако, как отмечают сами разработчики, программа не может полностью заменить серьезных статистических пакетов. На сайте http://www.graphpad.com помимо возможности ознакомления с демо-версией Prism можно получить справочник в формате PDF по биомедицинской статистике.

 

Дополнительная информация

В настоящее время в Интернет доступны многие ресурсы, посвященные статистической обработке данных. Один из них - это статистический портал, созданный при содействии В. П. Боровикова, автора книг по программному пакету STATISTICA http://www.statsoft.ru/home/portal Российское представительство StatSoft Inc. предлагает на своем сайте бесплатный электронный учебник по статистике, который призван помочь разобраться с основными понятиями статистики и более полно представить диапазон применения статистических методов http://www.statsoft.ru/home/download/textbook/default.htm. На этом же сайте существует Статистический медицинский советник, который поможет правильно выбрать нужный статистический метод http://www.statsoft.ru/home/portal/applications/medicine/medadvisor.htm

Из ресурсов Интернет заслуживает внимания сайт с пятилетней историей Биометрика http://www.biometrica.tomsk.ru

Дороговизна программ не позволяет их часто менять. Поэтому имеет смысл посмотреть демо-версии, разобраться с работой и потом делать окончательный вывод. Русскоязычные версии (с документацией) имеют только SPSS и STATISTICA.

 

Основные понятия

Биомедицинская информация

Статистика всегда оперирует с некоторой информацией (данными эксперимента):

Биомедицинская информация может быть следующих видов:

1. Первичная информация используемая для получения изображения в медицинской диагностике. Информация получается с использованием сложных диагностических способов, например рентгеновской автоматизированной томографии (АТ), ультразвуковой автоматизированной томографии и других методов. В процессе проведения обследования приёмник излучения (рентгеновского или ультразвукового) диагностических установок накапливает необходимые данные об исследуемом объекте, но для получения изображения с требуемым ракурсом, необходимо производить реорганизацию этих данных. Это требует большего числа вычислений, объём которых зависит от необходимой пространственной и яркостной разрешающей способности. В настоящее время для получения типовой рентгеновской томограммы требуется выполнить несколько сотен миллионов отдельных вычислительных операций. При этом обработка первичных данных должна происходить в реальном масштабе времени, т.е. с минимальной длительности процедуры от облучения пациента до получения результатов анализа.

2. Результаты индивидуального обследования отдельных пациентов в лечебных учреждениях (поликлиника, клиника и т.д.). Это лабораторные исследования крови, мочи и др., общие рентгеновские обследования, ЭКГ и т.д. Данная информация необходима в комплексе для правильной и своевременной постановки диагноза и выбора метода лечения. Оперативное получение такой информации требует создания специализированных баз данных.

3. Статистическая информация о биологических объектах, полученная в результате медико-статистического исследования.Например, исследования количества лейкоцитов в крови детей для определения условий, уровень каких-либо вредных веществ в крови для различных физиологических условий и т. д. Обработка такой информации требует применения математических методов, в частности математической статистики. В приложении к медицине эти методы назвали медицинской статистикой, и в приложении к биологии в целом – биологической статистикой.

4. Информация, получаемая в области биохимических исследований веществ, например, при синтезе новых лекарственных препаратов. С помощью специализированных аппаратных и программных средств становиться возможным детально изучать структуры сложных макромолекул и их химически активные связывающие участки и исследовать как пространственное взаимодействие рецепторов с химически активными участками потенциально полезных лекарств, так и динамику этих молекулярных взаимодействий.

Какие бывают данные?

Информация поступает на обработку в виде данных.

Данные полученные в ходе эксперимента могут быть качественными, количественными и порядковыми. Для корректного использования статистических методов важно представлять, какого типа данные будут обрабатываться.

Количественные данные - признаки, которые можно выразить в числовой форме: возраст, вес, количество детей в семье и т.п.. В свою очередь, они делятся на непрерывные и дискретные.

Непрерывные данные (continuous data) - количественные данные, которые могут принимать любое значение на непрерывной шкале. Другое название – признаки, измеряемые в интервальной шкале (температура, артериальное давление, рост) Например, рост взрослого человека может принимать любое значение в интервале от 150 см до 220 см: 178 см, 178,25 см, 182,33456 см, т.е. произвольное числовое значение на шкале в заданном интервале.

Дискретные данные(discrete data) - количественные данные, принимающие, как правило, конечное число значений, хотя иногда и очень большое: количество смертей в течение года в исследуемой группе, количество пропущенных по болезни рабочих дней.

Качественные данные (классификационные, неупорядоченные, номинальные) - это признаки, которые нельзя выразить количественно: диагноз, место проживания, пол, жив человек или мертв, есть температура или нет и т.п.

Порядковые данные - показатели, измеряемые в шкале порядка (например, стадии болезни, оценки – «плохо», «удовлетворительно», «хорошо»). При этом порядок изменить нельзя, только в обратном направлении, но смысл от этого не меняется. Такие признаки могут быть осмысленно оцифрованы, но важно понимать, что порядок состояний имеет смысл. Часто к таким показателям следует относить балльные оценки, полученные при проведении тестов или экспертиз. Особенность порядковых шкал – отсутствие количественного измерения расстояний между величинами на шкале (можно сказать, что течение болезни «хуже», чем среднетяжелое, при этом очень тяжелое «еще хуже», однако сложно сказать во сколько раз «хуже»)

Для различных типов переменных применяются разные методы статистического анализа

Генеральная совокупность и выборка. Свойства выборки

Обычно исследователь в ходе статистического анализа стремиться сделать выводы обо всей совокупности объектов (например, как некий препарат воздействует на каждого человека с конкретной болезнью).

В сущности, в этом и заключается смысл анализа: иметь представление о свойствах всех изучаемых объектов по тому или иному признаку (например, артериальное давление – признак, люди в возрасте от 30 до 45 лет – исследуемый объект).

Весь массив исследуемых объектов образует генеральную совокупность. Генеральная совокупность обычно представляет собой достаточно большое число элементов, исследователь, в силу различных факторов не может осуществить эксперимент над всеми элементами генеральной совокупности, поэтому он останавливается на достаточном количестве элементов, по возможности характеризующим всю генеральную совокупность. Это количество исследуемых объектов называются выборкой. Предполагается, что выборка характеризует всю генеральную совокупность, если это условие выполняется, то такую выборку называют репрезентативной (представительной). Репрезентативность – очень важное свойство выборки, если выборка не является репрезентативной, то исследователь может сделать ошибочные выводы обо всех объектах исследования (всей генеральной совокупности) Стоит заметить, что в медицинских исследованиях часто бывает так, что выборки имеют очень небольшой объем (обычно в формулах число элементов выборки обозначается как n), порядка 10-20 элементов.

Обеспечение репрезентативности выборки важный аспект при планировании статистического исследования. При недостаточно качественном выполнении данного условия имеется большой шанс получить превратные представления об исследуемом объекте

 

Классический пример

 

Классический пример нерепрезентативной выборки, произошедший в 1936 году в США во время президентских выборов.

Журнал «Литэрари дайджест», который до этого весьма успешно прогнозировал результаты предыдущих выборов, на этот раз ошибся в своих прогнозах, хотя разослал несколько миллионов письменных вопросов подписчикам, а также респондентам, которых они выбрали из телефонных книг и из списков регистрации автомобилей. В 1/4 бюллетеней, которые вернулись заполненные обратно, голоса распределились следующим образом: 57 % отдали первенство кандидату от республиканцев по имени Альф Лэндон, а 41 % отдали предпочтение действующему президенту - демократу Франклину Рузвельту.

В действительности, на выборах победил Ф. Рузвельт, который набрал почти 60 % голосов. Ошибка «Литэрари дайджест» была в следующем. Они захотели увеличить репрезентативность выборки. А так как они знали, что большинство их подписчиков относят себя к республиканцам, то они решили расширить выборку за счёт респондентов, выбранных ими из телефонных книг и автомобильных регистрационных списков. Но они не учли существующих реалий и фактически отобрали ещё больше сторонников республиканцев, потому что во времена Великой депрессии иметь автомобили и телефоны мог позволить себе средний и высший класс. А это и были по большей части республиканцы, а не демократы.

 

Еще одним важным свойством выборки является ее случайный характер (рандомизация). Это означает, что каждый член генеральной совокупности равновероятно может попасть в выборку для проведения эксперимента.

 

Т.е. вероятность оказаться в выборке одинакова для всех членов генеральной совокупности

 

Осуществить рандомизацию выборки необходимо с целью снижения возможной подтасовки результатов. Например, если исследуется воздействие препарата на артериальное давление и в генеральную совокупность входят люди разной возрастной группы, но с одинаковыми показаниями к препарату, стоит учитывать, что исследователь может выбрать людей помладше, тем самым улучшить показатели воздействия препарата, и подобный отбор уже не является случайным. Следовательно, выводы могут оказаться завышенными или заниженными, слишком оптимистичными или наоборот.

Вариационный ряд

Изобразить распределение признака можно различными способами: вариационным рядом, гистограммой, вариационной кривой.

Варианта – это конкретное значение случайной переменной Хi , т.е. величины, изменяющиеся под влиянием многих случайных причин.

Вариационный ряд – это упорядоченное отражение реально существующего распределения значений признака по отдельным особям изученной группы. Т.е. вариационный ряд отражает, то сколько раз та или иная переменная встречается в полученных данных эксперимента.

 

Другими словами, при измерении значений какого-то признака (например, температуры тела, роста или артериального давления), у разных членов исследуемой группы значение этого признака будут различными. Упорядоченная запись этих значений и называется вариационным рядом

Числа в вариационном ряду располагаются в определенном порядке: по возрастанию или убыванию, что позволяет даже без вычислений определить величину основных показателей с приближением, которое достаточно для первичного ознакомления с признаком. В некоторых случаях внимательное рассмотрение вариационного ряда избавляет от необходимости расчета точных показателей.

Пример:

В результате исследования группы людей на предмет влияния правильности метода лечения на сроки госпитализации (где переменной является число дней госпитализации) был получен следующие результаты:

Количество дней госпитализации 2,5 3,5 4,5 3,5 4,5 2,5 4,5 4,5 3,5 4,5 5,5 5,5

Вариационный ряд имеет вид:

Количество дней госпитализации 2,5 2,5 3,5 3,5 3,5 4,5 4,5 4,5 4,5 4,5 5,5 5,5

Числа в вариационном ряду располагаются в определенном порядке: по возрастанию или убыванию, что позволяет даже без вычислений определить величину основных показателей с приближением, которое достаточно для первичного ознакомления с признаком. В некоторых случаях внимательное рассмотрение вариационного ряда избавляет от необходимости расчета точных показателей.

Распределение значений признака. Полигон частот

Каждая генеральная совокупность характеризуется распределением значений исследуемой переменной (признака) или графическим представлением частоты встречаемости.

Другими словами, графическим представлением того как часто (сколько раз) появляется в результатах эксперимента то или иное значение переменной

 

Выборка также характеризуется распределением признака (выборочное распределение).

 

 

Пример:

В результате исследования группы людей на предмет влияния правильности метода лечения на сроки госпитализации (где переменной является число дней госпитализации) были получены следующий вариационный ряд:

 

Количество дней госпитализации 2,5 2,5 3,5 3,5 3,5 4,5 4,5 4,5 4,5 4,5 5,5 5,5

 

Запишем его в виде таблицы частот:

 

Количество дней Частота
2,5
3,5
4,5
5,5

 

Под частотой подразумевается сколько раз то или иное значение появилось в выборке в ходе проведения эксперимента или сбора данных.

 

Для построения графика распределения на оси Х (горизонтальной) отмечаются значения «Количество дней госпитализации», по оси У (вертикальной) – отмечается сколько раз то или иное значение появилось в ходе исследования.

 

 

Обычно строят огибающую (линию тренда):

 

 

Столбчатую диаграмму чаще всего называют полигоном частот, огибающую линию – графикомраспределения частот.

Довольно часто вместо частоты встречаемости на графике изображают относительную частоту встречаемости,выражаемую в долях или процентном соотношении.

Относительная частота встречаемости конкретного члена выборки (или генеральной совокупности) объемом N определяется следующим образом:

 

Количество членов выборки с заданным конкретным значением/Объем выборки

Или

f=М/N,

 

где М – количество элементов выборки с заданным конкретным значением.

 

Из выше приведенного примера рассчитаем относительную частоту встречаемости дней госпитализации со значением 4,5

 

f=5/(1+2+3+3+4+5+3+2)=5/23=0,2174

Относительная частота встречаемости по количеству дней госпитализации со значением 4,5 дня равна 0,22, если это значение выразить в процентах, то получается 22%.

 

Т.е. 22% от всех участников эксперимента были выписаны спустя 4,5 суток после начала лечения

 

Подсчитав все относительные частоты можно получить следующую таблицу:

 

Количество дней Частота встречаемости Относительная частота встречаемости Относительная частота встречаемости (%)
0,0435 4,35 %
2,5 0,0870 8,70 %
0,1304 13,04 %
3,5 0,1304 13,04 %
0,1739 17,39 %
4,5 0,2174 21,74 %
0,1304 13,04 %
5,5 0,0870 8,70 %
Сумма: 100 %

Построим гистограмму:

 

 

Изобразим график распределения:

 

Смысл использования относительных частот встречаемости заключается в том, что довольно часто необходимо выразить количество членов выборки с разными значениями исследуемого признака в процентном соотношении, или иными словами указать вероятность возникновения признака с таким значением (в рассмотренном примере значения являются дискретными) уже в генеральной совокупности, при условии, что выборка репрезентативна.

Также обратите внимание, что сумма относительных частот равна 1, а их процентного соотношения соответственно 100%.

Забегая вперед, следует сказать, что площадь под кривой распределения всегда равна 1 (естественно, если при этом используется выражение частоты встречаемости признака в виде относительной частоты встречаемости).

Также: площадь ограниченной области под кривой распределения равна доле и вероятностипоявления признака с заданными значениями. Т.е. исходя из рисунка, доля членов выборки со значениями в интервале от 4,0 до 5,0 равна площади заштрихованной области на графике.

 

Далее, если принять, что рассматриваемая случайная величина (признак исследуемого объекта) непрерывна, то увеличивая количество измерений и при этом уменьшая размер интервалов (карманов) мы получим следующие графики (графики соответствуют идеальному случаю нормального распределения):

 


 

Виды распределения

 

В большинстве случаев в медико-биологических исследованиях встречаются следующие виды распределения:

 

· Нормальное

· Ассиметричное

· Равномерное

· Полимодальное



Последнее изменение этой страницы: 2016-06-10

headinsider.info. Все права принадлежат авторам данных материалов.