Основы математической статистики. Математическая статистика для специалистов различных областей Методы математической статистики используются для

Данным, полученным в результате эксперимента, свойственна изменчивость, которая может быть вызвана случайной ошибкой: погрешностью измерительного прибора, неоднородностью образцов и т.д. После проведения большого количества однородных данных экспериментатору необходимо их обработать для извлечения как можно более точной информации о рассматриваемой величине. Для обработки больших массивов данных измерений, наблюдений и т.п., которые могут быть получены при проведении эксперимента, удобно применять методы математической статистики .

Математическая статистика неразрывно связана с теорией вероятностей, но между этими науками есть существенное различие. Теория вероятностей использует уже известные распределения случайных величин , на основе которых рассчитываются вероятности событий, математическое ожидание т.д. Задача математической статистики – получить как можно более достоверную информацию о распределении случайной величины на основе экспериментальных данных.

Типичные направления математической статистики:

  • теория выборок;
  • теория оценок;
  • проверка статистических гипотез;
  • регрессионный анализ;
  • дисперсионный анализ.

Методы математической статистики

Методы оценки и проверки гипотез основываются на вероятностных и гиперслучайных моделях происхождения данных.

Математическая статистика оценивает параметры и функции от них, которые представляют важные характеристики распределений (медиану, математическое ожидание, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используются точечные и интервальные оценки.

Современная математическая статистика содержит большой раздел – статистический последовательный анализ , в котором допускается формирование массива наблюдений по одному массиву.

Математическая статистика также содержит общую теорию проверки гипотез и большое количество методов для проверки конкретных гипотез (например, о симметрии распределения, о значениях параметров и характеристик, о согласии эмпирической функции распределения с заданной функцией распределения, гипотеза проверки однородности (совпадение характеристик или функций распределения в двух выборках) и др.).

Проведением выборочных обследований , связанных с построением адекватных методов оценки и проверки гипотез, со свойствами разных схем организации выборок, занимается раздел математической статистики, имеющий большое значение. Методы математической статистики непосредственно использует следующие основные понятия.

Выборка

Определение 1

Выборкой называются данные, которые получены при проведении эксперимента.

Например, результаты дальности полета пули при выстреле одного и того же или группы однотипных орудий.

Эмпирическая функция распределения

Замечание 1

Функция распределения дает возможность выразить все важнейшие характеристики случайной величины.

В математической стаитистике существует понятие теоретической (заранее не известной) и эмпирической функции распределения.

Эмпирическая функция определяется по данным опыта (эмпирические данные), т.е. по выборке.

Гистограмма

Гистограммы используются для наглядного, но довольно приближенного, представления о неизвестном распределении.

Гистограмма представляет собой графическое изображение распределения данных.

Для получения качественной гистограммы придерживаются следующих правил :

  • Количество элементов выборки должно быть существенно меньше объема выборки.
  • Интервалы разбиения должны содержать достаточное число элементов выборки.

Если выборка очень большая зачастую интервал элементов выборки разбивают на одинаковые части.

Выборочное среднее и выборочная дисперсия

С помощью данных понятий можно получить оценку необходимых числовых характеристик неизвестного распределения, не прибегая к построению функции распределения, гистограммы и т.п.

3.1.1 Задачи и методы математической статистики

Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей. Методы математической статистики используют в тех случаях, когда изучают распределение массовых явлений , т.е. большой совокупности предметов или явлений, распределенных по определенному признаку .

Пусть подлежит изучению совокупность однородных объектов, объединенных общим признаком или свойством качественного или количественного характера. Отдельные элементы такой совокупности называются ее членами. Все число членов совокупности составляет ее объем . Совокупность всех объектов, объединенных по некоторому признаку, будем называть генеральной совокупностью . Например, изучается доход населения, рыночная стоимость акций или отклонение от Госстандарта в ходе качественной оценки изготавливаемой продукции.

Математическая статистика тесно связана с теорией вероятности и опирается на ее выводы. В частности, понятию генеральной совокупности в математической статистике соответствует понятие пространства элементарных событий в теории вероятностей.

Изучение всей генеральной совокупности чаще всего невозможно или нецелесообразно из-за значительных материальных затрат, порчи или уничтожения объекта исследования. Так, невозможно получить объективную и полную информацию о доходе населения всего региона, т.е. каждого конкретного его обитателя. В связи с порчей объекта исследования, невозможно получить достоверную информацию о качестве, например, некоторых лекарственных средств или продуктов питания.

Основная задача математической статистики заключается в исследовании генеральной совокупности по выборочным данным в зависимости от поставленной цели, то есть изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.

3.1.2 Виды выборки

Одним из методов математической статистики является выборочный метод . На практике чаще всего исследуется не вся генеральная совокупность, а ограниченного объема выборка из нее.

Выборкой (выборочной совокупностью) называют совокупность случайно отобранных объектов. С помощью выборочного метода исследуется не вся генеральная совокупность, а выборка (х 1 , х 2 ,...,x n ) как результат ограниченного ряда наблюдений. Затем по вероятностным свойствам данной выборки из некоторой генеральной совокупности выносится суждение о всей генеральной совокупности. Для получения выборки применяют различные методы отбора. Объекты исследования после изучения можно в генеральную совокупность, что соответствует
выборке.

Выборка называется репрезентативной или представительной , если она хорошо воспроизводит генеральную совокупность, то есть вероятностные свойства выборки совпадают или близки к свойствам самой генеральной совокупности.

Итак, результативность применения выборочного метода повышается при соблюдении ряда условий, к которым можно отнести следующие:

    Количество исследуемых элементов выборки достаточно для выводов , то есть выборка представительна или «репрезентативна ».

Так, достаточное количество деталей в партии, проверяемой на качество (брак), устанавливается с помощью законов теории вероятностей и математической статистики.

    Элементы выборки должны быть разнообразны, взяты случайно, т.е. должен соблюдаться принцип рандомизации.

    Изучаемый признак характерен , типичен для всех элементов множества изучаемых объектов т.е. для всей генеральной совокупности.

    Изучаемый признак является существенным для всех элементов данного класса.

Изменение признака статистической совокупности, изучаемого выборочным методом, называется вариацией , а наблюдаемые значения признака x i - вариантой. Абсолютной частотой (частотой или частостью ) варианты x i называется число членов совокупности (генеральной или выборки), имеющих значение x i (т.е. это число частиц i - го сорта).

Ранжированная группировка вариант по отдельным значениям признака (или по интервалам изменения), т.е. последовательность вариант, расположенная в порядке возрастания, называется вариационным рядом . Любую функцию (X 1 ,X 2 ,…,X n ) от результатов наблюдений X 1 ,X 2 ,…,X n исследуемой случайной величины называют статистикой .

Принято объем генеральной совокупности обозначать N , ее абсолютные частоты - N i , объем выборки - n , ее абсолютные частоты - n i . Очевидно, что

,
.

Отношение частоты к объему совокупности называется относительной частотой или статистической вероятностью и обозначается W i или :

.

Если количество вариант велико или близко к объему выборки (при дискретном распределении), а также если выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляют не по отдельным – точечным – значениям, а по интервалам значений генеральной совокупности. Вариационный ряд, представленный таблицей, построенный с помощью процедуры группировки, будем называть интервальным. При составлении интервального вариационного ряда первая строка таблицы заполняется равными по длине интервалами значений исследуемой совокупности, вторая – соответствующими абсолютными или относительными частотами.

Пусть из некоторой генеральной совокупности в результате n наблюдений извлечена выборка объема п . Статистическим распределением выборки называется перечень вариант и соответствующих им абсолютных или относительных частот. Точечный вариационный ряд абсолютных частот может быть представлен таблицей:

x i

х k

n i

n k

причем
.

Точечный вариационный ряд относительных частот представляют таблицей:

x i

х k

причем
.

При построении интервального распределения существуют правила в выборе числа интервалов или величины каждого интервала. Критерием здесь служит оптимальное соотношение: при увеличении числа интервалов улучшается репрезентативность, но увеличивается объем данных и время на их обработку. Разность x max - x min между наибольшим и наименьшим значениями вариант называют размахом выборки.

Для подсчета числа интервалов k обычно применяют эмпирическую формулу Стерджесса:

k = 1+3,3221g n (3.1)

(подразумевается округление до ближайшего целого). Соответственно, величину каждого интервала h можно вычислить по формуле:

. (3.2)

x min = x max - 0,5h .

Каждый интервал должен содержать не менее пяти вариант. В том случае, когда число вариант в интервале меньше пяти, соседние интервалы принято объединять.

Одесский национальный медицинский университет Кафедра биофизики, информатики и медицинской аппаратуры Методические указания студентам 1 курса по теме “Основы математической статистики” Одесса 2009 г.

1.Тема: “ Основы математической статистики”.

2. Актуальность темы.

Математическая статистика – это раздел математики, которая изучает методы собирания, систематизации и обработки результатов наблюдений массовых случайных событий с целью выяснения и практического применения существующих закономерностей. Методы математической статистики нашли широкое применение в клинической медицине и здравоохранении. Они используются, в частности, при разработке математических методов медицинской диагностики, в теории эпидемий, в планировании и обработке результатов медицинского эксперимента, в организации здравоохранения. Статистические концепции, сознательно или бессознательно, используются при принятии решений в таких вопросах, как клинический диагноз, прогнозирование течения болезни у отдельного больного, прогнозирование возможных результатов осуществления тех или других программ в данной группе населения и выбор надлежащей программы в конкретных обстоятельствах. Знакомство с идеями и методами математической статистики является необходимым элементом профессионального образования каждого работника здравоохранения.

3. Целые занятия. Общая цель занятия есть научиться студентам сознательно использовать математическую статистику при решении задач медико-биологического профиля. Конкретные целые занятия:
  1. ознакомить студентов с основными идеями, понятиями и методами математической статистики, уделяя внимание, главным образом, вопросам, по"язанним с обработкой результатов наблюдений массовых случайных событий с целью выяснения и практического применения существующих закономерностей;
  2. научить студентам сознательно применять основные понятия математической статистики при решении простейших проблем, которые возникают в профессиональной деятельности врача.
Студент должен знать (2 уровень):
  1. определение частоты класса (абсолютной и относительной)
  2. определение генеральной сукупністі и виборки, объема виборки
  3. точечное и інтервальне оценивание
  4. надежный интервал и достоверность
  5. определение моды, медианы и выборочного среднего
  6. определение размаха, міжквартильного размаха, квартильного отклонение
  7. определение среднего абсолютного отклонения
  8. определение выборочной коваріації и дисперсии
  9. определение выборочных стандартного отклонения и коэффициенту вариации
  10. определение выборочных коэффициентов регрессії
  11. эмпирические уравнения линейной регрессії
  12. определение выборочного корреляційного коэффициенту.
Студент должен овладеть элементарными привычками вычисления (3 уровень):
  1. моды, медианы и выборочного среднего
  2. размаха, міжквартильного размаха, квартильного отклонение
  3. среднего абсолютного отклонения
  4. выборочной коваріації и дисперсии
  5. выборочных стандартного отклонения и коэффициенту вариации
  6. надежного интервала для математического ожидания и дисперсии
  7. выборочных коэффициентов регрессії
  8. выборочного корреляційного коэффициенту.
4. Пути реализации целей занятия: Для реализации целей занятия Вам необходимые такие исходные знания:
  1. Определение распределения, ряд распределения и многокутника распределения дискретной случайной величины
  2. Определение функциональной залежністі между случайными величинами
  3. Определение корреляционной залежністі между случайными величинами
Вам необходимые также уметь вычислять вероятностей несовместимых и совместных событий с помощью соответствующих правил. 5. Задача для проверки студентами своего исходного уровня знаний . Контрольные вопросы
  1. Определение випадковоі события, ее относительную частоту и вероятность.
  2. Теорема составления вероятностей несовместимых событий
  3. Теорема составления вероятностей совместных событий
  4. Теорема умножения вероятностей независимых событий
  5. Теорема умножения вероятностей зависимых событий
  6. Теорема полной вероятности
  7. Теорема Байеса
  8. Определение случайных величин: дискретной и непрерывной
  9. Определение распределения, ряд распределения и многоугольника распределения дискретной случайной величины
  10. Определение функции распределения
  11. Определение мер положения центра распределения
  12. Определение мер вариабельности значений случайной величины
  13. Определение щільністі распределения и кривой распределения непрерывной случайной величины
  14. Определение функциональной зависимости между случайными величинами
  15. Определение корреляционной зависимости между случайными величинами
  16. Определение регрессии, уравнение и линии регрессии
  17. Определение коваріації и коэффициента корреляции
  18. Определение уравнения линейной регрессии.
6. Информацию для упрочения исходных знаний-умений можно найти в пособиях:
  1. Жуматій П.Г. Лекция “Теория вероятностей”. Одесса, 2009.
  2. Жуматій П.Г. “ Основы теории вероятностей”. Одесса, 2009.
  3. Жуматій П.Г., Сеницька Я.Р. Элементы теории вероятностей. Методические указания для студентов медицинского института. Одесса, 1981.
  4. Чалый О.В., Агапов Б.Т., Цехмістер Я.В. Медицинская и биологическая физика. Киев, 2004.
7. Содержание учебного материала из данной темы с выделением основных узловых вопросов.

Математическая статистика - это раздел математики, которая изучает методы сбора, систематизации, обработки, изображение, анализа и интерпретации результатов наблюдений с целью выявления существующих закономерностей.

Применение статистики в здравоохранении необходимо как на уровне сообщества, так и на уровне отдельных пациентов. Медицина имеет дело с индивидуумами, которые отличаются друг от друга по многим характеристикам, и значение показателей, на основе которых человека можно считать здоровой, варьируются от одного индивидуума к другому. Нет двух абсолютно одинаковых пациентов или двух групп пациентов, поэтому решение, которые касаются отдельных больных или групп населень, приходится принимать, исходя из опыта, накопленного на других больных или популяціних группах с похожими биологическими характеристиками. Необходимо осознавать, что учитывая существующие расхождения эти решения не могут быть абсолютно точными - они всегда связаны с некоторой неопределенностью. Именно в этом состоит ймовірносна природа медицины.

Некоторые примеры применения статистических методов в медицине:

трактовка вариации (вариабельность характеристик организма при решении вопроса о том, какое значение той или другой характеристики будет идеальным, нормальным, средним и т.і., делает необходимым использование соответствующих статистических методов).

диагностика заболеваний в отдельных больных и оценка состояния здоровья группы населения.

прогнозирование конца болезни в отдельных больных или возможного результата программы борьбы по той или другой болезнью в любой группе населения.

выбор пригодного влияния на больного или на группу населения .

планирование и проведение медицинских исследований , анализ и публикація результатов, их чтение и критическая оценка.

планирование здравоохранения и руководство им .

Полезная медицинская информация обычно скрыта в массе необработанных данных. Необходимо сконцентрировать информацию, которая содержится в них, и представить данные так, чтобы структуру вариации было хорошо видно, а потом уже выбрать конкретные методы анализа.

Изображение данных предусматривает знакомство с такими понятиями и сроками:

вариационный ряд (упорядоченное расположение) - простое упорядочение отдельных наблюдений за величиной.

класс - один из интервалов, на которые делят весь диапазон значений случайной величины.

крайние точки класса - значение, которые ограничивают класс, например 2,5 и 3,0, нижняя и верхняя границы класса 2,5 - 3,0.

(абсолютная) частота класса - число наблюдений в классе.

относительная частота класса - абсолютная частота класса, выраженная в виде частные общего числа наблюдений.

кумулятивная (накопленная) частота класса - число наблюдений, которое равняется сумме частот всех предыдущих классов и данного класса .

стовпцева диаграмма - графическое изображение частот данных для номинальных классов с помощью столбцов, высоты которых прямо пропорциональные частотам классов.

круговая диаграмма - графическое изображение частот данных для номинальных классов с помощью секторов круга, площади которых прямо пропорциональные частотам классов.

гістограма - графическое изображение частотного распределения количественных данных площадями прямоугольников, прямо пропорциональных частотам классов.

полигон частот - график частотного распределения количественных данных; точку, соответствующую частоте класса, располагают над серединой интервала, каждое две соседние точки соединяют отрезком прямой.

огива (кумулятивная кривая) - график распределения кумулятивных относительных частот.

Всем медицинским данным присущий вариабельность, тому анализ результатов измерений основанный на изучении сведений о том, каких значениях принимала случайная величина, которая исследуется.

Совокупность всех возможных значений случайной величины называется генеральной.

Часть генеральной совокупности, зарегистрированная в результате испытаний, носит название виборкою.

Число наблюдений, включенное в виборку, зовут объемом виборки (обычно обозначается n ) .

Задача выборочного метода заключается в том, чтобы по полученной избирателю сделать правильную оценку случайной величины, которая изучается. Поэтому основное требование, которое пред"яв-ляється к виборки, это максимальное отображение всех черт генеральной совокупности. Виборка, что удовлетворяет этому требованию, называется репрезентативной. От репрезентативности виборки зависит обгрунтованість оценки, то есть степень соответствия оценки параметру, который она характеризует .

При оценивании параметров генеральной совокупности по избирателю (параметрическом оценивании) пользуются такими понятиями:

точечное оценивание - оценка параметра генеральной совокупности в виде единичного значения, которое он может принять с самой большой вероятностью.

интервальне оценивание - оценка параметра генеральной совокупности в виде интервала значений, который имеет заданную вероятность накрыть его истинное значение.

При інтервальному оценивании используют понятие:

надежный интервал - интервал значений, который имеет заданную вероятность накрыть истинное значение параметра генеральной совокупности при інтервальному оценивании.

достоверность (надежная вероятность) - вероятность, с которой надежный интервал накрывает истинное значение параметра генеральной совокупности.

надежные границы - нижняя и верхняя границы надежного интервала.

Выводы, которые получаются методами математической статистики, всегда основываются на ограниченном, выборочном числе наблюдений, поэтому природньо, что для второй виборки результаты могут быть другими. Это обстоятельство определяет ймовірносний характер выводов математической статистики и, как следствие, широкое использование теории вероятностей в практике статистического исследования.

Типичный путь статистического исследования такой :

оценивши величины или зависимости между ними по данным наблюдений, выдвигают допущение о том, что явление, которое изучается, можно описать той или другой стохастичною моделью

используя статистические методы, можно это предположение подтвердить или отвергнуть; при подтверждении цель достигнута - найдена модель, которая описывает исследуемые закономерности, в противоположном случае продолжают работу, выдвигая и проверяя новую гипотезу.

Определение выборочных статистических оценок:

мода - это значения, которое чаще всего встречается в избирателе ,

медиана - центральное (срединное) значение вариационного ряда

размах R - разность между самым большим и наименьшим значениями в серии наблюдений

процентилі - значение в вариационном ряде, которые делят распределение на 100 равных частей (таким образом, медиана будет п"ятидесятим процентилем)

первый квартиль - 25- ий процентиль

третий квартиль - 75- ий процентиль

міжквартильний размах - разность между первым и третьим квартилями (охватывает центральных 50% наблюдений)

квартильне отклонение - половина міжквартильного размаха

выборочное среднее - среднее арифметическое всех выборочных значений (выборочная оценка математического ожидания)

среднее абсолютное отклонение - сумма отклонений от соответствующего начала (без учета знака), разделенная на объем виборки

среднее абсолютное отклонение от выборочного среднего вычисляют за формулой

выборочная дисперсия ( X ) - (выборочная оценка дисперсии) определяется формулой

выборочная коваріація -- (выборочная оценка коваріації К ( Х,Y )) равняется

выборочный коэффициент регрессии Y на X (выборочная оценка коэффициента регрессии Y на X ) равняется

эмпирическое уравнение линейной регрессии Y на X имеет вид

выборочный коэффициент регрессии X на Y (выборочная оценка коэффициента регрессии X на Y) равняется

эмпирическое уравнение линейной регрессии X на Y имеет вид

выборочное стандартное отклонение s(Х) - (выборочная оценка стандартного отклонения) равняется корню квадратному из выборочной дисперсии

выборочный корреляційний коэффициент - (выборочная оценка корреляционного коэффициента) равняется

выборочный коэффициент вариации  - (выборочная оценка коэффициента вариации CV) равняется

.

8. Задача для самостоятельной подготовки студентов . 8.1 Задача для самостоятельного изучения материала с темы.

8.1.1 Практическое вычисление выборочных оценок

Практическое вычисление выборочных точечных оценок

Пример 1 .

Продолжительность заболевания (в днях) в 20 случаях пневмонии сложила:

10, 11, 6, 16, 7, 13, 15, 8, 9, 10, 11, 13, 7, 8, 13, 15, 16, 13, 14, 15

Определить моду, медиану, размах, міжквартильний размах, выборочное среднее, среднее абсолютное отклонение от выборочного среднего, выборочную дисперсию, выборочный коэффициент вариации.

Розв"зок.

Вариационный ряд для виборки имеет вид

6, 7, 7, 8, 8, 9, 10, 10, 11, 11, 13, 13, 13, 13, 14, 15, 15, 15, 16, 16

Мода

Наиболее часто в избирателе встречается число 13. Поэтому значением моды в избирателе будет это число.

Медиана

Когда вариационный ряд содержит парное число наблюдений, медиана равняется среднему двух центральных членов ряда, в данном случае это 11 и 13, поэтому медиана равняется 12.

Размах

Минимальное значение в избирателе равняется 6, а максимальное 16, итак, R = 10.

Міжквартильний размах, квартильне отклонение

В вариационном ряде четверть всех данных имеет значение меньшие, или уровне 8, поэтому первый квартиль 8, а 75% всех данных имеют значение меньшие, или уровне 12, поэтому третий квартиль 14. Итак, міжквартильний размах равняется 6, а квартильне отклонение составляет 3.

Выборочное среднее

Среднее арифметическое всех выборочных значений равняется

.

Среднее абсолютное отклонение от выборочного среднего

.

Выборочная дисперсия

Выборочное стандартное отклонение

.

Bибірковий коэффициент вариации

.

В следующем примере рассмотрим простейшие средства изучения стохастичної зависимости между двумя случайными величинами.

Пример 2 .

При обследовании группы пациентов получены данные о росте Н (см) и объем циркулирующей крови V (л) :

Найти эмпирические уравнения линейной регрессії.

Розв"зок.

Первое, что необходимо вычислить, это:

выборочное среднее

выборочное среднее

.

Второе, что необходимо подсчитать, это:

выборочную дисперсию (Н)

выборочную дисперсию (V)

выборочную коваріацію

Третье, это вычисления выборочных коэффициентов регрессии:

выборочный коэффициент регрессии V на H

выборочный коэффициент регрессии H на V

.

Четвертое, записать искомые уравнения:

эмпирическое уравнение линейной регрессии V на H имеет вид

эмпирическое уравнение линейной регрессии H на V имеет вид

.

Пример 3 .

Используя условия и результаты примера 2, высчитать коэффициент корреляции и проверить достоверность существования корреляционной зависимости между ростом человека и объемом циркулирующей крови с 95% надежной вероятностью.

Розв"зок.

Коэффициент корреляції связан с коэффициентами регрессии и практически полезной формулой

.

Для выборочной оценки коэффициента корреляції эта формула имеет вид

.

Используя вираховані в примере 2 значение выборочных коэффициентов регрессії и, получим

.

Проверка достоверности корреляційної зависимости между случайными величинами (полагает нормальное распределение у каждой из них) осуществляется таким образом:

  • вычисляют величину Т

  • находят в таблице распределения Стьюдента коэффициент

  • существование корреляционной зависимости между случайными величинами подтверждается при выполнении неровности

.

Поскольку 3,5 > 2,26, то с 95% надежной вероятностью существования корреляционной зависимости между ростом пациента и объемом циркулирующей крови можно считать установленным.

Інтервальні оценки для математического ожидания и дисперсии

Если случайная величина имеет нормальное распределение, то інтервальні оценки для математического ожидания и дисперсии вычисляют в такой последовательности:

1.находят выборочное среднее;

2.подсчитывают выборочную дисперсию и выборочное стандартное отклонение s ;

3.в таблице распределения Стьюдента за надежной вероятностью  и объемом виборки n находят коэффициент Стьюдента;

4.надежный интервал для математического ожидания записывают в виде

5.в таблице распределения "> и объемом виборкиn находят коэффициенты

;

6.надежный интервал для дисперсии записывают в виде

Величина надежного интервала, надежная вероятность и объем виборкиn зависят друг от друга. На самом деле, отношение

уменьшается с ростомn, итак, при постоянной величине надежного интервала с ростомn растет и . При постоянной надежной вероятности с ростом объема виборкип уменьшается величина надежного интервала. При планировании медицинских исследований эта связь используют для определения минимального объема виборки, который обеспечит нужны по условиям решаемой задачи величины надежного интервала и надежной вероятности.

Пример 5.

Используя условия и результаты примера 1, найдите інтервальні оценки математического ожидания и дисперсии для 95% надежной вероятности.

Розв"зок.

В примере 1 вираховані точечные оценки математического ожидания (выборочное среднее =12), дисперсии (выборочная дисперсия =10,7) и стандартного отклонения (выборочное стандартное отклонение). Объем виборки равняетсяп = 20.

Из таблицы распределения Стьюдента найдем значение коэффициента

дальше вычислим полуширинуd надежного интервала

и запишем інтервальну оценку математического ожидания

10,5 < < 13,5 при = 95%

Из таблицы распределения Пірсона " хи-квадрат " найдем коэффициенты

вычислим нижнюю и верхнюю надежные границы

и запишем інтервальну оценку для дисперсии в виде

6,2 23 при = 95% .

8.1.2. Задачи для самостоятельного решения

Для самостоятельногорешения предлагаются задачи5.4 С 1 – 8 (П.Г.Жуматій. “Математическая обработка медико-биологических данных. Задачи и примеры”. Одесса, 2009, с. 24-25)

8.1.3. Контрольные вопросы
  1. Частота класса (абсолютная и относительная).
  2. Генеральная совокупность и выборка, объем выборки.
  3. Точечное и інтервальне оценивание.
  4. Надежный интервал и достоверность.
  5. Мода, медиана и выборочное среднее.
  6. Размах, міжквартільний размах, квартальное отклонение.
  7. Среднее абсолютное отклонение.
  8. Выборочные коваріація и дисперсия.
  9. Выборочные стандартное отклонение и коэффициент вариации.
  10. Выборочные коэффициенты регрессии.
  11. Эмпирические уравнения регрессии.
  12. Вычисление корреляционного коэффициента и достоверности корреляционной связи.
  13. Построение інтервальних оценок нормально распределенных случайных величин.
8.2 Основная литература
  1. Жуматій П.Г. “Математическая обработка медико-биологических данных. Задачи и примеры”. Одесса, 2009.
  2. Жуматій П.Г. Лекция “Математическая статистика”. Одесса, 2009.
  3. Жуматій П.Г. “ Основы математической статистики”. Одесса, 2009.
  4. Жуматій П.Г., Сеницька Я.Р. Элементы теории вероятностей. Методические указания для студентов медицинского института. Одесса, 1981.
  5. Чалый О.В., Агапов Б.Т., Цехмістер Я.В. Медицинская и биологическая физика. Киев, 2004.
8.3 Дополнительная литература
  1. Ремізов О.M. Медицинская и биологическая физика. М., “Высшая школа”, 1999.
  2. Ремізов О.M., Ісакова Н.Х., Максіна О.Г.. Сборник задач из медицинской и биологической физики. М., .,“Высшая школа”, 1987.
Методические указания сложилдоц. П. Г. Жуматій.

СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.

Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретные и случайные непрерывные величины.

Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).

Непрерывной называют величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)

Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).

П р и м е р:

x x 1 x 2 x 3 x 4 ... x n
p р 1 р 2 р 3 р 4 ... p n
x x 1 x 2 x 3 x 4 ... x n
m m 1 m 2 m 3 m 4 ... m n

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.

Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры, получившие название числовых характеристик случайной величины . Наиболее употребительные из них:

1 .Математическое ожидание - (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:

2 .Дисперсия случайной величины:


3 .Среднее квадратичное отклонение :

Правило “ТРЕХ СИГМ” - если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения

ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ

Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). Главная особенность : он является предельным законом, к которому приближаются другие законы распределения.

Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:



M(X) - математическое ожидание случайной величины;

s - среднее квадратичное отклонение.

Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:


ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика - раздел прикладной математики, непосредственно примыкающий к теории вероятностей. Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.

Основными понятиями математической статистики являются:

1. Генеральная совокупность;

2. выборка;

3. вариационный ряд;

4. мода;

5. медиана;

6. процентиль,

7. полигон частот,

8. гистограмма.

Генеральная совокупность - большая статистическая совокупность, из которой отбирается часть объектов для исследования

(Пример: все население области, студенты вузов данного города и т.д.)

Выборка (выборочная совокупность) - множество объектов, отобранных из генеральной совокупности.

Вариационный ряд - статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.

Пример:

X,кг
m

x - значение случайной величины (масса девочек в возрасте 10 лет);

m - частота встречаемости.

Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).

Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.

Пример:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.

Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями . Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.

Используют дискретное (точечное) статистическое распределение инепрерывное (интервальное) статистическое распределение.

Для наглядности статистические распределения изображают графически в виде полигона частот или - гистограммы .

Полигон частот - ломаная линия, отрезки которой соединяют точки с координатами (x 1 ,m 1 ), (x 2 ,m 2 ), ..., или для полигона относительных частот – с координатами (x 1 ,р * 1 ), (x 2 ,р * 2 ), ...(Рис.1).


m m i /n f(x)

Рис.1 Рис.2

Гистограмма частот - совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx , а высоты равны отношению частоты к dx , или р * к dx (плотность вероятности).

Пример:

х, кг 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
m

Полигон частот

Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=m i / n dx = p* i / dx

Пример построения гистограммы .

Воспользуемся данными предыдущего примера.

1. Расчет количества классовых интервалов

гдеn - число наблюдений. В нашем случае n = 100 . Следовательно:

2. Расчет ширины интервала :

,

3. Составление интервального ряда:

2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
m
f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

Гистограмма

Математическая статистика является одним из основных разделов такой науки, как математика, и представляет собой отрасль, изучающую методы и правила обработки определенных данных. Иными словами, она исследует способы раскрытия закономерностей, которые свойственны большим совокупностям одинаковых объектов, основываясь на их выборочном обследовании.

Задача данного раздела состоит в построении методов оценки вероятности или принятии определенного решения о характере развивающихся событий, опираясь на полученные результаты. Для описания данных используются таблицы, диаграммы, а также корреляционные поля. применяются редко.

Математическая статистика используются в различных областях науки. К примеру, для экономики важно обрабатывать сведения об однородных совокупностях явлений и объектов. Ими могут являться изделия, выпускаемые промышленностью, персонал, данные о прибыли и т. д. В зависимости от математической природы результатов наблюдений, можно выделить статистику чисел, анализ функций и объектов нечисловой природы, многомерный анализ. Помимо этого, рассматривают общие и частные (связанные с восстановлением зависимостей, использованием классификаций, выборочными исследованиями) задачи.

Авторы некоторых учебников считают, что теория математической статистики является лишь разделом теории вероятности, другие - что это самостоятельная наука, имеющая собственные цели, задачи и методы. Однако в любом случае ее использование очень обширно.

Так, наиболее ярко математическая статистика применима в психологии. Ее использование позволит специалисту правильно обосновать найти зависимость между данными, обобщить их, избежать многих логических ошибок и многое другое. Нужно отметить, что измерить тот или иной психологический феномен или свойство личности без вычислительных процедур часто просто невозможно. Это говорит о том, что азы данной науки необходимы. Иными словами, ее можно назвать источником и базой теории вероятностей.

Метод исследования, который опирается на рассмотрение статистических данных, используется и в других областях. Однако сразу необходимо отметить, что его черты в применении к объектам, имеющим различную природу происхождения, всегда своеобразны. Поэтому объединять в одну науку физическую или не имеет смысла. Общие же черты данного метода сводятся к подсчету определенного числа объектов, которые входят в ту или иную группу, а также изучению распределения количественных признаков и применению теории вероятностей для получения тех или иных выводов.

Элементы математической статистики используются в таких областях, как физика, астрономия и т. д. Здесь могут рассматриваться значения характеристик и параметров, гипотезы о совпадении каких-либо характеристик в двух выборках, о симметрии распределения и многое другое.

Большую роль математическая статистика играет в проведении Их целью чаще всего является построение адекватных методов оценивания и проверка гипотез. В настоящее время огромное значение в данной науке имеют компьютерные технологии. Они позволяют не только значительно упростить процесс расчета, но и создать для размножения выборок или при изучении пригодности полученных результатов на практике.

В общем случае методы математической статистики помогают сделать два вывода: или принять искомое суждение о характере или свойствах изучаемых данных и их взаимосвязей, или доказать, что полученных результатов недостаточно для того, чтобы делать выводы.