Основы математической статистики. Основные понятия математической статистики Математические методы обработки статистических рядов

Одесский национальный медицинский университет Кафедра биофизики, информатики и медицинской аппаратуры Методические указания студентам 1 курса по теме “Основы математической статистики” Одесса 2009 г.

1.Тема: “ Основы математической статистики”.

2. Актуальность темы.

Математическая статистика – это раздел математики, которая изучает методы собирания, систематизации и обработки результатов наблюдений массовых случайных событий с целью выяснения и практического применения существующих закономерностей. Методы математической статистики нашли широкое применение в клинической медицине и здравоохранении. Они используются, в частности, при разработке математических методов медицинской диагностики, в теории эпидемий, в планировании и обработке результатов медицинского эксперимента, в организации здравоохранения. Статистические концепции, сознательно или бессознательно, используются при принятии решений в таких вопросах, как клинический диагноз, прогнозирование течения болезни у отдельного больного, прогнозирование возможных результатов осуществления тех или других программ в данной группе населения и выбор надлежащей программы в конкретных обстоятельствах. Знакомство с идеями и методами математической статистики является необходимым элементом профессионального образования каждого работника здравоохранения.

3. Целые занятия. Общая цель занятия есть научиться студентам сознательно использовать математическую статистику при решении задач медико-биологического профиля. Конкретные целые занятия:
  1. ознакомить студентов с основными идеями, понятиями и методами математической статистики, уделяя внимание, главным образом, вопросам, по"язанним с обработкой результатов наблюдений массовых случайных событий с целью выяснения и практического применения существующих закономерностей;
  2. научить студентам сознательно применять основные понятия математической статистики при решении простейших проблем, которые возникают в профессиональной деятельности врача.
Студент должен знать (2 уровень):
  1. определение частоты класса (абсолютной и относительной)
  2. определение генеральной сукупністі и виборки, объема виборки
  3. точечное и інтервальне оценивание
  4. надежный интервал и достоверность
  5. определение моды, медианы и выборочного среднего
  6. определение размаха, міжквартильного размаха, квартильного отклонение
  7. определение среднего абсолютного отклонения
  8. определение выборочной коваріації и дисперсии
  9. определение выборочных стандартного отклонения и коэффициенту вариации
  10. определение выборочных коэффициентов регрессії
  11. эмпирические уравнения линейной регрессії
  12. определение выборочного корреляційного коэффициенту.
Студент должен овладеть элементарными привычками вычисления (3 уровень):
  1. моды, медианы и выборочного среднего
  2. размаха, міжквартильного размаха, квартильного отклонение
  3. среднего абсолютного отклонения
  4. выборочной коваріації и дисперсии
  5. выборочных стандартного отклонения и коэффициенту вариации
  6. надежного интервала для математического ожидания и дисперсии
  7. выборочных коэффициентов регрессії
  8. выборочного корреляційного коэффициенту.
4. Пути реализации целей занятия: Для реализации целей занятия Вам необходимые такие исходные знания:
  1. Определение распределения, ряд распределения и многокутника распределения дискретной случайной величины
  2. Определение функциональной залежністі между случайными величинами
  3. Определение корреляционной залежністі между случайными величинами
Вам необходимые также уметь вычислять вероятностей несовместимых и совместных событий с помощью соответствующих правил. 5. Задача для проверки студентами своего исходного уровня знаний . Контрольные вопросы
  1. Определение випадковоі события, ее относительную частоту и вероятность.
  2. Теорема составления вероятностей несовместимых событий
  3. Теорема составления вероятностей совместных событий
  4. Теорема умножения вероятностей независимых событий
  5. Теорема умножения вероятностей зависимых событий
  6. Теорема полной вероятности
  7. Теорема Байеса
  8. Определение случайных величин: дискретной и непрерывной
  9. Определение распределения, ряд распределения и многоугольника распределения дискретной случайной величины
  10. Определение функции распределения
  11. Определение мер положения центра распределения
  12. Определение мер вариабельности значений случайной величины
  13. Определение щільністі распределения и кривой распределения непрерывной случайной величины
  14. Определение функциональной зависимости между случайными величинами
  15. Определение корреляционной зависимости между случайными величинами
  16. Определение регрессии, уравнение и линии регрессии
  17. Определение коваріації и коэффициента корреляции
  18. Определение уравнения линейной регрессии.
6. Информацию для упрочения исходных знаний-умений можно найти в пособиях:
  1. Жуматій П.Г. Лекция “Теория вероятностей”. Одесса, 2009.
  2. Жуматій П.Г. “ Основы теории вероятностей”. Одесса, 2009.
  3. Жуматій П.Г., Сеницька Я.Р. Элементы теории вероятностей. Методические указания для студентов медицинского института. Одесса, 1981.
  4. Чалый О.В., Агапов Б.Т., Цехмістер Я.В. Медицинская и биологическая физика. Киев, 2004.
7. Содержание учебного материала из данной темы с выделением основных узловых вопросов.

Математическая статистика - это раздел математики, которая изучает методы сбора, систематизации, обработки, изображение, анализа и интерпретации результатов наблюдений с целью выявления существующих закономерностей.

Применение статистики в здравоохранении необходимо как на уровне сообщества, так и на уровне отдельных пациентов. Медицина имеет дело с индивидуумами, которые отличаются друг от друга по многим характеристикам, и значение показателей, на основе которых человека можно считать здоровой, варьируются от одного индивидуума к другому. Нет двух абсолютно одинаковых пациентов или двух групп пациентов, поэтому решение, которые касаются отдельных больных или групп населень, приходится принимать, исходя из опыта, накопленного на других больных или популяціних группах с похожими биологическими характеристиками. Необходимо осознавать, что учитывая существующие расхождения эти решения не могут быть абсолютно точными - они всегда связаны с некоторой неопределенностью. Именно в этом состоит ймовірносна природа медицины.

Некоторые примеры применения статистических методов в медицине:

трактовка вариации (вариабельность характеристик организма при решении вопроса о том, какое значение той или другой характеристики будет идеальным, нормальным, средним и т.і., делает необходимым использование соответствующих статистических методов).

диагностика заболеваний в отдельных больных и оценка состояния здоровья группы населения.

прогнозирование конца болезни в отдельных больных или возможного результата программы борьбы по той или другой болезнью в любой группе населения.

выбор пригодного влияния на больного или на группу населения .

планирование и проведение медицинских исследований , анализ и публикація результатов, их чтение и критическая оценка.

планирование здравоохранения и руководство им .

Полезная медицинская информация обычно скрыта в массе необработанных данных. Необходимо сконцентрировать информацию, которая содержится в них, и представить данные так, чтобы структуру вариации было хорошо видно, а потом уже выбрать конкретные методы анализа.

Изображение данных предусматривает знакомство с такими понятиями и сроками:

вариационный ряд (упорядоченное расположение) - простое упорядочение отдельных наблюдений за величиной.

класс - один из интервалов, на которые делят весь диапазон значений случайной величины.

крайние точки класса - значение, которые ограничивают класс, например 2,5 и 3,0, нижняя и верхняя границы класса 2,5 - 3,0.

(абсолютная) частота класса - число наблюдений в классе.

относительная частота класса - абсолютная частота класса, выраженная в виде частные общего числа наблюдений.

кумулятивная (накопленная) частота класса - число наблюдений, которое равняется сумме частот всех предыдущих классов и данного класса .

стовпцева диаграмма - графическое изображение частот данных для номинальных классов с помощью столбцов, высоты которых прямо пропорциональные частотам классов.

круговая диаграмма - графическое изображение частот данных для номинальных классов с помощью секторов круга, площади которых прямо пропорциональные частотам классов.

гістограма - графическое изображение частотного распределения количественных данных площадями прямоугольников, прямо пропорциональных частотам классов.

полигон частот - график частотного распределения количественных данных; точку, соответствующую частоте класса, располагают над серединой интервала, каждое две соседние точки соединяют отрезком прямой.

огива (кумулятивная кривая) - график распределения кумулятивных относительных частот.

Всем медицинским данным присущий вариабельность, тому анализ результатов измерений основанный на изучении сведений о том, каких значениях принимала случайная величина, которая исследуется.

Совокупность всех возможных значений случайной величины называется генеральной.

Часть генеральной совокупности, зарегистрированная в результате испытаний, носит название виборкою.

Число наблюдений, включенное в виборку, зовут объемом виборки (обычно обозначается n ) .

Задача выборочного метода заключается в том, чтобы по полученной избирателю сделать правильную оценку случайной величины, которая изучается. Поэтому основное требование, которое пред"яв-ляється к виборки, это максимальное отображение всех черт генеральной совокупности. Виборка, что удовлетворяет этому требованию, называется репрезентативной. От репрезентативности виборки зависит обгрунтованість оценки, то есть степень соответствия оценки параметру, который она характеризует .

При оценивании параметров генеральной совокупности по избирателю (параметрическом оценивании) пользуются такими понятиями:

точечное оценивание - оценка параметра генеральной совокупности в виде единичного значения, которое он может принять с самой большой вероятностью.

интервальне оценивание - оценка параметра генеральной совокупности в виде интервала значений, который имеет заданную вероятность накрыть его истинное значение.

При інтервальному оценивании используют понятие:

надежный интервал - интервал значений, который имеет заданную вероятность накрыть истинное значение параметра генеральной совокупности при інтервальному оценивании.

достоверность (надежная вероятность) - вероятность, с которой надежный интервал накрывает истинное значение параметра генеральной совокупности.

надежные границы - нижняя и верхняя границы надежного интервала.

Выводы, которые получаются методами математической статистики, всегда основываются на ограниченном, выборочном числе наблюдений, поэтому природньо, что для второй виборки результаты могут быть другими. Это обстоятельство определяет ймовірносний характер выводов математической статистики и, как следствие, широкое использование теории вероятностей в практике статистического исследования.

Типичный путь статистического исследования такой :

оценивши величины или зависимости между ними по данным наблюдений, выдвигают допущение о том, что явление, которое изучается, можно описать той или другой стохастичною моделью

используя статистические методы, можно это предположение подтвердить или отвергнуть; при подтверждении цель достигнута - найдена модель, которая описывает исследуемые закономерности, в противоположном случае продолжают работу, выдвигая и проверяя новую гипотезу.

Определение выборочных статистических оценок:

мода - это значения, которое чаще всего встречается в избирателе ,

медиана - центральное (срединное) значение вариационного ряда

размах R - разность между самым большим и наименьшим значениями в серии наблюдений

процентилі - значение в вариационном ряде, которые делят распределение на 100 равных частей (таким образом, медиана будет п"ятидесятим процентилем)

первый квартиль - 25- ий процентиль

третий квартиль - 75- ий процентиль

міжквартильний размах - разность между первым и третьим квартилями (охватывает центральных 50% наблюдений)

квартильне отклонение - половина міжквартильного размаха

выборочное среднее - среднее арифметическое всех выборочных значений (выборочная оценка математического ожидания)

среднее абсолютное отклонение - сумма отклонений от соответствующего начала (без учета знака), разделенная на объем виборки

среднее абсолютное отклонение от выборочного среднего вычисляют за формулой

выборочная дисперсия ( X ) - (выборочная оценка дисперсии) определяется формулой

выборочная коваріація -- (выборочная оценка коваріації К ( Х,Y )) равняется

выборочный коэффициент регрессии Y на X (выборочная оценка коэффициента регрессии Y на X ) равняется

эмпирическое уравнение линейной регрессии Y на X имеет вид

выборочный коэффициент регрессии X на Y (выборочная оценка коэффициента регрессии X на Y) равняется

эмпирическое уравнение линейной регрессии X на Y имеет вид

выборочное стандартное отклонение s(Х) - (выборочная оценка стандартного отклонения) равняется корню квадратному из выборочной дисперсии

выборочный корреляційний коэффициент - (выборочная оценка корреляционного коэффициента) равняется

выборочный коэффициент вариации  - (выборочная оценка коэффициента вариации CV) равняется

.

8. Задача для самостоятельной подготовки студентов . 8.1 Задача для самостоятельного изучения материала с темы.

8.1.1 Практическое вычисление выборочных оценок

Практическое вычисление выборочных точечных оценок

Пример 1 .

Продолжительность заболевания (в днях) в 20 случаях пневмонии сложила:

10, 11, 6, 16, 7, 13, 15, 8, 9, 10, 11, 13, 7, 8, 13, 15, 16, 13, 14, 15

Определить моду, медиану, размах, міжквартильний размах, выборочное среднее, среднее абсолютное отклонение от выборочного среднего, выборочную дисперсию, выборочный коэффициент вариации.

Розв"зок.

Вариационный ряд для виборки имеет вид

6, 7, 7, 8, 8, 9, 10, 10, 11, 11, 13, 13, 13, 13, 14, 15, 15, 15, 16, 16

Мода

Наиболее часто в избирателе встречается число 13. Поэтому значением моды в избирателе будет это число.

Медиана

Когда вариационный ряд содержит парное число наблюдений, медиана равняется среднему двух центральных членов ряда, в данном случае это 11 и 13, поэтому медиана равняется 12.

Размах

Минимальное значение в избирателе равняется 6, а максимальное 16, итак, R = 10.

Міжквартильний размах, квартильне отклонение

В вариационном ряде четверть всех данных имеет значение меньшие, или уровне 8, поэтому первый квартиль 8, а 75% всех данных имеют значение меньшие, или уровне 12, поэтому третий квартиль 14. Итак, міжквартильний размах равняется 6, а квартильне отклонение составляет 3.

Выборочное среднее

Среднее арифметическое всех выборочных значений равняется

.

Среднее абсолютное отклонение от выборочного среднего

.

Выборочная дисперсия

Выборочное стандартное отклонение

.

Bибірковий коэффициент вариации

.

В следующем примере рассмотрим простейшие средства изучения стохастичної зависимости между двумя случайными величинами.

Пример 2 .

При обследовании группы пациентов получены данные о росте Н (см) и объем циркулирующей крови V (л) :

Найти эмпирические уравнения линейной регрессії.

Розв"зок.

Первое, что необходимо вычислить, это:

выборочное среднее

выборочное среднее

.

Второе, что необходимо подсчитать, это:

выборочную дисперсию (Н)

выборочную дисперсию (V)

выборочную коваріацію

Третье, это вычисления выборочных коэффициентов регрессии:

выборочный коэффициент регрессии V на H

выборочный коэффициент регрессии H на V

.

Четвертое, записать искомые уравнения:

эмпирическое уравнение линейной регрессии V на H имеет вид

эмпирическое уравнение линейной регрессии H на V имеет вид

.

Пример 3 .

Используя условия и результаты примера 2, высчитать коэффициент корреляции и проверить достоверность существования корреляционной зависимости между ростом человека и объемом циркулирующей крови с 95% надежной вероятностью.

Розв"зок.

Коэффициент корреляції связан с коэффициентами регрессии и практически полезной формулой

.

Для выборочной оценки коэффициента корреляції эта формула имеет вид

.

Используя вираховані в примере 2 значение выборочных коэффициентов регрессії и, получим

.

Проверка достоверности корреляційної зависимости между случайными величинами (полагает нормальное распределение у каждой из них) осуществляется таким образом:

  • вычисляют величину Т

  • находят в таблице распределения Стьюдента коэффициент

  • существование корреляционной зависимости между случайными величинами подтверждается при выполнении неровности

.

Поскольку 3,5 > 2,26, то с 95% надежной вероятностью существования корреляционной зависимости между ростом пациента и объемом циркулирующей крови можно считать установленным.

Інтервальні оценки для математического ожидания и дисперсии

Если случайная величина имеет нормальное распределение, то інтервальні оценки для математического ожидания и дисперсии вычисляют в такой последовательности:

1.находят выборочное среднее;

2.подсчитывают выборочную дисперсию и выборочное стандартное отклонение s ;

3.в таблице распределения Стьюдента за надежной вероятностью  и объемом виборки n находят коэффициент Стьюдента;

4.надежный интервал для математического ожидания записывают в виде

5.в таблице распределения "> и объемом виборкиn находят коэффициенты

;

6.надежный интервал для дисперсии записывают в виде

Величина надежного интервала, надежная вероятность и объем виборкиn зависят друг от друга. На самом деле, отношение

уменьшается с ростомn, итак, при постоянной величине надежного интервала с ростомn растет и . При постоянной надежной вероятности с ростом объема виборкип уменьшается величина надежного интервала. При планировании медицинских исследований эта связь используют для определения минимального объема виборки, который обеспечит нужны по условиям решаемой задачи величины надежного интервала и надежной вероятности.

Пример 5.

Используя условия и результаты примера 1, найдите інтервальні оценки математического ожидания и дисперсии для 95% надежной вероятности.

Розв"зок.

В примере 1 вираховані точечные оценки математического ожидания (выборочное среднее =12), дисперсии (выборочная дисперсия =10,7) и стандартного отклонения (выборочное стандартное отклонение). Объем виборки равняетсяп = 20.

Из таблицы распределения Стьюдента найдем значение коэффициента

дальше вычислим полуширинуd надежного интервала

и запишем інтервальну оценку математического ожидания

10,5 < < 13,5 при = 95%

Из таблицы распределения Пірсона " хи-квадрат " найдем коэффициенты

вычислим нижнюю и верхнюю надежные границы

и запишем інтервальну оценку для дисперсии в виде

6,2 23 при = 95% .

8.1.2. Задачи для самостоятельного решения

Для самостоятельногорешения предлагаются задачи5.4 С 1 – 8 (П.Г.Жуматій. “Математическая обработка медико-биологических данных. Задачи и примеры”. Одесса, 2009, с. 24-25)

8.1.3. Контрольные вопросы
  1. Частота класса (абсолютная и относительная).
  2. Генеральная совокупность и выборка, объем выборки.
  3. Точечное и інтервальне оценивание.
  4. Надежный интервал и достоверность.
  5. Мода, медиана и выборочное среднее.
  6. Размах, міжквартільний размах, квартальное отклонение.
  7. Среднее абсолютное отклонение.
  8. Выборочные коваріація и дисперсия.
  9. Выборочные стандартное отклонение и коэффициент вариации.
  10. Выборочные коэффициенты регрессии.
  11. Эмпирические уравнения регрессии.
  12. Вычисление корреляционного коэффициента и достоверности корреляционной связи.
  13. Построение інтервальних оценок нормально распределенных случайных величин.
8.2 Основная литература
  1. Жуматій П.Г. “Математическая обработка медико-биологических данных. Задачи и примеры”. Одесса, 2009.
  2. Жуматій П.Г. Лекция “Математическая статистика”. Одесса, 2009.
  3. Жуматій П.Г. “ Основы математической статистики”. Одесса, 2009.
  4. Жуматій П.Г., Сеницька Я.Р. Элементы теории вероятностей. Методические указания для студентов медицинского института. Одесса, 1981.
  5. Чалый О.В., Агапов Б.Т., Цехмістер Я.В. Медицинская и биологическая физика. Киев, 2004.
8.3 Дополнительная литература
  1. Ремізов О.M. Медицинская и биологическая физика. М., “Высшая школа”, 1999.
  2. Ремізов О.M., Ісакова Н.Х., Максіна О.Г.. Сборник задач из медицинской и биологической физики. М., .,“Высшая школа”, 1987.
Методические указания сложилдоц. П. Г. Жуматій.

Введение.

Психология получила статус науки благодаря эксперименту и использованию математики при обработке экспериментальных данных и психологических исследований. Математика в психологии служит таким логическим инструментом доказательства, давая возможность научного понимания психологических закономерностей и более глубокого их анализа Математическая статистика - область современной математики, основанная на теории вероятностей и занятая поиском законов изменения и способов измерения случайных величин, обоснованием методов расчетов, производимых с такими величинами.

Математическая статистика возникла (XVII в) и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина XIX - начало XX в) обязано, в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, а также К. Гауссу, А. Кетле, Ф. Гальтону, К. Пирсону и др.

В XX в. Наиболее существенный вклад в математическую статистику был сделан советскими математиками (В.И. Романовский, Е.Е. Слуцкий, А.Н. Колмогоров, Н.В. Смирнов), а также английскими (Стъюдент, Р. Фишер, Э. Пирсон) и американскими (Ю. Нейман, А. Вальд) учеными.

Еще в середине XIX начале XX века наблюдается, правда, еще не вполне регулярные, но, тем не менее, приносящие обоюдную пользу, - попытки провести аналогии между психологическими и физическими исследованиями, особенно в области построения лабораторного эксперимента, анализа и обработки экспериментальных данных. Почти одновременно в психологию и физику приходят вероятностные и статистические методы, теория дифференциальных уравнений, вариационное исчисление и другие. О том, чтобы математически описать деятельность мозга мечтал И.П. Павлов.

Благодаря проникновению в количественные свойства психических явлений, психология получила множество логических доказательств, которые явились научным обоснованием изучения психики человека. Именно поэтому математика как строгая логическая дисциплина необходима любому специалисту, практикующемуся в области психологии. Современная математическая статистика представляет собой большую и сложную систему знаний. Нельзя рассчитывать на то, что каждый психолог овладеет этими знаниями. Статистики разработали целый комплекс простых методов, которые совершенно доступны любому квалифицированному специалисту психологу.

Все необходимые для их применения вычисления можно выполнять вручную или на компьютере. Уместное грамотное применение этих методов позволит практику и исследователю, во всяком случае проведя начальную обработку, получить общую картину того, что дают количественные результаты его исследований, оперативно проконтролировать ход исследований. Статистические методы раскрывают связи между изучаемыми явлениями. Однако необходимо твердо знать, что, как бы ни была высока вероятность таких связей, они не дают права исследователю признать их причинно-следственными отношениями. Чтобы подтвердить или отвергнуть существование причинно-следственных отношений, исследователю зачастую приходится продумывать целые серии экспериментов. Если они будут правильно построены и проведены, то статистика поможет извлечь из результатов этих экспериментов информацию, которая необходима исследователю, чтобы либо обосновать и подтвердить свою гипотезу, либо признать ее недоказанной.

Математическая статистика также нужна психологу не только для проведения научных исследований, а постоянно в его повседневной работе.

и крутой лестницы которую нужно преодолеть на пути к уверенному применению математических методов.

Основные понятия, используемые в математической обработке психологических данных.

1)генеральная совокупность и выборка

2) признаки и переменные.

3) шкалы измерения.

4) статистические гипотезы.

5) статистические критерии.

В математической статистике выделяют два фундаментальных понятия: генеральная совокупность и выборка.

Совокупностью – называется практически счетное множество некоторых объектов или элементов, интересующих исследователя;

Свойством совокупности называется реальное или воображаемое качество, присущее некоторым всем ее элементам. Свойство может быть случайным или неслучайным. Параметром совокупности называется свойство, которое можно квантифицировать в виде константы или переменной величины. Гомогенной или однородной называется совокупность, все характеристики которой присущи каждому ее элементу; Гетерогенной или неоднородной называется совокупность, характеристики которой сосредоточены в отдельных подмножествах элементов.

Важным параметром является объем совокупности – количество образующих ее элементов. Величина объема зависит от того, как определена сама совокупность, и какие вопросы нас конкретно интересуют. Понятно, что совокупности большого объема можно исследовать только выборочным путем.

Выборкой называется некоторая часть генеральной совокупности, то, что непосредственно изучается. Выборки классифицируются по репрезентативности, объему, способу отбора и схеме испытаний. Репрезентативная – выборка адекватно отображающая генеральную совокупность в качественном и количественном отношениях.Иными словами репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной совокупности которую она должна отражать, иначе результаты не совпадут с целями исследования [ 4; 33 ].

Репрезентативность зависит от объема, чем больше объем, тем выборка репрезентативней.

По схеме испытаний – выборки могут быть независимые и зависимые.

По объему выборки делят на малые и большие. К малым относят выборки, в которых число элементов n ≤ 30. Понятие большой выборки не определено, но большой считается выборка в которой число элементов > 200 и средняя выборка удовлетворяет условию 30≤ n≤ 200. Это деление условно.

2. Признаки и переменные - это измеряемые психологические явления. Такими явлениями могут быть время решения задачи, количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности, интенсивность агрессивных реакций, угол поворота корпуса в беседе, показатель социометрического статуса и множество других переменных. Понятия признака и переменной могут использоваться как взаимозаменяемые. Они являются наиболее общими. Иногда вместо них используются понятия показателя или уровня, например уровень настойчивости, показатель вербального интеллекта и др.

Математическая обработка - это оперирование со значениями признака, полученными у испытуемых в психологическом исследовании. Такие индивидуальные результаты называют также "наблюдениями", "наблюдаемыми значениями", "вариантами", "датами" и др. значение признака определяется при помощи специальных шкал измерения.

3. Шкалы измерения . Измерение - это приписывание числовых форм объектами или событиям в соответствии с определенными правилами.

С. Стивенсом предложена классификация из 4 типов шкал измерения:

а) Номинативная, или номинальная, или шкала наименований;

б) Порядковая, или ординальная, шкала;

в) Интервальная, или шкала равных интервалов;

г) Шкала равных отношений.

Шкала наименований . К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству. При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характеристик.

Шкала порядка . Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка - это видно из ее названия - именно на эту последовательность переключается все внимание. К этой шкале в статистике относят такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше - меньше, выше - ниже и т.п.

Шкала интервалов . К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Например, в опытах учитывалось, сколько точек могут поставить, работая с максимально доступной скоростью, испытуемые. Оценочными единицами в опытах служило число точек. Подсчитав их, исследователь получил то абсолютное число точек, которое оказалось возможным поставить за отведенное время каждому участнику опытов. Главная трудность при отнесении материалов к шкале интервалов состоит в том, что нужно располагать такой единицей, которая была бы при всех повторных изменениях тождественной самой себе, т.е. одинаковой и неизменной.

Шкала отношений. К этой шкале относятся материалы, в которых учитываются не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой ведется отчет. При изучении психологических объектов эта шкала практически неприменима.

4. Статистические гипотезы. Формулирование гипотез систематизирует предположения исследователя и представляет их в четком и лаконичном виде. Благодаря гипотезам исследователь не теряет путеводной нити в процессе расчетов и ему легко понять после их окончания, что, собственно, он обнаружил. Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные.

Нулевая гипотеза - это гипотеза об отсутствий различий. Она обозначается как Н0 и называется нулевой потому, что содержит число 0: Х1 - Х2 = 0, где Х1, Х2 - сопоставляемые значения признаков. Нулевая гипотеза - это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.

Альтернативная гипотеза - это гипотеза о значимости различий. Она обозначается как Н1. альтернативная гипотеза - это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

5. Статистические критерии. Статистический критерий - это правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью. Статистический критерий обозначает метод расчета определенного числа и само это число. Среди возможных статистических критериев выделяют: односторонние и двусторонние,

параметрические и непараметрические, более и менее мощные.

Параметрические критерии - это критерии, включающие в формулу расчета параметры распределения, то есть средние и дисперсии (t-критерий Стъюдента, критерий F и др.) Непараметрические критерии - это критерии, не включающие в формулу расчета параметров распределения и основанные на оперировании частотами или рангами (критерий-Q Розенбаума, критерий-Т Вилкоксона и др.)

Параметрические критерии и непараметрические критерии имеют свои преимущества и недостатки.

Параметрические критерии могут оказаться несколько более мощными, чем непараметрические, но только в том случае, если признак измерен по интервальной шкале и нормально распределен. Лишь с некоторой натяжкой мы можем считать данные, представленные в стандартизованных оценках, как интервальные. Кроме того, проверка распределения «на

нормальность» требует достаточно сложных расчетов, результат которых заранее не известен. Может оказаться, что распределение признака отличается от нормального, и нам так или иначе все равно придется обратиться к непараметрическим критериям.

Непараметрические критерии лишены всех этих ограничений и не требуют таких длительных и сложных расчетов. По сравнению с параметрическими критериями они ограничены лишь в одном – с их помощью невозможно оценить взаимодействие двух или более условий или факторов, влияющих на изменение признака. [ 1; 16 ]

Статистический анализ экспериментальных данных

Рассматрим в самых общих чертах три главных раздела статистики.

    Описательная статистика, как следует из названия, позволяет описывать, подытоживать и воспроизводить в виде таблиц или графиков данные того или иного распределения, вычислять среднее для данного распределения и его размах и дисперсию.

    Задача индуктивной статистики - проверка гипотезы о том, можно ли распространить результаты, полученные на данной выборке, на всю популяцию (генеральную совокупность), из которой взята эта выборка. Иными словами, правила этого раздела статистики позволяют выяснить, до какой степени можно путем индукции обобщить на большее число объектов ту или иную закономерность, обнаруженную при изучении их ограниченной группы в ходе какого-либо наблюдения или эксперимента. Таким образом, при помощи индуктивной статистики делают какие-то выводы и обобщения, исходя из данных, полученных при изучении выборки.

    Наконец, измерение корреляции позволяет узнать, насколько связаны между собой две переменные, с тем чтобы можно было предсказывать возможные значения одной из них, если мы знаем другую.

Статистические методы применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации. В частности, в обработке данных, получаемых при испытаниях по психологической диагностике, это будет информация индивидуально-психологических особенностях испытуемых.

Методами статистической обработки результатов эксперимента называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, получаемые в ходе эксперимента, можно обобщать, приводить в систему, выявляя скрытые в них закономерности. Речь идет о таких закономерностях статистического характера, которые существуют между изучаемыми в эксперименте переменными величинами.

Некоторые из методов математико-статистического анализа позволяют вычислять так называемые элементарные математические статистики, характеризующие выборочное распределение данных, например, выборочное среднее, выборочная дисперсия, мода, медиана и ряд других. Иные методы математической статистики, например, дисперсионный анализ, регрессионный анализ, позволяют судить о динамике изменения отдельных статистик выборки. С помощью третьей группы методов, скажем, корреляционного анализа, факторного анализа, методов сравнения выборочных данных, можно достоверно судить о статистических связях, существующих между переменными величинами, которые исследуют в данном эксперименте.

Все методы математико-статистического анализа условно делятся на первичные и вторичные. Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений. Соответственно под первичными статистическими показателями имеются в виду те, которые применяются в самих психодиагностических методиках и являются итогом начальной статистической обработки результатов психодиагностики. С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики.

Методы первичной статистической обработки результатов эксперимента

К первичным методам статистической обработки относят, например, определение выборочной средней величины, выборочной дисперсии, выборочной моды и выборочной медианы. Рассмотрим методы вычисления элементарных математических статистик, начав с выборочного среднего.

Выборочное среднее значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

Дисперсия как статистическая величина характеризует, на сколько частные значения отклоняются от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных. Иногда вместо дисперсии для выявления разброса частных данных относительно средней используют производную от дисперсии величину, называемую выборочное отклонение. Оно равно квадрат ному корню, извлекаемому из дисперсии, и обозначается тем же самым знаком, что и дисперсия, только без квадрата - :

Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количеству признаков.Модой называют количественное значение исследуемого признака, наиболее часто встречающегося в выборке.

Выборочное среднее (среднее арифметическое) значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

Выборочное среднее определяется при помощи следующей формулы:

где х - выборочная средняя величина или среднее арифметическое значение по выборке; n - количество испытуемых в выборке или частных психодиагностических показателей, на основе которых вычисляется средняя величина; х k - частные значения показателей у отдельных испытуемых. Всего таких показателей n, поэтому индекс k данной переменной принимает значения от 1 до n; ∑ - принятый в математике знак суммирования величин тех переменных, которые находятся справа от этого знака. Выражение соответственно означает сумму всех х с индексом k, от 1до n. В психодиагностике и в экспериментальных психолого-педагогических исследованиях среднее, как правило, не вычисляется с точностью, превышающей один знак после запятой, т.е. с большей, чем десятые доли единицы. В психодиагностических обследованиях большая точность расчетов не требуется и не имеет смысла, если принять во внимание приблизительность тех оценок, которые в них получаются, и достаточность таких оценок для производства сравнительно точных расчетов.

Мода. Числовой характеристикой выборки, как правило, не требующей вычислений, является так называемая мода. Модой называют количественное значение исследуемого признака, наиболее часто встречающееся в выборке. Для симметричных распределений признаков, в том числе для нормального распределения, значение моды совпадает со значениями среднего и медианы. Для других типов распределении, несимметричных, это не характерно. К примеру, в последовательности значений признаков 1, 2, 5, 2, 4, 2, 6, 7, 2 модой является значение 2, так как оно встречается чаще других значений - четыре раза.

Моду находят согласно следующим правилам:

1) В том случае, когда все значения в выборке встречаются одинаково часто, принято считать, что этот выборочный ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 - в этой выборке моды нет.

2) Когда два соседних (смежных) значения имеют одинаковую частоту и их частота больше частот любых других значений, мода вычисляется как среднее арифметическое этих двух значений. Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3. Эта частота больше, чем частота других значений 1 и 6 (у которых она равна 1). Следовательно, модой этого ряда будет величина =3,5

3) Если два несмежных (не соседних) значения в выборке имеют равные частоты, которые больше частот любого другого значения, то выделяют две моды. Например, в ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются значения 11 и 14. В таком случае говорят, что выборка является бимодальной.

Могут существовать и так называемые мультимодальные распределения, имеющие более двух вершин (мод).

4) Если мода оценивается по множеству сгруппированных данных, то для нахождения моды необходимо определить группу с наибольшей частотой признака. Эта группа называется модальной группой.

Медиана. Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количеству признаков. Например, для выборки 2, 3, 4, 4, 5, 6, 8, 7, 9 медианой будет значение 5, так как слева и справа от него остается по четыре показателя. Если ряд включает в себя четное число признаков, то медианой будет среднее, взятое как полусумма величин двух центральных значений ряда. Для следующего ряда 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медиана будет равна 3,5.

Знание медианы полезно для того, чтобы установить, является ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормальному распределению. Средняя и медиана для нормального распределения обычно совпадают или очень мало отличаются друг от друга. Если выборочное распределение признаков нормально, то к нему можно применять методы вторичных статистических расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.

Разброс выборки. Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки - разность между максимальной и минимальной величинами данного конкретного вариационного ряда, т.е.

R= х max - х min

Понятно, что чем сильнее варьирует измеряемый признак, тем больше величина R, и наоборот. Однако может случиться так, что у двух выборочных рядов и средние, и размах совпадают, однако характер варьирования этих рядов будет различный. Например, даны две выборки:

Х = 10 15 20 25 30 35 40 45 50X = 30 R = 40

Y = 10 28 28 30 30 30 32 32 50 Y=30 R = 40

При равенстве средних и разбросов для этих двух выборочных рядов характер их варьирования различен. Для того чтобы более четко представлять характер варьирования выборок, следует обратиться к их распределениям.

Дисперсия. Дисперсия - это среднее арифметическое квадратов отклонений значений переменной от её среднего значения.

Дисперсия как статистическая величина характеризует, насколько частные значения отклоняются от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных.

где 5 - выборочная дисперсия, или просто дисперсия;

2 (……) - выражение, означающее, что для всех х, от первого до последнего в данной выборке необходимо вычислить разности между частными и средними значениями, возвести эти разности в квадрат и просуммировать;

п - количество испытуемых в выборке или первичных значений, по которым вычисляется дисперсия. Однако сама дисперсия, как характеристика отклонения от среднего, часто неудобна для интерпретации.

Стандартное отклонение. Для того, чтобы приблизить размерность дисперсии к размерности измеряемого признака применяют операцию извлечения квадратного корня из дисперсии. Полученную величину называют стандартным отклонением.

Из суммы квадратов, делённых на число членв ряда извлекаеся квадратный корень.

Иными словами стандартное отклонение есть квадратный корень из дисперсии. Стандартное отклонение является более удобным показателем в

отличие от дисперсии. Для многих распределений мы можем приблизительно

знать, какой процент данных лежит внутри одного, двух, трех и более

стандартных отклонений среднего. [ 3; 7 ]

Иногда исходных частных первичных данных, которые подлежат статистической обработке, бывает довольно много, и они требуют проведения огромного количества элементарных арифметических операций. Для того чтобы сократить их число и вместе с тем сохранить нужную точность расчетов, иногда прибегают к замене исходной выборки частных эмпирических данных на интервалы. Интервалом называется группа упорядоченных по величине значений признака, заменяемая в процессе расчетов средним значением.

Вторичные методы обработки материалов психологических исследований.

С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики. Обсуждаемую группу методов можно разделить на несколько подгрупп:

1. Регрессионное исчисление.

2. Методы сравнения между собой двух или нескольких элементарных статистик (средних, дисперсий и т.п.), относящихся к разным выборкам.

3. Методы установления статистических взаимосвязей между переменными, например их корреляции друг с другом.

4. Методы выявления внутренней статистической структуры эмпирических данных (например, факторный анализ).

Регрессионный анализ. Регрессионное исчисление - это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому линейному графику, приблизительно отражающему их внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой

переменной [ 6;556 ].

Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшие предсказания зависимой переменой (Y) по независимым переменным (X).

Регрессию выражают с помощью двух уравнений регрессии, которые в самом прямом случае выглядят, как уравнения прямой.

Y = a 0 + a 1 * X (1)

X = b 0 + b 1 * Y (2)

В уравнении (1) Y - зависимая переменная, X - независимая переменная, a 0 - свободный член, a 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

В уравнении (2) X - зависимая переменная, Y - независимая переменная, b 0 - свободный член, b 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

Количественное представление связи (зависимости) между Х и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается в нахождении коэффициентов a 0, b 0, a1и b 1 и определении уровня значимости полученных аналитических выражений, связывающих между собой переменные Х и У.

При этом коэффициенты регрессии a 1 и b 1 показывают, насколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициент регрессии a 1 в уравнении можно подсчитать по формуле:

а коэффициент b 1 в уравнении по формуле

где r yx - коэффициент корреляции между переменными X и Y;

S x - среднеквадратическое отклонение, подсчитанное для переменной X;

S y - среднеквадратическое отклонение, подсчитанное для переменной У/

Для применения метода линейного регрессионного анализа необходимо соблюдать следующие условия:

1. Сравниваемые переменные Х и Y должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что переменные Х и Y имеют нормальный закон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым. [ 4 ; 263 ].

Корреляционный анализ. Следующий метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляций. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости.

Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идёт о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят об отрицательной корреляции. При отсутствии связи переменных мы имеем дело с нулевой корреляцией.

Имеется несколько разновидностей данного метода: линейный, ранговый, парный и множественный. Линейный корреляционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название "линейный". Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между порядковыми местами, или рангами, занимаемыми ими в упорядоченном по величине ряду. Парный корреляционный анализ включает изучение корреляционных зависимостей только между парами переменных, а множественный, или многомерный, - между многими переменными одновременно. Распространенной в прикладной статистике формой многомерного корреляционного анализа является факторный анализ.

Коэффициент линейной корреляции определяется при помощи следующей формулы:

где r xy - коэффициент линейной корреляции;

х, у - средние выборочные значения сравниваемых величин;

х i , у i - частные выборочные значения сравниваемых величин;

n - общее число величин в сравниваемых рядах показателей;

S 2 x , S 2 y - дисперсии, отклонения сравниваемых величин от средних значений.К коэффициенту ранговой корреляции в психолого-педагогических исследованиях обращаются в том случае, когда признаки, между которыми устанавливается зависимость, являются качественно различными и не могут быть достаточно точно оценены при помощи так называемой интервальной измерительной шкалы. Большинство показателей, которые получают в психолого-педагогических исследованиях, относятся к порядковым, а не к интервальным шкалам (например, оценки типа "да", "нет", "скорее нет, чем да" и другие, которые можно переводить в баллы), поэтому коэффициент линейной корреляции к ним неприменим. В этом случае обращаются к использованию коэффициента ранговой корреляции, формула которого следующая:

где R s - коэффициент ранговой корреляции по Спирмену;

d i - разница между рангами показателей одних и тех же испытуемых в упорядоченных рядах;

n - число испытуемых или цифровых данных (рангов) в коррелируемых рядах.

Метод множественных корреляций в отличие от метода парных корреляций позволяет выявить общую структуру корреляционных зависимостей, существующих внутри многомерного экспериментального материала, включающего более двух переменных, и представить эти корреляционные зависимости в виде некоторой системы.

Для применения частного коэффициента корреляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что все переменные имеют нормальный закон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

4. Для оценки уровня достоверности корреляционного отношения Пирсона следует пользоваться формулой (11.9) и таблицей критических значений для t-критерия Стьюдента при k = n - 2. [ 4 ; 253 ] Корреляционный анализ позволяет обнаружить наличие связи но не даёт оснований для установления причинно- следственных отношений.

Факторный анализ . Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.

Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, "сырых", экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.

Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению. Элементы факторной матрицы называется «факторными нагрузками или весами».При этом факторный вес демонстрирует меру или тесноту этой связи. [ 4; 276]

С помощью выявленных факторов объясняют взаимозависимость психологических явлений.

Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные. Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни). Общие - это факторы, у которых часть факторных нагрузок отлична от нуля. Единичные - это факторы, в которых существенно отличается от нуля только одна из нагрузок.

Факторный анализ может быть уместен, если выполняются следующие критерии.

1. Нельзя факторизовать качественные данные, полученные по шкале наименований, например, такие, как цвет волос (черный / каштановый / рыжий) и т.п.

2. Все переменные должны быть независимыми, а их распределение должно приближаться к нормальному.

3. Связи между переменными должны быть приблизительно линейны или, по крайней мере, не иметь явно криволинейного характера.

4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0,3. В противном случае достаточно трудно извлечь из матрицы какие-либо факторы.

5. Выборка испытуемых должна быть достаточно большой. Рекомендации экспертов варьируют. Наиболее жесткая точка зрения рекомендует не применять факторный анализ, если число испытуемых меньше 100, поскольку стандартные ошибки корреляции в этом случае окажутся слишком велики.

Однако если факторы хорошо определены (например, с нагрузками 0,7, а не 0,3), экспериментатору нужна меньшая выборка, чтобы выделить их. Кроме того, если известно, что полученные данные отличаются высокой надежностью (например, используются валидные тесты), то можно анализировать данные и по меньшему числу испытуемых. .

В теоретическом плане использование факторного анализа связано с разработкой так называемого факторно-аналитического подхода к изучению структуры личности, темперамента и способностей. Использование факторного анализа в этих сферах основано на широко принятом допущении, согласно которому наблюдаемые и доступные для прямого измерения показатели являются лишь косвенными и/или частными внешними проявлениями более общих характеристик. Эти характеристики, в отличие от первых, являются скрытыми, так называемыми латентными переменными, поскольку они представляют собой понятия или конструкты, которые не доступны для прямого измерения. Однако они могут быть установлены путем факторизации корреляционных связей между наблюдаемыми чертами и выделением факторов, которые (при условии хорошей структуры) можно интерпретировать как статистическое выражение искомой латентной переменной.

Заключение.

Как говорит Мак-Коннелл, статистика - это прежде всего способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики. В нашей повседневной жизни мы, сами о том не догадываясь, постоянно занимаемся статистикой. Хотим ли мы спланировать бюджет, рассчитать потребление бензина автомашиной, оценить усилия, которые потребуются для усвоения какого-то курса, с учетом полученных до сих пор отметок, предусмотреть вероятность хорошей и плохой погоды по метеорологической сводке или вообще оценить, как повлияет то или иное событие на наше личное или совместное будущее, - нам постоянно приходится отбирать, классифицировать и упорядочивать информацию, связывать ее с другими данными так, чтобы можно было сделать выводы, позволяющие принять верное решение.
Все эти виды деятельности мало отличаются от тех операций, которые лежат в основе научного исследования и состоят в синтезе данных, полученных на различных группах объектов в том или ином эксперименте, в их сравнении с целью выяснить черты различия между ними, в их сопоставлении с целью выявить показатели, изменяющиеся в одном направлении, и, наконец, в предсказании определенных фактов на основании тех выводов, к которым приводят полученные результаты. Именно в этом заключается цель статистики в науках вообще, особенно в гуманитарных. В последних нет ничего абсолютно достоверного, и без статистики выводы в большинстве случаев были бы чисто интуитивными и не могли бы составлять солидную основу для интерпретации данных, полученных в других исследованиях. Если данные, полученные в эксперименте, качественного характера, то правильность делаемых на основе их выводов полностью зависит от интуиции, эрудиции и профессионализма исследователя, а также от логики его рассуждений. Если же эти данные количественного типа, то сначала проводят их первичную, а затем вторичную статистическую обработку. Первичная статистическая обработка заключается в определении необходимого числа элементарных математических статистик. Такая обработка почти всегда предполагает как минимум определение выборочного среднего значения. В тех случаях, когда информативным показателем для экспериментальной проверки предложенных гипотез является разброс данных относительного среднего, вычисляется дисперсия или квадратическое отклонение. Значение медианы рекомендуется вычислять тогда, когда предполагается использовать методы вторичной статистической обработки, рассчитанные на нормальное распределение, Для такого рода распределения выборочных данных медиана, а также мода совпадают или достаточно близки к средней величине. Этим критерием можно воспользоваться для того, чтобы приблизительно судить о характере полученного распределения первичных данных.

Вторичная статистическая обработка (сравнение средних, дисперсий, распределений данных, регрессионный анализ, корреляционный анализ, факторный анализ и др.) проводится в том случае, если для решения задач или доказательства предложенных гипотез необходимо определить статистические закономерности, скрытые в первичных экспериментальных данных. Приступая к вторичной статистической обработке, исследователь прежде всего должен решить, какие из различных вторичных статистик ему следует применить для обработки первичных экспериментальных данных. Решение принимается на основе учета характера проверяемой гипотезы и природы первичного материала, полученного в результате проведения эксперимента. Если экспериментальная гипотеза содержит предположение о том, что в результате проводимого психолого-педагогического исследования возрастут (или уменьшатся) показатели какого-либо качества, то для сравнения до - и постэкспериментальных данных рекомендуется использовать критерий Стъюдента или χ 2 -критерий. К последнему обращаются в том случае, если первичные экспериментальные данные относительны и выражены, например, в процентах.

Если экспериментально проверяемая гипотеза включает в себя утверждение о причинно-следственной зависимости между некоторыми переменными, то её целесообразно проверять, обращаясь к коэффициентам линейной или ранговой корреляции. Линейная корреляция используется в том случае, когда измерения независимой и зависимой переменных производятся при помощи интервальной шкалы, а изменения этих переменных до и после эксперимента небольшие. К ранговой корреляции обращаются тогда, когда достаточно оценить изменения, касающиеся порядка следования друг за другом по величине независимых и зависимых переменных, или когда их изменения достаточно велики, или когда измерительный инструмент был порядковым, а не интервальным.

Иногда гипотеза включает предположение о том, что в результате эксперимента возрастут или уменьшатся индивидуальные различия между испытуемыми. Такое предположение хорошо проверяется с помощью критерия Фишера, позволяющего сравнить дисперсии до и после эксперимента. Результаты количественного и качественного анализа материала, полученного в ходе проведения эксперимента, первичной и вторичной статистической обработки этого материала, используются для доказательства правильности предложенных гипотез. Выводы об их истинности являются логическим следствием доказательства, в процессе которого в качестве основного аргумента выступает безупречность логики самого доказательства, а в качестве фактов - то, что установлено в результате количественного и качественного анализа экспериментальных данных.

Факты в ходе доказательства обязательно должны соотноситься с гипотезами. В процессе такого соотнесения выясняется, насколько полно имеющиеся факты доказывают, подтверждают предложенные гипотезы.

В заключении хочется сказать, что психологу никогда не бывает скучно, потому что он всегда изучает и исследует – людей, ситуации, самого себя. Он постоянно ищет свой путь в выявлении новых закономерностей и фактов. Методы математической статистики могут оказать на этом пути неоценимую помощь, но они лишь средство. которое не должно заслонить собою цель. Необходимо помнить, что достоверная статистическая тенденция – это всё же не психологическая закономерность, что могут быть закономерности более высокого порядка, чем те что выявляются с помощью математических методов.

Если продолжить аналогию С.Стивенса с верёвочной лестницей, то мы используем верёвочную лестницу чтобы подняться наверх, хотя знаем, что и без неё можем летать. Главное чтобы из-за привязанности к верёвочной лестнице мы не утратили этой способности к полёту..

математической статистики . Строго говоря, для реализации регрессионного...
  • Математические методы экономики

    Реферат >> Экономико-математическое моделирование

    На основе статистических данных и с применением методов математической статистики . Оставляя подробное обсуждение этого вопроса... на основе статистических данных и с применением методов математической статистики . Оставляя подробное обсуждение этого вопроса...

  • Математические методы системы управления качеством продукции

    Реферат >> Менеджмент

    Качества в качестве математических методов рассматриваются преимущественно методы математической статистики . Отдельные отрасли, ... изменчивости отслеживаемых данных. Методы математической статистики способствуют эффективному применению имеющихся...

  • Методы педагогических исследований (4)

    Реферат >> Педагогика

    Широкое распространение в педагогических исследованиях получили методы математической статистики . С их помощью устанавливается, в частности, среднее...

  • (Е.П. Врублевский, О.Е. Лихачев, Л.Г. Врублевская)

    Применяя в исследовании те или иные методы, в конечном итоге экспериментатор получает большую или мень­шую совокупность различных числовых показателей, призванных характеризовать изучаемое явление. Но без систематизации и надлежащей обработки полученных результатов, без глубокого и всестороннего анализа фактов не удается извлечь заключенную в них информацию, от­крыть закономерности, сделать обоснованные выводы. Приведенные в тексте самые элементарные и вполне доступные для каждого студента приемы матема­тической обработки результатов носят демонстрационный характер. Это означает, что примеры иллюстрируют применение того или иного математико-статистического метода, а не дают его развернутую интерпретацию.

    Средние величины и показатели вариации .Прежде чем говорить о более существенных вещах, необходимо уяснить такие статистические понятия, как генеральная и выборочная совокупности. Группа чисел, объединяемых каким-либо признаком, называется совокупностью. Наблюдения, проводимые над какими-то объектами, могут охватывать всех членов изучаемой совокупности без исключения или ограничиваться обследованием лишь некоторой ее части. В первом случае наблюде­ние будет называться сплошным, или полным,во втором - частичным, или выборочным. Сплошное обследование проводится очень редко, так как в силу ряда причин оно практически либо невыполни­мо, либо нецелесообразно. Так, невозможно, например, об­следовать всех мастеров спорта по легкой атлетике. Поэтому в подавля­ющем большинстве случаев вместо сплошного наблюдения изучению подвергают какую-то часть обследуемой совокупности, по которой и судят о ее состоянии в целом.

    Совокупность, из которой отбирается часть ее членов для совместного изучения, называется генеральной,а ото­бранная тем или иным способом часть данной совокупности получила название выборочнойсовокупности или просто выборкой. Следует уточнить, что понятие генеральной совокупности является относительным. В одном случае это все спортсмены, а в дру­гом - города, вуза. Так, например, генеральной совокупностью могут быть все студенты вуза, а выборкой - студенты специализации футбола. Число объектов в любой совокупности называется объемом (объем генеральной совокупности обозначается N, а объем выборки n).

    Предполагается, что выборка с должной достоверностью представляет генеральную совокупность только в том случае, если ее элементы избраны из генеральной нетенденциозно. Для этого существует несколько путей: отбор выборки в соответствии с таблицей случайных чисел, разделение генеральной совокуп­ности на ряд непересекающихся групп, когда из каждой выбирается определенное количество объектов, и др.


    Что касается объема выборки, то в соответствии с основными положениями математической статистики выборки тем представительнее (репрезентативнее), чем она полнее. Исследователь, стремясь к рентабельности своей работы, заинтересован в минимальном объеме выборки, и в такой ситуации количество объектов, отбираемых в вы­борку, является результатом компромиссного решения. Чтобы знать, насколько выборка достаточно достоверно представляет генеральную совокупность, необходимо оп­ределить ряд показателей (параметров).

    Вычисление средней арифметической величины .Средняя арифметическая величина выборки характеризует сред­ний уровень значений изучаемой случайной величины в наблюдавшихся случаях и вычисляется путем деления сум­мы отдельных величин исследуемого признака на общее число наблюдений:

    , (1)

    где х i - вариант ряда;

    п -объем совокупности.

    Суммой Σпринято обозначать суммирование тех данных, ко­торые стоят справа от него. Нижние и верхние показатели Σ ука­зывают, с какого числа следует начать сложение и какими показателями его закончить. Так, обозначает, что необходимо сложить все х, имеющие порядковые номера от 1 до п . Знак показывает суммирование всех х от первого до последнего показателя.

    Таким образом, вычисления по формуле (1) предполагают следующий порядок действий:

    1. Суммируют все полученные х i , т. е. ,

    2. Найденную сумму - делят на объем совокупности п.

    Для удобства и наглядности работы с показателями необходимо составить таблицу, так как сложению подлежат x i , перебираемые от первого до последнего числа.

    Например, средняя арифметическая определяется по формуле:

    Результаты измерений приведены в таблице 1.

    Таблица 1

    Результаты тестирования спортсменов

    Рассмотрим некоторые понятия и основные подходы к классификации погрешностей. По способу вычисления погрешности можно подразделить на абсолютные и относительные.

    Абсолютная погрешность равна разности среднего измерения величины х и истинного значения этой величины:

    В отдельных случаях, если это необходимо, рассчитывают погрешности еди­ничных определений:

    Заметим, что измеренной величиной в химическом анализе может быть как содержание компонента, так и аналитический сигнал. В зависимости от того, завышает или занижает погрешность результат анализа, погрешности могут быть положительные и отрицательные.

    Относительная погрешность может быть выражена в долях или про­центах и обычно знака не имеет:

    или

    Можно классифицировать погрешности по источникам их происхождения. Так как источников погрешностей чрезвычайно много, то их классификация не может быть однозначной.

    Чаще всего погрешности классифицируют по характеру при­чин, их вызывающих. При этом погрешности делят на систематиче­ ские и случайные, выделяют также промахи (или грубые погрешности).

    К систематическим относят погрешности, которые вызваны постоянно действующей причиной, постоянны во всех измерениях или меняются по постоянно действующему закону, могут быть выявлены и устранены.

    Случайные погрешности, причины появления которых неизвестны, могут быть оценены методами математической статистики.

    Промах - это погрешность, резко искажающая результат анализа и обычно легко обнаруживаемая, вызванная, как правило, небрежностью или некомпетентностью аналитика. На рис. 1.1 представлена схема, поясняющая понятия систематических и погрешностей и промахов. Прямая 1 отвечает тому идеальному случаю, когда во всех N определениях отсутствуют систематические и случайные погрешности. Линии 2 и 3 тоже идеализированные примеры химического анализа. В одном случае (прямая 2) полностью отсутствуют случайные погрешности, но все N определений имеют постоянную отрицательную систематическую погрешность Δх; в другом случае (линия 3) полностью отсутствует систематическая погрешность. Реальную ситуацию отражает линия 4: имеются как случайные, так и систематические погрешности.

    Рис. 4.2.1 Систематические и случайные погрешности химического анализа.

    Деление погрешностей на систематические и случайные в известной степени условно.

    Систематические погрешности одной выборки результатов при рассмотрении большего числа данных могут переходить в случайные. Например, систематическая погрешность, обусловленная неправильными показаниями прибора, при измерении аналитического сигнала на разных приборах в разных лабораториях переходит в случайную.

    Воспроизводимость характеризует степень близости друг к другу единичных определений, рассеяние единичных результатов относительно среднего (рис. 1.2).

    Рис. 4.2..2. Воспроизводимость и правильность химического анализа

    В отдельных случаях наряду с термином «воспроизводимость» используют термин «сходимость». При этом под сходимостью понимают рассеяние результатов параллельных определений, а под воспроизводимостью - рас­сеяние результатов, полученных разными методами, в разных лабораториях, в разное время и т. п.

    Правильность - это качество химического анализа, отражающее близость к нулю систематической погрешности. Правильность характеризует отклонение полученного результата анализа от истинного значения измеряемой величины (см. рис.1.2).

    Генеральная совокупность - гипотетическая совокупность всех мыслимых результатов от -∞ до +∞;

    Анализ экспериментальных данных показывает, что большие по значению погрешности наблюдаются реже , чем малые. Отмечается также, что при увеличении числа наблюдений одинаковые погрешности разного знака встречаются одинаково часто. Эти и другие свойства случайных погрешностей описываются нормальным распределением или уравнением Гаусса, которое описывает плотность вероятности
    .

    где х -значение случайной величины;

    μ – генеральное среднее (математическое ожидание -постоянный параметр);

    Математическое ожидание - для непрерывной случайной величины представляет собой предел, к которому стремится среднее при неограниченном увеличении выборки. Таким образом, математическое ожидание является средним значением для всей генеральной совокупности в целом, иногда его называют генеральным средним.

    σ 2 -дисперсия (постоянный параметр) - характеризует рассеяние случайной величины относительно своего математического ожидания;

    σ – стандартное отклонение.

    Дисперсия – характеризует рассеяние случайной величины относительно своего математического ожидания.

    Выборочная совокупность (выборка) - реальное число (n) результатов, которое имеет исследователь, n = 3 ÷ 10.

    Нормальный закон распределения неприемлем для обработки малого числа изменений выборочной совокупности (обычно 3 – 10) – даже если генеральная совокупность в целом распределена нормально. Для малых выборок вместо нормального распределения используют распределение Стьюдента (t – распределение) , которое связывает между собой три основные характеристики выборочной совокупности –

    Ширину доверительного интервала;

    Соответствующую ему вероятность;

    Объем выборочной совокупности.

    Перед обработкой данных с применением методов математической статистики необходимо выявить промахи (грубые ошибки) и исключить их из числа рассматриваемых результатов. Одним из наиболее простых является метод выявления промахов с применением Q – критерия с числом измерений n < 10:

    где R = х макс - х мин – размах варьирования; х 1 – подозрительно выделяющееся значение; х 2 – результат единичного определения, ближайший по значению к х 1 .

    Полученное значение сравнивают с критическим значением Q крит при доверительной вероятности Р = 0,95. Если Q > Q крит, выпадающий результат является промахом и его отбрасывают.

    Основные характеристики выборочной совокупности . Для выборки из n результатов рассчитывают среднее, :

    и дисперсию , характеризующую рассеяние результатов относительно среднего:

    Дисперсия в явном виде не может быть использована для количественной характеристики рассеяния результатов, поскольку ее размерность не совпадает с размерностью результата анализа. Для характеристики рассеяния используют стандартное отклонение, S .

    Эту величину называют также средним квадратичным (или квадратическим) отклонением или средней квадратичной погрешностью отдельного результата.

    О тносительное стандартное отклонение или коэффициент вариации (V) вычисляют по соотношению

    Дисперсию среднего арифметического вычисляют:

    и стандартное отклонение среднего

    Следует отметить, что все величины – дисперсия, стандартное отклонение и относительное стандартное отклонение, а так же дисперсия среднего арифметического и стандартное отклонение среднего арифметического – характеризуют воспроизводимость результатов химического анализа.

    Используемое при обработке небольших (n<20) выборок из нормально распределенной генеральной совокупности t – распределение (т.е. распределение нормированной случайной величины) характеризуется соотношением

    где t p , f распределение Стьюдента при числе степеней свободы f = n -1 и доверительной вероятности Р=0,95 (или уровня значимости р=0,05) .

    Значения t - распределения приведены в таблицах, по ним рассчитывают для выборки в n результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности по формуле

    Доверительный интервал характеризует как воспроизводимость результатов химического анализа, так и – если известно истинное значение х ист – их правильность.

    Пример выполнения контрольной работы № 2

    Задание

    При а нализе воздуха на содержание азота хроматографическим методом для двух серий опытов получены следующие результаты:

    Решение :

    Проверяем ряды на наличие грубых ошибок по Q-критерию. Для чего их располагаем результаты в ряд по убыванию (от минимума к максимуму или наоборот) :

    Первая серия:

    77,90<77,92<77,95<77,99<78,05<78,07<78,08<78,10

    Проверяем крайние результаты ряда (не содержат ли они грубую ошибку).

    Полученное значение сравниваем с табличным (табл.2 приложения). Для n=8, p=0,95 Q таб =0,55.

    Т.к. Q таб >Q 1 расчет, левая крайняя цифра не является «промахом».

    Проверяем крайнюю правую цифру

    Q расч

    Крайняя правая цифра так же не является ошибочной.

    Располагаем результаты второго ря да в порядке их возрастания:

    78,02<78,08<78,13<78,14<78,16<78,20<78,23<78,26.

    Проверяем крайние результаты опытов - не являются ли они ошибочными.

    Q (n=8, p=0,95)=0,55. Табличное значение.

    Крайнее левое значение – не ошибочное.

    Крайняя правая цифра (не является ли она ошибочной).

    Т.е. 0,125<0,55

    Крайнее правое число не является «промахом».

    Подвергаем результаты опытов статистической обработке.

      Вычисляем средневзвешенные результатов:

    - для первого ряда результатов.

    - для второго ряда результатов.

      Дисперсия относительно среднего:

    - для первого ряда.

    - для второго ряда.

      Стандартное отклонение:

    - для первого ряда.

    - для второго ряда.

      Стандартное отклонение среднего арифметического:

    При небольших (n<20) выборках из нормально распределенной генеральной совокупности следует использовать t – распределение, т.е. распределение Стьюдента при числе степени свободы f=n-1 и доверительной вероятности p=0,95.

    Пользуясь таблицами t – распределения, определяют для выборки в n – результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности. Этот интервал можно рассчитать:

    Сравниваем дисперсии и средние результаты двух выборочных совокупностей.

    Сравнение двух дисперсий проводится при помощи F- распределения (распределения Фишера). Если мы имеем две выборочные совокупности с дисперсиями S 2 1 и S 2 2 и числами степеней свободы f 1 =n 1 -1 и f 2 =n 2 -1, соответственно, то рассчитываем значение F:

    F=S 2 1 / S 2 2

    Причем в числителе всегда находится большая из двух сравниваемых выборочных дисперсий. Полученный результат сравнивают с табличным значением. Если F 0 > F крит (при р=0,95; n 1 , n 2), то расхождение между дисперсиями значимо и рассматриваемые выборочные совокупности различаются по воспроизводимости.

    Если расхождение между дисперсиями незначимо, возможно сравнить средние x 1 и х 2 двух выборочных совокупностей, т.е. выяснить, есть ли статистически значимая разница между результатами анализов. Для решения поставленной задачи используют t – распределение. Предварительно рассчитывают средневзвешенное двух дисперсий:

    И средневзвешенное стандартное отклонение

    а затем – величину t:

    Значение t эксп сравнивают с t крит при числе степеней свободы f=f 1 +f 2 =(n 1 +n 2 -2) и выборочной доверительной вероятности р=0,95. Если при этом t эксп > t крит ,то расхождение между средними и значимо и выборка не принадлежит одной и той же генеральной совокупности. Если t эксп < t крит, расхождение между средними незначимо, т.е. выборки принадлежат одной и той же генеральной совокупности, и, следовательно, данные обеих серий можно объединить и рассматривать их как одну выборочную совокупность из n 1 +n 2 результатов.

    Контрольное задание № 2

    Анализ воздуха на содержание компонента Х хроматографическим методом для двух серий дал следующие результаты (таблица-1).

    3. Принадлежат ли результаты обеих выборок и одной и той же генеральной совокупности. Проверить по критерию Стьюдента t (р = 0,95; n = 8).

    Таблица-4.2.1- Исходные данные по контрольному заданию № 2

    № варианта

    Ком-понент

    СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.

    Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретные и случайные непрерывные величины.

    Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).

    Непрерывной называют величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)

    Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).

    П р и м е р:

    x x 1 x 2 x 3 x 4 ... x n
    p р 1 р 2 р 3 р 4 ... p n
    x x 1 x 2 x 3 x 4 ... x n
    m m 1 m 2 m 3 m 4 ... m n

    ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.

    Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры, получившие название числовых характеристик случайной величины . Наиболее употребительные из них:

    1 .Математическое ожидание - (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:

    2 .Дисперсия случайной величины:


    3 .Среднее квадратичное отклонение :

    Правило “ТРЕХ СИГМ” - если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения

    ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ

    Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). Главная особенность : он является предельным законом, к которому приближаются другие законы распределения.

    Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:



    M(X) - математическое ожидание случайной величины;

    s - среднее квадратичное отклонение.

    Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:


    ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

    Математическая статистика - раздел прикладной математики, непосредственно примыкающий к теории вероятностей. Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.

    Основными понятиями математической статистики являются:

    1. Генеральная совокупность;

    2. выборка;

    3. вариационный ряд;

    4. мода;

    5. медиана;

    6. процентиль,

    7. полигон частот,

    8. гистограмма.

    Генеральная совокупность - большая статистическая совокупность, из которой отбирается часть объектов для исследования

    (Пример: все население области, студенты вузов данного города и т.д.)

    Выборка (выборочная совокупность) - множество объектов, отобранных из генеральной совокупности.

    Вариационный ряд - статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.

    Пример:

    X,кг
    m

    x - значение случайной величины (масса девочек в возрасте 10 лет);

    m - частота встречаемости.

    Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).

    Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.

    Пример:

    1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

    В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.

    Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями . Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.

    Используют дискретное (точечное) статистическое распределение инепрерывное (интервальное) статистическое распределение.

    Для наглядности статистические распределения изображают графически в виде полигона частот или - гистограммы .

    Полигон частот - ломаная линия, отрезки которой соединяют точки с координатами (x 1 ,m 1 ), (x 2 ,m 2 ), ..., или для полигона относительных частот – с координатами (x 1 ,р * 1 ), (x 2 ,р * 2 ), ...(Рис.1).


    m m i /n f(x)

    Рис.1 Рис.2

    Гистограмма частот - совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx , а высоты равны отношению частоты к dx , или р * к dx (плотность вероятности).

    Пример:

    х, кг 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
    m

    Полигон частот

    Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=m i / n dx = p* i / dx

    Пример построения гистограммы .

    Воспользуемся данными предыдущего примера.

    1. Расчет количества классовых интервалов

    гдеn - число наблюдений. В нашем случае n = 100 . Следовательно:

    2. Расчет ширины интервала :

    ,

    3. Составление интервального ряда:

    2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
    m
    f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

    Гистограмма