Коэффициент корреляции - это степень связи между двумя переменными. Его расчет дает представление о том, есть ли зависимость между двумя массивами данных. В отличие от регрессии, корреляция не позволяет предсказывать значения величин. Однако расчет коэффициента является важным этапом предварительного статистического анализа. Например, мы установили, что коэффициент корреляции между уровнем прямых иностранных инвестиций и темпом роста ВВП является высоким. Это дает нам представление о том, что для обеспечения благосостояния нужно создать благоприятный климат именно для зарубежных предпринимателей. Не такой уж и очевидный вывод на первый взгляд!
Корреляция и причинность
Пожалуй, нет ни одной сферы статистики, которая бы так прочно вошла в нашу жизнь. Коэффициент корреляции используется во всех областях общественных знаний. Основная его опасность заключается в том, что зачастую его высокими значениями спекулируют для того, чтобы убедить людей и заставить их поверить в какие-то выводы. Однако на самом деле сильная корреляция отнюдь не свидетельствует о причинно-следственной зависимости между величинами.
Коэффициент корреляции: формула Пирсона и Спирмана
Существует несколько основных показателей, которые характеризуют связь между двумя переменными. Исторически первым является коэффициент линейной корреляции Пирсона. Его проходят еще в школе. Он был разработан К. Пирсоном и Дж. Юлом на основе работ Фр. Гальтона. Этот коэффициент позволяет увидеть взаимосвязь между рациональными числами, которые изменяются рационально. Он всегда больше -1 и меньше 1. Отрицательно число свидетельствует об обратно пропорциональной зависимости. Если коэффициент равен нулю, то связи между переменными нет. Равен положительному числу - имеет место прямо пропорциональная зависимость между исследуемыми величинами. Коэффициент ранговой корреляции Спирмана позволяет упростить расчеты за счет построения иерархии значений переменных.
Отношения между переменными
Корреляция помогает найти ответ на два вопроса. Во-первых, является ли связь между переменными положительной или отрицательной. Во-вторых, насколько сильна зависимость. Корреляционный анализ является мощным инструментом, с помощью которого можно получить эту важную информацию. Легко увидеть, что семейные доходы и расходы падают и растут пропорционально. Такая связь считается положительной. Напротив, при росте цены на товар, спрос на него падает. Такую связь называют отрицательной. Значения коэффициента корреляции находятся в пределах между -1 и 1. Нуль означает, что зависимости между исследуемыми величинами нет. Чем ближе полученный показатель к крайним значениям, тем сильнее связь (отрицательная или положительная). Об отсутствии зависимости свидетельствует коэффициент от -0,1 до 0,1. Нужно понимать, что такое значение свидетельствует только об отсутствии линейной связи.
Особенности применения
Использование обоих показателей сопряжено с определенными допущениями. Во-первых, наличие сильной связи, не обуславливает того факта, что одна величина определяет другую. Вполне может существовать третья величина, которая определяет каждую из них. Во-вторых, высокий коэффициент корреляции Пирсона не свидетельствует о причинно-следственной связи между исследуемыми переменными. В-третьих, он показывает исключительно линейную зависимость. Корреляция может использоваться для оценки значимых количественных данных (например, атмосферного давления, температуры воздуха), а не таких категорий, как пол или любимый цвет.
Множественный коэффициент корреляции
Пирсон и Спирман исследовали связь между двумя переменными. Но как действовать в том случае, если их три или даже больше. Здесь на помощь приходит множественный коэффициент корреляции. Например, на валовый национальный продукт влияют не только прямые иностранные инвестиции, но и монетарная и фискальная политика государства, а также уровень экспорта. Темп роста и объем ВВП - это результат взаимодействия целого ряда факторов. Однако нужно понимать, что модель множественной корреляции основывается на целом ряде упрощений и допущений. Во-первых, исключается мультиколлинеарность между величинами. Во-вторых, связь между зависимой и оказывающими на нее влияние переменными считается линейной.
Области использования корреляционно-регрессионного анализа
Данный метод нахождения взаимосвязи между величинами широко применяется в статистике. К нему чаще всего прибегают в трех основных случаях:
- Для тестирования причинно-следственных связей между значениями двух переменных. В результате исследователь надеется обнаружить линейную зависимость и вывести формулу, которая описывает эти отношения между величинами. Единицы их измерения могут быть различными.
- Для проверки наличия связи между величинами. В этом случае никто не определяет, какая переменная является зависимой. Может оказаться, что значение обеих величин обуславливает какой-то другой фактор.
- Для вывода уравнения. В этом случае можно просто подставить в него числа и узнать значения неизвестной переменной.
Человек в поисках причинно-следственной связи
Сознание устроено таким образом, что нам обязательно нужно объяснить события, которые происходят вокруг. Человек всегда ищет связь между картиной мира, в котором он живет, и получаемой информацией. Часто мозг создает порядок из хаоса. Он запросто может увидеть причинно-следственную связь там, где ее нет. Ученым приходится специально учиться преодолевать эту тенденцию. Способность оценивать связи между данными объективно необходима в академической карьере.
Предвзятость средств массовой информации
Рассмотрим, как наличие корреляционной связи может быть неправильно истолковано. Группу британских студентов, отличающихся плохим поведением, опросили относительно того, курят ли их родители. Потом тест опубликовали в газете. Результат показал сильную корреляцию между курением родителей и правонарушениями их детей. Профессор, который проводил это исследование, даже предложил поместить на пачки сигарет предупреждение об этом. Однако существует целый ряд проблем с таким выводом. Во-первых, корреляция не показывает, какая из величин является независимой. Поэтому вполне можно предположить, что пагубная привычка родителей вызвана непослушанием детей. Во-вторых, нельзя с уверенностью сказать, что обе проблемы не появились из-за какого-то третьего фактора. Например, низкого дохода семей. Следует отметить эмоциональный аспект первоначальных выводов профессора, который проводил исследование. Он был ярым противником курения. Поэтому нет ничего удивительного в том, что он интерпретировал результаты своего исследования именно так.
Выводы
Неправильное толкование корреляции как причинно-следственной связи между двумя переменными может стать причиной позорных ошибок в исследованиях. Проблема состоит в том, что оно лежит в самой основе человеческого сознания. Многие маркетинговые трюки построены именно на этой особенности. Понимание различия между причинно-следственной связью и корреляцией позволяет рационально анализировать информацию как в повседневной жизни, так и в профессиональной карьере.
Если частные коэффициенты корреляции модели множественной регрессии оказались значимыми, т. е. между результативной переменной и факторными модельными переменными действительно существует корреляционная взаимосвязь, то в этом случае построение множественного коэффициента корреляции считается целесообразным.
С помощью множественного коэффициента корреляции характеризуется совокупное влияние всех факторных переменных на результативную переменную в модели множественной регрессии.
Коэффициент множественной корреляции для линейной модели множественной регрессии с n факторными переменными рассчитывается через стандартизированные частные коэффициенты регрессии и парные коэффициенты корреляции по формуле:
где r (yxi) – парный (не частный) коэффициент корреляции между результативной переменной у и факторной переменной xi
Коэффициент множественной корреляции изменяется в пределах от нуля до единицы. С его помощью нельзя охарактеризовать направление связи между результативной и факторными переменными. Чем ближе значение множественного коэффициента корреляции к единице, тем сильнее взаимосвязь между результативной и независимыми переменными, и наоборот, чем ближе значение множественного коэффициента корреляции к нулю, тем слабее взаимосвязь между результативной и независимыми переменными.
Коэффициентом множественной детерминации R2 называется квадрат множественного коэффициента корреляции:
Коэффициент множественной детерминации характеризует, на сколько процентов построенная модель регрессии объясняет вариацию значений результативной переменной относительно своего среднего уровня, т. е. показывает долю общей дисперсии результативной переменной, объяснённой вариацией факторных переменных, включённых в модель регрессии.
Коэффициент множественной детерминации также называется количественной характеристикой объяснённой построенной моделью регрессии дисперсии результативной переменной. Чем больше значение коэффициента множественной детерминации, тем лучше построенная модель регрессии характеризует взаимосвязь между переменными.
Для коэффициента множественной детерминации всегда выполняется неравенство вида:
Следовательно, включение в линейную модель регрессии дополнительной факторной переменной xn не снижает значения коэффициента множественной детерминации.
Коэффициент множественной детерминации может быть определён не только как квадрат множественного коэффициента корреляции, но и с помощью теоремы о разложении сумм квадратов по формуле:
где ESS (Error Sum Square) – сумма квадратов остатков модели множественной регрессии с n независимыми переменными:
TSS (TotalSumSquare) – общая сумма квадратов модели множественной регрессии с n независимыми переменными:
Однако классический коэффициент множественной детерминации не всегда способен определить влияние на качество модели регрессии дополнительной факторной переменной. Поэтому наряду с обычным коэффициентом рассчитывают также и скорректированный (adjusted) коэффициент множественной детерминации, в котором учитывается количество факторных переменных, включённых в модель регрессии:
где n – количество наблюдений в выборочной совокупности;
РЕАЛИЗАЦИЯ ЗАДАЧ МНОГОМЕРНОГО КОРРЕЛЯЦИОННОГО АНАЛИЗА
С ИСПОЛЬЗОВАНИЕМ ПАКЕТА MS EXCEL
Проведение корреляционного анализа рассмотрим на примере.
С целью анализа взаимосвязи показателей эффективности производства продукции были рассмотрены параметры производственно-хозяйственной деятельности 30 предприятий машиностроения.
Необходимо провести анализ взаимосвязи следующих экономических показателей:
Результативный признак:
Y 1 – производительность труда
Факторные признаки:
Х 10 - фондоотдача;
Х 14 - фондовооруженность труда;
Х 15 - оборачиваемость нормируемых оборотных средств;
X 16 -
Исходные данные представлены в файле Коррел. анализ.xls .
Предположим, что рассматриваемые признаки в генеральной совокупности подчиняются нормальному закону распределения, и указанные данные представляют выборку из этой генеральной совокупности. Для решения данной задачи воспользуемся программным продуктом MS EXCEL.
1. Скопируйте в свою папку или на Рабочий стол файл Коррел. анализ.xls с диска U:\Общая информация\Эконометрика;
2. Откройте файл Коррел. анализ.xls иперейдите на лист Задание;
3. Подключите в Excel пакет анализа:
Меню СЕРВИС – Надстройки – Пакет анализа – ОК;
Меню СЕРВИС – Анализ данных – Корреляция – ОК;
4. Укажите следующие параметры диалогового окна «Корреляция»:
1. Входной интервал
Укажите массив исходных показателей, выделив мышкой все значения исследуемых переменных (Y 1 , Х 10 , Х 14 , Х 15 , X 16 ).
2. Группирование
Установите переключатель в положение по столбцам .
Метки в первой строке
Поставьте флажок в опции Метки в первой строке , чтобы добавить во входной диапазон верхнюю строку, содержащую названия переменных, тогда корреляционная матрица будет выведена с названиями переменных.
Выходной интервал
Поставьте точку в опции Выходной интервал , затем щелкните мышью в строке напротив надписи Выходной интервал и щелкните мышью в ячейку G1 листа Задание .
После установки указанных параметров нажмите на кнопку ОК .
Получим корреляционную матрицу в следующем виде:
Таблица 1
Y1 | X10 | Х14 | Х15 | X16 | |
Y1 | |||||
X10 | -0,02152 | ||||
Х14 | 0,577299 | -0,03604 | |||
Х15 | 0,334637 | 0,153663 | 0,077981 | ||
X16 | -0,2042 | -0,34832 | -0,16676 | -0,25017 |
5. Для дальнейших расчётов необходимо привести корреляционную матрицу к обычному виду, заполнив верхний треугольник таблицы. При этом надо учесть, что матрица парных коэффициентов корреляции является симметричной, и коэффициенты r ij = r ji . Скопируйте нужные парные коэффициенты корреляции в соответствующие ячейки.
В результате мы получим матрицу парных коэффициентов корреляции размерности 5x5:
Таблица 2
Y1 | X10 | Х14 | Х15 | X16 | |
Y1 | -0,02152 | 0,577299 | 0,334637 | -0,2042 | |
X10 | -0,02152 | -0,03604 | 0,153663 | -0,34832 | |
Х14 | 0,577299 | -0,03604 | 0,077981 | -0,16676 | |
Х15 | 0,334637 | 0,153663 | 0,077981 | -0,25017 | |
X16 | -0,2042 | -0,34832 | -0,16676 | -0,25017 |
6. Далее необходимо проверить значимость полученных коэффициентов корреляции, т.е. гипотезу Hо: r ij = 0. Для этого рассчитаем наблюдаемые значения t -статистики для всех коэффициентов корреляции по формуле:
Для этого скопируйте предыдущую таблицу и вставьте ее под самой собой, отступив две строки. Удалите из таблицы все числовые данные и установите курсор в ячейку на пересечении переменных Y 1 и Х 10. Находясь в указанной ячейке, введите в строку формул выражение для записи вышеуказанной формулы в следующем виде:
=(H3/КОРЕНЬ(1-H3*H3))*КОРЕНЬ(49).
При вводе данного выражения необходимо щелкать мышью в ячейку с соответствующим коэффициентом, для которого рассчитывается значение t -статистики, в данном случае в ячейку H3. Введя указанное выражение, нажмите ENTER. Растяните введенную формулу с помощью черного крестика по соседним ячейкам, в результате у вас должна получиться следующая матрица наблюдаемых значений t -статистики:
Таблица 3
t набл | Y1 | X10 | Х14 | Х15 | X16 |
Y1 | |||||
X10 | -0,15071 | ||||
Х14 | 4,949094 | -0,25242 | |||
Х15 | 2,485769 | 1,088567 | 0,547536 | ||
X16 | -1,4602 | -2,60115 | -1,18391 | -1,80872 |
Мы вычислили наблюдаемые значения t -статистики только для нижнего треугольника таблицы, поскольку матрица парных коэффициентов корреляции является симметричной.
7. Наблюдаемые значения t t кр, найденным для уровня значимости α=0,05 и числа степенен свободы ν=п-2. Для этого используем встроенную функцию Excel ВСТАВКА – Функция – Статистические – СТЬЮДРАСПОБР.
Для расчета t кр выделите пустую ячейку, затем вызовите функцию СТЬЮДРАСПОБР, введите в поле Вероятность число 0,05, а в поле Степени_свободы – число 49, поскольку всего мы имеем 51 наблюдение, поэтому ν=п-2=51-2=49. Нажав на кнопку ОК , мы получим следующее значение t кр = 2,009574.
Сравним рассчитанные нами наблюдаемые значения t -статистики с критическим (табличным) и определим, какие коэффициенты значимы, а какие нет. Коэффициент значим, если его |t набл | > t кр.
8. Отметьте жирным шрифтом в таблице значимые коэффициенты корреляции:
Таблица 4
Матрица парных коэффициентов корреляции исследуемых показателей с выделением значимых коэффициентов (при α=0,05)
Y1 | X10 | Х14 | Х15 | X16 | |
Y1 | -0,02152 | 0,577299 | 0,334637 | -0,2042 | |
X10 | -0,02152 | -0,03604 | 0,153663 | -0,34832 | |
Х14 | 0,577299 | -0,03604 | 0,077981 | -0,16676 | |
Х15 | 0,334637 | 0,153663 | 0,077981 | -0,25017 | |
X16 | -0,2042 | -0,34832 | -0,16676 | -0,25017 |
9. Для значимыхпарных коэффициентов корреляции построим с заданной надёжностью γ=0,95 интервальную оценку r min < r < r тах с помощью Z-преобразования Фишера (см. формулы в лекции). Z" можно найти, используя функцию Excel:
ВСТАВКА – Функция – Статистические – ФИШЕР, в качестве аргумента вводится значение соответствующего выборочного коэффициента корреляции r .
10. Значение t γ рассчитаем, используя функцию Excel: ВСТАВКА – Функция – Статистические – НОРМСТОБР, где в поле Вероятность вводится значение 0,95.
Z min = ; Z max =
Для обратного преобразования используем функцию Excel: ВСТАВКА – Функция – Статистические –ФИШЕРОБР, где в поле Y вводятсяячейки со значением Z min , Z max , т.е. для расчета r min вводим Z min , а для расчета r тах вводим Z max .
Расчеты представим в виде следующей таблицы:
Таблица 5
Расчёт доверительных интервалов для парных генеральных коэффициентов корреляции исследуемых экономических показателей с надёжностью γ = 0,95
r | Z’ | Z min | Z max | r min | r тах | |
Y1X14 | 0,577299 | 0,658403 | 0,413403 | 0,903403 | 0,3913583 | 0,71795081 |
Y1X15 | 0,334637 | 0,348041 | 0,103041 | 0,593041 | 0,10267786 | 0,5320792 |
Х10Х16 | -0,34832 | -0,36353 | -0,60853 | -0,11853 | -0,5430915 | -0,11797801 |
Таким образом, доверительные интервалы с надёжностью γ = 0,95найдены для всех значимых парных коэффициентов корреляции.
По полученным данным можно сделать следующие выводы:
Между исследуемыми показателями выявлены значимые корреляционные зависимости.
1). Значимая обратная корреляционная взаимосвязь обнаружена между изучаемым признаком Х 10 - фондоотдача и факторным признаком X 16 - оборачиваемость ненормируемых оборотных средств.
2). Между производительностью труда (Y 1) и фондовооруженностью труда (Х 14) имежду производительностью труда (Y 1) иоборачиваемостью нормируемых оборотных средств (Х 15 ) существует прямая связь.
3). Наиболее сильная связь существует между результативным признаком производительность труда (Y 1) и факторным признаком фондовооруженность труда (Х 14), причем отмеченная связь прямая.
Расчёт частных коэффициентов корреляции. Сравнение частных и парных коэффициентов корреляции.
Частные коэффициенты корреляции характеризуют взаимосвязь между двумя выбранными переменными при исключении влияния остальных показателей (т.е. характеризуют «чистую» связь только между этими признаками) и важны для понимания взаимодействия всего комплекса показателей, т.к. позволяют определить механизмы усиления-ослабления влияния переменных друг на друга.
Частный коэффициент (k-2)- гo порядка между переменными, например, между Y 1 и Х 10 , равен:
,
где R ij - алгебраическое дополнение элемента r ij корреляционной матрицы R , равное , где M ij – минор-определитель матрицы, полученный из матрицы R путем вычеркивания i- той строки и j- го столбца.
11. Для расчета частных коэффициентов корреляции нужно сформировать в Excel соответствующие матрицы размерности 4*4.
Например, алгебраическое дополнение R 12 рассчитывается путем вычеркивания из нашей корреляционной матрицы первой строки и второго столбца:
Y1 | X10 | Х14 | Х15 | X16 | |
Y1 | -0,02152 | 0,577299 | 0,334637 | -0,2042 | |
X10 | -0,02152 | -0,036036 | 0,153663 | -0,34832 | |
Х14 | 0,577299 | -0,03604 | 0,077981 | -0,16676 | |
Х15 | 0,334637 | 0,153663 | 0,077981 | -0,25017 | |
X16 | -0,2042 | -0,34832 | -0,166761 | -0,25017 |
0,577299 | 0,334637 | -0,2042 | |
0,577299 | 0,077981 | -0,16676 | |
0,334637 | 0,077981 | -0,25017 | |
-0,2042 | -0,166761 | -0,25017 |
Чтобы найти определители этих матриц используем функцию Excel: ВСТАВКА - Функция - Математические - МОПРЕД (указать в качестве массива соответствующую матрицу переменных). Воспользовавшись функцией получаем:
-(-0,05438)
0,786557
0,528443
Подставив значения в формулу, получаем = - 0,084348
Аналогично проводятся расчеты для всех остальных частных коэффициентов корреляции:
R 13 =(-1) 1+3 * M 13 = - 0,42585 R 34 =(-1) 3+4 * M 34 = - (-0,1)
R 14 =(-1) 1+4 * M 14 = - 0,225305 R 35 =(-1) 3+5 * M 35 = 0,063223
R 15 =(-1) 1+5 * M 15 = 0,05218 R 45 =(-1) 4+5 * M 45 = - (-0,08965)
R 23 =(-1) 2+3 * M 23 = - (-0,02282) R 33 =(-1) 3+3 * M 33 = 0,702903
R 24 =(-1) 2+4 * M 24 = - 0,05483 R 44 =(-1) 4+4 * M 44 = 0,551944
R 25 =(-1) 2+5 * M 25 = - (-0,18526) R 55 =(-1) 5+5 * M 55 = 0,561651
r 13/245 = 0,572722 r 25/134 = - 0,340055
r 14/235 = 0,341947 r 34/125 = - 0,160548
r 15/234 = - 0,078507 r 35/124 = - 0,100622
r 23/145 = - 0,037443 r 45/123 = - 0,161016
r 24/135 = 0,101525
В результате получим матрицу следующего вида:
Таблица 6 Матрица частных коэффициентов корреляции исследуемых экономических показателей
Y1 | X10 | Х14 | Х15 | X16 | |
Y1 | - 0,084348 | 0,572722 | 0,341947 | - 0,078507 | |
X10 | - 0,084348 | - 0,037443 | 0,101525 | - 0,340055 | |
Х14 | 0,572722 | - 0,037443 | - 0,160548 | - 0,100622 | |
Х15 | 0,341947 | 0,101525 | - 0,160548 | - 0,161016 | |
X16 | - 0,078507 | - 0,340055 | - 0,100622 | - 0,161016 |
где l - порядок частного коэффициента корреляции, совпадающий с количеством фиксируемых переменных случайных величин (в нашем случае l =3),
n - количество наблюдений.
Построим матрицу наблюдаемых значений t -статистик для всех коэффициентов r ij :
Таблица 7
Матрица наблюдаемых значений t-статистик для частных коэффициентов корреляции исследуемых экономических показателей
t набл | Y1 | X10 | Х14 | Х15 | X16 |
Y1 | |||||
X10 | -0,574122 | ||||
Х14 | 4,7385072 | -0,254129 | |||
Х15 | 2,4679682 | 0,692152 | -1,103200 | ||
X16 | -0,534109 | -2,452522 | -0,685933 | -1,106502 |
Наблюдаемые значения t -статистик необходимо сравнить с критическим значением t кр, найденным для уровня значимости α =0,05 и числа степеней свободы v=n-l-2.
Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, α =0,05 и число степеней свободы v=n-l-2=51-3-2=46 .
13. Сравним расчетные значения с критическим и определим, какие коэффициенты значимы. Получим матрицу частных коэффициентов корреляции с выделенными значимыми коэффициентами:
Таблица 8
Матрица частных коэффициентов корреляции исследуемых показателей с выделением значимых коэффициентов (при α=0,05)
Y1 | X10 | Х14 | Х15 | X16 | |
Y1 | -0,084348 | 0,572722 | 0,341947 | -0,078507 | |
X10 | -0,084348 | -0,037443 | 0,101525 | -0,34006 | |
Х14 | 0,572722 | -0,037443 | -0,160548 | -0,100622 | |
Х15 | 0,341947 | 0,101525 | -0,160548 | -0,161016 | |
X16 | -0,078507 | -0,34006 | -0,100622 | -0,161016 |
14.Для значимых частных коэффициентов корреляции построим с заданной надёжностью γ интервальную оценку r min < r < r тах с помощью Z-преобразования Фишера (см. формулы в лекции). Получим следующий результат:
Таблица 9
Расчёт доверительных интервалов для частных генеральных коэффициентов корреляции исследуемых экономических показателей с надёжностью γ = 0,95
r | Z’ | Z min | Z max | r min | r тах | |
Y1X14 | 0,572722 | 0,651564 | 0,406564 | 0,896564 | 0,385551 | 0,714621 |
Y1X15 | 0,341947 | 0,356296 | 0,111296 | 0,601296 | 0,110838 | 0,537971 |
Х10Х16 | -0,340055 | -0,354155 | -0,599155 | -0,109155 | -0,536448 | -0,108723 |
15. Построим таблицу сравнения выборочных парных и частных коэффициентов корреляции для всех переменных.
Таблица 10
Таблица сравнения выборочных оценок парных и частных коэффициентов корреляции исследуемых показателей с выделением значимых коэффициентов (при α=0,05)
Между переменными | Коэффициент корреляции | |
парный | частный | |
Y1X10 | -0,0215248 | -0,084348 |
Y1X14 | 0,5772995 | 0,572722 |
Y1X15 | 0,3346368 | 0,341947 |
Y1X16 | -0,2042044 | -0,078507 |
Х10Х14 | -0,03604 | -0,037443 |
Х10Х15 | 0,153663 | 0,101525 |
Х10Х16 | -0,34832 | -0,34006 |
Х14Х15 | 0,077981 | -0,160548 |
Х14Х16 | -0,166761 | -0,100622 |
Х15Х16 | -0,25017 | -0,161016 |
По полученным данным можно сделать следующие выводы:
1. Значимые корреляционные зависимости, полученные на этапе расчёта парных коэффициентов корреляции, подтвердились и при вычислении частных коэффициентов корреляции. При этом выявлены следующие механизмы воздействия переменных друг на друга: наиболее тесная связь наблюдается между изучаемым признаком Y 1 – производительность труда и факторными признаками Х 14 - фондовооруженность труда и Х 15 - оборачиваемость нормируемых оборотных средств (прямые зависимости) и между факторными признаками Х 10 – фондоотдача и X 16 - оборачиваемость ненормируемых оборотных средств(обратная зависимость).
2. Воздействие других переменных, что характерно для частного коэффициента корреляции (для парного коэффициента корреляции рассматриваются только две переменные без прочих посторонних), несколько ослабляет положительную взаимосвязь между производительностью труда (Y 1) и фондовооруженностью труда (Х 14), т.к. величина частного коэффициент корреляции r y 1 x 14 / x 10 x 15 x 16 = 0,573 меньше величины парного коэффициента корреляции r y 1 x 14 = 0,577.
3. Аналогичная ситуация наблюдается и для обратной связи между фондоотдачей (Х 10
) и
оборачиваемостью ненормируемых оборотных средств (X 16
) - при исключении воздействия других
переменных абсолютная величина (взятая по модулю) парного коэффициент корреляции превышает абсолютное
значение частного коэффициента корреляции.
4. Для связи между производительностью труда (Y 1 ) и оборачиваемостью нормируемых оборотных средств (Х 15) характерна обратная ситуация: воздействие других переменных усиливает эту взаимосвязь (величина частного коэффициента корреляции больше величины парного коэффициента корреляции).
5. Наиболее сильная связь, выявленная на этапе расчёта парных коэффициентов корреляции,
между производительностью труда (Y 1)
и фондовооруженностью труда (Х 14)
остаётся наиболее тесной и значимой и при расчете частных коэффициентов корреляции. Направление связи между данными показателями, как и в случаях с двумя другими значимыми коэффициентами, совпадает для парных и частных коэффициентов корреляции.
Расчёт множественных коэффициентов корреляции
Множественные коэффициенты корреляции служат мерой связи одной переменной с совместным действием всех остальных показателей.
16.Вычислим точечные оценки множественных коэффициентов корреляции. Множественный коэффициент корреляции, например, для 1-го показателя Y 1 вычисляется по формуле:
где |R | - определитель корреляционной матрицы R;
R ij - алгебраическое дополнение элемента r ij корреляционной матрицы R.
Все алгебраические дополнения R ij были найдены ранее, на этапе расчёта частных коэффициентов корреляции, поэтому осталось вычислить только определитель самой корреляционной матрицы.
Чтобы найти определитель корреляционной матрицы, воспользуемся встроенной математической функцией Excel МОПРЕД. Получим |R|= 0,453494.
Подставляя полученное значение определителя в формулу, получаем значения множественных коэффициентов корреляции:
= 0,650726
Множественный коэффициент детерминации получается возведением коэффициента корреляции в квадрат.
17. Проверим значимость полученных множественных коэффициентов корреляции и детерминации. Проверка осуществляется с помощью F -критерия:
где k - количество рассматриваемых факторов (в нашем случае k = 5 ),
п - количество наблюдений.
Произведя расчёты, получим следующую таблицу:
Таблица 11
Множественные коэффициенты корреляции и детерминации исследуемых показателей с выделением значимых коэффициентов (на уровне значимости α = 0,05)
18. Для определения значимости множественных коэффициентов корреляции и детерминации нужно найти критическое значение F -распределения для заданного уровня значимости α и числа степеней свободы числителя v1=k-1 и знаменателя v2=n-k.
Для определения F кр воспользуемся встроенной функцией Excel: ВСТАВКА - Функция - Статистические - FРАСПОБР, введя в диалоговое окно функции вероятность α = 0,05 и число степеней свободы v1=k-1=5-1=4 и v2=n-k=51-5-46 .
Получаем F кр = 2,574033
Если наблюдаемое значение F -статистики превосходит ее критическое значение, то гипотеза о равенстве нулю соответствующего множественного коэффициента корреляции отвергается.
Следовательно, в рассматриваемом примере значимыми являются множественные коэффициенты корреляции r y 1/ x10 x14 x15 x16, r x 14/ y1 x10 x15 x16, r x 16/ y1 x10 x14 x15 . Множественные коэффициенты корреляции r x 10/ y1 x14 x15 x16 и r x 15/ y1 x10 x14 x16 являются незначимыми.
Результаты проведенного анализа позволяют сделать следующие выводы:
1.Множественный коэффициент корреляции r y 1/ x10 x14 x15 x16 = 0,651 значим и имеет достаточно высокое значение, что говорит о том, показатель Y 1 – производительность труда имеет тесную связь с многомерным массивом факторных признаков Х 10 - фондоотдача, Х 14 - фондовооруженность труда, Х 15 - оборачиваемость нормируемых оборотных средств и X 16 - оборачиваемость ненормируемых оборотных средств. Это даёт основание для проведения дальнейшего регрессионного анализа.
2.Множественный коэффициент детерминации r y 1/ x10 x14 x15 x16 2 = 0,423 показывает, что 42,3% доли дисперсии Y 1 – производительности труда, обусловлены изменениями факторных признаков.
3.Факторные признаки Х 14 - фондовооруженность труда и X 16 - оборачиваемость ненормируемых оборотных средств, также имеют значимые значения множественных коэффициентов корреляции и детерминации, что свидетельствует о их достаточно сильной взаимосвязи с рассматриваемыми признаками. Однако, хотя множественные коэффициенты фактора X 16 и значимы, но только 19,3% доли его дисперсии обусловлены изменениями переменных, включённых в рассматриваемую модель, а, соответственно 80,7% его дисперсии обусловлены влиянием других, не включённых в модель факторов.
4.Полученные результаты корреляционного анализа, показавшие, что показатель Y 1 – производительность труда, имеет тесную связь с многомерным массивом факторных признаков, позволяют перейти ко второму этапу статистического исследования - построению регрессионной модели.
При изучении сложных явлений необходимо учитывать более двух случайных факторов. Правильное представление о природе связи между этими факторами можно получить только в том случае, если подвергнуть исследованию сразу все рассматриваемые случайные факторы. Совместное изучение трех и более случайных факторов позволит исследователю установить более или менее обоснованные предположения о причинных зависимостях между изучаемыми явлениями. Простой формой множественной связи является линейная зависимость между тремя признаками. Случайные факторы обозначаются как X 1 , X 2 и X 3 . Парный коэффициенты корреляции между X 1 и X 2 обозначается как r 12 , соответственно между X 1 и X 3 - r 12 , между X 2 и X 3 - r 23 . В качестве меры тесноты линейной связи трех признаков используют множественные коэф-фициенты корреляции, обозначаемые R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 и частные коэффициенты корреляции, обозначаемые r 12.3 , r 13.2 , r 23.1 .
Множественный коэффициент корреляции R 1.23 трех факторов - это показатель тесноты линейной связи между одним из факторов (индекс перед точкой) и совокупностью двух других факторов (индексы после точки).
Значения коэффициента R всегда находятся в пределах от 0 до 1. При приближении R к единице степень линейной связи трех признаков увеличивается.
Между коэффициентом множественной корреляции, например R 2 ּ 13 , и двумя коэффициентами парной корреляции r 12 и r 23 существует соотношение: каждый из парных коэффициентов не может превышать по абсолютной величине R 2 ּ 13 .
Формулы для вычисления множественных коэффициентов корреляции при известных значениях коэффициентов парной корреляции r 12 , r 13 и r 23 имеют вид:
Квадрат коэффициента множественной корреляции R 2 называется коэффициентом множественной детерминации. Он показывает долю вариации зависимой переменной под воздействием изучаемых факторов.
Значимость множественной корреляции оценивается по F -критерию:
n – объем выборки; k – число факторов. В нашем случае k = 3.
нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (h o
:r
=0)принимается, если f
ф <f t
, и отвергается, если
f
ф ³ f
т.
теоретическое значение f -критерия определяется для v 1 = k - 1 и v 2 = n - k степеней свободы и принятого уровня значимости a (приложение 1).
Пример вычисления коэффициента множественной корреляции . При изучении взаимосвязи между факторами были получены коэффициенты парной корреляции (n =15): r 12 ==0,6; г 13 = 0,3; r 23 = - 0,2.
Необходимо выяснить зависимость признака X 2 от признака X 1 и X 3 , т. е. рассчитать коэффициент множественной корреляции:
Табличное значение F -критерия при n 1 = 2 и n 2 = 15 – 3 = 12 степенях свободы при a = 0,05 F 0,05 = 3,89 и при a = 0,01 F 0,01 = 6,93.
Таким образом, взаимосвязь между признаками R
2.13 = 0,74 значима на
1%-ном уровне значимости F
ф > F
0,01 .
Судя по коэффициенту множественной детерминации R 2 = (0,74) 2 = 0,55, вариация признака X 2 на 55% связана с действием изучаемых факторов, а 45% вариации (1-R 2) не может быть объяснено влиянием этих переменных.
Частная линейная корреляция
Частный коэффициент корреляции - это показатель, измеряющий степень сопряженности двух признаков.
Математическая статистика позволяет установить корреляцию между двумя признаками при постоянном значении третьего, не ставя специального эксперимента, а используя парные коэффициенты корреляции r 12 , r 13 , r 23 .
Частные коэффициенты корреляции рассчитывают по формулам:
Цифры перед точкой указывают, между какими признаками изучается зависимость, а цифра после точки - влияние какого признака исключается (элиминируется). Ошибку и критерий значимости частной корреляции определяют по тем же формулам, что и парной корреляции:
.
Теоретическое значение t- критерия определяется для v = n – 2 степеней свободы и принятого уровня значимости a (приложение 1).
Нулевая гипотеза о равенстве частного коэффициента корреляции в совокупности нулю (H o
: r
= 0)принимается, если t
ф < t
т, и отвергается, если
t
ф ³ t
т.
Частные коэффициенты могут принимать значения, заключенные между -1 и+1. Частные коэффициенты детерминации находят путем возведения в квадрат частных коэффициентов корреляции:
D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .
Определение степени частного воздействия отдельных факторов на результативный признак при исключении (элиминировании) связи его с другими признаками, искажающими эту корреляцию, часто представляет большой интерес. Иногда бывает, что при постоянном значении элиминируемого признака нельзя подметить его статистического влияния на изменчивость других признаков. Чтобы уяснить технику расчета частного коэффициента корреляции, рассмотрим пример. Имеются три параметра X , Y и Z . Для объема выборки n = 180 определены парные коэффициенты корреляции
r xy = 0,799; r xz = 0,57; r yz = 0,507.
Определим частные коэффициенты корреляции:
Частный коэффициент корреляции между параметром X и Y Z (r хуּz = 0,720) показывает, что лишь незначительная часть взаимосвязи этих признаков в общей корреляции (r xy = 0,799) обусловлена влиянием третьего признака (Z ). Аналогичное заключение необходимо сделать и в отношении частного коэффициента корреляции между параметром X и параметром Z с постоянным значением параметраY (r х z ּу = 0,318 и r xz = 0,57). Напротив, частный коэффициент корреляции между параметрами Y и Z с постоянным значением параметра X r yz ּx = 0,105 значительно отличается от общего коэффициента корреляции r у z = 0,507. Из этого видно, что если подобрать объекты с одинаковым значением параметра X , то связь между признаками Y и Z у них будет очень слабой, так как значительная часть в этой взаимосвязи обусловлена варьированием параметра X .
При некоторых обстоятельствах частный коэффициент корреляции может оказаться противоположным по знаку парному.
Например, при изучении взаимосвязи между признаками X, У
и Z
- были получены парные коэффициенты корреляции (при n
= 100): r
ху = 0,6; r
х z
= 0,9;
r у z
= 0,4.
Частные коэффициенты корреляции при исключении влияния третьего признака:
Из примера видно, что значения парного коэффициента и частного коэффициента корреляции разнятся в знаке.
Метод частной корреляции дает возможность вычислить частный коэффициент корреляции второго порядка. Этот коэффициент указывает на взаимосвязь между первым и вторым признаком при постоянном значении третьего и четвертого. Определение частного коэффициента второго порядка ведут на основе частных коэффициентов первого порядка по формуле:
где r 12 . 4 , r 13 ּ4 , r 23 ּ4 - частные коэффициенты, значение которых определяют по формуле частного коэффициента, используя коэффициенты парной корреляции r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .
Коэффициент множественной корреляции (R ) характеризует тесноту связи между результативным показателем и набором факторных показателей:
где σ 2 - общая дисперсия эмпирического ряда, характеризующая общую вариацию результативного показателя (у) за счет факторов;
σ ост 2 - остаточная дисперсия в ряду у, отражающая влияния всех факторов, кроме х;
у - среднее значение результативного показателя, вычисленное по исходным наблюдениям;
s - среднее значение результативного показателя, вычисленное по уравнению регрессии.
Коэффициент множественной корреляции принимает только положительные значения в пределах от 0 до 1. Чем ближе значение коэффициента к 1, тем больше теснота связи. И, наоборот, чем ближе к 0, тем зависимость меньше. При значении R < 0,3 говорят о малой зависимости между величинами. При значении 0,3 < R < 0,6 говорят о средней тесноте связи. При R > 0,6 говорят о наличии существенной связи.
Квадрат коэффициента множественной корреляции называется коэффициентом детерминации (D ): D = R 2 . Коэффициент детерминации показывает, какая доля вариации результативного показателя связана с вариацией факторных показателей. В основе расчета коэффициента детерминации и коэффициента множественной корреляции лежит правило сложения дисперсий, согласно которому общая дисперсия (σ 2) равна сумме межгрупповой дисперсии (δ 2) и средней из групповых дисперсий σ i 2):
σ 2 = δ 2 + σ i 2 .
Межгрупповая дисперсия характеризует колеблемость результативного показателя за счет изучаемого фактора, а средняя из групповых дисперсий отражает колеблемость результативного показателя за счет всех прочих факторов, кроме изучаемого.
Математические модели корреляционного анализа в форме коэффициентов имеют ограниченные аналитические возможности. Зная лишь направление ковариации показателей и тесноту связи, невозможно определить закономерности формирования уровня результативного показателя под влиянием исследуемых факторов, оценить интенсивность их влияния, классифицировать факторы на основные и второстепенные. Для этих целей используются модели регрессионного анализа. Линейная модель (уравнение) регрессионного анализа может быть представлена в виде
у = bo + b 1 x 1 + b 2 x 2 +... + b n x n ,
где у - результативный показатель;
x 1 , x 2 , ..., x n - факторные модели;
b 0 , b 1 , b 2 , ..., b n - коэффициенты регрессии.
Смотрите также: