Корреляционный метод. Расчет с помощью программы STATISTICA. Сильная и слабая
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
ЛЕКЦИЯ на тему: " КОРРЕЛЯЦИОННЫЙ АНАЛИЗ "
1.1. Виды взаимосвязей между признаками
Еще
Гиппократ обратил внимание на то, что
между телосложением и темпераментом
людей, между строением их тела и
предрасположенностью к заболеваниям
существует определенная связь.
Чаще
всего рассматриваются простейшие
ситуации, когда в ходе исследования
измеряют значения только одного
варьирующего признака генеральной
совокупности. Остальные признаки либо
считаются постоянными для данной
совокупности, либо относятся к случайным
факторам, определяющим варьирование
исследуемого признака. Как правило,
исследования в спорте значительно
сложнее и носят комплексный характер.
Например, при контроле за ходом
тренировочного процесса измеряется
спортивный результат, и одновременно
может оцениваться целый ряд
биомеханических, физиологических,
биохимических и других параметров
(скорость и ускорения общего центра
масс и отдельных звеньев тела, углы в
суставах, сила мышц, показатели систем
дыхания и кровообращения, объем
физической нагрузки и энергозатраты
организма на ее выполнение и т. д.). При
этом часто возникает вопрос о взаимосвязи
отдельных признаков. Например, как
зависит спортивный результат от
некоторых элементов техники спортивных
движений? как связаны энергозатраты
организма с объемом физической нагрузки
определенного вида? насколько точно
по результатам выполнения некоторых
стандартных упражнений можно судить
о потенциальных возможностях человека
в конкретном виде спортивной
деятельности? и т. п. Во всех этих
случаях внимание исследователя
привлекает зависимость между различными
величинами, описывающими интересующие
его признаки.
Этой цели служит
математическое понятие функции,
имеющее в виду случаи, когда определенному
значению одной (независимой) переменной
Х, называемой аргументом
,
соответствует определенное значение
другой (зависимой) переменной Y,
называемой функцией
.
Однозначная зависимость между
переменными величинами Y
и X
называется функциональной
,
т.е. Y
= f(X)
(“игрек
есть функция от икс”).
Например, в
функции Y
= 2X
каждому значению X
соответствует в два раза большее
значение Y
.
В функции Y
= 2X
2
каждому значению Y
соответствует 2 определенных значения
X
.
Графически это выглядит так (рис.1.1,
1.2 соответственно):
Рис.1.1.
Рис.1.2.
Но
такого рода однозначные или функциональные
связи между переменными величинами
встречаются не всегда. Известно,
например, что между ростом (длиной
тела) и массой человека существует
положительная связь: более высокие
индивиды имеют обычно и большую массу,
чем индивиды низкого роста. То же
наблюдается и в отношении качественных
признаков: блондины, как правило, имеют
голубые, а брюнеты - карие глаза.
Однако из этого правила имеются
исключения, когда сравнительно
низкорослые индивиды оказываются
тяжелее высокорослых, и среди населения
хотя и нечасто, но встречаются кареглазые
блондины и голубоглазые брюнеты.
Причина таких “исключений” в том,
что каждый биологический признак,
выражаясь математическим языком,
является функцией многих переменных;
на его величине сказывается влияние
и генетических и средовых факторов,
в том числе и случайных, что вызывает
варьирование признаков. Отсюда
зависимость между ними приобретает
не функциональный, а статистический
характер
,
когда определенному значению одного
признака, рассматриваемого в качестве
независимой переменной, соответствует
не одно и то же числовое значение, а
целая гамма распределяемых в вариационный
ряд числовых значений другого признака,
рассматриваемого в качестве независимой
переменной. Такого рода зависимость
между переменными величинами называется
корреляционной
или корреляцией
(термин “корреляция” происходит от
лат. correlatio - соотношение, связь). При
этом данный
вид взаимосвязи между признаками
проявляется в том, что при изменении
одной из величин изменяется среднее
значение другой.
Если
функциональные связи одинаково легко
обнаружить и на единичных, и на групповых
объектах, то этого нельзя сказать о
связях корреляционных, которые
изучаются только на групповых объектах
методами математической статистики.
Задача
корреляционного анализа сводится к
установлению направления и формы
связи между признаками, измерению ее
тесноты и к оценке достоверности
выборочных показателей
корреляции.
Корреляционная
связь между признаками может быть
линейной
и криволинейной (нелинейной),
положительной и отрицательной.
Прямая
корреляция
отражает однотипность в изменении
признаков: с увеличением значений
первого признака увеличиваются
значения и другого, или с уменьшением
первого уменьшается второй.
Обратная
корреляция
указывает на увеличение первого
признака при уменьшении второго или
уменьшение первого признака при
увеличении второго.
Например, больший
прыжок и большее количество тренировок
- прямая корреляция, уменьшение
времени, затраченного на преодоление
дистанции, и большее количество
тренировок - обратная корреляция.
1.2. Корреляционные поля и цель их построения
Корреляция
изучается на основании экспериментальных
данных, представляющих собой измеренные
значения (x
i
,
y
i
)
двух признаков. Если экспериментальных
данных немного, то двумерное эмпирическое
распределение представляется в виде
двойного ряда значений x
i
и y
i
.
При этом корреляционную зависимость
между признаками можно описывать
разными способами. Соответствие между
аргументом и функцией может быть
задано таблицей, формулой, графиком
и т. д.
Корреляционный анализ, как и
другие статистические методы, основан
на использовании вероятностных
моделей, описывающих поведение
исследуемых признаков в некоторой
генеральной совокупности, из которой
получены экспериментальные значения
x
i
и y
i
.
Когда исследуется корреляция между
количественными признаками, значения
которых можно точно измерить в единицах
метрических шкал (метры, секунды,
килограммы и т.д.), то очень часто
принимается модель двумерной нормально
распределенной генеральной совокупности.
Такая модель отображает зависимость
между переменными величинами x
i
и y
i
г
рафически
в виде геометрического места точек в
системе прямоугольных координат. Эту
графическую зависимость называются
также диаграммой
рассеивания
или корреляционным
полем
.
Данная
модель двумерного нормального
распределения (корреляционное поле)
позволяет дать наглядную графическую
интерпретацию коэффициента корреляции,
т.к. распределение в совокупности
зависит от пяти параметров:
x
,
y
– средние значения (математические
ожидания);
x
,
y
– стандартные отклонения случайных
величин Х
и Y
и р
– коэффициент корреляции, который
является мерой связи между случайными
величинами Х
и Y
.
Если
р = 0, то значения, x
i
,
y
i
,
полученные из двумерной нормальной
совокупности, располагаются на графике
в координатах х,
у
в пределах области, ограниченной
окружностью (рис.1.3, а). В этом случае
между случайными величинами Х
и Y
отсутствует корреляция и они называются
некоррелированными. Для двумерного
нормального распределения
некоррелированность означает
одновременно и независимость случайных
величин
Х
и Y
.
Рис.1.3.
Графическая интерпретация взаимосвязи
между показателями.
Если
р = 1 или р = -1, то между случайными
величинами
Х
и Y
существует линейная функциональная
зависимость
(Y = c + dX)
.
В этом случае говорят о полной
корреляции. При р = 1 значения x
i
,
y
i
определяют точки, лежащие на прямой
линии, имеющей положительный наклон
(с увеличением x i
значения y i
также увеличиваются), при р = -1 прямая
имеет отрицательный наклон (рис.1.3,
б).
В промежуточных случаях (-1
точки, соответствующие значениям xi
,
y
i
,
попадают в область, ограниченную
некоторым эллипсом (рис.1.3, в. г), причем
при p
> 0
имеет место положительная корреляция
(с увеличением x
i
значения y
i
имеют тенденцию к возрастанию), при p
корреляция отрицательная. Чем ближе
р к
,
тем уже эллипс и тем теснее
экспериментальные значения группируются
около прямой линии.
Здесь же следует
обратить внимание на то, что линия,
вдоль которой группируются точки,
может быть не только прямой, а иметь
любую другую форму: парабола, гипербола
и т. д. В этих случаях мы рассматривали
бы так называемую, нелинейную (или
криволинейную) корреляцию (рис.1.3,
д).
Таким образом, визуальный анализ
корреляционного поля помогает выявить
не только наличия статистической
зависимости (линейную или нелинейную)
между исследуемыми признаками, но и
ее тесноту и форму. Это имеет существенное
значение для следующего шага в анализе
ѕ выбора и вычисления соответствующего
коэффициента корреляции.
Корреляционную
зависимость между признаками можно
описывать разными способами. В
частности, любая форма связи может
быть выражена уравнением общего вида
Y
= f(X)
,
где признак Y
– зависимая
переменная
,
или функция
от независимой переменной X
,
называемой аргументом
.
Соответствие между аргументом и
функцией может быть задано таблицей,
формулой, графиком и т. д.
Пример 1.2. Определить форму и направление взаимосвязи между показателями пульса покоя и абсолютными значениями пробы PWC 170 у 13 исследуемых с помощью построения графика корреляционного поля, если данные выборок таковы:
x
i
,
уд/мин ~ 80; 72; 71; 80; 84; 82; 78; 70; 83; 72; 72; 73;
81
y
i
,
кГм/мин ~ 858; 979; 1071; 920; 982; 1000; 1004; 1022; 807;
1099; 817; 879; 982
1. Построим график данного корреляционного поля, отложив на оси Х в порядке возрастания показатели пульса покоя, на оси Y - абсолютные значения пробы PWC 170 .
2. Сделать вывод о форме и направлении взаимосвязи между исследуемыми показателями.
Вывод: график данного корреляционного поля позволяет предположить, что, возможно, между пульса покоя и абсолютными значениями пробы PWC 170 у исследуемой группы наблюдается прямая, обратная зависимость, т.е. со снижением показателя пульса покоя происходит увеличение абсолютных значений PWC 170 .
Задача 1 .
Определить форму и направление
взаимосвязи между результатами в беге
на первой и второй половине дистанции
400 м у 13 исследуемых с помощью построения
графика корреляционного поля, если
данные выборок таковы:
x
i
, с ~ 25,2; 26,4; 26,0; 25,8; 24,9; 25,7; 25,7; 25,7; 26,1; 25,8;
25,9; 26,2; 25,6 (первые 200 м).
y
i
, с ~ 30,8; 29,4; 30,2; 30,5; 31,4; 30,3; 30,4; 30,5; 29,9; 30,4;
30,3; 30,5; 30,6 (последние 200 м).
Задача
2 . Определить форму и направление
взаимосвязи между результатами в
толчке штанги и прыжка в высоту с места
у 12 тяжелоатлетов весовой категории
до 60 кг с помощью построения графика
корре-ляционного поля, если данные
выборок таковы:
Результат в толчке:
x
i
, кг ~ 107,5; 110; 110; 115; 115; 107,5; 107,5; 120; 122,5;
112,5; 120; 110.
Прыжок в высоту с места: y
i
, см ~ 57; 60; 58; 61; 63; 58; 55; 64; 65; 64; 66; 61.
Задача
3 . Определить форму и направление
взаимосвязи между результатами
кистевой динамометрии правой и левой
рук у 7 школьников с помощью построения
графика корреляционного поля, если
данные выборок таковы:
Правая рука:
x
i
,
кГ ~ 14,0; 14,2; 14,9; 15,4; 16,0; 17,2; 18,1.
Левая
рука: y
i
,
кГ ~ 12,1; 13,8; 14,2; 13,0; 14,6; 15,9; 17,4.
1.3. Коэффициенты корреляции и их свойства.
Коэффициент
корреляции р
для генеральной совокупности, как
правило, неизвестен, поэтому он
оценивается по экспериментальным
данным, представляющим собой выборку
объема n
пар значений (x
i
,
y
i
),
полученную при совместном измерении
двух признаков Х
и Y
.
Коэффициент корреляции, определяемый
по выборочным данным, называется
выборочным
коэффициентом корреляции
(или просто коэффициентом
корреляции
).
Его принято обозначать символом
r
.
Коэффициенты
корреляции - удобный показатель
связи, получивший широкое применение
в практике. К их основным свойствам
необходимо отнести следующие:
В
практической деятельности, когда
число коррелируемых пар признаков Х
и Y
не велико (),
то при оценке зависимости между
показателями используется следующую
градацию:
1) высокая
степень взаимосвязи
– значения коэффициента корреляции
находится в пределах от 0,7 до 0,99;
2)
средняя
степень взаимосвязи
– значения коэффициента корреляции
находится в пределах от 0,5 до 0,69;
3)
слабая
степень взаимосвязи
– значения коэффициента корреляции
находится от 0,2 до 0,49.
1.4. Нормированный коэффициент корреляции Браве-Пирсона
В
качестве оценки генерального
коэффициента корреляции р используется
коэффициент корреляции r
Браве–Пирсона. Для его определения
принимается предположение о двумерном
нормальном распределении генеральной
совокупности, из которой получены
экспериментальные данные. Это
предположение может быть проверено
с помощью соответствующих критериев
значимости. Следует отметить, что если
по отдельности одномерные эмпирические
распределения значений x
i
и y
i
согласуются с нормальным распределением,
то из этого еще не следует, что двумерное
распределение будет нормальным. Для
такого заключения необходимо еще
проверить предположение о линейности
связи между случайными величинами Х
и Y
.
Строго говоря, для вычисления
коэффициента корреляции достаточно
только принять предположение о
линейности связи между случайными
величинами, и вычисленный коэффициент
корреляции будет мерой этой линейной
связи.
Коэффициент корреляции
Браве–Пирсона ()
относится к параметрическим коэффициентам
и для практических расчетов вычисляется
по формуле:
(1.1)
Из
формулы (1.1) видно, что для вычисления
необходимо
найти средние значения признаков Х
и Y
,
а также отклонения каждого статистического
данного от его среднего
.
Зная эти значения, находятся суммы
.
Затем, вычислив значение
,
необходимо определить достоверность
найденного коэффициента корреляции,
сравнив его фактическое значение с
табличным для k
= n –2
(табл. 10 приложения). Если
,
то можно говорить о том, что между
признаками наблюдается достоверная
взаимосвязь. Если
,
то между признаками наблюдается
недостоверная корреляционная
взаимосвязь.
Просмотрите примеры решения задач.
Пример 1.4. Определить достоверность взаимосвязи между показателями веса и количеством подтягиваний на перекладине у 11 исследуемых с помощью расчета нормированного коэффициента корреляции, если данные выборок таковы:
x
i
,
кг ~ 51; 50; 48; 51; 46; 47; 49; 60; 51; 52; 56.
y
i
,
кол-раз ~ 13; 15; 13; 16; 12; 14; 12; 10; 18; 10;
12.
1. Расчет нормированного коэффициента корреляции Пирсона произвести по формуле (1):
2. Данные тестирования занести в рабочую таблицу и сделать необходимые расчеты.
x i |
y i |
|||||
Тогда
К = n –2 (2)
K = 11 – 2 = 9
4.
Сравнить расчетное значение
нормированного коэффициента корреляции
(r ф
= -0,34) с табличным значением для К =
9
при
= 5% (табл.1 приложения) и сделать
вывод.
Вывод:
1)
т.к. r ф
= -0,34 2) т.к. r ф
= -0,34
Задания
на тему лекции
Самостоятельно
решите следующие задачи:
Задача
1.
Определить достоверность взаимосвязи
между показателями веса и результатами
прыжков в длину с места у 9 исследуемых
с помощью расчета нормированного
коэффициента корреляции, если данные
выборок таковы:
Показатели веса: x
i
, кг ~ 66; 80; 73; 74; 85; 79; 68; 71; 70.
Результаты
прыжков: y
i
,
см ~ 203; 185; 199; 197; 183; 205; 217; 190; 200.
Задача
2.
Определить
достоверность взаимосвязи между
показателями пульса покоя и пульса
восстановления 8 исследуемых с помощью
рас-чета нормированного коэффициента
корреляции, если данные выборок
таковы:
ЧСС покоя: x
i
, уд/мин ~ 66; 80; 73; 74; 85; 79; 68; 71.
ЧСС
восстановления: y
i
,
уд/мин ~ 70; 85; 78; 78; 90; 84; 66; 72.
Задача
3.
Определить достоверность взаимосвязи
между результатами времени прохождения
дистанции и показателями абсолютных
значений в пробе PWC 170
у 10 юных яхтсменов с помощью расчета
нормированного коэффициента корреляции,
если данные выборок таковы:
Результат
на дистанции:
x
i
, с ~ 61,3; 65,0; 79,3; 80,0; 74,7; 72,0; 72,0; 61,7; 79,3; 74,7;
65,7.
Проба PWC 170:
y
i
,
кГм/мин ~ 917; 875; 810; 608; 746; 632; 710; 850; 911;. 732;
915.
1.5. Коэффициент ранговой корреляции Спирмена
Если
потребуется установить связь между
двумя признаками, значения которых в
генеральной совокупности распределены
не по нормальному закону, т. е.
предположение о том, что двумерная
выборка (x
i
и y
i
)
получена из двумерной нормальной
генеральной совокупности, не принимается,
то можно воспользоваться коэффициентом
ранговой корреляции Спирмена
():
(1.2)
где:
d
x
и d
y
– ранги показателей x
i
и y
i
;
n
– число коррелируемых пар.
Коэффициент
ранговой корреляции также имеет
пределы 1 и –1. Если ранги одинаковы
для всех значений x
i
и y
i
,
то все разности рангов (d
x
- d
y
)
= 0
и = 1. Если ранги x
i
и y
i
расположены в обратном порядке, то
=
-1. Таким образом, коэффициент ранговой
корреляции является мерой совпадения
рангов значений x
i
и y
i
.
Когда
ранги всех значений x
i
и y
i
строго
совпадают или расположены в обратном
порядке, между случайными величинами
Х
и Y
существует функциональная зависимость,
причем эта зависимость не обязательно
линейная, как в случае с коэффициентом
линейной корреляции Браве-Пирсона, а
может быть любой монотонной зависимостью
(т. е. постоянно возрастающей или
постоянно убывающей зависимостью).
Если зависимость монотонно возрастающая,
то ранги значений x
i
и
y
i
совпадают и
=
1; если зависимость монотонно убывающая,
то ранги обратны и
=
–1. Следовательно, коэффициент ранговой
корреляции является мерой любой
монотонной зависимости между случайными
величинами
Х
и Y
.
Из
формулы (8.2) видно, что для вычисления
необходимо
сначала проставить ранги (d
x
и
d
y
)
показателей x
i
и y
i
,
найти разности рангов
(d
x
- d
y
)
для каждой пары показателей и квадраты
этих разностей (d
x
- d
y
)
2
.
Зная эти значения, находятся суммы
,
учитывая, что
всегда
равна нулю. Затем, вычислив значение
,
необходимо определить достоверность
найденного коэффициента корреляции,
сравнив его фактическое значение с
табличным (табл. 9 приложения). Если
,
то можно говорить о том, что между
признаками наблюдается достоверная
взаимосвязь. Если
,
то между признаками наблюдается
недостоверная корреляционная
взаимосвязь.
Коэффициент ранговой
корреляции Спирмена вычисляется
значительно проще, чем коэффициент
корреляции Браве-Пирсона при одних и
тех же исходных данных, поскольку при
вычислении используются ранги,
представляющие собой обычно целые
числа.
Коэффициент ранговой корреляции
целесообразно использовать в следующих
случаях:
Просмотрите примеры решения задач.
Пример 1.6. Определить достоверность взаимосвязи между показателями веса и максимального количества сгибания и разгибания рук в упоре лежа у 10 исследуемых с помощью расчета рангового коэффициента корреляции, если данные выборок таковы:
x
i
,
кг ~ 55; 45; 43; 47; 47; 51; 48; 60; 53; 50
y
i
,
кол-во раз ~ 26; 20; 25; 22; 27; 28; 16; 15; 18; 24
1. Расчет рангового коэффициента корреляции Спирмена произвести по формуле (1):
где:
d
x
и d
y
- ранги показателей х
и у
;
n
- число коррелируемых пар или
исследуемых.
2. Данные тестирования занести в рабочую таблицу и сделать необходимые расчеты.
x i |
d x |
y i |
d y |
||
Тогда
3.
Сравнить расчетное значение рангового
коэффициента корреляции (r ф
= -0,13) с табличным значением для n = 10
при
= 5% (табл.2 приложения) и сделать
вывод.
Вывод:
1) т.к. r ф
= -0,13 2)
т.к. r ф
= -0,13
Задания
по теме лекции
Самостоятельно
решите следующие задачи:
Задача
1.
Определить
достоверность взаимосвязи между
показателями длины прыжков с места и
с разбега 10 исследуемых с помощью
расчета рангового коэффициента
корреляции, если данные выборок
таковы:
Прыжок с места: x
i
,
см ~ 216; 180; 230; 224; 185; 209; 218; 250; 249; 254.
Прыжок
с разбега: y
i
,
см ~ 313; 275; 330; 320; 300; 315; 315; 370; 365; 330.
Задача
2.
Определить
достоверность взаимосвязи между
показателями становой динамометрии
и количеством подтягиваний на
перекладине у 9 исследуемых с помощью
расчета рангового коэффициента
корреляции, если данные выборок
таковы:
Становая динамометрия: x
i
,
кГ ~ 156; 130; 143; 124; 135; 125; 138; 141; 139.
Подтягивание
на перекладине: y
i
,
кол-во раз ~ 16; 15; 20; 20; 16; 15; 15; 20; 15.
Задача
3.
Определить достоверность взаимосвязи
между показателями индекса Кетле и
местами в соревнованиях у 11 акробатов
с помощью расчета рангового коэффициента
корреляции, если данные выборок
таковы:
Индекс Кетле: x
i
, г/см ~ 389; 370; 382; 358; 358; 366; 370; 354; 382; 363;
350.
Место: y i
,
~ 5; 2; 6; 10; 11; 1; 3; 9; 4; 7; 8.
Корреляция - это степень, в которой события или личные характеристики человека зависят друг от друга. Корреляционный метод - процедура в исследовании, использующаяся, чтобы определить взаимосвязь между переменными. Данный метод может, например, ответить на вопрос: «существует ли корреляция между количеством стресса, с которым сталкиваются люди и степенью испытываемой ими депрессии?» То есть, по мере того, как люди продолжают переживать стресс, насколько увеличивается вероятность того, что они впадут в депрессию?
Корреляция - степень зависимости друг от друга событий или характеристик.
Корреляционный метод - процедура исследований, которая используется для определения того, насколько события или характеристики зависят друг от друга.
Чтобы ответить на этот вопрос, исследователи подсчитывают баллы жизненного стресса (например, количество угрожающих событий, переживаемых человеком в определенный период времени) и баллы депрессии (например, баллы в опросниках по депрессии). Как правило, исследователи обнаруживают, что эти переменные увеличиваются или уменьшаются вместе (Stader & Hokanson, 1998; Paykel & Cooper, 1992). To есть чем больше количество баллов стресса в жизни определенного человека, тем выше его или ее сумма баллов по депрессии. Корреляции такого рода имеют позитивную направленность и их называют позитивной корреляцией.
Корреляция может иметь и негативную, а не позитивную направленность. При негативной корреляции, когда значение одной переменной возрастает, значение другой уменьшается. Исследователи обнаружили, например, негативную корреляцию между депрессией и уровнем активности. Чем больше депрессия человека, тем меньше его занятость.
Существует еще и третья взаимосвязь в корреляционном исследовании. Две переменные могут быть не взаимосвязаны, то есть между ними не существует последовательной взаимосвязи. Когда число одной переменной возрастает, показатели другой переменной иногда возрастают, иногда уменьшаются. Исследования обнаружили, например, что депрессия и интеллект не зависят друг от друга.
Кроме знания направленности корреляции исследователям нужно знать ее величину или силу. То есть насколько близко эти две переменные соотносятся между собой. Действительно ли одна переменная всегда зависит от другой или их взаимосвязь менее определенна? Когда обнаруживается тесная взаимосвязь двух переменных у многих испытуемых, то говорят, что корреляция - высокая или устойчивая.
Направленность и величина корреляции часто имеет численное значение и выражается в статистическом понятии - коэффициенте корреляции ( r ). Коэффициент корреляции может варьироваться от +1.00, показывающего полную позитивную корреляцию между двумя переменными, и до -1.00 - этот коэффициент указывает на полную негативную корреляцию. Знак коэффициента (+ или -) обозначает направленность корреляции; число представляет ее величину. Чем ближе коэффициент к 0, тем слабее корреляция и меньше ее величина. Так корреляции +0.75 и -0.75 имеют одинаковые величины, а корреляция +.25 слабее и той и другой корреляции.
Коэффициент корреляции ( r ) - статистический термин, указывающий направленность и величину корреляции, колеблющийся от -1.00 до +1.00.
Поведение людей меняется, и многие человеческие реакции можно оценивать лишь приблизительно. Поэтому в психологических исследованиях корреляции не достигают величины полной позитивной или полной негативной корреляции. В одном исследовании стресса и депрессии, проводившемся с 68 взрослыми, корреляция между двумя переменными составила +0.53 (Miller et al., 1976). Несмотря на то, что эту корреляцию едва ли можно назвать абсолютной, ее величина в психологическом исследовании считается большой.
Статистический анализ корреляционных данных
Ученые должны решить, действительно ли корреляция, обнаруженная ими в данной группе испытуемых, точно отражает подлинную корреляцию в общем населении. Может ли наблюдаемая корреляция возникать только случайно? Ученые могут протестировать свои выводы при помощи статистического анализа данных, применив принципы вероятности. В сущности, они задаются вопросом, насколько вероятно, что данные отдельного исследования были получены случайно. Если статистический анализ указывает на очень малую вероятность того, что обнаруженная корреляция была получена случайно, то исследователи называют корреляцию статистически значимой и делают вывод, что их данные отражают подлинную корреляцию, встречающуюся повсеместно.
Преимущества и недостатки корреляционного метода
У корреляционного метода есть некоторые преимущества по сравнению с изучением отдельных случаев болезни. Поскольку исследователи получают свои переменные, основываясь на многочисленных примерах, и применяют статистический анализ, то они лучше могут обобщить данные о людях, которых изучали. Исследователи также могут повторить корреляционные исследования на новых испытуемых, чтобы проверить результаты своих изысканий.
Несмотря на то, что корреляционные исследования позволяют исследователям описать взаимосвязь между двумя переменными, они не объясняют эту взаимосвязь. Когда мы взглянем на позитивную корреляцию, обнаруживающуюся при исследовании разных жизненных стрессов, у нас может возникнуть искушение сделать вывод, что усиление стресса приводит к более сильной депрессии. На самом деле, однако, эти две переменные могли коррелировать по одной из трех причин: 1) жизненный стресс может приводить к депрессии; 2) депрессия может заставить людей перенести более сильный стресс (например, депрессивный подход к жизни приводит к тому, что люди будут неправильно распоряжаться деньгами или депрессия негативно скажется на их социальных взаимоотношениях); 3) депрессия и жизненный стресс могут быть обусловлены третьей переменной, такой как бедность. Вопросы причинности требуют применения экспериментального метода.
<Вопросы для размышления. Как бы вы объяснили значительную корреляцию между жизненным стрессом и депрессией? Какая из интерпретаций, по вашему мнению, наиболее точна?>
Особые формы корреляционного исследования
Клиницисты широко используют два типа корреляционных исследований - эпидемиологические исследования и долгосрочные (лонгитюдные) исследования. В ходе эпидемиологических исследований обнаруживается общее число случаев и распространенность определенного расстройства среди указанной части населения (Weissman, 1995). Число случаев - это количество новых случаев расстройств, возникших за данный период времени. Распространенность - общее число случаев среди населения в данный период времени; распространенность расстройства или заболевания включает как уже существующие, так и новые случаи.
За прошедшие двадцать лет клиницисты в США разработали самое обширное эпидемиологическое исследование, которое когда-либо проводилось, и назвали его Районным эпидемиологическим исследованием. Они взяли интервью более чем у 20 000 людей в пяти городах, чтобы выяснить преобладание разных психических расстройств и то, какие программы применялись для их лечения (Regier et al., 1993). Это исследование сравнивалось в эпидемиологическими исследованиями в других странах, чтобы проверить, как уровни психических расстройств и программы лечения варьируются в разных странах мира (Weissman, 1995).
<Близнецы, корреляция и наследственность. Корреляционные исследования многих пар близнецов позволяют сделать вывод о возможной взаимосвязи между генетическими факторами и некоторыми психическими расстройствами. Идентичные близнецы (близнецы, которые, как и изображенные здесь, обладают идентичными генами) проявляют высокую степень корреляции при некоторых расстройствах, и эта корреляция выше, чем у неидентичных близнецов (с неидентичными генами).>
Такие эпидемиологические исследования помогают психологам выделить группы риска, предрасположенные к определенным расстройствам. Оказывается, что среди женщин превалирует уровень расстройств, связанных с тревожным состоянием и депрессией, в отличие от мужчин, среди которых преобладает более высокий уровень алкоголизма, чем у женщин. У пожилых людей уровень суицида выше, чем у людей помоложе. У людей в некоторых не западных странах (например, в Тайване) уровень психической дисфункции выше, чем на Западе. Эти тенденции приводят исследователей к предположению, что какие-то особые факторы и среда провоцируют определенные типы расстройств (Rogers & Holloway, 1990). Так, ухудшение здоровья у пожилых людей с большей вероятностью приводит их к самоубийству; культурные прессы или установки, распространенные в одной стране, приводят к определенному уровню психических дисфункций, отличающемуся от уровня тех же дисфункций в другой стране.
Эпидемиологическое исследование - исследование, которое определяет число случаев заболевания и его распространенность среди данного слоя населения.
Число случаев заболевания - количество новых случаев расстройства, возникающих в данном слое населения в определенный период времени.
Распространенность - общее число случаев расстройств, возникающих в данном слое населения за определенный период времени.
Проводя долгосрочные исследования, психологи наблюдают тех же самых испытуемых в разных ситуациях на протяжении длительного периода времени. В одном таком опыте ученые наблюдали в течение многих лет развитие нормально функционирующих детей, чьи отец или мать страдали от шизофрении (Parnas, 1988; Mednick, 1971). Исследователи обнаружили среди прочего, что дети родителей с тяжелыми формами шизофрении чаще обнаруживали психические отклонения и совершали преступления на поздних стадиях своего развития.
Долгосрочное (лонгитюдное) исследование - исследование, в котором те же самые испытуемые наблюдаются в течение длительного периода времени.
КОРРЕЛЯЦИОННЫЙ АНАЛИЗЕще Гиппократ обратил внимание на то, что между телосложением и темпераментом людей, между строением их тела и предрасположенностью к заболеваниям существует определенная связь.
Чаще всего рассматриваются простейшие ситуации, когда в ходе исследования измеряют значения только одного варьирующего признака генеральной совокупности. Остальные признаки либо считаются постоянными для данной совокупности, либо относятся к случайным факторам, определяющим варьирование исследуемого признака. Как правило, исследования в спорте значительно сложнее и носят комплексный характер. Например, при контроле за ходом тренировочного процесса измеряется спортивный результат, и одновременно может оцениваться целый ряд биомеханических, физиологических, биохимических и других параметров (скорость и ускорения общего центра масс и отдельных звеньев тела, углы в суставах, сила мышц, показатели систем дыхания и кровообращения, объем физической нагрузки и энергозатраты организма на ее выполнение и т. д.). При этом часто возникает вопрос о взаимосвязи отдельных признаков. Например, как зависит спортивный результат от некоторых элементов техники спортивных движений? как связаны энергозатраты организма с объемом физической нагрузки определенного вида? насколько точно по результатам выполнения некоторых стандартных упражнений можно судить о потенциальных возможностях человека в конкретном виде спортивной деятельности? и т. п. Во всех этих случаях внимание исследователя привлекает зависимость между различными величинами, описывающими интересующие его признаки.
Этой цели служит математическое понятие функции, имеющее в виду случаи, когда определенному значению одной (независимой) переменной Х, называемой аргументом , соответствует определенное значение другой (зависимой) переменной Y, называемой функцией . Однозначная зависимость между переменными величинами Y и X называется функциональной , т.е. Y = f(X) (“игрек есть функция от икс”).
Например, в функции Y = 2X каждому значению X соответствует в два раза большее значение Y . В функции Y = 2X 2 каждому значению Y соответствует 2 определенных значения X . Графически это выглядит так (рис.1.1, 1.2 соответственно):
Рис.1.1. Рис.1.2.
Но такого рода однозначные или функциональные связи между переменными величинами встречаются не всегда. Известно, например, что между ростом (длиной тела) и массой человека существует положительная связь: более высокие индивиды имеют обычно и большую массу, чем индивиды низкого роста. То же наблюдается и в отношении качественных признаков: блондины, как правило, имеют голубые, а брюнеты - карие глаза. Однако из этого правила имеются исключения, когда сравнительно низкорослые индивиды оказываются тяжелее высокорослых, и среди населения хотя и нечасто, но встречаются кареглазые блондины и голубоглазые брюнеты. Причина таких “исключений” в том, что каждый биологический признак, выражаясь математическим языком, является функцией многих переменных; на его величине сказывается влияние и генетических и средовых факторов, в том числе и случайных, что вызывает варьирование признаков. Отсюда зависимость между ними приобретает не функциональный, а статистический характер , когда определенному значению одного признака, рассматриваемого в качестве независимой переменной, соответствует не одно и то же числовое значение, а целая гамма распределяемых в вариационный ряд числовых значений другого признака, рассматриваемого в качестве независимой переменной. Такого рода зависимость между переменными величинами называется корреляционной или корреляцией (термин “корреляция” происходит от лат. correlatio - соотношение, связь). При этом данный вид взаимосвязи между признаками проявляется в том, что при изменении одной из величин изменяется среднее значение другой.
Если функциональные связи одинаково легко обнаружить и на единичных, и на групповых объектах, то этого нельзя сказать о связях корреляционных, которые изучаются только на групповых объектах методами математической статистики.
Задача корреляционного анализа сводится к установлению направления и формы связи между признаками, измерению ее тесноты и к оценке достоверности выборочных показателей корреляции.
Корреляционная связь между признаками может быть линейной и криволинейной (нелинейной), положительной и отрицательной.
Прямая корреляция отражает однотипность в изменении признаков: с увеличением значений первого признака увеличиваются значения и другого, или с уменьшением первого уменьшается второй.
Обратная корреляция указывает на увеличение первого признака при уменьшении второго или уменьшение первого признака при увеличении второго.
Например, больший прыжок и большее количество тренировок - прямая корреляция, уменьшение времени, затраченного на преодоление дистанции, и большее количество тренировок - обратная корреляция.
1.2. Корреляционные поля и цель их построения
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i
, y i
) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i
и y i
. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i
и y i
.
Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i
и y i
г
рафически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания
или корреляционным полем
.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: m
x
, m
y
– средние значения (математические ожидания); s
x
,
s
y
– стандартные отклонения случайных величин Х
и Y
и р
– коэффициент корреляции, который является мерой связи между случайными величинами Х
и Y
.
Если р = 0, то значения, x i
, y i
, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у
в пределах области, ограниченной окружностью (рис.1.3, а). В этом случае между случайными величинами Х
и Y
отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х
и Y
.
Рис.1.3. Графическая интерпретация взаимосвязи между показателями.
Если р = 1 или р = -1, то между случайными величинами Х
и Y
существует линейная функциональная зависимость (Y = c + dX)
. В этом случае говорят о полной корреляции. При р = 1 значения x i
, y i
определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i
значения y i
также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рис.1.3, б).
В промежуточных случаях (-1 < p < 1)
точки, соответствующие значениям xi ,
y i
,
попадают в область, ограниченную некоторым эллипсом (рис.1.3, в. г), причем при p > 0
имеет место положительная корреляция (с увеличением x i
значения y i
имеют тенденцию к возрастанию), при p < 0
корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.
Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (рис.1.3, д).
Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.
Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X)
, где признак Y
– зависимая переменная
, или функция
от независимой переменной X
, называемой аргументом
. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
Просмотрите примеры решения задач. Пример 1.2. Определить форму и направление взаимосвязи между показателями пульса покоя и абсолютными значениями пробы PWC 170 у 13 исследуемых с помощью построения графика корреляционного поля, если данные выборок таковы:
x i
, уд/мин ~ 80; 72; 71; 80; 84; 82; 78; 70; 83; 72; 72; 73; 81
y i
, кГм/мин ~ 858; 979; 1071; 920; 982; 1000; 1004; 1022; 807; 1099; 817; 879; 982
Решение
1. Построим график данного корреляционного поля, отложив на оси Х в порядке возрастания показатели пульса покоя, на оси Y - абсолютные значения пробы PWC 170
.
2. Сделать вывод о форме и направлении взаимосвязи между исследуемыми показателями.
Вывод: график данного корреляционного поля позволяет предположить, что, возможно, между пульса покоя и абсолютными значениями пробы PWC 170 у исследуемой группы наблюдается прямая, обратная зависимость, т.е. со снижением показателя пульса покоя происходит увеличение абсолютных значений PWC 170 .
Самостоятельно решите следующие задачи:
Задача 1 . Определить форму и направление взаимосвязи между результатами в беге на первой и второй половине дистанции 400 м у 13 исследуемых с помощью построения графика корреляционного поля, если данные выборок таковы:
x i
, с ~ 25,2; 26,4; 26,0; 25,8; 24,9; 25,7; 25,7; 25,7; 26,1; 25,8; 25,9; 26,2; 25,6 (первые 200 м).
y i
, с ~ 30,8; 29,4; 30,2; 30,5; 31,4; 30,3; 30,4; 30,5; 29,9; 30,4; 30,3; 30,5; 30,6 (последние 200 м).
Задача 2 . Определить форму и направление взаимосвязи между результатами в толчке штанги и прыжка в высоту с места у 12 тяжелоатлетов весовой категории до 60 кг с помощью построения графика корре-ляционного поля, если данные выборок таковы:
Результат в толчке: x i
, кг ~ 107,5; 110; 110; 115; 115; 107,5; 107,5; 120; 122,5; 112,5; 120; 110.
Прыжок в высоту с места: y i
, см ~ 57; 60; 58; 61; 63; 58; 55; 64; 65; 64; 66; 61.
Задача 3 . Определить форму и направление взаимосвязи между результатами кистевой динамометрии правой и левой рук у 7 школьников с помощью построения графика корреляционного поля, если данные выборок таковы:
Правая рука: x i
, кГ ~ 14,0; 14,2; 14,9; 15,4; 16,0; 17,2; 18,1.
Левая рука: y i
, кГ ~ 12,1; 13,8; 14,2; 13,0; 14,6; 15,9; 17,4.
1.3. Коэффициенты корреляции и их свойства.
Коэффициент корреляции р
для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n
пар значений (x i
, y i
), полученную при совместном измерении двух признаков Х
и Y
. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции
(или просто коэффициентом корреляции
). Его принято обозначать символом r
.
Коэффициенты корреляции - удобный показатель связи, получивший широкое применение в практике. К их основным свойствам необходимо отнести следующие:
1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи.
2. Значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 < r < 1
.
3. При независимом варьировании признаков, когда связь между ними отсутствует, г = 0
.
4. При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный (+)
знак и находится в пределах от 0 до +1, т.е. 0 < r 1
.
5. При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным (–)
знаком и находится в пределах от 0 до –1, т.е. -1 < r <0
.
6. Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к ô1ô. Если r =
1) высокая степень взаимосвязи – значения коэффициента корреляции находится в пределах от 0,7 до 0,99;
2) средняя степень взаимосвязи – значения коэффициента корреляции находится в пределах от 0,5 до 0,69;
3) слабая степень взаимосвязи – значения коэффициента корреляции находится от 0,2 до 0,49.
1.4. Нормированный коэффициент корреляции Браве-Пирсона
В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r
Браве–Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений x i
и y i
согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х
и Y
. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона (
Социальные психологи, как правило, стремятся не только описать социальное поведение. Цель социальной науки - понять отношения между переменными и быть в состоянии предсказать, когда и как будут себя вести люди в разных социальных ситуациях. Например, каковы взаимосвязи между порнографией, которую видят люди, и вероятностью их участия в актах насилия? Существует ли связь между количеством насилия, которое дети видят по телевизору, и их агрессивностью? Чтобы ответить на такие вопросы, исследователи часто используют другой подход - корреляционный метод.
Корреляционный метод (correlational method) - это техника, посредством которой систематически измеряются две или более переменные и отношения между ними. В корреляционном исследовании поведение людей и установки можно определить по-разному. Так же как и в методе наблюдения, исследователи иногда непосредственно наблюдают за человеческим поведением. Например, применив корреляцонный метод, психологи имеют возможность проверить взаимосвязь между детским агрессивным поведением и просмотром телевизионных передач с насилием. Они также могут наблюдать за детьми на игровой площадке, однако теперь стоит иная цель - оценить взаимозависимость, или корреляцию, между детской агрессивностью и другими факторами, как, например, их привычкой смотреть телевизор, что исследователи также измеряют.
Метод корреляции (correlational method) - техника, при помощи которой систематически измеряются две или более переменные и оценивается зависимость между ними (например, как можно, зная одну переменную, предсказать другую).
Исследователи проверяют наличие подобных взаимосвязей путем подсчета коэффициента корреляции, статистического показателя, оценивающего, насколько вы можете предсказывать одну переменную, зная другую, например, насколько вы можете предсказывать вес человека, зная его рост. Положительная корреляция означает, что увеличение значения одной переменной сопровождается повышением значения другой.
Высота и вес позитивно коррелируют между собой; чем человек выше, тем больше будет его вес. Отрицательная корреляция, наоборот, подразумевает, что увеличение показателей одной переменной связано с уменьшением показателей другой. Если бы высота и вес людей коррелировали отрицательно, мы бы выглядели очень смешно - коротышки, например, дети походили бы на пингвинов, а высонимно) об их поведении или отношениях. Опросы - наиболее удобный способ измерения отношений людей; например, людям можно позвонить по телефону и спросить, какого кандидата они будут поддерживать на приближающихся выборах или что они думают по поводу тех или иных социальных проблем. Исследователи нередко применяют корреляционный метод к результатам опросов, чтобы определить, насколько ответы испытуемых на одни вопросы предопределяют их ответы на другие. Политологи, например, могут быть заинтересованы в том, можно ли на основе мнений людей о какой-либо социальной проблеме, такой как регулирование торговли оружием, предсказывать, как они проголосуют. Психологи часто используют опросы для содействия пониманию социального поведения и отношений, например, рассматривая, связано ли то, что говорят люди о количестве читаемой ими порнографии, с их отношением к женщинам.
Опросы - исследования, в которых репрезентативной выборке людей задаются вопросы (часто анонимно) об их поведении или отношениях.
У опросов есть много преимуществ, в частности, они позволяют исследователям судить о взаимосвязях между труднонаблюдаемыми переменными, подобными тому, насколько часто люди занимаются безопасным сексом. Когда интересующие переменные нельзя легко пронаблюдать, исследователи полагаются на опросы, в которых людей спрашивают об их убеждениях, отношениях и поведении. Исследователь проверяет наличие взаимосвязей между полученными ответами, например, чаще ли кие люди, как игроки в баскетбол, были бы совсем тощими - «кожа и кости»! Возможно, конечно, что две переменные совершенно не коррелируют, так что исследователь не сможет предсказать одну переменную, зная другую.
Коэффициент корреляции (correlation coefficient) - статистическая величина, которая оценивает, насколько хорошо вы можете предсказать одну переменную, зная другую; скажем, насколько вы можете предсказать вес людей, зная их рост.
Коэффициент корреляции выражается числом от -1,00 до +1,00. Корреляция 1,00 означает, что две переменные полностью коррелируют в позитивном направлении; таким образом, зная один показатель у человека, исследователь может точно определить второй. В повседневной жизни полные корреляции, конечно, встречаются редко. Например, в одном исследовании было выявлено, что корреляция между ростом и весом составляет 0,47 для выборки мужчин в возрасте 18-24 лет (Freedman, Pisani, Purves & Adhikari, 1991). Это означает, что в среднем более высокие люди тяжелее низкорослых, но есть и исключения. Корреляция -1,00 означает полную отрицательную корреляцию, а нулевая корреляция означает, что две переменные не коррелируют.
Корреляционно-регрессионный анализ - один из наиболее широко распространенных и гибких приемов обработки статистических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчитал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать
французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине-конце XIX в. идеи о количественном измерении связей явлений. В разное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Германия), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.
Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависимость признака от определяющих его факторов.
Корреляционно-регрессионный анализ предполагает следующие этапы:
Предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки результативного показателя и перечень наиболее существенных факторов);
Сбор информации и ее первичная обработка;
Построение модели (один из важнейших этапов);
Оценка и анализ модели.
Задачи корреляционного анализа сводятся к выделению важнейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неизвестных причин связей и оценке факторов, оказывающих максимальное влияние на результат.
Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его использовании для оценки неизвестных значений зависимой переменной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.
При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Все факторные признаки должны иметь количественное (цифровое) выражение.
3. Необходимо наличие массовости значений изучаемых показателей.
4. Причинно-следственные связи между явлениями и процессами могут быть описаны линейной или приводимой к линейной формой зависимости.
5. Не должно быть количественных ограничений на параметры модели связи.
6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.
Корреляция - статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие варианты зависимостей.
1. Парная корреляция - связь между двумя признаками (результативным и факторным).
2. Частная корреляция - зависимость между результативным и одним из факторных признаков при фиксированном значении других факторных признаков.
3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционная связь - частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.
Обязательное условие применения корреляционного метода - массовость значений изучаемых показателей, что позволяет выявить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чисел, влияние других факторов сглаживается, нейтрализуется. Наличие корреляционной связи присуще многим общественным явлениям.
Показатели тесноты связи между признаками называют коэффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:
1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);
2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);
3) количественная шкала используется для описания количественных показателей - например, линейный коэффициент корреляции и корреляционное отношение.
Корреляционный анализ - метод статистического исследования экспериментальных данных, позволяющий определить степень линейной зависимости между переменными.
Парная линейная корреляция - простейшая система корреляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении одного важнейшего фактора, который и определяет вариацию результативного признака.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются различные варианты формул расчета данного коэффициента:
Где ,
где n - число наблюдений.
При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:
,
где r принимает значения в пределах от -1 до 1.
Чем ближе линейный коэффициент корреляции по абсолютной величине к I, тем теснее связь. С другой стороны, если он равен 1, то зависимость является не стохастической, а функциональной. Знак при нем указывает направление связи: знак «-» соответствует обратной зависимости, «+» - прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Степень взаимного влияния факторов в зависимости от коэффициента корреляции приведена в табл. 1.
Таблица 1
Количественная оценка тесноты связи
при различных значениях коэффициента корреляции
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.
Термин «регрессия» (произошел от латинского regression - отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с анализом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему удалось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом населения и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различных значений среднего роста родителей, он получил почти прямую линию, проходящую через нанесенные точки.
Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а линию, проходящую через точки на графике, - линией регрессии.
Регрессивный анализ применяется в тех случаях, когда необходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, независимую от факторов дисперсию и стандартное отклонение.
Одна из проблем построения уравнения регрессии - размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.
При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.
Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой.
Линейная регрессия сводится к нахождению уравнения вида:
где х - индивидуальное значение факторного признака; а 0 , а 1 - параметры уравнения прямой (уравнения регрессии); у х - теоретическое значение результирующего фактора.
Данное уравнение показывает среднее значение изменения результативного признака х на одну единицу его измерения. Знак параметра показывает направление этого изменения. На практике построение линейной регрессии сводится к оценке ее параметров а 0 , а 1.
При классическом подходе параметры уравнения а 0 , а 1 находятся методом наименьших квадратов, который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных, теоретических (у х) была бы минимальной.
Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
В уравнении прямой параметр а 0 экономического смысла не имеет, параметр а 1 является коэффициентом регрессии и показывает изменение результативного признака при изменении факторного на единицу.
Или по следующим формулам:
Где , , ,
Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выраженная формулой
Часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он рассчитывается для каждой точки и в среднем по всей совокупности по формуле:
где у" х - первая производная уравнения регрессии.
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак при изменении факторного признака на 1%.
Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них заложены, должны быть вычислены частные (средние) коэффициенты эластичности .
Различия в единицах измерения факторов устраняют с помощью частных (средних) коэффициентов эластичности , которые рассчитываются по формуле:
где а i - коэффициент регрессии при факторе х; - средние значения факторного и результативного признаков.
Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном положении других факторов.
Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерминации , представляющий собой квадрат линейного коэффициента корреляции r 2 . Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредственно указывает степень влияния независимого фактора на результативный показатель.
Степень тесноты связи полностью соответствует теоретическому корреляционному отношению , которое является универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.
С помощью теоретического корреляционного отношения измеряется теснота связи любой формы, а посредством линейного коэффициента корреляции - только прямолинейной связи.
Теоретическое корреляционное отношение рассчитывается по формулам:
где - факторная дисперсия; - общая дисперсия.
Для упрощения расчетов меры тесноты корреляционной связи часто применятся индекс корреляционной связи, который определяется по формулам:
где - остаточная дисперсия.
Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания - максимального правдоподобия, наименьших квадратов и моментов - дают оптимальные решения и соответственно приводят к оценкам, обладающим линейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с одинаково высокой степенью достоверности описывать многообразные процессы, происходящие в реальности, их дополняет большой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оценивания предпочтительным остается приведение к простой линейной форме.