Выборочное уравнение линейной регрессии y на x. Простые регрессионные планы. Применение линии регрессии для прогноза

ЛАБОРАТОРНАЯ РАБОТА № 4

Вычисление выборочного коэффициента корреляции и построение эмпирической и теоретической линии регрессии

Цель работы : ознакомление с прямолинейной корреляцией; выработка умения и навыков вычисления и выборочного коэффициента корреляции и составления уравнений теоретических линий регрессии.

Содержание работы : на основе опытных данных вычислить выборочный коэффициент корреляции, построить для него доверительный интервал с надежностью , дать смысловую характеристику полученного результата, построить эмпирическую и теоретическую линии регрессиина
по предложной выше методике.

Метод корреляции

С помощью метода корреляции в математической статистике определяют взаимосвязь явлений. Особенность изучения этой взаимосвязи состоит в том, что нельзя изолировать влияние посторонних факторов. Поэтому метод корреляции применяется для того, чтобы при сложном взаимодействии посторонних влияний факторов определить, какова была бы зависимость между признаками, если бы посторонние факторы не изменялись, т. е. условия проведения опыта были бы адекватны.

В теории корреляции рассматриваются две задачи:

1) определение параметра корреляционной связи между обследуемыми признаками;

2) определение тесноты этой связи. О характере связи между признаками
иможно судить по расположению точек в системе координат (корреляционное поле). Если эти точки располагаются около прямой, то предполагается, что между условной среднейи
существует линейная зависимость. Уравнение
на
.

Уравнение
называется уравнением линии регрессии
на. Если обе линии регрессии - прямые, то имеет место линейная корреляция.

Уравнения прямых регрессии

и
составляются на основании выборочных данных, приведенных в корреляционной таблице.

- средние значения соответствующих признаков;

- коэффициенты регрессии на
и
на- вычисляются по формулам

где
- среднее значение произведения
на;

и
- дисперсии признаков
и.

В прямолинейной корреляции теснота связи между признаками характеризуется выборочным коэффициентом корреляции , который принимает значения в пределах от «-1» до «+1».

Если значение коэффициента корреляции отрицательное, то это говорит об обратной линейной связи между изучаемыми признаками; если оно положительное – о прямолинейной связи. Если коэффициент корреляции равен 0, то линейной связи между признаками нет.

Выборочный коэффициент корреляции вычисляется по формуле:

r в
(1)

где - среднее значение произведений
на

и - средние значения соответствующих признаков;

и - средние квадратические отклонения, найденные для признака
и для признака.

МЕТОДИКА ВЫПОЛНЕНИЯ РАБОТЫ

Даны статистические данные температуры смазочного масла заднего моста автомобиля в зависимости от температуры окружающего воздуха
.

1. ВЫЧИСЛЕНИЕ ВЫБОРОЧНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Данные условия сведем в корреляционную таблицу

Таблица 1.

								n y (частота признака у)

n x (частота прихнака х)

Найдем числовые характеристики выборки

1.1. Найдем средние значения признаков Х и Y

1.2. Найдем выборочные дисперсии

1513-1281,64=231,36

1.3. Выборочное среднее квадратическое отклонение

1.4. Выборочный корреляционный момент

1/50(40 + 120+720+480+200+800+900+4200+1120+2160+4500+5280+4400+1320+1560) – 497,62=

1/50(27800) – 497,62 = 556 – 497,62 = 58,38

1.5. Выборочный коэффициент корреляции

0,77

2. Проверим значимость коэффициента корреляции, для этого проверим статистику:

=
≈ 8,3

Найдем
из таблицы распределения Стьюдента (Приложение) по наиболее употребляемому в технике уровню значимости
и Y – числу степеней свободы K= n – 2 = 50 – 2 = 48,
2,02

Так как
= 8,3 > 2,02, то найденный коэффициент корреляции значительно отличается от нуля. Это означает, что переменные Х иY связаны линейной регрессионной зависимостью вида

Таким образом, коэффициент корреляции показывает тесную линейную связь, существующую между температурой смазочного масла заднего моста и температурой окружающего воздуха.

3. Составление эмпирических линейных уравнений регрессии Y на Х и Х на Y .

3.1. Эмпирическое линейное уравнение регрессии У на Х.

3.2. Эмпирическое линейное уравнение регрессии Х на Y .

=35,8+2,34(y-13,9)

4. ПОСТРОЕНИЕ ЭМПИРИЧЕСКОЙ ЛИНИИ РЕГРЕССИИ Y НА X .

Для построения эмпирической линии регрессии составим таблицу 2.

Таблица 2

- условная средняя значений признака при условии, чтопринимает определенное значение, т.е.

;

Принимая пары чисел
за координаты точек, строим их в системе координат и соединяем отрезками прямой. Полученная ломаная линия и будет эмпирической линией регрессии.

Уравнение теоретической прямой линии регрессии Y на X имеет вид:

;
, где- выборочная средняя признака;

- выборочная средняя признака .

;
;
;
;
.

Уравнение прямой регрессии Y на X запишется так:

или окончательно

Построим обе линии регрессии (рис.1)

Рис. 1. Эмпирическая и теоретическая линии регрессии

при
; при

5. Произведем содержательную интерпретацию результатов анализа .

Между температурой смазочного масла заднего моста автомобиля и температурой окружающего воздуха существует тесная прямая линейная корреляционная связь (r в =0,77). Это можно утверждать с вероятностью 0,95.

Уравнение
характеризует как в среднем температура смазочного масла заднего моста автомобиля зависит от температуры окружающего воздуха.

Коэффициент линейной регрессии (
) говорит о том, что, если температуру окружающего воздуха увеличить в среднем на 1 градус, то температура смазочного масла заднего моста автомобиля возрастет в среднем на 0,25 градуса.

Уравнение
характеризует то, как в температура смазочного масла заднего моста автомобиля зависит от температуры окружающего воздуха. Если температура смазочного масла заднего моста автомобиля в среднем необходимо увеличить на 1 градус, то температуру окружающего воздуха необходимо увеличить в среднем на 2,34 градуса(
)

ВАРИАНТЫ ИНДИВИДУАЛЬНЫХ ЗАДАНИЙ

1. Распределение Х - стоимости основных производственных средств (млн.руб) и У - средняя месячная выработка продукции на одного рабочего

2. Распределение 200 цилиндрических фонарных столбов по длине X (в см) и по весу Y (в кг) дается в следующей таблице:

3. Распределение 100 фирм по производственным средствам X (в ден. ед.) и по суточной выработке Y (в т) дается в следующей таблице:

При большом числе испытаний одно и то же значение X может встретиться nx раз, одно и то ж значение У может встретиться ny раз и одна и та же пара чисел (x; у) может встретиться nxy раз,

причем обычно— объем выборки.

Поэтому данные наблюденийГруппируют, т. е. подсчитывают nx, ny, nxy. Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной.

Если обе линии регрессии У на X и X на У — прямые, то корреляция является линейной.

Выборочное уравнение прямой линии регрессии У на X имеет вид:

Параметры pyx и В, которые определяются методом наименьших квадратов, имеют вид:

где yx — условная средняя; XВ и Ув — выборочные средние признаков X и У; —x и —у — выборочные средние квадратические отклонения; гВ — выборочный коэффициент корреляции.

Выборочное уравнение прямой линии регресии X на У имеет вид:

Считаем, что данные наблюдений над признаками X и У заданы в виде корреляционной таблицы с равноотстоящими вариантами.

Тогда переходим к условным вариантам:

где С1 — варианта признака X, имеющая наибольшую частоту; С 2 — варианта признака У, имеющая наибольшую частоту; h1 — шаг (разность между двумя соседними вариантами X); h2 — шаг (разность между двумя соседними вариантами У).

Тогда выборочный коэффициент корреляции

Величины u, v, su, sv могут быть найдены методом произведений, либо непосредственно по формулам

Зная эти величины, найдем параметры, входящие в уравнения регрессии, по формулам

ТИПОВЫХ КОНТРОЛЬНОЙ РАБОТЫ ПО РАЗДЕЛУ 6. 12.1. Случайные события

12.1. Случайные события

12.1.1. В ящике находятся 6 одинаковых пар перчаток черного цвета и 4 одинаковых пары перчаток бежевого цвета. Найти вероятность того, что две наудачу извлеченные перчатки образуют пару.

Рассмотрим событие А — две извлеченные наудачу перчатки образуют пару; и гипотезы: B1 — извлечена пара перчаток черного цвета, B2 — извлечена пара перчаток бежевого цвета, B3 — извлеченные перчатки пару не образуют.

Вероятность гипотезы B1 по теореме умножения равна произведению вероятностей того, что первая перчатка черного цвета и вторая перчатка черного цвета, т. е.

Аналогично, вероятность гипотезы Bi равна:

Так как гипотезы B1, B2 и B3 составляют полную группу событий, то вероятность гипотезы B3 равна:

По формуле полной вероятности имеем:

где Pb (A) есть вероятность того, что пару образуют две черные перчатки и Pb1 (A) = 1; pB1 (A) — вероятность того, что пару образуют две бежевые перчатки и Pb2 (A) = 1; и, наконец, РВз(A) — вероятность того, что пару образуют перчатки разного цвета и

Таким образом, вероятность того, что две наудачу извлеченные перчатки образуют пару равна

12.1.2. В урне находятся 3 шара белого цвета и 5 шаров черного цвета. Наудачу по одному извлекают 3 шара и после каждого извлечения возвращают обратно в урну. Найти вероятность того, что среди извлеченных шаров окажется:

а) ровно два белых шара, б) не мене двух белых шаров.

Решение. Имеем схему с возвращением, т. е. каждый раз состав шаров не изменяется:

а) при извлечении трех шаров два из них должны быть белыми, а один черный. При этом черный может оказаться или первым, или вторым, или третьим. Применяя совместно теоремы сложения и умножения вероятностей, имеем:

б) вынуть не менее двух белых шаров означает, что белых шаров должно быть или два, или три:

12.1.3. В урне находятся 6 белых и 5 черных шаров. Три шара наудачу последовательно извлекаются без возвращения их в урну. Найти вероятность, что третий по счету шар окажется белым.

Решение. Если третий по счету шар должен быть белым, то первые два шара могут быть белыми, или белым и черным, или черным и белым, или черными, т. е. имеются четыре группы не-

совместных событий. Применяя к ним теорему умножения вероятностей, получим:

P = P1(5 . P2(5 . P3(5 + (P1(5 . Р2ч. P3(5 + P14 . P2(5 . P3(5) + Р1ч. Р2ч. P3(5 =

A A 4 A A 5 A A 5 A A 6=540 = A

П. 10 . 9 + И. 10 . 9 + И. 10 . 9 + И. 10 . 9 = 990 = IT

Титульный лист методических Форма

Министерство образования и науки Республики Казахстан

Председатель УМС _______________ « ___»___________20__ г.

ОДОБРЕНО:

Начальник ОПиМОУП _________________ « ___»___________20__ г.

Одобрена учебно-методическим советом университета

« ___»___________20 __г. Протокол №____

При изучении темы « Сведения из теории вероятностей и математической статистики» особое внимание следует обратить способы представления и обработки статистических данных. Теоретические и выборочные характеристики. Общая схема проверки гипотез. Ошибки 1 и 2 рода. Точечные и интервальные оценки. Статистические свойства оценок. Анализ зависимостей двух случайных величин.

Тема. Метод наименьших квадратов.

h1 , h2 – шаги, т. е. разности между двумя соседними вариантами.

В этом случае выборочный коэффициент корреляции

причем слагаемое удобно вычислять, используя расчетную таблицу 1.

Величины могут быть найдены по формулам

Для обратного перехода применяются выражения

Пример Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы.

Решение. Для упрощения расчетов перейдем к условным вариантам, которые рассчитываются по формулам

и составим преобразованную корреляционную таблицу с условными вариантами

Затем составим новую таблицу, в которую внесем посчитанные значения в правый верхний угол заполненной клетки и в левый нижний угол, после чего суммируем верхние значения по строкам для получения значений Vj и нижние значения по столбцам для Ui и подсчитаем величины и .

								vjVj

Выражается через выборочные значения (а, 7),

Теперь обратимся к выборочным данным о расходах, собранным путем выборочного опроса части жителей городка. Считая выборку репрезентативной , предположим, для простоты, она включает по одному человеку из каждой группы дохода. Отображая выборочные точки на графике, мы можем провести через них линию регрессии , соответствующую уравнению Y = а + ЬX, коэффициенты а и b в котором рассчитываются по обычным формулам линейной регрессии . Если учесть, что наблюдаемые значения К. не лежат на линии регрессии (a+bXt), то в это уравнение надо добавить выборочные случайные возмущения е (ek = Yk-a-bX , являющиеся аналогами случайных возмущений в генеральной совокупности

Он характеризует долю вариации (разброса) зависимой переменной , объясненной с помощью данного уравнения. В качестве меры разброса зависимой переменной обычно используется ее дисперсия, а остаточная вариация может быть измерена как дисперсия отклонений вокруг линии регрессии . Если числитель и знаменатель вычитаемой из единицы дроби разделить на число наблюдений л, то получим, соответственно, выборочные оценки остаточной дисперсии и дисперсии зависимой переменной . Отношение остаточной и общей дисперсий представляет собой долю необъясненной дисперсии. Если же эту долю вычесть из единицы, то получим долю дисперсии зависимой переменной , объясненной с помощью регрессии. Иногда при расчете коэффициента детерминации для получения несмещенных оценок дисперсии в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы тогда

Требуется по полученным данным найти выборочное уравнение прямой линии средней квадратической регрессии

Из рис. 16.8 видно, что выборочные линии регрессии имеют разный наклон и разные точки пересечения с осью У для различных выборок. Более того, при положительном наклоне генеральной регрессии наклон выборочной линии регрессии может оказаться для некоторых выборок отрицательным, что, однако, не будет свидетельствовать об истинной отрицательной связи исследуемых величин. Для того чтобы убедиться в этомт следует помимачюэффици-ентов регрессии находить их стандартные отклонения и f-статисти-ки, по которым можно судить о статистической значимости полученных выборочных коэффициентов регрессии.

Реальная трудность применения рассмотренного метода состоит в отыскании переменных, пригодных для роли инструментальных. Истинное распределение ненаблюдаемо и поэтому трудно быть уверенным в том, что выбранные инструментальные переменные действительно не коррелируют в пределе с возмущениями. С другой стороны, эти переменные должны обладать довольно высокой корреляцией с переменными X, иначе выборочные дисперсии для оценок, полученных с помощью

Две случайные величины могут быть связаны либо функциональной зависимостью, либо статистической зависимостью, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе или одна из двух величин подвержены еще воздействию случайных факторов. Причем среди этих факторов могут быть и общие для обеих величин, т.е. воздействующие на обе случайные величины. В этих случаях возникает статистическая зависимость.

Статистической называется зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, изменение одной из величин вызывает изменение среднего значения другой. В этом случае статистическая зависимость называется корреляционной. Например, связь между количеством удобрений и урожаем, между вложенными средствами и прибылью.

Среднее арифметическое наблюдавшихся значений случайной величины Y , соответствующих значению X=x, называется условным средним x и является точечной оценкой математического ожидания. Аналогично определяется условное среднее y .

Условное математическое ожидание M (Y | x) является функцией отx, следовательно, его оценка, т.е. условное среднее x , также функция от x:

x = f*(x) .

Это уравнение называется выборочным уравнением регрессии Y на X . Функцию f*(x) называют выборочной регрессией , а ее график – выборочной линией регрессии Y на X . Аналогично уравнение

Y = φ * (y),

функцию φ * (y) и ее график называют выборочным уравнением регрессии, выборочной регрессией и выборочной линией регрессии X на Y .

Отыскание параметров функций f*(x) и φ * (y) , если вид их известен, оценка тесноты связи между величинами X и Y – задачи корреляционного анализа. Задачей регрессионного анализа есть оценка параметров функции регрессии β i и остаточной дисперсии σ ост 2 .

Остаточная дисперсия – та часть рассеивания Y , которую нельзя объяснить действием X. σ ост 2 может служить для оценки точности подбора функции регрессии и полноты набора признаков, включенных в анализ. Вид зависимости g(x) выбирают, исходя из характера поля корреляции и природы процесса.

Оценкой коэффициента линейной регрессии β является выборочный коэффициент регрессии Y на X r yx . Значения параметра r yx и параметра b уравнения прямой линии регрессии

Y = r yx x + b

подбираются таким образом, чтобы точки (x 1 ,y 1), (x 2 ,y 2),…,(x n ,y n), построенные по данным наблюдений, на плоскости xOy лежали как можно ближе к прямой линии регрессии. Это равносильно требованию, чтобы сумма квадратов отклонений функции Y(x i) от y i была минимальной. В этом суть МНК.

Выборочное уравнение прямой линии регрессии Y на X может быть записано в таком виде:

x – = r в s y /s x (x – ) ,

где s x и s y – выборочные средние квадратические отклонения X и Y , а

r в = –

выборочный коэффициент корреляции, вычисленный по сгруппированным данным. Здесь n xy – частота пары вариант (x,y). Аналогично находят выборочное уравнение прямой линии регрессии X на Y:

Y – = r в s x /s y (y – )

Для того, чтобы установить, соответствует ли найденная по выборке математическая модель зависимости между Y и X статистическим данным, следует оценить значимость коэффициентов регрессии и значимость уравнения регрессии.

Проверить значимость коэффициентов регрессии означает установить, достаточна ли величина оценки для обоснованного вывода о том, что коэффициент регрессии отличен от нуля. Выдвигают гипотезу H 0: коэффициент регрессии равен нулю β =0. Проверку гипотезы H 0 осуществляют с помощью распределенной по закону Стьюдента статистики

t = │b / s b │

где b – оценка коэффициента регрессии, а s b – оценка его среднего квадратического отклонения, другими словами стандартная ошибка оценки. Если │t │≥ t кр (α, k), нулевую гипотезу о равенстве нулю коэффициента регрессии отвергают, и коэффициент считают значимым. При │t │< t кр нет оснований отвергать нулевую гипотезу.