Какое распределение называется нормальным. Нормальное распределение. Непрерывные распределения в EXCEL. Нормальное распределение в Excel

Случайные величины связаны со случайными событиями. О случайных событиях говорят тогда, когда оказывается невозможным однозначно предсказать результат, который может быть получен в тех или иных условиях.

Предположим, мы бросаем обыкновенную монету. Обычно результат этой процедуры не является однозначно определенным. Можно лишь с уверенностью утверждать, что произойдет одно из двух: либо выпадет "орел", либо "решка". Любое из этих событий будет случайным. Можно ввести переменную, которая будет описывать исход этого случайного события. Очевидно, что эта переменная будет принимать два дискретных значения: "орел" и "решка". Поскольку мы заранее точно не можем предугадать, какое из двух возможных значений примет эта переменная, можно утверждать, что в этом случае мы имеем дело со случайными величинами.

Предположим теперь, что в эксперименте мы проводим оценку времени реакции испытуемого при предъявлении какого-либо стимула. Как правило, оказывается, что даже тогда, когда экспериментатор предпримет все меры к тому, чтобы стандартизировать экспериментальные условия, минимизировав или даже сведя к нулю возможные вариации в предъявлении стимула, измеренные величины времени реакции испытуемого все равно будут различаться. В таком случае говорят, что время реакции испытуемого описывается случайной величиной. Поскольку в принципе в эксперименте мы можем получить любое значение времени реакции – множество возможных значений времени реакции, которые можно получить в результате измерений, оказывается бесконечным, – говорят о непрерывности этой случайной величины.

Возникает вопрос: существуют ли какие-либо закономерности в поведении случайных величин? Ответ на этот вопрос оказывается утвердительным.

Так, если провести бесконечно большое число подбрасываний одной и той же монеты, можно обнаружить, что число выпадений каждой из двух сторон монеты окажется примерно одинаковым, если, конечно, монета не фальшивая и не гнутая. Чтобы подчеркнуть эту закономерность, вводят понятие вероятности случайного события. Ясно, что в случае с подбрасыванием монеты одно из двух возможных событий произойдет непременно. Это обусловлено тем, что суммарная вероятность этих двух событий, иначе называемая полной вероятностью, равна 100%. Если предположить, что оба из двух событий, связанных с испытанием монеты, происходят с равными долями вероятности, то вероятность каждого исхода в отдельности, очевидно, оказывается равной 50%. Таким образом, теоретические размышления позволяют нам описать поведение данной случайной величины. Такое описание в математической статистике обозначается термином "распределение случайной величины" .

Сложнее обстоит дело со случайной величиной, которая не имеет четко определенного набора значений, т.е. оказывается непрерывной. Но и в этом случае можно отметить некоторые важные закономерности ее поведения. Так, проводя эксперимент с измерением времени реакции испытуемого, можно отметить, что различные интервалы длительности реакции испытуемого оцениваются с разной степенью вероятности. Скорее всего, редко, когда испытуемый будет реагировать слишком быстро. Например, в задачах семантического решения испытуемым практически не удается более или менее точно реагировать со скоростью менее 500 мс (1/2 с). Аналогично маловероятно, что испытуемый, добросовестно следующий инструкциям экспериментатора, будет сильно затягивать свой ответ. В задачах семантического решения, например, реакции, оцениваемые более чем 5 с, обычно рассматриваются как недостоверные. Тем не менее со 100%-ной уверенностью можно предполагать, что время реакции испытуемого окажется в диапазоне от О до +со. Но эта вероятность складывается из вероятностей каждого отдельного значения случайной величины. Поэтому распределение непрерывной случайной величины можно описать в виде непрерывной функции у = f (х ).

Если мы имеем дело с дискретной случайной величиной, когда все возможные ее значения заранее известны, как в примере с монетой, построить модель ее распределения, как правило, оказывается не очень сложным. Достаточно ввести лишь некоторые разумные допущения, как мы это сделали в рассматриваемом примере. Сложнее обстоит дело с распределением непрерывных величии, принимающих заранее неизвестное число значений. Конечно, если бы мы, например, разработали теоретическую модель, описывающую поведение испытуемого в эксперименте с измерением времени реакции при решении задачи семантического решения, можно было бы попытаться на основе этой модели описать теоретическое распределение конкретных значений времени реакции одного и того же испытуемого при предъявлении одного и того же стимула. Однако такое не всегда оказывается возможным. Поэтому экспериментатор бывает вынужденным предположить, что распределение интересующей его случайной величины описывается каким-либо уже заранее исследованным законом. Чаще всего, хотя это, возможно, и не всегда оказывается абсолютно корректным, для этих целей используется так называемое нормальное распределение, выступающее в качестве эталона распределения любой случайной величины независимо от ее природы. Это распределение впервые было описано математически еще в первой половине XVIII в. де Муавром.

Нормальное распределение имеет место тогда, когда интересующее нас явление подвержено влиянию бесконечного числа случайных факторов, уравновешивающих друг друга. Формально нормальное распределение, как показал де Муавр, может быть описано следующим соотношением:

где х представляет собой интересующую нас случайную величину, поведение которой мы исследуем; Р – значение вероятности, связанное с этой случайной величиной; π и е – известные математические константы, описывающие соответственно отношение длины окружности к диаметру и основание натурального логарифма; μ и σ2 – параметры нормального распределения случайной величины – соответственно математическое ожидание и дисперсия случайной величины х.

Для описания нормального распределения оказывается необходимым и достаточным определение лишь параметров μ и σ2.

Поэтому если мы имеем случайную величину, поведение которой описывается уравнением (1.1) с произвольными значениями μ и σ2, то можем обозначить его как Ν (μ, σ2), не держа в памяти всех деталей этого уравнения.

Рис. 1.1.

Любое распределение можно представить наглядно в виде графика. Графически нормальное распределение имеет вид колоколообразной кривой, точная форма которой определяется параметрами распределения, т.е. математическим ожиданием и дисперсией. Параметры нормального распределения могут принимать практически любые значения, которые оказываются ограничены лишь используемой экспериментатором измерительной шкалой. В теории значение математического ожидания может равняться любому числу из диапазона чисел от -∞ до +∞, а дисперсия – любому неотрицательному числу. Поэтому существует бесконечное множество различных видов нормального распределения и соответственно бесконечное множество кривых, его представляющих (имеющих, однако, сходную колоколообразную форму). Понятно, что все их описать невозможно. Однако, если известны параметры конкретного нормального распределения, его можно преобразовать к так называемому единичному нормальному распределению, математическое ожидание для которого равно нулю, а дисперсия – единице. Такое нормальное распределение называют еще стандартным или z-распределением. График единичного нормального распределения представлен на рис. 1.1, откуда очевидно, что вершина колоколообразной кривой нормального распределения характеризует величину математического ожидания. Другой параметр нормального распределения – дисперсия – характеризует степень "распластанности" колоколообразной кривой относительно горизонтали (оси абсцисс).

В теории вероятностей рассматривается достаточно большое количество разнообразных законов распределения. Для решения задач, связанных с построением контрольных карт, представляют интерес лишь некоторые из них. Важнейшим из них является нормальный закон распределения , который применяется для построения контрольных карт, используемых при контроле по количественному признаку , т.е. когда мы имеем дело с непрерывной случайной величиной. Нормальный закон распределения занимает среди других законов распределения особое положение. Это объясняется тем, что, во-первых, наиболее часто встречается на практике, и, во-вторых, он является предельным законом, к которому приближаются другие законы распределения при весьма часто встречающихся типичных условиях. Что касается второго обстоятельства, то в теории вероятностей доказано, что сумма достаточно большого числа независимых (или слабо зависимых) случайных величин, подчиненных каким угодно законам распределения (при соблюдении некоторых весьма нежестких ограничений), приближенно подчиняется нормальному закону, и это выполняется тем точнее, чем большее количество случайных величин суммируется. Большинство встречающихся на практике случайных величин, таких, например, как ошибки измерений, могут быть представлены как сумма весьма большего числа сравнительно малых слагаемых - элементарных ошибок, каждая из которых вызвана действием отдельной причины, независящей от остальных. Нормальный закон проявляется в тех случаях, когда случайная переменная Х является результатом действия большого числа различных факторов. Каждый фактор в отдельности на величину Х влияет незначительно, и нельзя указать, какой именно влияет в большей степени, чем остальные.

Нормальное распределение (распределение Лапласа–Гаусса ) – распределение вероятностей непрерывной случайной величины Х такое, что плотность распределения вероятностей при - ¥ <х< + ¥ принимает действительное значение:

Ехр (3)

То есть, нормальное распределение характеризуется двумя параметрами m и s, где m - математическое ожидание; s- стандартное отклонение нормального распределения.

Величина s 2 – это дисперсия нормального распределения.

Математическое ожидание m характеризует положение центра распределения, а стандартное отклонение s (СКО) является характеристикой рассеивания (рис. 3).

f(x) f(x)


Рисунок 3 – Функции плотности нормального распределения с:

а) разными математическими ожиданиями m; б) разными СКО s .

Таким образом, значением μ определяется положением кривой распределения на оси абсцисс. Размерность μ - та же, что и размерность случайной величины X . С ростом математического ожидания mобе функции сдвигается параллельно вправо. С убывающей дисперсией s 2 плотность все больше концентрируется вокруг m, в то время как функция распределения становится все более крутой.

Значением σ определяется форма кривой распределения. Поскольку площадь под кривой распределения должна всегда оставаться равной единице, то при увеличении σ кривая распределения становится более плоской. На рис. 3.1 показаны три кривые при разных σ: σ1 = 0,5; σ2 = 1,0; σ3 = 2,0.

Рисунок 3.1 – Функции плотности нормального распределения с разными СКО s .

Функция распределения (интегральная функция) имеет вид (рис. 4):

(4)

Рисунок 4 – Интегральная (а) и дифференциальная (б) функции нормального распределения

Особенно важно то линейное преобразование нормально распределенной случайной переменной Х , после которого получается случайная переменная Z с математическим ожиданием 0 и дисперсией 1. Такое преобразование называется нормированием:

Его можно провести для каждой случайной переменной. Нормирование позволяет все возможные варианты нормального распределения свести к одному случаю: m = 0, s = 1.

Нормальное распределение с m = 0, s = 1 называется нормированным нормальным распределением (стандартизованным) .

Стандартное нормальное распределение (стандартное распределение Лапласа–Гаусса или нормированное нормальное распределение) – это распределение вероятностей стандартизованной нормальной случайной величины Z , плотность распределения которой равна:

при - ¥ <z < + ¥

Значения функции Ф(z) определяется по формуле:

(7)

Значения функции Ф(z) и плотности ф(z) нормированного нормального распределения рассчитаны и сведены в таблицы (табулированы). Таблица составлена только для положительных значений z поэтому:

Ф (z) = 1 Ф (z) (8)

С помощью этих таблиц можно определить не только значения функции и плотности нормированного нормального распределения для заданного z , но и значения функции общего нормального распределения, так как:

; (9)

. 10)

Во многих задачах, связанных с нормально распределенными случайными величинами, приходится определять вероятность попадания случайной величины Х , подчиненной нормальному закону с параметрами m и s, на определенный участок. Таким участком может быть, например, поле допуска на параметр от верхнего значения U до нижнего L .

Вероятность попадания в интервал от х 1 до х 2 можно определить по формуле:

Таким образом, вероятность попадания случайной величины (значение параметра) Х в поле допуска определяется формулой

Можно найти вероятность того, что случайная переменная Х окажется в пределах μ k s. Полученные значения для k =1,2 и 3 следующие (также смотрим рис. 5):

Таким образом, если какое-либо значение появляется за пределами трехсигмового участка, в котором находятся 99,73% всех возможных значений, а вероятность появления такого события очень мала (1:270), следует считать, что рассматриваемое значение оказалось слишком маленьким или слишком большим не из-за случайного варьирования, а из-за существенной помехи в самом процессе, способной вызывать изменения в характере распределения.

Участок, лежащий внутри трехсигмовых границ, называют также областью статистического допуска соответствующей машины или процесса.

Будут и задачи для самостоятельного решения, к которым можно посмотреть ответы.

Нормальное распределение: теоретические основы

Примерами случайных величин, распределённых по нормальному закону, являются рост человека, масса вылавливаемой рыбы одного вида . Нормальность распределения означает следующее : существуют значения роста человека, массы рыбы одного вида, которые на интуитивном уровне воспринимаются как "нормальные" (а по сути - усреднённые), и они-то в достаточно большой выборке встречаются гораздо чаще, чем отличающиеся в бОльшую или меньшую сторону.

Нормальное распределение вероятностей непрерывной случайной величины (иногда - распределение Гаусса) можно назвать колоколообразным из-за того, что симметричная относительно среднего функция плотности этого распределения очень похожа на разрез колокола (красная кривая на рисунке выше).

Вероятность встретить в выборке те или иные значение равна площади фигуры под кривой и в случае нормального распределения мы видим, что под верхом "колокола", которому соответствуют значения, стремящиеся к среднему, площадь, а значит, вероятность, больше, чем под краями. Таким образом, получаем то же, что уже сказано: вероятность встретить человека "нормального" роста, поймать рыбу "нормальной" массы выше, чем для значений, отличающихся в бОльшую или меньшую сторону. В очень многих случаях практики ошибки измерения распределяются по закону, близкому к нормальному.

Остановимся ещё раз на рисунке в начале урока, на котором представлена функция плотности нормального распределения. График этой функции получен при рассчёте некоторой выборки данных в пакете программных средств STATISTICA . На ней столбцы гистограммы представляют собой интервалы значений выборки, распределение которых близко (или, как принято говорить в статистике, незначимо отличаются от) к собственно графику функции плотности нормального распределения, который представляет собой кривую красного цвета. На графике видно, что эта кривая действительно колоколообразная.

Нормальное распределение во многом ценно благодаря тому, что зная только математическое ожидание непрерывной случайной величины и стандартное отклонение, можно вычислить любую вероятность, связанную с этой величиной.

Нормальное распределение имеет ещё и то преимущество, что один из наиболее простых в использовании статистических критериев, используемых для проверки статистических гипотез - критерий Стьюдента - может быть использован только в том случае, когда данные выборки подчиняются нормальному закону распределения.

Функцию плотности нормального распределения непрерывной случайной величины можно найти по формуле:

,

где x - значение изменяющейся величины, - среднее значение, - стандартное отклонение, e =2,71828... - основание натурального логарифма, =3,1416...

Свойства функции плотности нормального распределения

Изменения среднего значения перемещают кривую функции плотности нормального распределения в направлении оси Ox . Если возрастает, кривая перемещается вправо, если уменьшается, то влево.

Если меняется стандартное отклонение, то меняется высота вершины кривой. При увеличении стандартного отклонения вершина кривой находится выше, при уменьшении - ниже.

Вероятность попадания значения нормально распределённой случайной величины в заданный интервал

Уже в этом параграфе начнём решать практические задачи, смысл которых обозначен в заголовке. Разберём, какие возможности для решения задач предоставляет теория. Отправное понятие для вычисления вероятности попадания нормально распределённой случайной величины в заданный интервал - интегральная функция нормального распределения.

Интегральная функция нормального распределения :

.

Однако проблематично получить таблицы для каждой возможной комбинации среднего и стандартного отклонения. Поэтому одним из простых способов вычисления вероятности попадания нормально распределённой случайной величины в заданный интервал является использование таблиц вероятностей для стандартизированного нормального распределения.

Стандартизованным или нормированным называется нормальное распределение , среднее значение которого , а стандартное отклонение .

Функция плотности стандартизованного нормального распределения :

.

Интегральная функция стандартизованного нормального распределения :

.

На рисунке ниже представлена интегральная функция стандартизованного нормального распределения, график которой получен при рассчёте некоторой выборки данных в пакете программных средств STATISTICA . Собственно график представляет собой кривую красного цвета, а значения выборки приближаются к нему.


Для увеличения рисунка можно щёлкнуть по нему левой кнопкой мыши.

Стандартизация случайной величины означает переход от первоначальных единиц, используемых в задании, к стандартизованным единицам. Стандартизация выполняется по формуле

На практике все возможные значения случайной величины часто не известны, поэтому значения среднего и стандартного отклонения точно определить нельзя. Их заменяют средним арифметическим наблюдений и стандартным отклонением s . Величина z выражает отклонения значений случайной величины от среднего арифметического при измерении стандартных отклонений.

Открытый интервал

Таблица вероятностей для стандартизированного нормального распределения, которая есть практически в любой книге по статистике, содержит вероятности того, что имеющая стандартное нормальное распределение случайная величина Z примет значение меньше некоторого числа z . То есть попадёт в открытый интервал от минус бесконечности до z . Например, вероятность того, что величина Z меньше 1,5, равна 0,93319.

Пример 1. Предприятие производит детали, срок службы которых нормально распределён со средним значением 1000 и стандартным отклонением 200 часов.

Для случайно отобранной детали вычислить вероятность того, что её срок службы будет не менее 900 часов.

Решение. Введём первое обозначение:

Искомая вероятность.

Значения случайной величины находятся в открытом интервале. Но мы умеем вычислять вероятность того, что случайная величина примет значение, меньшее заданного, а по условию задачи требуется найти равное или большее заданного. Это другая часть пространства под кривой плотности нормального распределения (колокола). Поэтому, чтобы найти искомую вероятность, нужно из единицы вычесть упомянутую вероятность того, что случайная величина примет значение, меньше заданного 900:

Теперь случайную величину нужно стандартизировать.

Продолжаем вводить обозначения:

z = (X ≤ 900) ;

x = 900 - заданное значение случайной величины;

μ = 1000 - среднее значение;

σ = 200 - стандартное отклонение.

По этим данным условия задачи получаем:

.

По таблицам стандартизированной случайной величине (границе интервала) z = −0,5 соответствует вероятность 0,30854. Вычтем ее из единицы и получим то, что требуется в условии задачи:

Итак, вероятность того, что срок службы детали будет не менее 900 часов, составляет 69%.

Эту вероятность можно получить, используя функцию MS Excel НОРМ.РАСП (значение интегральной величины - 1):

P (X ≥900) = 1 - P (X ≤900) = 1 - НОРМ.РАСП(900; 1000; 200; 1) = 1 - 0,3085 = 0,6915.

О расчётах в MS Excel - в одном из последующих параграфах этого урока.

Пример 2. В некотором городе среднегодовой доход семьи является нормально распределённой случайной величиной со средним значением 300000 и стандартным отклонением 50000. Известно, что доходы 40 % семей меньше величины A . Найти величину A .

Решение. В этой задаче 40 % - ни что иное, как вероятность того, что случайная величина примет значение из открытого интервала, меньшее определённого значения, обозначенного буквой A .

Чтобы найти величину A , сначала составим интегральную функцию:

По условию задачи

μ = 300000 - среднее значение;

σ = 50000 - стандартное отклонение;

x = A - величина, которую нужно найти.

Составляем равенство

.

По статистическим таблицам находим, что вероятность 0,40 соответствует значению границы интервала z = −0,25 .

Поэтому составляем равенство

и находим его решение:

A = 287300 .

Ответ: доходы 40 % семей менее 287300.

Закрытый интервал

Во многих задачах требуется найти вероятность того, что нормально распределённая случайная величина примет значение в интервале от z 1 до z 2 . То есть попадёт в закрытый интервал. Для решения таких задач необходимо найти в таблице вероятности, соответствующие границам интервала, а затем найти разность этих вероятностей. При этом требуется вычитать меньшее значение из большего. Примеры на решения этих распространённых задач - следующие, причём решить их предлагается самостоятельно, а затем можно посмотреть правильные решения и ответы.

Пример 3. Прибыль предприятия за некоторый период - случайная величина, подчинённая нормальному закону распределения со средним значением 0,5 млн. у.е. и стандартным отклонением 0,354. Определить с точностью до двух знаков после запятой вероятность того, что прибыль предприятия составит от 0,4 до 0,6 у.е.

Пример 4. Длина изготавливаемой детали представляет собой случайную величину, распределённую по нормальному закону с параметрами μ =10 и σ =0,071 . Найти с точностью до двух знаков после запятой вероятность брака, если допустимые размеры детали должны быть 10±0,05 .

Подсказка: в этой задаче помимо нахождения вероятности попадания случайной величины в закрытый интервал (вероятность получения небракованной детали) требуется выполнить ещё одно действие.

позволяет определить вероятность того, что стандартизованное значение Z не меньше -z и не больше +z , где z - произвольно выбранное значение стандартизованной случайной величины.

Приближенный метод проверки нормальности распределения

Приближенный метод проверки нормальности распределения значений выборки основан на следующем свойстве нормального распределения: коэффициент асимметрии β 1 и коэффициент эксцесса β 2 равны нулю .

Коэффициент асимметрии β 1 численно характеризует симметрию эмпирического распределения относительно среднего. Если коэффициент асимметрии равен нулю, то среднее арифметрического значение, медиана и мода равны: и кривая плотности распределения симметрична относительно среднего. Если коэффициент асимметрии меньше нуля (β 1 < 0 ), то среднее арифметическое меньше медианы, а медиана, в свою очередь, меньше моды () и кривая сдвинута вправо (по сравнению с нормальным распределением) . Если коэффициент асимметрии больше нуля (β 1 > 0 ), то среднее арифметическое больше медианы, а медиана, в свою очередь, больше моды () и кривая сдвинута влево (по сравнению с нормальным распределением) .

Коэффициент эксцесса β 2 характеризует концентрацию эмпирического распределения вокруг арифметического среднего в направлении оси Oy и степень островершинности кривой плотности распределения. Если коэффициент эксцесса больше нуля, то кривая более вытянута (по сравнению с нормальным распределением) вдоль оси Oy (график более островершинный). Если коэффициент эксцесса меньше нуля, то кривая более сплющена (по сравнению с нормальным распределением) вдоль оси Oy (график более туповершинный).

Коэффициент асимметрии можно вычислить с помощью функции MS Excel СКОС. Если вы проверяете один массив данных, то требуется ввести диапазон данных в одно окошко "Число".


Коэффициент эксцесса можно вычислить с помощью функции MS Excel ЭКСЦЕСС. При проверке одного массива данных также достаточно ввести диапазон данных в одно окошко "Число".


Итак, как мы уже знаем, при нормальном распределении коэффициенты асимметрии и эксцесса равны нулю. Но что, если мы получили коэффициенты асимметрии, равные -0,14, 0,22, 0,43, а коэффициенты эксцесса, равные 0,17, -0,31, 0,55? Вопрос вполне справедливый, так как практически мы имеем дело лишь с приближенными, выборочными значениями асимметрии и эксцесса, которые подвержены некоторому неизбежному, неконтролируемому разбросу. Поэтому нельзя требовать строгого равенства этих коэффициентов нулю, они должны лишь быть достаточно близкими к нулю. Но что значит - достаточно?

Требуется сравнить полученные эмпирические значения с допустимыми значениями. Для этого нужно проверить следующие неравенства (сравнить значения коэффициентов по модулю с критическими значениями - границами области проверки гипотезы).

Для коэффициента асимметрии β 1 .

В статье подробно показано, что такое нормальный закон распределения случайной величины и как им пользоваться при решении практически задач.

Нормальное распределение в статистике

История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.

Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.

Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b . Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.

Кривая нормального распределения Гаусса имеет следующий вид.

График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая . У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.

На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.

Формула нормального распределения (плотности) следующая.

Формула состоит из двух математических констант:

π – число пи 3,142;

е – основание натурального логарифма 2,718;

двух изменяемых параметров, которые задают форму конкретной кривой:

m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a );

σ 2 – дисперсия;

ну и сама переменная x , для которой высчитывается плотность вероятности.

Конкретная форма нормального распределения зависит от 2-х параметров: (m ) и (σ 2 ). Кратко обозначается N(m, σ 2) или N(m, σ) . Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ 2 характеризует размах вариации, то есть «размазанность» данных.

Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.

А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.

Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.

Вероятность того, что случайная величина окажется меньше некоторого значения x , определяется функцией нормального распределения :

Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как

P(a ≤ X < b) = Ф(b) – Ф(a)

Стандартное нормальное распределение

Нормальное распределение зависит от параметров средней и дисперсии, из-за чего плохо видны его свойства. Хорошо бы иметь некоторый эталон распределения, не зависящий от масштаба данных. И он существует. Называется стандартным нормальным распределением . На самом деле это обычное нормальное нормальное распределение, только с параметрами математического ожидания 0, а дисперсией – 1, кратко записывается N(0, 1).

Любое нормальное распределение легко превращается в стандартное путем нормирования:

где z – новая переменная, которая используется вместо x;
m – математическое ожидание;
σ – стандартное отклонение.

Для выборочных данных берутся оценки:

Среднее арифметическое и дисперсия новой переменной z теперь также равны 0 и 1 соответственно. В этом легко убедиться с помощью элементарных алгебраических преобразований.

В литературе встречается название z-оценка . Это оно самое – нормированные данные. Z-оценку можно напрямую сравнивать с теоретическими вероятностями, т.к. ее масштаб совпадает с эталоном.

Посмотрим теперь, как выглядит плотность стандартного нормального распределения (для z-оценок ). Напомню, что функция Гаусса имеет вид:

Подставим вместо (x-m)/σ букву z , а вместо σ – единицу, получим функцию плотности стандартного нормального распределения :

График плотности:

Центр, как и ожидалось, находится в точке 0. В этой же точке функция Гаусса достигает своего максимума, что соответствует принятию случайной величиной своего среднего значения (т.е. x-m=0 ). Плотность в этой точке равна 0,3989, что можно посчитать даже в уме, т.к. e 0 =1 и остается рассчитать только соотношение 1 на корень из 2 пи.

Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.

Функция стандартного нормального распределения позволяет рассчитывать вероятности.

Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.

Таблица нормального распределения

Таблицы нормального распределения встречаются двух типов:

— таблица плотности ;

— таблица функции (интеграла от плотности).

Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1 , т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы.

В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец 0 , т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен).

Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z) , т.е. плотность для 1 тождественна плотности для -1 , что отчетливо видно на рисунке.

Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.

На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z .

В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения .

Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:

Это факт показан на картинке:

Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z) . Получится равенство, указанное чуть выше.

Если нужно отыскать вероятность попадания в интервал (0; z) , то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:

Для наглядности можно взглянуть на рисунок.

На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z .

Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:

Рисунок ниже.

Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.

Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу.

Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:

Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.

Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z : 1,64, 1,96 и 3.

Как понять смысл этих чисел? Начнем с z=1,64 , для которого табличное значение составляет 0,4495 . Проще всего пояснить смысл на рисунке.

То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от 0 до 1,64 , равна 0,4495 . При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.

Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64 , т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).

Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).

Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.

Еще одно интересное и часто используемое табличное значение соответствует z=3 , оно равно по нашей таблице 0,4986 . Умножим на 2 и получим 0,997 . Значит, в рамках ±3σ от средней арифметической заключены почти все значения.

Так выглядит правило 3 сигм для нормального распределения на диаграмме.

С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.

Нормальное распределение в Excel

В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.

Функция НОРМ.СТ.РАСП

Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ(z ) или вероятности Φ(z) по нормированным данным (z ).

=НОРМ.СТ.РАСП(z;интегральная)

z – значение стандартизованной переменной

интегральная – если 0, то рассчитывается плотность ϕ(z ) , если 1 – значение функции Ф(z), т.е. вероятность P(Z

Рассчитаем плотность и значение функции для различных z: -3, -2, -1, 0, 1, 2, 3 (их укажем в ячейке А2).

Для расчета плотности потребуется формула =НОРМ.СТ.РАСП(A2;0). На диаграмме ниже – это красная точка.

Для расчета значения функции =НОРМ.СТ.РАСП(A2;1). На диаграмме – закрашенная площадь под нормальной кривой.

В реальности чаще приходится рассчитывать вероятность того, что случайная величина не выйдет за некоторые пределы от средней (в среднеквадратичных отклонениях, соответствующих переменной z ), т.е. P(|Z|.

Определим, чему равна вероятность попадания случайной величины в пределы ±1z, ±2z и ±3z от нуля. Потребуется формула 2Ф(z)-1 , в Excel =2*НОРМ.СТ.РАСП(A2;1)-1.

На диаграмме отлично видны основные основные свойства нормального распределения, включая правило трех сигм. Функция НОРМ.СТ.РАСП – это автоматическая таблица значений функции нормального распределения в Excel.

Может стоять и обратная задача: по имеющейся вероятности P(Z найти стандартизованную величину z ,то есть квантиль стандартного нормального распределения.

Функция НОРМ.СТ.ОБР

НОРМ.СТ.ОБР рассчитывает обратное значение функции стандартного нормального распределения. Синтаксис состоит из одного параметра:

=НОРМ.СТ.ОБР(вероятность)

вероятность – это вероятность.

Данная формула используется так же часто, как и предыдущая, ведь по тем же таблицам искать приходится не только вероятности, но и квантили.

Например, при расчете доверительных интервалов задается доверительная вероятность, по которой нужно рассчитать величину z .

Учитывая то, что доверительный интервал состоит из верхней и нижней границы и то, что нормальное распределение симметрично относительно нуля, достаточно получить верхнюю границу (положительное отклонение). Нижняя граница берется с отрицательным знаком. Обозначим доверительную вероятность как γ (гамма), тогда верхняя граница доверительного интервала рассчитывается по следующей формуле.

Рассчитаем в Excel значения z (что соответствует отклонению от средней в сигмах) для нескольких вероятностей, включая те, которые наизусть знает любой статистик: 90%, 95% и 99%. В ячейке B2 укажем формулу: =НОРМ.СТ.ОБР((1+A2)/2). Меняя значение переменной (вероятности в ячейке А2) получим различные границы интервалов.

Доверительный интервал для 95% равен 1,96, то есть почти 2 среднеквадратичных отклонения. Отсюда легко даже в уме оценить возможный разброс нормальной случайной величины. В общем, доверительным вероятностям 90%, 95% и 99% соответствуют доверительные интервалы ±1,64, ±1,96 и ±2,58 σ.

В целом функции НОРМ.СТ.РАСП и НОРМ.СТ.ОБР позволяют произвести любой расчет, связанный с нормальным распределением. Но, чтобы облегчить и уменьшить количество действий, в Excel есть несколько других функций. Например, для расчета доверительных интервалов средней можно использовать ДОВЕРИТ.НОРМ. Для проверки о средней арифметической есть формула Z.ТЕСТ.

Рассмотрим еще пару полезных формул с примерами.

Функция НОРМ.РАСП

Функция НОРМ.РАСП отличается от НОРМ.СТ.РАСП лишь тем, что ее используют для обработки данных любого масштаба, а не только нормированных. Параметры нормального распределения указываются в синтаксисе.

=НОРМ.РАСП(x;среднее;стандартное_откл;интегральная)

среднее – математическое ожидание, используемое в качестве первого параметра модели нормального распределения

стандартное_откл – среднеквадратичное отклонение – второй параметр модели

интегральная – если 0, то рассчитывается плотность, если 1 – то значение функции, т.е. P(X

Например, плотность для значения 15, которое извлекли из нормальной выборки с матожиданием 10, стандартным отклонением 3, рассчитывается так:

Если последний параметр поставить 1, то получим вероятность того, что нормальная случайная величина окажется меньше 15 при заданных параметрах распределения. Таким образом, вероятности можно рассчитывать напрямую по исходным данным.

Функция НОРМ.ОБР

Это квантиль нормального распределения, т.е. значение обратной функции. Синтаксис следующий.

=НОРМ.ОБР(вероятность;среднее;стандартное_откл)

вероятность – вероятность

среднее – матожидание

стандартное_откл – среднеквадратичное отклонение

Назначение то же, что и у НОРМ.СТ.ОБР , только функция работает с данными любого масштаба.

Пример показан в ролике в конце статьи.

Моделирование нормального распределения

Для некоторых задач требуется генерация нормальных случайных чисел. Готовой функции для этого нет. Однако В Excel есть две функции, которые возвращают случайные числа: СЛУЧМЕЖДУ и СЛЧИС. Первая выдает случайные равномерно распределенные целые числа в указанных пределах. Вторая функция генерирует равномерно распределенные случайные числа между 0 и 1. Чтобы сделать искусственную выборку с любым заданным распределением, нужна функция СЛЧИС .

Допустим, для проведения эксперимента необходимо получить выборку из нормально распределенной генеральной совокупности с матожиданием 10 и стандартным отклонением 3. Для одного случайного значения напишем формулу в Excel.

НОРМ.ОБР(СЛЧИС();10;3)

Протянем ее на необходимое количество ячеек и нормальная выборка готова.

Для моделирования стандартизованных данных следует воспользоваться НОРМ.СТ.ОБР.

Процесс преобразования равномерных чисел в нормальные можно показать на следующей диаграмме. От равномерных вероятностей, которые генерируются формулой СЛЧИС, проведены горизонтальные линии до графика функции нормального распределения. Затем от точек пересечения вероятностей с графиком опущены проекции на горизонтальную ось.

по сравнению с другими видами распределений. Главной особенностью этого распределения является то, что к этому закону стремятся все другие законы распределений при бесконечном повторении количества испытаний. Как получается это распределение?

Представим себе, что, взяв ручной динамометр, Вы расположились в самом людном месте Вашего города. И каждому, кто проходит мимо, Вы предлагаете измерить свою силу, сжав динамометр правой или левой рукой. Показания динамометра Вы аккуратно за-писываете. Через некоторое время, при достаточно большом количестве испытаний, Вы нанесли на ось абсцисс показания динамометра, а на ось ординат – количество людей, кото-рые "выжали" это показание. Полученные точки соединили плавной линией. В результате получается кривая, изображенная на рис.9.8 . Вид этой кривой не будет особо изменяться при увеличении времени опыта. Более того, с некоторого момента новые значения будут только уточнять кривую, не изменяя ее формы.


Рис. 9.8.

Теперь переместимся с нашим динамометром в атлетический зал и повторим эксперимент. Теперь максимум кривой сместится вправо, левый конец будет несколько затянут, в то время как правый конец ее будет более крутой (рис.9.9).


Рис. 9.9.

Заметим, что максимальная частота для второго распределения (точка В) будет ниже, чем максимальная частота первого распределения (точка А). Это можно объяснить тем, что общее количество людей, посещающих атлетический зал, будет меньше, чем количество людей, которое прошли возле экспериментатора в первом случае (в центре города в достаточно людном месте). Максимум сместился вправо, так как атлетические залы посещают физически более сильные люди по сравнению с общим фоном.

И, наконец, посетим школы, детские сады и дома престарелых с той же целью: выявить силу рук посетителей этих мест. И опять кривая распределения будет иметь похожую форму, но теперь, очевидно, более крутым будет ее левый конец, а правый более затянут. И как во втором случае, максимум (точка С) будет ниже точки А (рис.9.10).


Рис. 9.10.

Это замечательное свойство нормального распределения – сохранять форму кривой плотности распределения вероятностей (рис. 8 – 10) было замечено и описано в 1733 году Муавром, а затем исследовано Гауссом.

В научных исследованиях, в технике, в массовых явлениях или экспериментах, когда речь идет о многократно повторяющихся случайных величинах при неизменных условиях опыта, говорят, что результаты испытаний испытывают случайное рассеяние, подчиняющееся закону нормальной кривой распределения

(21)

Где - это наиболее часто встречающееся событие. Как правило, в формулу (21) вместо параметра ставят . Причем, чем длин-нее экспериментальный ряд, тем меньше параметр будет отличаться от математического ожидания. Площадь под кривой (рис.9.11) при-нимается равной единице. Площадь , отвечающая какому-либо интервалу оси абсцисс, численно равна вероятности попадания случайного результата в данный интервал .


Рис. 9.11.

Функция нормального распределения имеет вид


(22)

Заметим, что нормальная кривая (рис.9.11) симметрична относительно прямой и асимптотически приближается к оси ОХ при .

Вычислим математическое ожидание для нормального закона


(23)

Свойства нормального распределения

Рассмотрим основные свойства этого важнейшего распределения.

Свойство 1 . Функция плотности нормального распределения (21) определения на всей оси абсцисс.

Свойство 2 . Функция плотности нормального распределения (21) больше нуля для любого из области определения ().

Свойство 3 . При бесконечном увеличении (уменьшении) функция распределения (21) стремится к нулю .

Свойство 4 . При функция распределения , заданная (21), имеет наибольшее значение , равное

(24)

Свойство 5 . График функции (рис.9.11) симметричен относительно прямой .

Свойство 6 . График функции (рис.9.11) имеет по две точки перегиба симметричные относительно прямой :

(25)

Свойство 7 . Все нечетные центральные моменты равны нулю. Заметим, что используя свойство 7, определяют асимметрию функции по формуле . Если , то делают вывод , что исследуемое распределение симметрично относительно прямой . Если , то говорят, что ряд смещен вправо (более пологая правая ветвь графика или затянута). Если , тогда считают, что ряд смещен влево (более пологая левая ветвь графика рис.9.12).


Рис. 9.12.

Свойство 8 . Эксцесс распределения равен 3. Часто на практике вычисляют и по близости этой величины к нулю определяют степень "сжатия" или "размытости" графика (рис.9.13). А так как связан с , то, в конечном итоге характеризует степень рассеяния частоты данных. А так как определяет