Все показатели вариации в статистике. Показатели вариации и способы их расчета. Принципы определения показателей вариации

Назначение сервиса . С помощью сервиса в онлайн режиме определяются следующие показатели:

Инструкция . Чтобы рассчитать показатели вариации, выберите вид ряда, укажите количество исходных данных. Полученное решение сохраняется в файле Word (). Если предварительно требуется сгруппировать ряд (т.е. построить вариационный ряд), то необходимо воспользоваться онлайн-калькулятором Группировка .

Вид статистического ряда
Пример
X
3.45
3.89
5.00
3.00
2.56
1.71
3.34
4.21
4.85
Дискретный ряд
Пример
X i - X i+1 f
до 20 5
20-25 10
25-30 40
30-35 70
35-40 90
40-45 30
45-50 15
свыше 50 10
Итого 270
Интервальный ряд
Пример
X f
20 5
25 10
30 40
35 70
40 90
45 30
50 15
60 10
Итого 270
Вариационный ряд
Количество строк ",0);">

Проверка гипотезы о виде распределения ряда осуществляется через калькулятор Изучение формы распределения ряда .

Классификация показателей вариации

  1. К абсолютным показателям вариации относятся размах вариации, среднее линейное отклонение, дисперсия и среднеквадратическое отклонение. Вторая группа показателей вычисляется, как отношение абсолютных показателей к средней арифметической (медиане).
  2. Относительными показателями вариации являются коэффициенты осцилляции, вариации, относительное линейное отклонение и др.
Показатель Формула
Средняя арифметическая простая
Мода
Размах вариации R=X max -X min
;
;
Среднее квадратическое отклонение

Числовые характеристики вариационного ряда

Числовые характеристики вариационных рядов вычисляют по данным, полученным в результате наблюдений (статистическим данным), поэтому их называют также статистическими характеристиками или оценками. На практике часто оказывается достаточным знание сводных характеристик вариационных рядов: средних или характеристик положения (центральной тенденции); характеристик рассеяния или вариации (изменчивости); характеристик формы (асимметрии и крутости распределения).
Самой известной и наиболее употребляемой характеристикой любого вариационного ряда является его средняя арифметическая, называемая также выборочным средним . Средняя арифметическая характеризует значения признака, вокруг которого концентрируются наблюдения, т.е. центральную тенденцию распределения. В статистическом анализе кроме средней арифметической, называемой аналитической средней, широко применяют структурные, или порядковые, средние, к которым относятся медиана и мода.
Достоинство медианы как меры центральной тенденции заключается в том, что на нее не влияет изменение крайних членов вариационного ряда, если любой из них, меньший медианы, остается меньше ее, а любой, больший медианы, продолжает быть большее ее. Медиана предпочтительнее средней арифметической для ряда, у которого крайние варианты по сравнению с остальными оказались чрезмерно большими или малыми. Особенность моды как меры центральной тенденции заключается в том, что она также не изменяется при изменении крайних членов ряда, т.е. обладает определенной устойчивостью к вариации признака.

Таблица - Числовые характеристики вариационного ряда

Характеристики положения Среднее арифметическое (выборочное среднее)
Мода Mo = x j , если m j = m max
Me = x k+1 , если n = 2k+1;
Me = (x k + x k+1)/2, еслиn = 2k
Характеристики рассеяния
Выборочная дисперсия
Выборочное среднее квадратичное отклонение
Исправленная дисперсия
Исправленное среднее квадратичное отклонение
Среднее абсолютное отклонение
Вариационный размах R = x max - x min
Квартильный размах R Q = Q в – Q н
Характеристики формы Коэффициент асимметрии
Коэффициент эксцесса

Для получения полного представления о вариационном ряде (определив центральную тенденцию распределения с помощью характеристик положения) далее оценивают рассеяние (вариацию, изменчивость) исследуемого признака вокруг этих величин. Простейшим и, весьма приближенным показателем вариации (изменчивости), является вариационный размах . Размах вариации наиболее полезен, если нужен быстрый и общий взгляд на изменчивость при сравнении большого количества выборок.
Но наибольший интерес представляют меры вариации (рассеяния) наблюдений вокруг средних величин, в частности, вокруг средней арифметической. К таким оценкам относятся выборочная дисперсия и среднее квадратичное отклонение . Выборочная дисперсия обладает одним существенным недостатком: если среднее арифметическое выражается в тех же единицах, что и значения случайной величины, то, согласно определению, дисперсия выражается уже в квадратных единицах. Этого недостатка можно избежать, если использовать в качестве меры вариации признака среднее квадратичное отклонение. При малых объемах выборки дисперсия является смещенной оценкой, поэтому при объемах n ≤ 30 используют исправленную дисперсию и исправленное среднее квадратичное отклонение .
Другой часто используемой характеристикой меры рассеяния признака является коэффициент вариации . Достоинством коэффициента вариации является то, что это безразмерная характеристика, позволяющая сравнивать варьирование несоизмеримых вариационных рядов. Кроме того, чем меньше значение коэффициента вариации, тем однороднее совокупность по изучаемому признаку и типичнее средняя. Совокупности с коэффициентом вариации V> 30-35% принято считать неоднородными.
Наряду с дисперсией используют и среднее абсолютное отклонение . Достоинством среднего линейного отклонения является его размерность, т.к. выражается в тех же единицах, что и значения случайной величины. Дополнительным и простым показателем рассеяния значений признака является квартильный размах. Квартильный размах включает в себя медиану и 50% наблюдений, отражающих центральную тенденцию признака, исключая наименьшие и наибольшие значения.
К характеристикам формы относят коэффициент асимметрии и эксцесс. Если коэффициент асимметрии равен нулю, то распределение имеет симметричную форму. Если распределение асимметрично, одна из ветвей полигона частот имеет более пологий спуск, чем другая. Если асимметрия правосторонняя, то справедливо неравенство:,что означает преимущественное появление в распределении более высоких значений признака. Если асимметрия левосторонняя, то выполняется неравенство: , означающее, что в распределении чаще встречаются более низкие значения. Чем больше значение коэффициента асимметрии, тем более асимметрично распределение (до 0,25 асимметрия незначительная; от 0,25 до 0,5 умеренная; свыше 0,5 – существенная).
Эксцесс является показателем крутости (островершинности) вариационного ряда по сравнению с нормальным распределением. Если эксцесс положителен, то полигон вариационного ряда имеет более крутую вершину. Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений, близких к средней величине. Если эксцесс отрицателен - то полигон имеет более пологую вершину по сравнению с нормальной кривой. Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от минимального до максимального значения. Чем больше абсолютная величина эксцесса, тем существеннее распределение отличается от нормального.

Типы вариации

Вариация – колеблемость или изменяемость величин признака у единиц совокупности.
Под вариацией в пространстве понимается колеблемость значений признака по отдельным территориям.
Под вариацией во времени подразумевают изменение значений признака в различные моменты времени. Так, со временем изменяются средняя продолжительность жизни, мнения людей и т.д.

Принципы определения показателей вариации

Для ранжированного ряда показатели вариации определяются по простым формулам (например, средняя величина определяется по формуле средней арифметической простой). Для вариационных рядов показатели вариации определяются по агрегатным формулам (с использованием частот). В этом случае показатели вариации являются взвешенными (например, взвешенная средняя).

Показатели вариации

Средняя величина не позволяет судить о тех колебаниях (вариациях), которым подвергается изучаемый признак в данной совокупности. Одних средних величин для анализа недостаточно. Совершенно разные по своему разбросу вокруг среднего совокупности могут иметь одну и то же среднюю арифметическую. Для нахождения величин вариации в статистике применяют специальные показатели, которые называют показателями вариации. Исследование вариации в статистике имеет большое значение, так как помогает понять сущность изучаемого явления.

Перечислим основные показатели вариации и приведем формулы для их вычисления.

Для характеристики размера вариации в статистике применяют абсолютные показатели вариации: размах вариации, среднее линейное отклонение, средне квадратическое отклонение, дисперсию.

Размах вариации -- разность между максимальными и минимальными значениями признака в изучаемой совокупности, т. е.

Размах вариации легко находится по рангам ранжированного ряда распределения.

Более точно характеризует вариацию среднее линейное отклонение, которое находится как среднее арифметическое отклонений индивидуальных значений от средней без учета знака этих отклонений, т. е.

Если исходные данные сгруппированы, то мы можем находить взвешенное среднее линейное отклонение, причем в качестве веса можно применять и частоту (ц), и относительную частоту (/).

Более объективно на практике меру вариации отражает дисперсия (средний квадрат отклонений). О ней говорилось в главе 2. В данном случае речь идет об оценки дисперсии, так как значения вероятностей не известны.

Если мы имеем несгруппированный ряд распределения, то дисперсия определяется формулой

Заметим, что оценка дисперсии, получаемая по формуле (6.28) является смещенной. Пользуясь ей, мы будем совершать некоторую систематическую ошибку в меньшую сторону. Несмещенная оценка для дисперсии находится по формуле

Как правило, формула (6.30) применяется в тех случаях, когда изучаемая совокупность невелика, не более 40 единиц. В тех случаях, когда п > 40, используют формулу (6.29).

Когда исходные данные сгруппированы, вычисляют взвешенные оценки дисперсии

Извлекая из дисперсии арифметический квадратный корень, получаем еще одну характеристику (о ней тоже говорилось в главе 2) -- среднее квадратичное отклонение, или стандарт (точнее его оценку).

Если изучаемая совокупность достаточно велика, то ее, как правило, разбивают на группы по какому-либо признаку. Поэтому наряду с изучением вариации признака по всей совокупности в целом можно изучать вариации для каждой составляющей ее группы, а также между самими группами. Если совокупность расчленяется по какому-то одному фактору, то изучение вариации достигается путем нахождения и анализа трех видов дисперсий: общей, межгрупповой, внутригрупповой.

Общая дисперсия (D x) определяет вариацию по всей совокупности под влиянием всех факторов, которые обусловили эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х (х ар) и вычисляется по формулам (6.29), (6.31), (6.32).

Межгрупповая дисперсия Ф Хмг) характеризует систематическую вариацию результативного порядка, который обусловлен влиянием признака, положенного в основу группировки. Она равна среднему квадрату отклонений групповых средних х аргр от общей средней арифметической х ар, т. е.

где, к - количество групп;

ц. - частота (количество единиц) в группе г;

/. - относительная частота группы г.

Внутригрупповая дисперсия D Xez отражает случайную вариацию (часть вариации), обусловленную влиянием неучтенных факторов и не зависимую от признака, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х. от средней арифметической этой группы х аргр и находится по формулам:

если группа содержит не более 40 наблюдений;

если группа содержит более 40 наблюдений - количество единиц в конкретной группе).

Применяются и формулы для взвешенной дисперсии:

Найдя внутригрупповые дисперсии по каждой группе можно вычислить среднюю из внутригрупповых дисперсий по формулам:

или используя соотношение (6.13).

По правилу сложения дисперсий общая дисперсия должна быть равна сумме межгрупповой и средней из внутригрупповых дисперсий, т. е.

Вариация качественного (альтернативного) признака (признак, которым каждая единица совокупности может обладать или не обладать) находится с помощью дисперсии:

где S - доля единиц совокупности, обладающая качественным признаком;

v - доля единиц совокупности, не обладающая качественным признаком.

Заметим, что S + v = 1.

Среднее квадратическое отклонение качественного признака находится по формуле

Например, если на 10000 населения районного центра 3500 имеют высшее образование, а 6500 не имеют, то

Дисперсия качественного признака равна

Максимальное значение дисперсии качественного признака получается в том случае, если S = v = 0,5. Оно будет равно 0,25.

Для характеристики меры разброса изучаемого признака находятся показатели вариации в относительных единицах. Некоторые из них мы приведем.

Коэффициент осцилляции отражает относительный разброс крайних значений вокруг средней арифметической

Относительное линейное отклонение характеризует долю усредненного значения абсолютных отклонений от средней арифметической, т. е.

Коэффициент вариации, представляющей собой относительное квадратическое отклонение, т. е.

По величине коэффициента вариации можно судить об интенсивности вариации признака, а поэтому и об однородности состава изучаемой совокупности. Чем больше величина коэффициента вариации, тем больше разброс значений признака вокруг средней арифметической, а соответственно, тем больше неоднородность совокупности. Имеется шкала определения степени однородности совокупности в зависимости от значения коэффициента вариации:

  • - если V x
  • - если 30%
  • - если V x > 60%, то совокупность считается неоднородной.

Заметим, что приведенная шкала достаточна условна.

Основными характеристиками формы распределения являются асимметрия и эксцесс. О них достаточно подробно говорилось в главе 2. Здесь речь пойдет об их оценках, так как количество измерений конечно и вероятности неизвестны. Обозначать асимметрию (скос) и эксцесс будем теми же буквами, что и в главе 2, но сверху будем добавлять тильду (~).

Для оценки степени асимметричности распределения обычно применяют моментный коэффициент асимметрии, который находится по формуле

где Дз - оценка третьего центрального момента, которую можно определить по формулам:

Степень существенности коэффициента асимметрии оценивается с помощью средней квадратической ошибки коэффициента асимметрии, который зависит от объема изучаемой совокупности (п) и находится по следующей формуле:

Если отношение , то асимметрия считается существенной, а если , то асимметрию можно признать несущественной, вызванной влиянием случайных причин.

Главный недостаток моментного коэффициента асимметрии А х состоит в том, что его величина зависит от нахождения в совокупности резко выделяющихся вариант. Для таких совокупностей этот коэффициент пригоден мало, так как его большая (абсолютная) величина объясняется преобладающим вкладом в величину оценки третьего центрального момента нетипичных значений, а не асимметричностью распределения основной части вариант.

Структурные коэффициенты асимметрии характеризуют асимметричность только в центральной части распределения, т. е. основной массы вариант и в отличие от моментного коэффициента асимметрии не зависят от крайних значений признака.

Как правило, применяют структурный коэффициент асимметрии, предложенный К. Пирсоном:

Другая характеристика формы распределения - это эксцесс. Его оценку в статистике можно получить по формуле

где Д 4 - оценка четвертого центрального момента, которую можно найти по формулам

Для оценки существенности эксцесса распределения находят среднюю квадратическую ошибку эксцесса:

Если отклонение то отклонение от нормального

распределения считается существенным, в противном случае оно признается незначительным и объясняется случайными причинами.

Теперь приведем конкретный расчетный пример, в котором определим ряд характеристик, приведенных выше, а также затронем вопросы, не разобранные в этой главе. В этом случае наряду с вычислениями рассмотрим кратко и некоторые необходимые теоретические вопросы.

Заметим, что приводимый пример является чисто учебным, данные для него взяты, как говорится, “с потолка”. Кроме того, рассматриваемый ряд наблюдений содержит всего 20 наблюдений для простоты счета, потому что у многих студентов появляются сложности даже при расчете средних величин. В настоящее время имеется большое количество пакетов программ для определения статистических характеристик, так что вручную уже никто не считает. Необходимо помнить, что большое значение имеет качество исходных данных: если они некачественные то и результат будет таким же, статистика и математика в этом случае не помогут.

Пример 6.2

Предположим, что в наше распоряжение поступил статистический материал о количестве зарегистрированных ДТП в районном центре N. Он оформлен в виде таблицы (табл. 6.3), данные в ней приводятся на числа текущего года.

Таблица 6.3

Количество ДТП (х,)

Количество ДТП (х.)

В данном случае количество ДТП - это случайная величина X, а результаты наблюдений, приведенные в табл. 6.3 - совокупность значений, принятых этой случайной величиной, т. е. X = {Xj, х 2 ..., х 20 }. Данные, приведенные в табл. 6.3, надо упорядочить, например расположить их по возрастанию значений изучаемого признака х. (г = 1,20). Если одно и то же значение повторяется несколько раз, то его повторим. В результате получаем статистический ряд распределения (см. табл. 6.4).

По ранжированному ряду (см. табл. 6.4) можно построить, например, статистическую функцию распределения F(x), рассмотренную нами в главе 2.

F(x) - разрывная ступенчатая функция, непрерывная слева и имеющая п скачков, (п - количество наблюдений), причем величина каждого скачка равна 1 /п. Так как некоторые наблюдения совпадают, то скачки сливаются и их число будет равно числу наблюдаемых значений случайной величины X. В нашем случае F(x) будет иметь 15 скачков, откуда следует, что строить ее по ранжированному ряду нерационально, а делать это надо по группированному ряду, что будет рассмотрено несколько позднее.

Таблица 6.4

По ранжированному ряду (табл. 6.4) можно определить оценки числовых характеристик наблюдаемой случайной величины X (количество ДТП), например среднюю арифметическую, дисперсию, среднее квадратическое отклонение, размах вариации и др.

Вычислим, например, размах вариации и среднее арифметическое:

Все числовые характеристики будем определять до целых, так как не бывает десятых и сотых долей ДТП. Можно вычислить и другие числовые характеристики по данным табл. 6.4, но мы это сделаем по группированному ряду.

По статистическому ряду распределения построим группированный ряд, о котором говорилось в главе 4. Заметим, что длины интервалов в нем необязательно должны быть одинаковы, но в каждом из них должны быть наблюдения, т. е. не должно быть пустых интервалов. В том случае если значение случайной величины X попадает ни границу между разрядами, мы будем делить его поровну между соседними разрядами, т. е. к значению каждого их них добавлять по 1/2.

Приближенно найти оптимальное количество групп (разрядов) с равными интервалами можно по формуле Стерджесса:

где к - количество разрядов;

п - количество наблюдений.

Но данная формула применима в том случае, если распределение изучаемой случайной величины X приближается к нормальному, а мы этого не знаем. Поэтому формулой Стерджесса пользоваться не будем (в нашем случае она дает следующий результат к « 5,3 « 5).

Полученный группированный ряд приведен в табл. 6.5. В ней кроме разрядов, частот, относительных частот, приведены плотности частоты и теоретические вероятности, которые понадобятся в дальнейшем.

Таблица 6.5

Заметим, что

где f* - плотность относительной частоты, т. е. отношение относительной частоты к длине интервала(в на

шем случае она для всех разрядов одинакова).

Имея группированный ряд (см. табл. 6.5), можно приближенно построить статистическую функцию распределения F(x) В качестве значений X, для которых определяется F(x), возьмем границы разрядов. Статистическая функция распределения для нашего примера приведена на рис. 6.1.


Теперь по группированному ряду (см. табл. 6.5) построим гистограмму, откладывая по оси абсцисс разряды, а по оси ординат соответствующие плотности относительных частот f v В результате получим совокупность прямоугольников, площадь каждого из которых равна соответствующей относительной частоте (рис. 6.2.).

Заметим, что гистограмму можно строить, используя и частоты ц..

Теперь используя группированный статистический ряд, получим искомые числовые характеристики изучаемой случайной величины X (количество ДТП), т. е. среднюю арифметическую и некоторые показатели вариации. В качестве веса будем использовать относительную частоту / (частость) (можно использовать, как мы уже говорили, в качестве веса относительную частоту (а.).

Вычислим среднеарифметическое весовое:

В качестве х. берем середину соответствующего интервала. Заметим, что х ар получилось таким же, что и по ранжированному ряду.

Находим дисперсию:

Определяем среднее квадратическое отклонение:

Среднее квадратическое отклонение округлим до десятых.

Находим среднее линейное отклонение:

Вычисляем коэффициент вариации: т. е. нашу совокупность можно считать однородной.

Определяем коэффициент осцилляции:

По формулам (6.21) и (6.23) вычисляем моду и медиану. При вычислении этих характеристик используем частоты ц..

Находим моментный коэффициент асимметрии:

Для этого сначала определяем оценку третьего центрального момента:

Поэтому, А х ~ -0,031, т. е. имеем очень небольшую отрицательную асимметрию.

Степень существенности асимметрии оценим с помощью средней квадратической ошибки коэффициента асимметрии по формуле

Так как , то асимметрия несущественна и вызвана влиянием случайных причин.

Теперь вычисляем эксцесс по формуле Для это

го сначала находим оценку четвертого центрального момента:

Поэтому эксцесс равент. е. наше распределение

немного прижато к оси абсцисс.

Для определения существенности эксцесса распределения вычислим его среднюю квадратическую ошибку, используя формулу (6.55). Получим

Так как отношение меньше 3, то отклонение от

Заметим, что среднее квадратическое отклонение по величине всегда больше среднего линейного отклонения. В нашем случае

Соотношение зависит от наличия в совокупности резких отклонений и может быть индикатором “засоренности” ее нетипичными, выделяющимися из основной массы единицами. Для нормального распределения отношение

Для нашего примера имеем

Заменяя числовые характеристики случайной величины их оценками, мы совершаем некоторую ошибку. Желательно оценить эту ошибку и найти вероятность (надежность) того, что она не превзойдет некоторого малого положительного s (точность).

В рассматриваемом нами примере заменили М[Х] на ос ар, а D[X] на D x . Оценим точность и надежность этих оценок по результатам нашего примера.

Чтобы оценить точность и надежность оценки, надо знать ее закон распределения. Во многих случаях этот закон оказывается близок к нормальному. Так как среднее статистическое значение случайной величины X - это сумма достаточно большого числа независимых случайных величин, то по центральной предельной теореме распределения близко к нормальному с математическим ожиданием

и дисперсией а значит со стандартом

Для того чтобы определить параметры нормального распределения по которому находится оценка х ар, заменяем в формулах (6.57)-(6.59) истинные параметры М[Х ], D и а(х) их оценками x ap , D x , д х и получаем

Допуская, что случайная величина х ар имеет нормальное распределение с параметрами М[х ар ] и D, находим приближенно вероятность того, что оценка х ар отклоняется от своего математического ожидания менее чем на s.

где Ф 0 (х) - нормированная функция Лапласа, о которой уже говорилось в главе 2. Для нее составлены таблицы (см. приложение 5).

Используем данные рассматриваемого нами примера и оценим точность и надежность х ар. Для нашего примера имеем: х ар = 90; D x = 57,5; д х = 7,6. Найдем вероятность того, что, полагая М[Х] * х ар, не совершим ошибки более чем е - 3.

По формулам (6.60)-(6.62) получили:

По таблице приложения 5 находим Ф о (1,765) = 0,46164, т. е. вероятность того, что ошибки от замены М[Х] на х ар не превысит 3 приближенно равна 0,92 (92%). Эту вероятность можно считать достаточной.

Доказывается, что при п > 20 оценка D x независимо от распределения случайной величины X приближенно распределена по нормальному закону с параметрами:

Заменяя в формулах (6.64)-(6.66) D[X] ее статистической оценкой D x получим:

Используя данные примера, по формулам (6.67)и (6.69) получим:

Теперь по формуле (6.63) находим вероятность того, что оценка D x отклонится от своего истинного значения D[X] меньше чем на е = 3.


По таблице приложения 5 находим ФД0Д6) = 0,06356, т. е. вероятность того что оценка от замены D[X] на D x будет менее 3 равна 0,13 (13%), что явно недостаточно. У нас всего 20 наблюдений, а формулы (6.64)-(6.66) работают при п > 20.

Мы уже говорили, что наш пример учебный. В реальных задачах данных значительно больше, поэтому и вероятность, полученная по формуле (6.63), будет значительно выше.

Полученная нами гистограмма (см. рис. 6.2.) - это графическое изображение нашего распределения. Но пользоваться гистограммой при дальнейших исследованиях неудобно. Поэтому ставиться вопрос о том, как подобрать для данного конкретного распределения аналитическую зависимость (формулу), которая выражала бы лишь существенные черты нашего распределения. Данную задачу называют, выравниваем статистических распределений. Обычно выравнивают гистограммы, т. е. заменяют ее некоторой теоретической кривой, имеющей определенное аналитическое выражение. А затем это выражение принимают за плотность распределения /(х).

В рассматриваемом примере мы выравниваем построенную нами гистограмму по нормальному закону с параметрами х ар = 90; а х = 7,6, т. е. в выражении для плотности нормального распределения

Заменяем М[Х] и а[Х] их оценками и получаем

В качестве значений х берем границы интервалов в нашем группированном ряду, подставляем их в формулу (6.70) и получаем:

Полученные данные наносим на рис 6.2 и получаем плавную кривую.

Теперь проверим гипотезу Н о о нормальном законе распределения с плотностью f(x). Гипотезе Н о противопоставляется альтернативная гипотеза Н 1 которая говорит о том, что случайная величина X не подчиняется нормальному закону с параметрами х ар = 90; а х = 7,6.

Для того чтобы сделать вывод о том, согласуются ли данные наблюдений с выдвинутой нами гипотезой, применяют критерий согласия. Критерием согласия называется критерий проверки гипотезы о законе распределения. Он применяется для проверки согласия предполагаемого вида закона распределения с опытными данными.

Существуют различные критерии согласия: Пирсона, Фишера, Колмогорова и др.

При проверке гипотез могут допускаться ошибки двух видов. Ошибка первого рода состоит в том, что отвергается верная нулевая гипотеза Н о; ошибка второго рода - в том, что отвергается верная альтернативная гипотеза Н г

Вероятность ошибки первого рода (а) называется уровнем значимости критерия. Чем меньше а, тем меньше вероятность отклонить верную гипотезу Н о Допустимую а обычно задают заранее. Как правило, применяют стандартные значения а = 0,01; 0,05; 0,1.

Вероятность ошибки второго рода обозначают через р. Величину (1 - р) - вероятность недопущения ошибки второго рода (принять верную гипотезу и отвергнуть неверную гипотезу Н 0) - называют мощностью критерия.

Сначала используем для проверки гипотезы о нормальном распределении критерий Пирсона (х 2)- Приведем краткие теоретические сведения. Предположим, что проведено п опытов в каждом из которых случайная величина X приняла определенное значение, т. е. х 1 х 2 ....., х к - число возможных значений

случайной величины X). В результате получаем статистический ряд распределения (табл. 6.6).

Таблица 6.6

где - соответствующие вероятности.

Считаем, что отклонения / от Р имеют случайные причины. Для проверки правдоподобия выдвинутой гипотезы надо выбрать какую-то меру расхождения между статистическими и теоретическими распределениями.

В качестве такой меры расхождения при использовании критерия Пирсона берется сумма квадратов отклонений (/. - Р.), взятых с некоторыми весами С { , т. е.

Веса С. вводят, так как отклонения, относящиеся к разным значениям Р., нельзя считать равноправными по значимости.

Пирсон доказал, что если взять

то при большом числе опытов п закон распределения величины R a обладает следующими свойствами: он практически не зависит от закона распределения случайной величины X, мало зависит от числа опытов п, зависит только от количества значений случайной величины Х(к) и при п -> оо приближается к распределению х 2 Поэтому меру расхождения в данном случае обозначают % 2 , т. е.

Вводим п под знак суммы, учитывая, что, и после

преобразований получаем

Распределение х 2 зависит от параметра называемого числом степеней свободы (г с), который определяется следующим образом:

где S e -- количество независимых условий, которые наложены на относительные частоты. Для нашего примера S e = 3. Мы потребовали, чтобы выполнялись условия:

Для распределения % 2 составлены таблицы (см. приложение 6). Для нашего примера проверим гипотезу о нормальном распределении с помощью критерия Пирсона.

Вернемся к табл. 6.5, где осталась одна незаполненная графа (Р.) - это теоретические вероятности попадания в интервал случайной величины X, имеющей нормальное распределение с параметрами х ар = 90; а х = 7,6.

Для их нахождения используем формулу (2.44). Получаем:

где Ф о (х) - нормированная функция Лапласа, для которой, как мы уже говорили, составлены таблицы (см. приложение 5).

Полученные значения вероятностей занесем в табл. 6.5. Далее по формуле (6.74) получим:

Число степеней свободы в нашем случае равно г, = 6 - 3 = 3. Уровень значимости принимаем равным 0,1, т. е. а = 0,1. По таблице распределения х 2 (см. приложение 6) по уровню значимости а = 0,1 и по числу степеней свободы г = 3 находим %т = 6,25.

Так как Хт > Х Р, то гипотеза о нормальном распределении не противоречит данным наблюдений и ее можно принять с уровнем значимости 0,1. Если под рукой нет таблицы распределения х 2 , для оценки случайности расхождения /. от Р. можно использовать критерий Романовского

Если соотношение (6.76) меньше трех, то расхождение между фактическим и теоретическим распределениями носит случайный характер, а в противном случае они существенны.

Для данных примера имеем , поэтому гипотезу о нормальном распределении тоже можно принять.

Теперь применим для проверки гипотезы о нормальном распределении критерий согласия Колмогорова.

Критерий Колмогорова основан на нахождении максимального расхождения между накопленными частотами или относительными частотами экспериментального распределения и вероятностями теоретического распределения. Он определяется по формулам:

если пользоваться накопленными относительными частотами;

если пользоваться накопленными частотами, где d M - максимальная величина расхождений между накопленными относительными частотами и вероятностями;

D M - максимальная разность между реальными и теоретическими частотами.

Будем использовать формулу (6.77), и необходимые данные разместим в табл. 6.8.

Из табл. 6.8 следует, что, поэтому по формуле

(6.75) получаем

Таблица 6.8

Накопленные f и Р

Затем по таблицам Р() (см. приложение 8) находим Р(Х к) = 1. Поэтому можно полагать, что расхождения между относительными частотами и теоретическими вероятностями носят случайный характер, а, следовательно, гипотеза о нормальном распределении не противоречит данным наблюдений.

В заключение еще раз повторим, что наш пример носит учебный характер. Надо иметь в виду, что при использовании критерия Пирсона количество наблюдений должно быть не менее нескольких десятков, в каждом разряде должно быть не менее пяти наблюдений, а количество разрядов должно быть примерно 10-15.

Вопросы для самопроверки

  • 1. Какие виды средних величин применяют в статистике?
  • 2. Как определяются средняя гармоническая простая и взвешенная?
  • 3. Как определяются средняя геометрическая простая и взвешенная?
  • 4. Как определяется средняя арифметическая простая и взвешенная?
  • 5. Как вычисляются средняя квадратическая и средняя кубическая?
  • 6. Какие показатели вариации вы знаете?
  • 7. Что представляют собой размах вариации и среднее линейное отклонение? По каким формулам они вычисляются?
  • 8. Что такое дисперсия и среднее квадратическое отклонение? По каким формулам они вычисляются?
  • 9. По какой формуле находится дисперсия качественного признака?
  • 10. Что представляет собой коэффициент вариации? Каково его значение для экономического анализа?
  • 11. Что представляет собой правило сложения дисперсии?
  • 12. Что представляют собой асимметрия и эксцесс, и по каким формулам они находятся?

5.3. Показатели вариации

Целью статистического исследования является выявление основных свойств и закономерностей изучаемой статистической совокупности. В процессе сводной обработки данных статистического наблюдения строят ряды распределения. Различают два типа рядов распределения – атрибутивные и вариационные, в зависимости от того, является ли признак, взятый за основу группировки, качественным или количественным.

Вариационными называют ряды распределения, построенные по количественному признаку. Значения количественных признаков у отдельных единиц совокупности не постоянны, более или менее различаются между собой. Такое различие в величине признака носит название вариации. Отдельные числовые значения признака, встречающиеся в изучаемой совокупности, называют вариантами значений. Наличие вариации у отдельных единиц совокупности обусловлено влиянием большого числа факторов на формирование уровня признака. Изучение характера и степени вариации признаков у отдельных единиц совокупности является важнейшим вопросом всякого статистического исследования. Для описания меры изменчивости признаков используют показатели вариации.

Другой важной задачей статистического исследования является определение роли отдельных факторов или их групп в вариации тех или иных признаков совокупности. Для решения такой задачи в статистике применяются специальные методы исследования вариации, основанные на использовании системы показателей, с помощью которых измеряется вариация. В практике исследователь сталкивается с достаточно большим количеством вариантов значений признака, что не дает представления о распределении единиц по величине признака в совокупности. Для этого проводят расположение всех вариантов значений признака в возрастающем или убывающем порядке. Этот процесс называют ранжированием ряда. Ранжированный ряд сразу дает общее представление о значениях, которые принимает признак в совокупности.

Недостаточность средней величины для исчерпывающей характеристики совокупности заставляет дополнять средние величины показателями, позволяющими оценить типичность этих средних путем измерения колеблемости (вариации) изучаемого признака. Использование этих показателей вариации дает возможность сделать статистический анализ более полным и содержательным и тем самым глубже понять сущность изучаемых общественных явлений.

Самыми простыми признаками вариации являются минимум и максимум – это наименьшее и наибольшее значение признака в совокупности. Число повторений отдельных вариантов значений признаков называют частотой повторения. Обозначим частоту повторения значения признака fi, сумма частот, равная объему изучаемой совокупности будет:

где k – число вариантов значений признака. Частоты удобно заменять частостями – wi. Частость относительный показатель частоты – может быть выражен в долях единицы или процентах и позволяет сопоставлять вариационные ряды с различным числом наблюдений. Формально имеем:

Для измерения вариации признака применяются различные абсолютные и относительные показатели. К абсолютным показателям вариации относятся среднее линейное отклонение, размах вариации, дисперсия, среднее квадратическое отклонение.

Размах вариации (R) представляет собой разность между максимальным и минимальным значениями признака в изучаемой совокупности: R = Xmax – Xmin. Этот показатель дает лишь самое общее представление о колеблемости изучаемого признака, так как показывает разницу только между предельными значениями вариантов. Он совершенно не связан с частотами в вариационном ряду, т. е. с характером распределения, а его зависимость может придавать ему неустойчивый, случайный характер только от крайних значений признака. Размах вариации не дает никакой информации об особенностях исследуемых совокупностей и не позволяет оценить степень типичности полученных средних величин. Область применения этого показателя ограничена достаточно однородными совокупностями, точнее, характеризует вариацию признака показатель, основанный на учете изменчивости всех значений признака.

Для характеристики вариации признака нужно обобщить отклонения всех значений от какой-либо типичной для изучаемой совокупности величины. Такие показатели

вариации, как среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, основаны на рассмотрении отклонений значений признака отдельных единиц совокупности от средней арифметической.

Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариантов от их средней арифметической:


– абсолютное значение (модуль) отклонения варианта от средней арифметической; f– частота.

Первая формула применяется, если каждый из вариантов встречается в совокупности только один раз, а вторая – в рядах с неравными частотами.

Существует и другой способ усреднения отклонений вариантов от средней арифметической. Этот очень распространенный в статистике способ сводится к расчету квадратов отклонений вариантов от средней величины с их последующим усреднением. При этом мы получаем новый показатель вариации – дисперсию.

Дисперсия (?2) – средняя из квадратов отклонений вариантов значений признака от их средней величины:

Вторая формула применяется при наличии у вариантов своих весов (или частот вариационного ряда).

В экономико-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения. Среднее квадратическое отклонение (?) представляет собой корень квадратный из дисперсии:

Среднее линейное и среднее квадратическое отклонения показывают, на сколько в среднем колеблется величина признака у единиц исследуемой совокупности, и выражаются в тех же единицах измерения, что и варианты.

В статистической практике часто возникает необходимость сравнения вариации различных признаков. Например, большой интерес представляет сравнение вариаций возраста персонала и его квалификации, стажа работы и размера заработной платы и т. д. Для подобных сопоставлений показатели абсолютной колеблемости признаков – среднее линейное и среднее квадртическое отклонение – не пригодны. Нельзя, в самом деле, сравнивать колеблемость стажа работы, выражаемую в годах, с колеблемостью заработной платы, выражаемой в рублях и копейках.

При сравнении изменчивости различных признаков в совокупности удобно применять относительные показатели вариации. Эти показатели вычисляются как отношение абсолютных показателей к средней арифметической (или медиане). Используя в качестве абсолютного показателя вариации размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, получают относительные показатели колеблемости:


– наиболее часто применяемый показатель относительной колеблемости, характеризующий однородность совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33 % для распределений, близких к нормальному.

Тема 5

Основные вопросы: 1. Понятие вариации.

2. Показатели вариации.

3. Относительные показатели вариации.

4. Виды дисперсии.

1. Понятие вариации. При изучении совокупности явления нельзя ограничиваться только нахождением средней величины. Средние величины дают обобщенную характеристику варьирующего признака, показывают типичные характеристики для изучаемой совокупности. Однако в средней величине не проявляется степень колеблемости отдельных значений признаков вокруг среднего уровня. В зависимости от однородности в совокупности колеблемость признаков может быть большой или малой. Поэтому возникает необходимость в измерении вариации отдельных вариантов по отношению к средней величине.

Определение : Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.

Вариация в переводе с латинского означает «колеблемость», «изменчивость», «непостоянство». Предполагая, что большинство социально-экономических явлений и процессов варьируют в некотором масштабе, статистика разработала методологию расчета показателей вариации, которые, в свою очередь, могут быть абсолютными, относительными и средними.

Величины признаков колеблются, варьируют под действием различных причин и условий, которые в статистике называют факторами. Нередко эти факторы действуют в противоположных направлениях и сами, в свою очередь, варьируют. Среди них есть существенные факторы, определяющие величину вариантов данного признака у всех единиц совокупности. Но есть и несущественные, которые на одни единицы совокупности могут оказывать влияние, на другие нет.

Например, вариация оценок студентов на экзамене в вузе вызывается, в частности, различными способностями студентов; временем, затраченным ими на самостоятельную работу; посещаемостью занятий; различием социально-бытовых условий и т.д. Но на оценку могут влиять и какие-либо привходящие, чисто случайные причины, например, временное недомогание.

Вариация, порождаемая существенными факторами, носит систематический характер, то есть наблюдается последовательное изменение вариантов признака в определенном направлении. Такая вариация называется систематической. В систематической вариации проявляются взаимосвязи между явлениями, их признаками, в такой связи – один как причина, другой как следствие его действия.

Вариация, обусловленная случайными факторами, называется случайной вариацией. Здесь не наблюдается систематического изменения вариантов зависимого признака от случайных факторов; все изменения носят хаотический характер, поскольку нет устойчивой связи этих факторов с единицами изучаемой совокупности.


Вариация зависимого признака, образовавшаяся под действием всех без исключения влияющих на него факторов, называется общей вариацией. Следовательно, общая вариация слагается из систематической и случайной вариации.

2. Показатели вариации. К показателям вариации относятся: размах вариации, среднее линейное (абсолютное) отклонение (с.л.о.), дисперсия, среднее квадратическое отклонение (с.к.о.), коэффициент вариации.

1) Размах вариации – разность между максимальным и минимальным значением признака:

Он характеризует пределы изменения признака.

Средний размах: – это есть средняя арифметическая из ряда размахов, полученных из серии равных по объему наблюдений. Используется в контроле качества.

Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику.

Простейший показатель такого типа СЛО.

2). Среднее линейное отклонение (СЛО) – представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (учитывает только крайние значения признака и не учитывает все промежуточные).

– СЛО для несгруппированных данных: ,

где – число членов ряда.

Т.е. – СЛО равно средней арифметической из абсолютных отклонений (модулей) признака всех единиц совокупности от средней арифметической.

– СЛО для сгруппированных данных: ,

где – сумма частот вариационного ряда.

В формулах разности в числителе взяты по модулю, иначе в числителе всегда будет ноль – алгебраическая сумма отклонений вариантов от их средней арифметической.

Поэтому СЛО применяют редко, только в случаях, когда суммирование показателей без учета знаков имеет экономический смысл. Например, анализ состава рабочих, ритмичность производства, оборот внешней торговли.

3) Дисперсия – это средний квадрат отклонений индивидуальных значений от средней арифметической (не имеет единиц измерения).

В общем виде взвешенная дисперсия исчисляется по формуле:

или простая дисперсия:

.

Дисперсия альтернативного признака:

4) Среднее квадратическое отклонение (СКО) ‑ это есть квадратный корень из среднего квадрата отклонений отдельных значений признака от средней арифметической:

– для несгруппированных данных;

– для сгруппированных данных (для вариационного ряда).

3. Относительные показатели вариации (коэффициент вариации). В статистической практике часто возникает необходимость сравнения вариаций различных признаков. Например, большой интерес представляет сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. для подобных сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией зарплаты, выраженной в рублях.

Для осуществления такого сравнения, а также сравнения колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим используют относительный показатель вариации – коэффициент вариации (КВ).

КВ – представляет собой выраженное в процентах отношение СКО к средней арифметической.

,

это и есть коэффициент вариации. Это относительная мера вариации и позволяет сравнивать степень варьирования в разных вариационных рядах.

4. Виды дисперсии.

Определение : Дисперсия – это средний квадрат отклонений всех значений признака ряда распределения от средней арифметической.

Свойства дисперсии:

1) Дисперсия постоянной величины равна нулю ();

2) Дисперсия не меняется, если все варианты увеличить или уменьшить на одно и то же число ();

3) Если все варианты умножить на число , дисперсия увеличится в раз ;

4) Дисперсия от средней меньше, чем средний квадрат отклонений от любого числа на – свойство минимальности дисперсии от средней ().

Использование свойств дисперсии позволяет упрощать ее расчеты, особенно в случаях, когда вариационный ряд составляет арифметическую прогрессию или имеет равные интервалы. В этих случаях сначала находят дисперсию от условного нуля, а затем используют 4-е свойство, переходят к дисперсии от средней.

Виды дисперсий для сгруппированных данных, условия их применения в статистических исследованиях.

Если совокупность данных сгруппирована на группы по какому-то признаку, то в этом случае выделяются 3 вида дисперсий:

Общая дисперсия