Вычисление хи квадрат. Классические методы статистики: критерий хи-квадрат. Обратная функция ХИ2-распределения

). Конкретная формулировка проверяемой гипотезы от случая к случаю будет варьировать.

В этом сообщении я опишу принцип работы критерия \(\chi^2\) на (гипотетическом) примере из иммунологии . Представим, что мы выполнили эксперимент по установлению эффективности подавления развития микробного заболевания при введении в организм соответствующих антител . Всего в эксперименте было задействовано 111 мышей, которых мы разделили на две группы, включающие 57 и 54 животных соответственно. Первой группе мышей сделали инъекции патогенных бактерий с последующим введением сыворотки крови, содержащей антитела против этих бактерий. Животные из второй группы служили контролем – им сделали только бактериальные инъекции. После некоторого времени инкубации оказалось, что 38 мышей погибли, а 73 выжили. Из погибших 13 принадлежали первой группе, а 25 – ко второй (контрольной). Проверяемую в этом эксперименте нулевую гипотезу можно сформулировать так: введение сыворотки с антителами не оказывает никакого влияния на выживаемость мышей. Иными словами, мы утверждаем, что наблюдаемые различия в выживаемости мышей (77.2% в первой группе против 53.7% во второй группе) совершенно случайны и не связаны с действием антител.

Полученные в эксперименте данные можно представить в виде таблицы:

Всего

Бактерии + сыворотка

Только бактерии

Всего

Таблицы, подобные приведенной, называют таблицами сопряженности . В рассматриваемом примере таблица имеет размерность 2х2: есть два класса объектов («Бактерии + сыворотка» и «Только бактерии»), которые исследуются по двум признакам ("Погибло" и "Выжило"). Это простейший случай таблицы сопряженности: безусловно, и количество исследуемых классов, и количество признаков может быть бóльшим.

Для проверки сформулированной выше нулевой гипотезы нам необходимо знать, какова была бы ситуация, если бы антитела действительно не оказывали никакого действия на выживаемость мышей. Другими словами, нужно рассчитать ожидаемые частоты для соответствующих ячеек таблицы сопряженности. Как это сделать? В эксперименте всего погибло 38 мышей, что составляет 34.2% от общего числа задействованных животных. Если введение антител не влияет на выживаемость мышей, в обеих экспериментальных группах должен наблюдаться одинаковый процент смертности, а именно 34.2%. Рассчитав, сколько составляет 34.2% от 57 и 54, получим 19.5 и 18.5. Это и есть ожидаемые величины смертности в наших экспериментальных группах. Аналогичным образом рассчитываются и ожидаемые величины выживаемости: поскольку всего выжили 73 мыши, или 65.8% от общего их числа, то ожидаемые частоты выживаемости составят 37.5 и 35.5. Составим новую таблицу сопряженности, теперь уже с ожидаемыми частотами:

Погибшие

Выжившие

Всего

Бактерии + сыворотка

Только бактерии

Всего

Как видим, ожидаемые частоты довольно сильно отличаются от наблюдаемых, т.е. введение антител, похоже, все-таки оказывает влияние на выживаемость мышей, зараженных патогенным микроорганизмом. Это впечатление мы можем выразить количественно при помощи критерия согласия Пирсона \(\chi^2\):

\[\chi^2 = \sum_{}\frac{(f_o - f_e)^2}{f_e},\]


где \(f_o\) и \(f_e\) - наблюдаемые и ожидаемые частоты соответственно. Суммирование производится по всем ячейкам таблицы. Так, для рассматриваемого примера имеем

\[\chi^2 = (13 – 19.5)^2/19.5 + (44 – 37.5)^2/37.5 + (25 – 18.5)^2/18.5 + (29 – 35.5)^2/35.5 = \]

Достаточно ли велико полученное значение \(\chi^2\), чтобы отклонить нулевую гипотезу? Для ответа на этот вопрос необходимо найти соответствующее критическое значение критерия. Число степеней свободы для \(\chi^2\) рассчитывается как \(df = (R - 1)(C - 1)\), где \(R\) и \(C\) - количество строк и столбцов в таблице сопряженности. В нашем случае \(df = (2 -1)(2 - 1) = 1\). Зная число степеней свободы, мы теперь легко можем узнать критическое значение \(\chi^2\) при помощи стандартной R-функции qchisq() :


Таким образом, при одной степени свободы только в 5% случаев величина критерия \(\chi^2\) превышает 3.841. Полученное нами значение 6.79 значительно превышает это критического значение, что дает нам право отвергнуть нулевую гипотезу об отсутствии связи между введением антител и выживаемостью зараженных мышей. Отвергая эту гипотезу, мы рискуем ошибиться с вероятностью менее 5%.

Следует отметить, что приведенная выше формула для критерия \(\chi^2\) дает несколько завышенные значения при работе с таблицами сопряженности размером 2х2. Причина заключается в том, что распределение самого критерия \(\chi^2\) является непрерывным, тогда как частоты бинарных признаков ("погибло" / "выжило") по определению дискретны. В связи с этим при расчете критерия принято вводить т.н. поправку на непрерывность , или поправку Йетса :

\[\chi^2_Y = \sum_{}\frac{(|f_o - f_e| - 0.5)^2}{f_e}.\]

"s Chi-squared test with Yates" continuity correction data : mice X-squared = 5.7923 , df = 1 , p-value = 0.0161


Как видим, R автоматически применяет поправку Йетса на непрерывность (Pearson"s Chi-squared test with Yates" continuity correction ). Рассчитанное программой значение \(\chi^2\) составило 5.79213. Мы можем отклонить нулевую гипотезу об отсутствии эффекта антител, рискуя ошибиться с вероятностью чуть более 1% (p-value = 0.0161 ).

Критерий хи-квадрат.

Критерий хи-квадрат в отличие от критерия z применяется для сравнения любого количества групп.

Исходные данные: таблица сопряжённости.

Пример таблицы сопряженности минимальной размерности 2*2, приведен ниже. A,B,C,D – так называемые, реальные частоты.

Признак 1 Признак 2 Всего
Группа 1 A B A+B
Группа 2 C D C+D
Всего A+C B+D A+B+C+D

Расчёт критерия основан на сравнении реальных частот и ожидаемых частот, которые вычисляются в предположении отсутствия взаимного влияния сравниваемых признаков друг на друга. Таким образом, если реальные и ожидаемые частоты достаточно близки друг к другу, то влияния нет и значит признаки будут распределены примерно одинаково по группам.

Исходные данные для применения этого метода должны быть занесены в таблицу сопряженности, по столбцам и по строчкам которой указываются варианты значений изучаемых признаков. Числа в этой таблице будут называться реальными или экспериментальными частотами. Далее необходимо рассчитать ожидаемые частоты исходя из предположения, что сравниваемые группы абсолютно равны по распределению признаков. В этом случае пропорции по итоговой строчке или столбцу «всего» должны сохраняться в любой строчке и столбце. Исходя из этого, определяются ожидаемые частоты (см. пример).

Затем рассчитывают значение критерия как сумму по всем ячейкам таблицы сопряженности отношения квадрата разности между реальной частотой и ожидаемой частотой к ожидаемой частоте:

где - реальная частота в ячейке; - ожидаемая частота в ячейке.

, где N = A+ B + C + D .

При расчёте по основной формуле для таблицы 2*2 (только для такой таблицы ), также необходимо применить поправку Йейтса на непрерывность:

.

Критическое значение критерия определяется по таблице (см. приложение) с учетом числа степеней свободы и уровня значимости. Уровень значимости принимают стандартным: 0,05; 0,01 или 0,001. Число степеней свободы определяется как произведение числа строк и столбцов таблицы сопряженности уменьшенных каждое на единицу:

,

где r – число строк (число градаций одного признака), с – число столбцов (число градаций другого признака). Это критическое значение можно определить в электронной таблице Microsoft Excel используя функцию =хи2обр(a, f ), где вместо a надо ввести уровень значимости, а вместо f – число степеней свободы.

Если значение критерия хи-квадрат больше критического, то гипотезу о независимости признаков отвергают и их можно считать зависимыми на выбранном уровне значимости.

У этого метода есть ограничение по применимости: ожидаемые частоты должны быть 5 или более (для таблицы 2*2). Для произвольной таблицы это ограничение менее строгое: все ожидаемые частоты должны быть 1 или больше, а доля ячеек с ожидаемыми частотами меньше 5 не должна превышать 20%.

Из таблицы сопряженности большой размерности можно «вычленить» таблицы меньшей размерности и для них рассчитать значение критерия c 2 . Это фактически будут множественные сравнения, аналогичные описанным для критерия Стьюдента. В этом случае также надо применять поправку на множественные сравнения в зависимости от их количества.

Для проверки гипотезы с помощью критерия c 2 в электронных таблицах Microsoft Excel можно применить следующую функцию:

ХИ2ТЕСТ(фактический_интервал; ожидаемый_интервал).

Здесь фактический_интервал – исходная таблица сопряженности с реальными частотами (указываются только ячейки с самими частотами без заголовков и «всего»); ожидаемый_интервал – массив ожидаемых частот. Следовательно, ожидаемые частоты должны быть вычислены самостоятельно.

Пример:

В некотором городе произошла вспышка инфекционного заболевания. Есть предположение, что источником заражения явилась питьевая вода. Проверить это предположение решили с помощью выборочного опроса городского населения, по которому необходимо установить влияет ли количество выпиваемой воды на количество заболевших.

Исходные данные приведены в следующей таблице:

Рассчитаем ожидаемые частоты. Пропорция по всего должна сохраниться и внутри таблицы. Поэтому вычислим, например, какую долю составляют всего по строчкам в общей численности, получим для каждой строчки коэффициент. Такая же доля должна оказаться в каждой ячейке соответствующей строчки, поэтому для вычисления ожидаемой частоты в ячейке умножаем коэффициент на всего по соответствующему столбцу.

Число степеней свободы равно (3-1)*(2-1)=2. Критическое значение критерия .

Экспериментальное значение больше критического (61,5>13,816), т.е. гипотеза об отсутствия влияния количества выпиваемой воды на заболеваемость отвергается с вероятностью ошибки менее 0,001. Таким образом, можно утверждать, что именно вода стала источником заболевания.

У обоих описанных критериев существуют ограничения, которые обычно не выполняются, если число наблюдений невелико или отдельные градации признаков редко встречаются. В этом случае используют точный критерий Фишера . Он основан на переборе всех возможных вариантов заполнения таблицы сопряженности при данной численности групп. Поэтому ручной расчет его довольно сложен. Для его расчёта можно воспользоваться статистическими пакетами прикладных программ.

Критерий z является аналогом критерия Стьюдента, но применяется для сравнения качественных признаков. Экспериментальное значение критерия рассчитывается как отношение разности долей к средней ошибке разности долей.

Критические значение критерия z равны соответствующим точкам нормированного нормального распределения: , , .



Критерий хи-квадрат применяется для сравнения любого количества групп по значениям качественных признаков. Исходные данные должны быть представлены в виде таблицы сопряжённости. Экспериментальное значение критерия рассчитывают как сумму по всем ячейкам таблицы сопряженности отношения квадрата разности между реальной частотой и ожидаемой частотой к ожидаемой частоте. Ожидаемые частоты вычисляются в предположении равенства сравниваемых признаков во всех группах. Критические значения определяются по таблицам распределения хи-квадрат.

ЛИТЕРАТУРА.

Гланц С. – Глава 5.

Реброва О.Ю. – Глава 10,11.

Лакин Г.Ф. – с. 120-123

Вопросы для самопроверки студентов.

1. В каких случаях можно применять критерий z?

2. На чём основано вычисление экспериментального значения критерия z?

3. Как найти критическое значение критерия z?

4. В каких случаях можно применять критерий c 2 ?

5. На чём основано вычисление экспериментального значения критерия c 2 ?

6. Как найти критическое значение критерия c 2 ?

7. Что ещё можно применить для сравнения качественных признаков, если нельзя применить по ограничениям критерии z и c 2 ?

Задачи.

Критерий независимости хи-квадрат используется для определения связи между двумя категориальными переменными. Примерами пар категориальных переменных являются: Семейное положение vs. Уровень занятости респондента; Порода собак vs. Профессия хозяина, Уровень з/п vs. Специализация инженера и др. При вычислении критерия независимости проверяется гипотеза о том, что между переменными связи нет. Вычисления будем производить с помощью функции MS EXCEL 2010 ХИ2.ТЕСТ() и обычными формулами.

Предположим у нас есть выборка данных, представляющая результат опроса 500 человек. Людям задавалось 2 вопроса: про их семейное положение (женаты, гражданский брак, не состоят в отношениях) и их уровень занятости (полный рабочий день, частичная занятость, временно не работает, на домохозяйстве, на пенсии, учеба). Все ответы поместили в таблицу:

Данная таблица называется таблицей сопряжённости признаков (или факторной таблицей, англ. Contingency table). Элементы на пересечении строк и столбцов таблицы обычно обозначают O ij (от англ. Observed, т.е. наблюденные, фактические частоты).

Нас интересует вопрос «Влияет ли Семейное положение на Занятость?», т.е. существует ли зависимость между двумя методами классификации выборки ?

При проверке гипотез такого вида обычно принимают, что нулевая гипотеза утверждает об отсутствии зависимости способов классификации.

Рассмотрим предельные случаи. Примером полной зависимости двух категориальных переменных является вот такой результат опроса:

В этом случае семейное положение однозначно определяет занятость (см. файл примера лист Пояснение ). И наоборот, примером полной независимости является другой результат опроса:

Обратите внимание, что процент занятости в этом случае не зависит от семейного положения (одинаков для женатых и не женатых). Это как раз совпадает с формулировкой нулевой гипотезы . Если нулевая гипотеза справедлива, то результаты опроса должны были бы так распределиться в таблице, что процент занятых был бы одинаковым независимо от семейного положения. Используя это, вычислим результаты опроса, которые соответствуют нулевой гипотезе (см. файл примера лист Пример ).

Сначала вычислим оценку вероятности, того, что элемент выборки будет иметь определенную занятость (см. столбец u i):

где с – количество столбцов (columns), равное количеству уровней переменной «Семейное положение».

Затем вычислим оценку вероятности, того, что элемент выборки будет иметь определенное семейное положение (см. строку v j).

где r – количество строк (rows), равное количеству уровней переменной «Занятость».

Теоретическая частота для каждой ячейки E ij (от англ. Expected, т.е. ожидаемая частота) в случае независимости переменных вычисляется по формуле:
E ij =n* u i * v j

Известно, что статистика Х 2 0 при больших n имеет приблизительно с (r-1)(c-1) степенями свободы (df – degrees of freedom):

Если вычисленное на основе выборки значение этой статистики «слишком большое» (больше порогового), то нулевая гипотеза отвергается. Пороговое значение вычисляется на основании , например с помощью формулы =ХИ2.ОБР.ПХ(0,05; df) .

Примечание : Уровень значимости обычно принимается равным 0,1; 0,05; 0,01.

При проверке гипотезы также удобно вычислять , которое мы сравниваем с уровнем значимости . p -значение рассчитывается с использованием с (r-1)*(c-1)=df степеней свободы.

Если вероятность, того что случайная величина имеющая с (r-1)(c-1) степенями свободы примет значение больше вычисленной статистики Х 2 0 , т.е. P{Х 2 (r-1)*(c-1) >Х 2 0 }, меньше уровня значимости , то нулевая гипотеза отклоняется.

В MS EXCEL p-значение можно вычислить с помощью формулы =ХИ2.РАСП.ПХ(Х 2 0 ;df) , конечно, вычислив непосредственно перед этим значение статистики Х 2 0 (это сделано в файле примера ). Однако, удобнее всего воспользоваться функцией ХИ2.ТЕСТ() . В качестве аргументов этой функции указываются ссылки на диапазоны содержащие фактические (Observed) и вычисленные теоретические частоты (Expected).

Если уровень значимости > p -значения , то означает это фактические и теоретические частоты, вычисленные из предположения справедливости нулевой гипотезы , серьезно отличаются. Поэтому, нулевую гипотезу нужно отклонить.

Использование функции ХИ2.ТЕСТ() позволяет ускорить процедуру проверки гипотез , т.к. не нужно вычислять значение статистики . Теперь достаточно сравнить результат функции ХИ2.ТЕСТ() с заданным уровнем значимости .

Примечание : Функция ХИ2.ТЕСТ() , английское название CHISQ.TEST, появилась в MS EXCEL 2010. Ее более ранняя версия ХИ2ТЕСТ() , доступная в MS EXCEL 2007 имеет тот же функционал. Но, как и для ХИ2.ТЕСТ() , теоретические частоты нужно вычислить самостоятельно.

  • Математика
  • В этой статье речь будет идти о исследовании зависимости между признаками, или как больше нравится - случайными величинами, переменными. В частности, мы разберем как ввести меру зависимости между признаками, используя критерий Хи-квадрат и сравним её с коэффициентом корреляции.

    Для чего это может понадобиться? К примеру, для того, чтобы понять какие признаки сильнее зависимы от целевой переменной при построении кредитного скоринга - определении вероятности дефолта клиента. Или, как в моем случае, понять какие показатели нобходимо использовать для программирования торгового робота.

    Отдельно отмечу, что для анализа данных я использую язык c#. Возможно это все уже реализовано на R или Python, но использование c# для меня позволяет детально разобраться в теме, более того это мой любимый язык программирования.

    Начнем с совсем простого примера, создадим в экселе четыре колонки, используя генератор случайных чисел:
    X =СЛУЧМЕЖДУ(-100;100)
    Y =X *10+20
    Z =X *X
    T =СЛУЧМЕЖДУ(-100;100)

    Как видно, переменная Y линейно зависима от X ; переменная Z квадратично зависима от X ; переменные X и Т независимы. Такой выбор я сделал специально, потому что нашу меру зависимости мы будем сравнивать с коэффициентом корреляции . Как известно, между двумя случайными величинами он равен по модулю 1 если между ними самый «жесткий» вид зависимости - линейный. Между двумя независимыми случайными величинами корреляция нулевая, но из равенства коэффициента корреляции нулю не следует независимость . Далее мы это увидим на примере переменных X и Z .

    Сохраняем файл как data.csv и начинаем первые прикиди. Для начала рассчитаем коэффициент корреляции между величинами. Код в статью я вставлять не стал, он есть на моем github . Получаем корреляцию по всевозможным парам:

    Видно, что у линейно зависимых X и Y коэффициент корреляции равен 1. А вот у X и Z он равен 0.01, хотя зависимость мы задали явную Z =X *X . Ясно, что нам нужна мера, которая «чувствует» зависимость лучше. Но прежде, чем переходить к критерию Хи-квадрат, давайте рассмотрим что такое матрица сопряженности.

    Чтобы построить матрицу сопряженности мы разобьём диапазон значений переменных на интервалы (или категорируем). Есть много способов такого разбиения, при этом какого-то универсального не существует. Некоторые из них разбивают на интервалы так, чтобы в них попадало одинаковое количество переменных, другие разбивают на равные по длине интервалы. Мне лично по духу комбинировать эти подходы. Я решил воспользоваться таким способом: из переменной я вычитаю оценку мат. ожидания, потом полученное делю на оценку стандартного отклонения. Иными словами я центрирую и нормирую случайную величину. Полученное значение умножается на коэффициент (в этом примере он равен 1), после чего все округляется до целого. На выходе получается переменная типа int, являющаяся идентификатором класса.

    Итак, возьмем наши признаки X и Z , категорируем описанным выше способом, после чего посчитаем количество и вероятности появления каждого класса и вероятности появления пар признаков:

    Это матрица по количеству. Здесь в строках - количества появлений классов переменной X , в столбцах - количества появлений классов переменной Z , в клетках - количества появлений пар классов одновременно. К примеру, класс 0 встретился 865 раз для переменной X , 823 раза для переменной Z и ни разу не было пары (0,0). Перейдем к вероятностям, поделив все значения на 3000 (общее число наблюдений):

    Получили матрицу сопряженности, полученную после категорирования признаков. Теперь пора задуматься над критерием. По определению, случайные величины независимы, если независимы сигма-алгебры , порожденные этими случайными величинами. Независимость сигма-алгебр подразумевает попарную независимость событий из них. Два события называются независимыми, если вероятность их совместного появления равна произведению вероятностей этих событий: Pij = Pi*Pj . Именно этой формулой мы будем пользоваться для построения критерия.

    Нулевая гипотеза : категорированные признаки X и Z независимы. Эквивалентная ей: распределение матрицы сопряженности задается исключительно вероятностями появления классов переменных (вероятности строк и столбцов). Или так: ячейки матрицы находятся произведением соответствующих вероятностей строк и столбцов. Эту формулировку нулевой гипотезы мы будем использовать для построения решающего правила: существенное расхождение между Pij и Pi*Pj будет являться основанием для отклонения нулевой гипотезы.

    Пусть - вероятность появления класса 0 у переменной X . Всего у нас n классов у X и m классов у Z . Получается, чтобы задать распределение матрицы нам нужно знать эти n и m вероятностей. Но на самом деле если мы знаем n-1 вероятность для X , то последняя находится вычитанием из 1 суммы других. Таким образом для нахождения распределения матрицы сопряженности нам надо знать l=(n-1)+(m-1) значений. Или мы имеем l -мерное параметрическое пространство, вектор из которого задает нам наше искомое распределение. Статистика Хи-квадрат будет иметь следующий вид:

    и, согласно теореме Фишера, иметь распределение Хи-квадрат с n*m-l-1=(n-1)(m-1) степенями свободы.

    Зададимся уровнем значимости 0.95 (или вероятность ошибки первого рода равна 0.05). Найдем квантиль распределения Хи квадрат для данного уровня значимости и степеней свободы из примера (n-1)(m-1)=4*3=12 : 21.02606982. Сама статистика Хи-квадрат для переменных X и Z равна 4088.006631. Видно, что гипотеза о независимости не принимается. Удобно рассматривать отношение статистики Хи-квадрат к пороговому значению - в данном случае оно равно Chi2Coeff=194.4256186 . Если это отношение меньше 1, то гипотеза о независимости принимается, если больше, то нет. Найдем это отношение для всех пар признаков:

    Здесь Factor1 и Factor2 - имена признаков
    src_cnt1 и src_cnt2 - количество уникальных значений исходных признаков
    mod_cnt1 и mod_cnt2 - количество уникальных значений признаков после категорирования
    chi2 - статистика Хи-квадрат
    chi2max - пороговое значение статистики Хи-квадрат для уровня значимости 0.95
    chi2Coeff - отношение статистики Хи-квадрат к пороговому значению
    corr - коэффициент корреляции

    Видно, что независимы (chi2coeff<1) получились следующие пары признаков - (X,T ), (Y,T ) и (Z,T ), что логично, так как переменная T генерируется случайно. Переменные X и Z зависимы, но менее, чем линейно зависимые X и Y , что тоже логично.

    Код утилиты, рассчитывающей данные показатели я выложил на github, там же файл data.csv. Утилита принимает на вход csv-файл и высчитывает зависимости между всеми парами колонок: PtProject.Dependency.exe data.csv

    Рассмотрим применение в MS EXCEL критерия хи-квадрат Пирсона для проверки простых гипотез.

    После получения экспериментальных данных (т.е. когда имеется некая выборка ) обычно производится выбор закона распределения, наиболее хорошо описывающего случайную величину, представленную данной выборкой . Проверка того, насколько хорошо экспериментальные данные описываются выбранным теоретическим законом распределения, осуществляется с использованием критериев согласия . Нулевой гипотезой , обычно выступает гипотеза о равенстве распределения случайной величины некоторому теоретическому закону.

    Сначала рассмотрим применение критерия согласия Пирсона Х 2 (хи-квадрат) в отношении простых гипотез (параметры теоретического распределения считаются известными). Затем - , когда задается только форма распределения, а параметры этого распределения и значение статистики Х 2 оцениваются/рассчитываются на основании одной и той же выборки .

    Примечание : В англоязычной литературе процедура применения критерия согласия Пирсона Х 2 имеет название The chi-square goodness of fit test .

    Напомним процедуру проверки гипотез:

    • на основе выборки вычисляется значение статистики , которая соответствует типу проверяемой гипотезы. Например, для используется t -статистика (если не известно);
    • при условии истинности нулевой гипотезы , распределение этой статистики известно и может быть использовано для вычисления вероятностей (например, для t -статистики это );
    • вычисленное на основе выборки значение статистики сравнивается с критическим для заданного значением ();
    • нулевую гипотезу отвергают, если значение статистики больше критического (или если вероятность получить это значение статистики () меньше уровня значимости , что является эквивалентным подходом).

    Проведем проверку гипотез для различных распределений.

    Дискретный случай

    Предположим, что два человека играют в кости. У каждого игрока свой набор костей. Игроки по очереди кидают сразу по 3 кубика. Каждый раунд выигрывает тот, кто выкинет за раз больше шестерок. Результаты записываются. У одного из игроков после 100 раундов возникло подозрение, что кости его соперника – несимметричные, т.к. тот часто выигрывает (часто выбрасывает шестерки). Он решил проанализировать насколько вероятно такое количество исходов противника.

    Примечание : Т.к. кубиков 3, то за раз можно выкинуть 0; 1; 2 или 3 шестерки, т.е. случайная величина может принимать 4 значения.

    Из теории вероятности нам известно, что если кубики симметричные, то вероятность выпадения шестерок подчиняется . Поэтому, после 100 раундов частоты выпадения шестерок могут быть вычислены с помощью формулы
    =БИНОМ.РАСП(A7;3;1/6;ЛОЖЬ)*100

    В формуле предполагается, что в ячейке А7 содержится соответствующее количество выпавших шестерок в одном раунде.

    Примечание : Расчеты приведены в файле примера на листе Дискретное .

    Для сравнения наблюденных (Observed) и теоретических частот (Expected) удобно пользоваться .

    При значительном отклонении наблюденных частот от теоретического распределения, нулевая гипотеза о распределении случайной величины по теоретическому закону, должна быть отклонена. Т.е., если игральные кости соперника несимметричны, то наблюденные частоты будут «существенно отличаться» от биномиального распределения .

    В нашем случае на первый взгляд частоты достаточно близки и без вычислений сложно сделать однозначный вывод. Применим критерий согласия Пирсона Х 2 , чтобы вместо субъективного высказывания «существенно отличаться», которое можно сделать на основании сравнения гистограмм , использовать математически корректное утверждение.

    Используем тот факт, что в силу закона больших чисел наблюденная частота (Observed) с ростом объема выборки n стремится к вероятности, соответствующей теоретическому закону (в нашем случае, биномиальному закону ). В нашем случае объем выборки n равен 100.

    Введем тестовую статистику , которую обозначим Х 2:

    где O l – это наблюденная частота событий, что случайная величина приняла определенные допустимые значения, E l – это соответствующая теоретическая частота (Expected). L – это количество значений, которые может принимать случайная величина (в нашем случае равна 4).

    Как видно из формулы, эта статистика является мерой близости наблюденных частот к теоретическим, т.е. с помощью нее можно оценить «расстояния» между этими частотами. Если сумма этих «расстояний» «слишком велика», то эти частоты «существенно отличаются». Понятно, что если наш кубик симметричный (т.е. применим биномиальный закон ), то вероятность того, что сумма «расстояний» будет «слишком велика» будет малой. Чтобы вычислить эту вероятность нам необходимо знать распределение статистики Х 2 (статистика Х 2 вычислена на основе случайной выборки , поэтому она является случайной величиной и, следовательно, имеет свое распределение вероятностей ).

    Из многомерного аналога интегральной теоремы Муавра-Лапласа известно, что при n->∞ наша случайная величина Х 2 асимптотически с L - 1 степенями свободы.

    Итак, если вычисленное значение статистики Х 2 (сумма «расстояний» между частотами) будет больше чем некое предельное значение, то у нас будет основание отвергнуть нулевую гипотезу . Как и при проверке параметрических гипотез , предельное значение задается через уровень значимости . Если вероятность того, что статистика Х 2 примет значение меньше или равное вычисленному (p -значение ), будет меньше уровня значимости , то нулевую гипотезу можно отвергнуть.

    В нашем случае, значение статистики равно 22,757. Вероятность, что статистика Х 2 примет значение больше или равное 22,757 очень мала (0,000045) и может быть вычислена по формулам
    =ХИ2.РАСП.ПХ(22,757;4-1) или
    =ХИ2.ТЕСТ(Observed; Expected)

    Примечание : Функция ХИ2.ТЕСТ() специально создана для проверки связи между двумя категориальными переменными (см. ).

    Вероятность 0,000045 существенно меньше обычного уровня значимости 0,05. Так что, у игрока есть все основания подозревать своего противника в нечестности (нулевая гипотеза о его честности отвергается).

    При применении критерия Х 2 необходимо следить за тем, чтобы объем выборки n был достаточно большой, иначе будет неправомочна аппроксимация распределения статистики Х 2 . Обычно считается, что для этого достаточно, чтобы наблюденные частоты (Observed) были больше 5. Если это не так, то малые частоты объединяются в одно или присоединяются к другим частотам, причем объединенному значению приписывается суммарная вероятность и, соответственно, уменьшается число степеней свободы Х 2 -распределения .

    Для того чтобы улучшить качество применения критерия Х 2 (), необходимо уменьшать интервалы разбиения (увеличивать L и, соответственно, увеличивать количество степеней свободы ), однако этому препятствует ограничение на количество попавших в каждый интервал наблюдений (д.б.>5).

    Непрерывный случай

    Критерий согласия Пирсона Х 2 можно применить так же в случае .

    Рассмотрим некую выборку , состоящую из 200 значений. Нулевая гипотеза утверждает, что выборка сделана из .

    Примечание : Cлучайные величины в файле примера на листе Непрерывное сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) . Поэтому, новые значения выборки генерируются при каждом пересчете листа.

    Соответствует ли имеющийся набор данных можно визуально оценить .

    Как видно из диаграммы, значения выборки довольно хорошо укладываются вдоль прямой. Однако, как и в для проверки гипотезы применим Критерий согласия Пирсона Х 2 .

    Для этого разобьем диапазон изменения случайной величины на интервалы с шагом 0,5 . Вычислим наблюденные и теоретические частоты. Наблюденные частоты вычислим с помощью функции ЧАСТОТА() , а теоретические – с помощью функции НОРМ.СТ.РАСП() .

    Примечание : Как и для дискретного случая , необходимо следить, чтобы выборка была достаточно большая, а в интервал попадало >5 значений.

    Вычислим статистику Х 2 и сравним ее с критическим значением для заданного уровня значимости (0,05). Т.к. мы разбили диапазон изменения случайной величины на 10 интервалов, то число степеней свободы равно 9. Критическое значение можно вычислить по формуле
    =ХИ2.ОБР.ПХ(0,05;9) или
    =ХИ2.ОБР(1-0,05;9)

    На диаграмме выше видно, что значение статистики равно 8,19, что существенно выше критического значения нулевая гипотеза не отвергается.

    Ниже приведена , на которой выборка приняла маловероятное значение и на основании критерия согласия Пирсона Х 2 нулевая гипотеза была отклонена (не смотря на то, что случайные значения были сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) , обеспечивающей выборку из стандартного нормального распределения ).

    Нулевая гипотеза отклонена, хотя визуально данные располагаются довольно близко к прямой линии.

    В качестве примера также возьмем выборку из U(-3; 3). В этом случае, даже из графика очевидно, что нулевая гипотеза должна быть отклонена.

    Критерий согласия Пирсона Х 2 также подтверждает, что нулевая гипотеза должна быть отклонена.