Критерии выбросов в случае нормального распределения. Табличные значения критерия Ирвина для крайних элементов вариационного ряда В.В. Заляжных. Варианты исходных данных

Кроме того, аномальные уровни во временных рядах могут возникать из-за воздействия факторов, имеющих объективный характер, но проявляющихся эпизодически или очень редко – ошибки второго рода , они устранению не подлежат.

Для выявления аномальных уровней временных рядов используются методы, рассчитанные для статистических совокупностей.

Метод Ирвина.

Метод Ирвина предполагает использование следующей формулы:

где среднее квадратическое отклонение рассчитывается в свою очередь с использованием формул:

. (2)

Расчетные значения сравниваются с табличными значениями критерия Ирвина , и если оказываются больше табличных, то соответствующее значение уровня ряда считается аномальным. Значение критерия Ирвина для уровня значимости , т.е. с 5%-ной ошибкой, приведены в таблице 4.

Таблица 4.

2,8 2,3 1,5 1,3 1,2 1,1 1,0

После выявления аномальных уровней ряда обязательно определение причин их возникновения!

Если точно установлено, что аномалия вызвана ошибками первого рода, то соответствующие уровни ряда «поправляются» либо заменой простой средней арифметической соседних уровней ряда, либо значениями, полученными по кривой, аппроксимирующей данный временной ряд в целом.

Метод проверки разностей средних уровней.

Реализация этого метода состоит из четырех этапов.

1. Исходный временной ряд разбивается на две примерно равные по числу уровней части: в первой части первых уровней исходного ряда, во второй – остальных уровней .

2. для каждой из этих частей вычисляются среднее значение и дисперсии:

3. проверка равенства (однородности) дисперсий обеих частей ряда с помощью F-критерия Фишера, которая основана на сравнении расчетного значения этого критерия:

с табличным (критическим) значением критерия Фишера с заданным уровнем значимости (уровнем ошибки) . В качестве чаще всего берут значения 0,1 (10%-ная ошибка), 0,05 (5%-ная ошибка), 0,01 (1%-ная ошибка). Величина называется доверительной вероятностью. Если расчетное (эмпирическое) значение F меньше табличного , то гипотеза о равенстве дисперсий принимается и переходят к четвертому этапу. В противном случае, гипотеза о равенстве дисперсий отвергается и делается вывод, что данный метод для определения наличия тренда ответа не дает.

4. проверяется гипотеза об отсутствии тренда с использованием критерия Стьюдента. Для этого определяется расчетное значение критерия Стьюдента по формуле:

(3)

где среднее квадратическое отклонение разности средних:

.

Если расчетное значение меньше табличного значения статистики Стьюдента с заданным уровнем значимости , гипотеза принимается, то есть тренда нет, в противном случае тренд есть. Заметим, что в данном случае табличное значение берется для числа степеней свободы, равного , при этом данный метод применим только для рядов с монотонной тенденцией.

Метод Фостера-Стьюарта.

Этот метод обладает большими возможностями и дает более надежные результаты по сравнению с предыдущими. Кроме тренда самого ряда (тренда в среднем), он позволяет установить наличие тренда дисперсии временного ряда: если тренда дисперсии нет, то разброс уровней ряда постоянен; если дисперсия увеличивается, то ряд «раскачивается» и т.д.

Реализация метода также состоит из четырех этапов.

1. производится сравнение каждого уровня со всеми предыдущими, при этом определяются две числовые последовательности:

2. вычисляются величины:

Нетрудно видеть, что величина , характеризующая изменение временного ряда, принимает значения от 0 (все уровни ряда равны между собой) до (ряд монотонный). Величина характеризует изменение дисперсии уровней временного ряда и изменяется от (ряд монотонно убывает) до (ряд монотонно возрастает).

1. отклонение величины от величины математического ожидания величины для ряда, в котором уровни расположены случайным образом;

2. отклонение величины от нуля.

Эта проверка проводится с использованием расчетных (эмпирических) значений критерия Стьюдента для средней и для дисперсии:

где математическое ожидание величины , определенной для ряда, в котором уровни расположены случайным образом;

Задача 19.1 Трещина расположенав поле действия максимальных растягивающих напряжений, вызванных взрывом одиночного цилиндрического заряда.Определить расстояние от заряда до трещины, при котором возможен ее рост.

Исходные данные : длина трещины 2l =0,1м; порода – кварциты с вязкостью разрушения К I =2,6∙10 6 Н/м 3/2 ; максимальное давление заряда в скважине P 0 =1,2∙10 10 Па.

Решение. Распределение максимальных квазистатических напряжений приближенно описывается зависимостями:

где и - радиальные и окружные напряжения;

Р 0 – максимальное давление при взрыве заряда в скважине;

r 0 – радиус заряда, м;

r – расстояние до рассматриваемой точки, м;

n – показатель степени, принимающий значения n =2 в упругой среде; в реальной среде с учетом формирования множества трещин в зонах измельчения и дробления показатель степени больше двух; экспериментальное значение находится в пределах n =2.1...2,3. В расчете используем среднюю величину n =2,2.

В соответствии с критерием Ирвина рост трещины происходит в случае, когда коэффициент интенсивности напряжений достигает значения вязкости разрушения:

К 1 = К c , (19.3)

где К I – коэффициент интенсивности напряжений, величина которого в рассматриваемом случае, с учетом знака растягивающих напряжений, вычисляется по формуле

. (19.4)

Подставляя (19.4) с учетом (19.1) и (19.2) в (19.3) после преобразований получим:

(19.5)

На рисунке 19.1 представлены результат расчета. При заданных условиях расстояние от заряда до трещины, при котором возможен ее рост, составляет 3,8 м. На очновании расчетной зависимости (19.5) можно утверждать, что чем больше радиус заряда, давление и полудлина трещины, тем больше радиус зоны дробления.

Параметры l и K I являются технологически неуправляемыми и характеризуют свойства породного массива. Управляемыми параметрами являются радиус заряда r 0 и величина максимального давления P 0 . Так, например, увеличение радиуса заряда в два раза приводит к линейному увеличению радиуса r зоны дробления также в два раза. Если же максимальное давление P 0 в скважине увеличить в два раза, то радиус r зоны дробления увеличивается примерно в 1,4 раза. Такой практический вывод следует из механики разрушения с использованием критерия Ирвина.

Задача 19.2 На контуре горизонтальной подземной горной выработки, пройденной в песчанике, действуют горизонтальные напряжения σ z , направленные вдоль оси выработки и окружные напряжения σ θ . В поверхностном слое выработки имеются хаотично расположенные трещины длиной 2l . Установить критические размеры трещин, при которых происходит их рост.

Исходные данные : σ z =10 МПа, σ θ =20 МПа. Вязкость разрушения песчанника для трещины в поле сдвиговых напряжений (трещина второго рода) составляет K II =0,96∙10 6 Н/м 3/2 .

Решение. На контуре выработки действуют следующие главные напряжения: σ 1 =20 МПа; σ 2 =10 МПа; σ 3 =0. Максимальные касательные напряжения, действующие в плоскости под углом 45ْ к поверхности выработки, составляют:

. (19.5)

Если трещина расположена в плоскости действия максимальных касательных напряжений, то ее предельный устойчивый размер можно определить, используя критерий Ирвина.


Задания для самостоятельного изучения дисциплины.

Задание 1. В соответствии с вариантом, осуществить имитацию набора эмпирических данных, получаемых в результате измерения одномерного признака. Для этого необходимо осуществить табулирование функции:

, ,

и получить 15 – 20 последовательных данных. Здесь, предположительно характеристика признака (отражает основную тенденцию признака), а помехи (ошибки) измерений, которые явились следствием проявления случайностей различного рода.

Варианты исходных данных:

Осуществить выявление аномальных уровней получаемого при табулировании функции ряда данных и выполнить их сглаживание:

а). методом Ирвина, по формуле

,

.

Расчетные значения сравниваются с табличными значениями критерия Ирвина:

Таблица критерия Ирвина

В таблице приведены значения критерия Ирвина для уровня значимости (с 5% ошибкой).

б). методом проверки разностей средних уровней, разбивая временной ряд данных, примерно на две равные части и вычисляя для каждой из частей среднее значение и дисперсию. Далее, проверить равенство дисперсий обеих частей с помощью критерия Фишера. Если гипотеза о равенстве дисперсий принимается, перейти к проверке гипотезы об отсутствии тренда с использованием критерия Стьюдента. Для вычисления эмпирического значения статистики, использовать формулы:

,

где среднее квадратическое отклонение разностей средних:

.

Расчетное значение статистики сравнить с табличным.

в). Методом Фостера-Стьюарта.

2. Осуществить механическое сглаживание уровней ряда:

а). методом простой скользящей средней;

б). методом взвешенной скользящей средней;

в). Методом экспоненциального сглаживания.

Задание 2. В таблице данных экономических показателей, приведен временной ряд ежемесячных объемов перевозок (привязанных к определенной местности) сельскохозяйственных грузов в условных единицах.

Применяя метод Четверикова для выделения компонент временного ряда:

а). провести выравнивание эмпирического ряда с использованием центрированной скользящей средней с периодом сглаживания ;

б). полученную предварительную оценку тренда вычесть из исходного эмпирического ряда: .

в). Вычислить для каждого года (по строке) среднее квадратическое отклонение величины , используя для этого формулу

г). найти предварительное значение средней сезонной волны: .

д). получить ряд, лишенный сезонной волны: .

е). полученный ряд сгладить с использованием простой скользящей средней с интервалом сглаживания, равным пяти, и получить новую оценку тренда .

ж). вычислить отклонения ряда от исходного эмпирического ряда :

.

з). полученные отклонения подвергнуть обработке в соответствии с пп. в). и г). для выявления новых значений сезонной волны.

и). произвести вычисление коэффициента напряженности сезонной волны по формулам и далее (сам коэффициент):

.

Коэффициент напряженности не вычисляется для первого и последнего года.

к). Используя коэффициент напряженности, вычислить окончательные значения сезонной компоненты временного ряда: .

Задание 3. Временной ряд задан в таблице:

Осуществить предварительный выбор наилучшей кривой роста:

а). методом конечных разностей (Тинтнера);

б). методом характеристик прироста.

2. Для исходного ряда построить линейную модель , определив ее параметры методом наименьших квадратов.

3. Для исходного временного ряда построить адаптивную модель Брауна с параметром сглаживания и ; выбрать наилучшую модель Брауна , где период упреждения (количество шагов вперед).

4. Оценить адекватность моделей на основе исследований:

а). близости математического ожидания остаточной компоненты нулю; критическое значение статистики Стьюдента принять (для доверительной вероятности 0,70);

б). случайности отклонений остаточной компоненты по критерию пиков (поворотных точек); расчеты выполнить на основе соотношения ;

в). независимости (отсутствия автокорреляции) уровней рядя остатков либо по критерию Дарбина-Уотсона (в качестве критических используйте уровни и ), либо по первому коэффициенту автокорреляции (критический уровень принять равным );

г). нормальности закона распределения остаточной компоненты на основе RS-критерия (в качестве критических уровней принять интервал (2,7 – 3,7)).

5. Оценить точность моделей используя показатели среднего квадратического отклонения и средней относительной ошибки аппроксимации.

6. На основе сравнительного анализа адекватности и точности моделей выбрать лучшую модель, по которой построить точечный и интервальный прогнозы на два шага вперед (). Результаты прогнозирования отразить графически.

Задание 4. Проведена оценка процессоров 10-ти рабочих станций локальной сети, построенной на базе машин приблизительно одного типа, но разных производителей (что предполагает некоторые отклонения параметров работы машин от базовой модели). Для тестирования работы процессоров использована смесь типа ICOMP 2.0 в основу которой положены два основных теста:

1. 125.turb3D – тест моделирования турбулентности в кубическом объеме (прикладное ПО);

2. NortonSI32 – инженерная программа типа AutoCaD

и вспомогательный тест для нормирования времени обработки данных SPECint_base95. Оценка процессоров производилась по взвешенному времени выполнения смеси, нормированному по эффективности базового процессора, в соответствии с формулой

где время выполнения го теста;

вес го теста;

эффективность базового процессора на м тесте.

Если выражение (1) логарифмировать, то получим:

и после переобозначения переменных:

базовое время обработки теста SPECint_base95 ;

логарифм времени обработки первого теста,

логарифм времени обработки второго теста, регрессионный коэффициент, получаемый в оценках (вес теста);

регрессионный коэффициент – вес теста обработки арифметических операций в целых числах (базовый тест).

1. По данным измерений, приведенным в таблице, построить регрессионную (эмпирическую) функцию, оценить коэффициенты регрессии и проверить модель на адекватность (вычислить ковариационную матрицу, коэффициенты парной корреляции, коэффициент детерминации).

Варианты данных:

Вариант 1.

Вариант 2.

Вариант 3.

Вариант 4.

Пусть - наблюдаемая выборка, - построенный по ней вариационный ряд. Проверяемая гипотеза заключается в том, что все принадлежат одной генеральной совокупности (выбросов нет). Альтернативная гипотеза - в наблюдаемой выборке есть выбросы.

Согласно критерию Шовене элемент выборки объема является выбросом, если вероятность его отклонения от среднего значения не больше .

Составляется следующая статистика Шовене :

где среднее значение,

Выборочная дисперсия

Определим, какое распределение имеет статистика при выполнении гипотезы. Для этого сделаем предположении, что уже при малых случайные величины и являются независимыми, тогда плотность распределения случайной величины имеет вид :


Значения этой функции распределения можно вычислить с помощью математического пакета Maple 14, подставляя вместо неизвестных параметров полученные значения.

Если статистика то значение () должно быть признано выбросом. Критические значения приведены в таблице (см. приложение А). Вместо в формулу (1.1) подставляем для проверки на наличие выбросов крайние значения.

Критерий Ирвина

Этот критерий используется в случае, когда дисперсия распределения известна заранее.

Из нормальной генеральной совокупности извлекается выборка объема, и составляется вариационный ряд (упорядочивается по возрастанию). Рассматриваются те же гипотезы и, что и в предыдущем критерии.

При наибольшее (наименьшее) значение признается выбросом с вероятностью. Критические значения занесены в таблицу.

Критерий Граббса

Пусть извлечена выборка, и по ней построен вариационный ряд. Проверяемая гипотеза заключается в том, что все () принадлежат одной генеральной совокупности. При проверке на выброс наибольшего выборочного значения альтернативная гипотеза заключается в том, что принадлежат одному закону, а - некоторому другому, существенно сдвинутому вправо. При проверке на выброс наибольшего значения выборки статистика критерия Граббса имеет вид

где вычисляется по формуле (1.2), а - по (1.3)

При проверке на выброс наименьшего выборочного значения альтернативная гипотеза предполагает, что принадлежит некоторому другому закону, существенно сдвинутому влево. В данном случае вычисляемая статистика принимает вид

где вычисляется по формуле (1.2), а - по (1.3).

Статистики или применяются, когда дисперсия известна заранее; статистики и -- когда дисперсия оценивается по выборке с помощью соотношения (1.3).

Максимальный или минимальный элемент выборки считается выбросом, если значение соответствующей статистики превысит критическое: или, где - задаваемый уровень значимости. Критические значения и приведены в сводных таблицах (см. приложение А). Получаемые в этом критерии статистики при выполнении нулевой гипотезы имеют такое же распределение, как и статистика в критерии Шовене.

При > 25 можно пользоваться приближениями для критических значений

где - -квантиль стандартного нормального распределения.

А аппроксимируется следующим образом

Если в извлеченной выборке известны дисперсия () и математическое ожидание (µ - среднее значение), то используется статистика

Критические значения этой статистики также занесены в таблицы. Если, то выброс признается значимым, и принимается альтернативная гипотеза.


Грубые погрешности (промахи) относятся к числу погрешностей, изменяющимся случайным образом при повторных наблюдениях. Они явно превышают по своему значению погрешности, оправданные условиями проведения эксперимента. Под промахом понимается значение погрешности, отклонение которого от центра распределения существенно превышает значение, оправданное объективными условиями измерения. Поэтому с точки зрения теории вероятности появление промаха маловероятно.

Причинами грубых погрешностей могут быть неконтролируемые изменения условий измерений, неисправность, ошибки оператора и др.

Для исключения грубых погрешностей применяют аппарат проверки статистических гипотез.

В метрологии используются статистические гипотезы, под которыми понимают гипотезы о виде неизвестного распределения, или о параметрах известных распределений.

Примеры статистических гипотез:

· рассматриваемая выборка (или ее отдельный результат) принадлежит генеральной совокупности;

· генеральная совокупность распределена по нормальному закону;

· дисперсии двух нормальных совокупностей равны между собой.

В первых двух гипотезах сделано предположение о виде неизвестного распределения и принадлежности отдельных (подозрительных) результатов данному виду распределения, а в третьей - о параметрах двух известных распределений. Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Нулевой (основной) называют выдвинутую гипотезу. А конкурирующей (альтернативной) называют ту, которая противоречит нулевой.

При выдвижении и принятии гипотезы могут иметь место следующие четыре случая:

· гипотеза принимается, причем и в действительности она правильная;

· гипотеза верна, но ошибочно отвергается. Возникающую при этом ошибку называют ошибкой первого рода, а вероятность ее появления называют уровнем значимости и обозначают q (α );

· гипотеза отвергается, причем в действительности она неверна;

· гипотеза неверна, но ошибочно принимается. Возникающую при этом ошибку называют ошибкой второго рода, а вероятность ее появления обозначают β .

Величину 1 - β, т. е. вероятность, что гипотеза будет отвергнута, когда она ошибочна, называют мощностью критерия .

Следует заметить, что в нормативной документации по статистическому контролю качества продукции и учебниках по управлению качеством вероятность признать негодной партию годных изделий (т. е., совершить ошибку первого рода) называют “риском производителя”, а вероятность принять негодную партию - “риском потребителя”.

Все статистические критерии являются случайными величинами, принимающими определенные значения (таблицы критических значений). Областью принятия гипотезы (областью допустимых значений) называют совокупность значения критерия, при которых гипотезу принимают. Критической называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Область принятия гипотезы и критическая область разделены критическими точками, в качестве которых и выступают табличные значения критериев.

Область непринятия гипотезы, как показано на рисунке 1, может быть односторонней (правосторонней или левосторонней) и двух сторонней.

Правосторонней

K набл > k кр , где k кр - положительное число (рисунок 1, а).

Левосторонней называют критическую область, определяемую неравенством

K набл < k кр, где k кр - отрицательное число (рисунок 1, б).

Двусторонней называют критическую область, определяемую неравенствами

K набл > k 1 ; K набл 2 , где k 2 >k 1 .

Если критические точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствами: K набл <-k кр, K набл >k кр, или равносильным неравенством \K набл \>k кр (рисунок 1, в).

Рисунок 1 - Графическая интерпретация к распределению области принятия гипотезы

Основной принцип проверки статистических гипотез формулируется следующим образом: если наблюдаемое (опытное) значение критерия принадлежит критической области - гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия гипотезы - гипотезу принимают.

Проверку статистической гипотезы проводят для принятого уровня значимости q (принимается равным 0,1; 0,05; 0,01 и т. д.). Так принятыйуровень значимости q = 0,05 означает, что выдвинутая нулеваястатистическая гипотеза может быть принята с доверительной вероятностью P = 0,95. Или есть вероятность отвергнуть эту гипотезу (совершить ошибку первого рода), равная P = 0,95.

Нулевая статистическая гипотеза подтверждает принадлежность проверяемого “подозрительного” результата измерения (наблюдения) данной группе измерений.

Формальным критерием аномальности результата наблюдений (а, следовательно, и основанием для принятия конкурирующей гипотезы: “подозрительный” результат не принадлежит данной группе измерений) при этом служит граница, отнесенная от центра распределения на величину tS , т. е.:

(1)

где x iпод – результат наблюдения, проверяемый на наличие грубой погрешности; t – коэффициент, зависящий от вида и закона распределения, объема выборки, уровня значимости; S - СКО.

Таким образом, границы погрешности зависят от вида распределения, объема выборки и выбранной доверительной вероятности.

При обработке уже имеющихся результатов наблюдений произвольно отбрасывать отдельные результаты не следует, так как это может привести к фиктивному повышению точности результата измерений. Группа измерений (выборка) может содержать несколько грубых погрешностей и их исключение производят последовательно, по одному.

Все методы исключения грубых погрешностей (промахов) могут быть разделены на два основных типа :

· методы исключения при известном генеральном СКО;

· методы исключения при неизвестном генеральном СКО.

В первом случае X ц . р . и СКО вычисляется по результатам всей выборки, во втором случае из выборки перед вычислением удаляются подозрительные результаты.

В случае ограниченного числа наблюдений и (или) сложности оценки параметров закона распределения рекомендуется исключать грубые погрешности, используя приближенные коэффициенты вида распределения. При этом исключаются значения x i < x r - и x i > x r + , где x r - , x r + – границы промахов, определяемые выражениями:

(2),(3)

где A – коэффициент, значение которого выбирается в зависимости от заданной доверительной вероятности в диапазоне от 0,85 до 1,30 (рекомендуется выбирать максимальное значение А равное 1,3); γ – контрэксцесс, значение которого зависит от формы закона распределения величины (ЗРВ).

После исключения промахов операции по определению оценок центра распределения и СКО результатов наблюдений и измерений необходимо повторить.

Поскольку на практике чаще встречаются измерения при неизвестном СКО (ограниченное число наблюдений), в пособии рассмотрены следующие критерии проверки подозрительных (с точки зрения погрешностей) результатов наблюдений: Ирвина, Романовского, вариационного размаха, Диксона, Смирнова, Шовене.

Поскольку критериальные требования (коэффициенты), определяющие границу, за которой находятся “грубые” (в смысле погрешностей) результаты наблюдений у разных авторов различны, то проверку следует выполнять сразу по нескольким критериям (рекомендуется использовать не меньше трех, из рассматриваемых ниже). Окончательное заключение о принадлежности “подозрительных” результатов рассматриваемой совокупности наблюдений следует делать по большинству критериев. Кроме этого выбор критерия для определения грубых погрешностей должен выполняться после построения гистограммы результатов наблюдений. По виду гистограммы выполняется предварительная идентификация вида закона распределения (нормальный, близкий к нормальному или отличный от него).

Критерий Ирвина. Для полученных экспериментальных данных определяют коэффициент по формуле:

(4)

где х n + 1, x n наибольшие значения случайной величины; S – среднее квадратическое отклонение, вычисленное по всем значениям выборки.

Затем этот коэффициент сравнивается с табличным значением λ q , возможные значения которого приведены в таблице 1.

Таблица 1 - Критерий Ирвина λ q .

Если λ >λ q , то нулевая гипотеза не подтверждается, т. е. результат ошибочный, и он должен быть исключен при дальнейшей обработке результатов наблюдений.

Критерий Романовского. Конкурирующая гипотеза о наличии грубых погрешностей в подозрительных результатах подтверждается, если выполняется неравенство:

(5)

где t p - квантиль распределения Стьюдента при заданной доверительной вероятности с числом степеней свободы k = п -k п (k n - число подозрительных результатов наблюдений). Фрагмент квантилей для распределения Стьюдента представлен в таблице 2.

Точечные оценки распределения и СКО S результатов

наблюдений вычисляется без учета k n подозрительных результатов наблюдений.

Таблица 2 - Критерий Стьюдента t p (квантили Стьюдента)

Критерий вариационного размаха. Является одним из простых методов исключения грубой погрешности измерений (промаха). Для его использования определяют размах вариационного ряда упорядоченной совокупности наблюдений (x 1 ≤x 2 ≤...≤x k ≤...≤x n):

Если какой-либо член вариационного ряда, например x k , резко отличается от всех других, то производят проверку, используя следующее неравенство:

(7)

где X - выборочное среднее арифметическое значение, вычисленное после исключения предполагаемого промаха; z - критериальное значение.

Нулевую гипотезу (об отсутствии грубой погрешности) принимают, если указанное неравенство выполняется. Если x k не удовлетворяет условию (7), то этот результат исключают из вариационного ряда.

Коэффициент z зависит от числа членов вариационного ряда n ,что представлено в таблице 3.

Таблица 3 - Критерий вариационного размаха

Критерий Диксона. Критерий основан на предположении, что погрешности измерений подчиняются нормальному закону (предварительно необходимо построение гистограммы результатов наблюдений) и проверка гипотезы о принадлежности нормальному закону распределения. При использовании критерия вычисляют коэффициент Диксона (наблюдаемое значение критерия) для проверки наибольшего или наименьшего экстремального значения в зависимости от числа измерений. В таблице 4 приведены формулы для вычисления коэффициентов. Коэффициенты r 10 , r 11 применяют, когда имеется один выброс, а r 21 и r 22 - когда два выброса. Требуется первоначальное упорядочение результатов измерений (объема выборки). Критерий применяется, когда выборка может содержать более одной грубой погрешности.

Таблица 4 – Формулы коэффициентов Диксона

Вычисленные для выборки по формулам значения коэффициентов Диксона r сравнивают с принятым (табличным) значением критерия Диксона r q (таблица 5).

Нулевая гипотеза об отсутствии грубой погрешности выполняется, если выполняется неравенство r < r q .

Если r > r q , то результат признается грубой погрешностью и

исключается из дальнейшей обработки.

Таблица 5 – Критериальные значения коэффициентов Диксона (при принятом уровне

значимости q )

Критерии Райта. Критерий “правило трех сигм” является одним из простейших для проверки результатов, подчиняющихся нормальному закону распределения. Сущность правила трех сигм: если случайная величина распределена нормально, то абсолютная величина ее отклонения от математического ожидания не превосходит утроенного среднего квадратического отклонения.

На практике правило трех сигм применяют так: если распределение изучаемой случайной величины неизвестно, но условие, указанное в приведенном правиле, выполняется, то есть основания предполагать, что изучаемая величина распределена нормально; в противном случае она не распределена нормально. С этой целью для выборки (включая подозрительный результат) вычисляется центр распределения и оценка СКО результата наблюдений. Результат, который удовлетворяет условию

,

считается имеющим грубую погрешность и удаляется, а ранее вычисленные характеристики распределения уточняются.

Этому критерию аналогичен критерий Райта , основанный на том, что если остаточная погрешность больше четырех сигм, то этот результат измерения является грубой погрешностью и должен быть исключен при дальнейшей обработке. Оба критерия надежны при числе измерений больше 20…50. Их правомочно применять, когда известна величина генерального среднеквадратического отклонения (S ).

Может оказаться, что при новых значениях и S другие результаты попадут в категорию аномальных.

Критерий Смирнова. Критерий Смирнова используется при объемах выборки п ≥ 25 или при известных значениях генеральных среднего и СКО . Он устанавливает менее жесткие границы грубой погрешности. Для реализации этого критерия вычисляются действительные значения квантилей распределения (наблюдаемое значение критерия) по формуле:

(8)

Найденное значение сравнивается с критериальным β k , приведенным в таблице6

Таблица 6 – Квантили распределения β k

Критерий Шовене. Критерий Шовене применяется для законов, не противоречащих нормальному, и строится на определении числа ожидаемых результатов наблюдений n ож , которые имеют столь же большие погрешности, как и подозрительный. Гипотеза о наличии грубой погрешности принимается, если выполняется условие:

Порядок проверки гипотезы следующий:

1) вычисляются среднее арифметическое и СКО S результатов наблюдений для всей выборки;

2) из таблицы нормированного нормального распределения (Приложение 1 – интегральная функция нормированного нормального распределения) по величине

определяется вероятность появления подозрительного результата в генеральной совокупности чисел n :

(9)

3) число ожидаемых результатов п ож определяется по формуле:

Указанные выше критерии во многих случаях оказываются “жесткими”. Тогда рекомендуется пользоваться критерием грубой погрешности «, зависящим от объема выборки п и принятой доверительной вероятности Р.

Таблица 7 - Зависимость критерия грубой погрешности k от объема выборки п

и доверительной вероятности Р

Для распределений, отличных от нормального, таких классов, как двух модальных кругловершинных композиций нормального и дискретного распределения c эксцессом ε = 1,5 - 3,0; островершинных двумодальных; композиций дискретного двузначного распределения и распределения Лапласа с эксцессом ε = 1,5 - 6,0; композиций равномерного распределения с экспоненциальным распределением эксцесса ε = 1,8-6,0 и классом экспоненциальных распределений в пределах изменения эксцесса ε = 1,8-6,0 граница грубой погрешности определяется величиной ± (t гр . σ ) или ±(t гр . S ), где:

(11)

где γ - контрэксцесс;

(12)

Погрешности в определении оценок S СКО и t sp являются отрицательно коррелированными, т. е. возрастание СКО S сопровождается уменьшением t zp . Поэтому определение границ грубой погрешности для законов, отличных от нормального, с эксцессом ε < 6 с помощью критерия t zp является достаточно точным и может широко использоваться на практике.

Оценки , S и ε должны вычисляться после исключения подозрительных результатов из выборки. После расчета границ грубой погрешности результаты наблюдений, оказавшиеся внутри границ, возвращаются, а ранее найденные характеристики распределения уточняются.

Для равномерного распределения за границы грубой погрешности можно принять величину ±1,8 . S.

Рассмотрим пример применения критериев для исключения грубых погрешностей при измерении скорости ударной волны. Получены результаты, представленные в таблице 8.

Таблица 8 - Результаты наблюдений

Требуется определить, не содержит ли результат наблюдения V =3,50 км/с грубую погрешность.

Для графического определения вида закона распределения построим гистограмму. При построении разбиение на интервалы осуществляем таким образом, чтобы измеренные значения оказались серединами интервалов, что показано на рисунке 2.