Доверительные интервалы для генеральной средней и дисперсии. Доверительные интервалы для математического ожидания, дисперсии, вероятности. Решения задач. Доверительный интервал для математического ожидания

Доверительный интервал – предельные значения статистической величины, которая с заданной доверительной вероятностью γ будет находится в этом интервале при выборке большего объема. Обозначается как P(θ - ε . На практике выбирают доверительную вероятность γ из достаточно близких к единице значений γ = 0.9 , γ = 0.95 , γ = 0.99 .

Назначение сервиса . С помощью этого сервиса определяются:

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;
Полученное решение сохраняется в файле Word (см. пример). Ниже представлена видеоинструкция, как заполнять исходные данные.

Пример №1 . В колхозе из общего стада в 1000 голов овец выборочной контрольной стрижке подверглись 100 овец. В результате был установлен средний настриг шерсти 4,2 кг на одну овцу. Определить с вероятностью 0,99 среднюю квадратическую ошибку выборки при определении среднего настрига шерсти на одну овцу и пределы, в которых заключена величина настрига, если дисперсия равна 2,5 . Выборка бесповторная.
Пример №2 . Из партии импортируемой продукции на посту Московской Северной таможни было взято в порядке случайной повторной выборки 20 проб продукта «А». В результате проверки установлена средняя влажность продукта «А» в выборке, которая оказалась равной 6 % при среднем квадратическом отклонении 1 %.
Определите с вероятностью 0,683 пределы средней влажности продукта во всей партии импортируемой продукции.
Пример №3 . Опрос 36 студентов показал, что среднее количество учебников, прочитанных ими за учебный год, оказалось равным 6. Считая, что количество учебников, прочитанных студентом за семестр, имеет нормальный закон распределения со средним квадратическим отклонением, равным 6, найти: А) с надежностью 0,99 интервальную оценку для математического ожидания этой случайной величины; Б) с какой вероятностью можно утверждать, что среднее количество учебников, прочитанных студентом за семестр, вычисленное по данной выборке, отклонится от математического ожидания по абсолютной величине не больше, чем на 2.

Классификация доверительных интервалов

По виду оцениваемого параметра:

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;
Выборка называется повторной , если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной , если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности .
Обозначения основных параметров генеральной и выборочной совокупности.
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли
Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t – коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

Построение доверительного интервала для дисперсии нормально распределенной генеральной совокупности основывается на том, что случайная величина:

имеет c 2 -распределение Пирсона c n=n –1 степенями свободы. Зададим доверительную вероятность g и определим числа и из условия

Числа и , удовлетворяющие этому условию, можно выбрать бесчисленным числом способов. Один из способов состоит в следующем

и .

Значения чисел и определяются из таблиц для распределения Пирсона. После этого образуем неравенство

В результате получаем следующую интервальную оценку дисперсии генеральной совокупности:

. (3.25)

Иногда это выражение записывают в виде

, (3.26)

, (3.27)

где для коэффициентов и составляют специальные таблицы.

Пример 3.10. На фабрике работает автоматическая линия по фасовке растворимого кофе в жестяные 100-граммовые банки. Если средняя масса наполняемых банок отличается от точной, то линии налаживается для подгонки средней массы в рабочем режиме. Если дисперсия массы превышает заданное значение, то линия должна быть остановлена на ремонт и переналадку. Время от времени производится отбор банок с кофе для проверки средней массы и ее колеблемости. Предположим, что с линии в случайном порядке производится отбор банок с кофе и оценка дисперсии s 2 =18,540. Постройте 95%-й доверительный интервал для генеральной дисперсии s 2 .

Решение. Предполагая, что генеральная совокупность имеет нормальное распределение, воспользуемся формулой (3.26). По условию задачи уровень значимости a=0,05 и a/2=0,025. По таблицам для c 2 -распределение Пирсона с n=n –1=29 степенями свободы находим

и .

Тогда доверительный интервал для s 2 можно записать в виде

,

.

Для средне квадратичного отклонения ответ будет иметь вид

. â

Проверка статистических гипотез

Основные понятия

Большинство эконометрических моделей требует многократного улучшения и уточнения. Для этого необходимо проведение соответствующих расчетов, связанных с установлением выполнимости или невыполнимости тех или иных предпосылок, анализом качества найденных оценок, достоверностью полученных выводов. Поэтому знание основных принципов проверки гипотез является обязательным в эконометрике.



Во многих случаях необходимо знать закон распределения генеральной совокупности. Если закон распределения неизвестен, но есть основания предположить, что он имеет определенный вид, то выдвигают гипотезу: генеральная совокупность распределена по этому закону. Например, можно выдвинуть предположение, что доход населения, ежедневное количество покупателей в магазине, размер выпускаемых деталей имеют нормальный закон распределения.

Возможен случай, когда закон распределения известен, а его параметры нет. Если есть основания предположить, что неизвестный параметр q равен ожидаемому числу q 0 , то выдвигают гипотезу: q=q 0 . Например, можно выдвинуть предположение о величине среднего дохода населения, среднего ожидаемого дохода по акциям, о разбросе в доходах и т.д.

Под статистической гипотезой H понимают любое предположение о генеральной совокупности (случайной величине), проверяемое по выборке. Это может быть предположение о виде распределения генеральной совокупности, о равенстве двух выборочных дисперсий, о независимости выборок, об однородности выборок, т.е. что закон распределения не меняется от выборки к выборке и др.

Гипотеза называется простой , если она однозначно определяет какое-либо распределение или какой-либо параметр; в противном случае гипотеза называется сложной . Например, простой гипотезой является предположение о том, что случайная величина X распределена по стандартному нормальному закону N (0;1); если же высказывается предположение, что случайная величина X имеет нормальной распределение N (m ;1), где a £m £b , то это сложная гипотеза.

Проверяемая гипотеза называется основной или нулевой гипотезой и обозначается символом H 0 . Наряду с основной гипотезой рассматривают и противоречащую ей гипотезу, которую обычно называют конкурирующей или альтернативной гипотезой и обозначают символом H 1 . Если основная гипотеза будет отвергнута, то имеет место альтернативная гипотеза. Например, если проверяется гипотеза о равенства параметра q некоторому заданному значению q 0 , т.е. H 0:q=q 0 , то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: H 1:q>q 0 , H 2:qH 3:q¹q 0 , H 4:q=q 1 . Выбор альтернативной гипотезы определяется конкретной формулировкой задачи.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки. Поскольку проверка осуществляется статистическими методами, то в связи с этим с определенной долей вероятности может быть принято неправильное решение. Здесь могут быть допущены ошибки двух видов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Вероятность ошибки первого рода обозначают буквой a, т.е.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Вероятность ошибки второго рода обозначают буквой b, т.е.

Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая – к неоправданному риску. Что лучше или хуже – зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если H 0 состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия этой ошибки более серьезны с точки зрения имиджа фирмы и ее долгосрочных перспектив.

Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отметим, что одновременное уменьшение вероятностей данных ошибок невозможно, т.к. задачи их уменьшения являются конкурирующими. И снижение вероятности допустить одну из них влечет за собой увеличение вероятности допустить другую. В большинстве случаев единственный способ уменьшения обеих вероятностей состоит в увеличении объема выборки.

Правило, в соответствие с которым принимается или отклоняется основная гипотеза, называется статистическим критерием . Для этого подбирается такая случайная величина K, распределение которой точно или приближенно, известно и которая служит мерой расхождения между опытными и гипотетическими значениями.

Для проверки гипотезы по данным выборки вычисляют выборочное (или наблюдаемое ) значение критерия K набл . Затем, в соответствии с распределением выбранного критерия, строится критическая область K крит . Это такая совокупность значений критерия, при которых нулевую гипотезу отвергают. Оставшуюся часть возможных значений называют областью принятия гипотезы . Если ориентироваться на критическую область, то можно совершить ошибку
1-го рода, вероятность которой задана заранее и равна a, называемой уровнем значимости гипотезы. Отсюда вытекает следующее требование к критической области K крит :

.



Уровень значимости a определяет "размер" критической области K крит . Однако ее положение на множестве значений критерия зависит от вида альтернативной гипотезы. Например, если проверяется нулевая гипотеза H 0:q=q 0 , а альтернативная гипотеза имеет вид H 1:q>q 0 , то критическая область будет состоять из интервала (K 2 , +¥), где точка K 2 определяется из условия P (K>K 2)=a (правосторонняя критическая область H 2:qP (Kлевосторонняя критическая область ). Если альтернативная гипотеза имеет вид H 3:q¹q 0 , то критическая область будет состоять из двух интервалов (–¥;K 1) и (K 2 , +¥), где точки K 1 и K 2 определяются из условий: P (K>K 2)=a/2 и P (Kдвухсторонняя критическая область ).

Основной принцип проверки статистических гипотез можно сформулировать следующим образом. Если K набл попадает в критическую область, то гипотеза H 0 отвергается и принимается гипотеза H 1 . Однако поступая таким образом, следует понимать, что здесь можно допустить ошибку 1-го рода с вероятностью a. Если K набл попадает в область принятия гипотезы – то нет оснований, чтобы отвергать нулевую гипотезу H 0 . Но это вовсе не означает, что H 0 является единственно подходящей гипотезой: просто расхождения между выборочными данными и гипотезой H 0 невелико; однако таким же свойством могут обладать и другие гипотезы.

Мощностью критерия называется вероятность того, что нулевая гипотеза будет отвергнута, если верна альтернативная гипотеза; т.е. мощность критерия равна 1–b, где b – вероятность совершить ошибку 2-го рода. Пусть для проверки гипотезы принят определенный уровень значимости a и выборка имеет фиксированный объем. Поскольку в выборе критической области есть определенный произвол, то ее целесообразно строить так, чтобы мощность критерия была максимальной или чтобы вероятность ошибки 2-го рода была минимальной.

Критерии, используемые для проверки гипотез о параметрах распределения, называются критериями значимости . В частности, построение критической области аналогично построению доверительного интервала. Критерии, используемые для проверки согласия между выборочным распределением и гипотетическим теоретическим распределением, называются критериями согласия .

Здесь среднее считается известным фиксированным числом, а дисперсиявыступает в роли неизвестного параметра. Положим

Так как --, тоимеет стандартное нормальное распределение. Тем самым, функцияимеет-распределение сстепенями свободы, никаким образом не зависящее от неизвестного параметра. Обозначая черезквантили этого распределения и фиксируя некоторые, такие, что, приходим к неравенству

которое выполнено с вероятностью . Откуда получаем-доверительный интервал для:

Доверительный интервал для дисперсии при неизвестном среднем

Заметим, что функция определена таким образом, что при заданной выборке ее значения зависят лишь от параметра. Что касается распределения случайной величины, то по теореме Фишера (см.8.3) оно является -распределением сстепенями свободы и, следовательно, не зависит от неизвестных параметров. Фиксируя, такие, что, и рассуждая как в (47), приходим к следующему -доверительному интервалу для:

который, используя обозначение (30), можно переписать так

Доверительный интервал для среднего при неизвестной дисперсии

Как и в предыдущем пункте, оба параметра исчитаются неизвестными, при этомявляется мешающим параметром. По теореме Фишера

и

независимы и имеют распределения и-распределение сстепенью свободы соответственно. Следовательно, отношение

имеет распределение Стьюдента с степенью свободы. Выберем функциюравной правой части (48):

где -- выборочная дисперсия, определенная формулой (30). Функция не зависит явно от мешающего параметра. Обозначая черезквантиль распределения Стьюдента сстепенью свободы, получим, что неравенство

выполнено с вероятностью . Отсюда получаем-доверительный интервал для:

Так как распределение Стьюдента симметрично, то по Предложению 3.3

Поэтому доверительный интервал можно записать в виде

Таким образом, выборочное среднее является серединой этого интервала.

Пример 8.2

Обратимся к Примеру 6.4.Предположим , что каждая из выборокивзята изнормального распределения снеизвестными параметрами --исоответственно. (О том, на основании чего можно сделать такое допущение, мы поговорим позже в9.5.)

Наша цель -- найти доверительные интервалы для и, теоретических значений содержания углерода и прочности на разрыв стали GS50. Напомним, что объем каждой из выборок. Зафиксируем доверительную вероятность, близкую к единице, скажем. По таблице распределения Стьюдента на стр.определим приближенно, что. Вспоминая значенияи, найденные в Примере6.5на стр., вычисляем

и, пользуясь формулой (49), получаем -доверительный интервал для процентногосодержания углерода

и -доверительный интервал для значенияпрочности на разрыв

Лабораторная работа №12. Основы теории оценивания

Статистик имеет дело с данными, подверженными случайной изменчивости. Их поведение характеризуется некоторым законом распределения вероятностей. Такой закон, как правило, содержит неизвестные величины, которые принято считать параметрами закона. В силу случайной изменчивости наблюдаемых данных, нельзя, основываясь на них, указать совершенно точное значение параметров. Приходится довольствоваться лишь приближенными значениями. Итак, математический статистик работает с такими величинами: - случайной величиной, которую он никогда не наблюдает, но которую считает "душой" изучаемых им данных, причиной, их породившей. Эта величина определяется некоторыми параметрами; - изучаемыми данными, которые получены, как реализация случайной величины. Например, случайной величиной является точное время. Её реализациями - показания часов, доступных для статистика. Задача статистика - по показаниям n часов t 1 ,...,t n максимально точно установить время. Кроме того он обязан охарактеризовать точность установленного значения. Он выполняет оценивание искомой величины в виде t = t 0 + ξ(a,σ), где t 0 - истинное время в момент исследования, ξ(a,σ) - случайная величина, характеризующая отклонение от истинного значения, t 0 , a, σ - параметры, величина ξ характеризуется законом распределения, вероятностями того, что она принимает различные значения. Оцениванием в статистике называют правило вычисления приближенного значения параметра на основе наблюдаемых данных. Оценка - это приближенное значение параметра, найденное по наблюдаемым данным. При построении оценок для практического применения, к оценкам предъявляются три основных требования:

    точность, то есть близость к истинному значению параметра, в примере ξ(a,σ) должно быть мало;

    несмещенность, то есть требование, чтобы математическое ожидание оценки было равно истинному значению параметра, в примере ξ(a,σ) должно быть в среднем равно нулю;

    состоятельность, то есть требование, чтобы при увеличении числа наблюдений оценка сходилась по вероятности к истинному значению параметра. В примере при большом числе часов n значение ξ(a,σ) должно стремиться к нулю с вероятностью, стремящейся к единице.

Наилучших во всех отношениях оценок не бывает. Например, среднее арифметическое, широко распространенная оценка среднего значения случайной величины, обладает свойством оптимальности для нормально распределенных данных. Однако оно приводит к ошибкам, если среди данных есть выбросы, то есть резко выделяющиеся значения. Такие выбросы в экономике порождены грубыми ошибками в измерениях или опечатками, при которых может исчезнуть точка между рублями и копейками и зарплата возрастёт в сотню раз. Рассмотрим случайный процесс, связанный с историей нанесения на карту Великой Британии уточнённых границ её владений, разбросанных по всем частям света. Известно, что любая точка на Земле характеризуется двумя координатами - широтой и долготой. Сегодня любой школьник слышал о спутниковых приборах, задающих любую точку на Земле с точностью до метра. Однако в те времена даже подобный прибор не помог бы морякам, так как он не обнаружил бы на небе ни одного "опорного" спутника. Широта определялась непосредственно по высоте светил над горизонтом с помощью прибора "секстан", аналогичного современному теодолиту (подзорная труба плюс измеритель угла). Долгота представляет собой угол поворота земного шара, при котором совмещаются местный меридиан и выбранный за условный нуль гринвичский. Земля делает оборот в 360° почти за сутки, то есть за час она поворачивается на 15°, за 4 минуты - на 1°. Для определения долготы надо точно знать местное и гринвичское время. Если штурман говорит капитану: "Местный полдень, Сэр", а капитан знает время в этот момент в Гринвиче, то разность времени, делённая на 4 минуты, и определяет долготу местности в градусах. Сегодня всё было бы просто - позвонить в Гринвич и узнать их время. Но тогда радио ещё не было придумано. Если бы на корабле были кварцевые часы, которые уходят на долю минуты за год, проблемы тоже бы не было, но существовавшие тогда лучшие хронометры не обеспечивали необходимой для измерения долготы точности. Они за несколько месяцев плавания уходили от точного времени на десятки минут. И когда в 1831 году в кругосветное плавание для составления карт отправлялся корабль "Бигль", капитан корабля Фиц Рой, человек просвещенный и ученый, взял с собой 24(!) морских хронометра. Каждый хронометр показывал своё "гринвичское время". В данном исследовании случайная величина - момент, когда штурман определял точное местное время по какому-нибудь небесному светилу. "Душа" измеряемой случайной величины - истинное время в Гринвиче в этот момент. Такую величину обозначим ξ. Значение этой величины никогда не известно. Наблюдаемые значения случайной величины, это показания (разные) хронометров. Каждый из них несколько ошибался, но в целом они следовали за общей "душой", накладывая на неё свою случайную погрешность. Оценка случайной величины - это то гринвичское время, которое предполагал по наблюдаемым данным капитан. Пусть случайные величины x i , i = 1,...,n, являются реализациями одной случайной величины ξ, то есть имеют одинаковое распределение (одну "душу"), причём для любого i среднее значение показаний равно одному и тому же числу: Е(x i) = Е(ξ). Смысл этого утверждения таков: все часы не могут дружно отставать или спешить из-за конструктивных неполадок. В среднем, равновероятно, что они спешат или отстают. Кроме того, пусть они независимы. Другими словами, у них нет чего-то общего в группах. Так, матрос, записывающий показания часов, мог их регистрировать в одной последовательности. Тогда последние показания регистрировались бы на минуту позже первых. Или несколько часов могли висеть в тёплом месте и от нагрева дружно спешить. Предположение, что такого явления нет, соответствует условию независимости показаний в разных испытаниях. Самая простая задача оценивания - это определение вероятности некоторого события, например, того, что реальная (не обязательно правильная) монета выпадет гербом вверх. Определить вероятность события почти никогда нельзя непосредственно. Универсального метода, который позволял бы для произвольного события указать его вероятность, не существует. Можно оценить вероятность события А, если допустимо проводить независимые повторные испытания в ходе которых это событие наступает с постоянной вероятностью. Пусть в каждом из п испытаний вероятность р = Р(А) события А остается неизменной и результат каждого испытания независим от остальных. Обозначим через m случайное число тех испытаний из общего числа n, в которых произошло событие А. Говорят, что m - число "успехов" в n испытаниях Бернулли. Согласно статистическому определению вероятности, при большом n относительная частота m/n события А приближенно равна вероятности события наступления события А, то есть m/n ~ р, где р = Р(А). Докажем, что это следует из аксиоматики Колмогорова. В математическом анализе используется строгое понятие предела последовательности: при достаточно большом номере члена последовательности, его значение может быть сделано сколь угодно близким к предельному значению. Такое определение не соответствует реальной жизни, где крайне редко происходят совершенно невероятные события. Например, из первичного хаотического бульона возникает бактерия, способная воспроизводить себя. Или рыба создаёт нечто, которое сначала миллионы лет ей не надо (но развивается), а затем становится крылом. Или затапливается целый город (или страна). В теории вероятностей понятие предела толкуется в смысле, отличном от того, который вкладывается в него в математическом анализе. Определение теории вероятностей ближе к жизни. Оно не запрещает того, что в какой-то момент в последовательности будет число, резко отличающееся от других. Последовательность случайных величин u n сходится по вероятности к р, если для любого числа ε > 0 вероятность того, что модуль разности |u n - р| при n → ∞ меньше, чем ε, стремится к единице:

В теории вероятностей никакое событие не является достоверным, но событие: |u n - р| ≤ ε практически достоверно при достаточно больших n. Докажем неравенство Чебышева. Пусть ξ - случайная величина, имеющая математическое ожидание Е(ξ) = а и дисперсию D(ξ) = σ², ε - положительное число. Тогда вероятность события, состоящего в том, что центрированная (Е(ξ) - а) и нормированная случайная величина превышает ε менее, чем ε -2:

Действительно, σ² = Е(ξ - а)². При вычислении среднего в правой части, выделим две области значений ξ. Для тех ξ, у которых |ξ - а| < εσ, сумма (или интеграл) соответствующих произведений неотрицателен. Для тех ξ, у которых |ξ - а| > εσ, сумма (или интеграл):

Любопытный частный случай: σ = 0. При этом ясно, что |ξ - а| = 0, то есть ξ = а. Докажем теорему Чебышева. Пусть х 1 ,...,х n - независимые одинаково распределенные случайные величины, имеющие математическое ожидание и дисперсию. То есть каждый x i суть реализация случайной величины ξ, причём Е(ξ) = Е(x i) = а, D(ξ) = D(x i) = σ². Тогда для любого ε > 0:

Доказательство. Дисперсия среднего арифметического:

Рассмотрим случайную величину η n , представляющую собой среднее арифметическое n наблюдений. Её среднее и дисперсия . Наблюдаемыми реализациями η n являются . В соответствии с неравенством Чебышева для случайной величины η n , вероятность её отклонения от среднего значения на величину, большую чем стремится к нулю:

Вероятность противоположного события стремится при больших n к 1: P(|η n - a|) → 1. Значит, последовательность случайных величин n сходится по вероятности к a. Вернемся к измерению времени на "Бигле". Показание каждого хронометра x i , i = 1,...,n - это измерение, независимое от других приборов. Подразумевается, что конструкция хронометра такова, что его работе отсутствует систематическая ошибка. Это значит, что одни экземпляры хронометров могут "уходить вперёд", другие "отставать", но эти ошибки случайные, связанные с изготовлением данного образца. Математически это означает, что среднее время - истинное. Качество конструкции и технологии изготовления хронометров характеризуется тем, насколько однородна по точности хода вся продукция в целом. Математически это выражается разбросом показаний отдельных приборов, т.е. дисперсией случайных величин x i . Дисперсия среднего в n = 24 раз меньше, чем дисперсия отдельного хронометра. Поэтому "среднее время", определённое по 24 хронометрам в среднем ближе к истинному времени почти в 5 раз, чем время любого отдельного хронометра.

В статистике существует два вида оценок: точечные и интервальные. Точечная оценка представляет собой отдельную выборочную статистику, которая используется для оценки параметра генеральной совокупности. Например, выборочное среднее - это точечная оценка математического ожидания генеральной совокупности, а выборочная дисперсия S 2 - точечная оценка дисперсии генеральной совокупности σ 2 . было показано, что выборочное среднее является несмещенной оценкой математического ожидания генеральной совокупности. Выборочное среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при одном и том же объеме выборки n ) равно математическому ожиданию генеральной совокупности.

Для того чтобы выборочная дисперсия S 2 стала несмещенной оценкой дисперсии генеральной совокупности σ 2 , знаменатель выборочной дисперсии следует положить равным n – 1 , а не n . Иначе говоря, дисперсия генеральной совокупности является средним значением всевозможных выборочных дисперсий.

При оценке параметров генеральной совокупности следует иметь в виду, что выборочные статистики, такие как , зависят от конкретных выборок. Чтобы учесть этот факт, для получения интервальной оценки математического ожидания генеральной совокупности анализируют распределение выборочных средних (подробнее см. ). Построенный интервал характеризуется определенным доверительным уровнем, который представляет собой вероятность того, что истинный параметр генеральной совокупности оценен правильно. Аналогичные доверительные интервалы можно применять для оценки доли признака р и основной распределенной массы генеральной совокупности.

Скачать заметку в формате или , примеры в формате

Построение доверительного интервала для математического ожидания генеральной совокупности при известном стандартном отклонении

Построение доверительного интервала для доли признака в генеральной совокупности

В этом разделе понятие доверительного интервала распространяется на категорийные данные. Это позволяет оценить долю признака в генеральной совокупности р с помощью выборочной доли р S = Х/ n . Как указывалось , если величины n р и n (1 – р) превышают число 5, биномиальное распределение можно аппроксимировать нормальным. Следовательно, для оценки доли признака в генеральной совокупности р можно построить интервал, доверительный уровень которого равен (1 – α)х100% .


где p S - выборочная доля признака, равная Х/ n , т.е. количеству успехов, деленному на объем выборки, р - доля признака в генеральной совокупности, Z - критическое значение стандартизованного нормального распределения, n - объем выборки.

Пример 3. Предположим, что из информационной системы извлечена выборка, состоящая из 100 накладных, заполненных в течение последнего месяца. Допустим, что 10 из этих накладных составлены с ошибками. Таким образом, р = 10/100 = 0,1. Доверительному уровню 95% соответствует критическое значение Z = 1,96.

Таким образом, вероятность того, что от 4,12% до 15,88% накладных содержат ошибки, равна 95%.

Для заданного объема выборки доверительный интервал, содержащий долю признака в генеральной совокупности, кажется более широким, чем для непрерывной случайной величины. Это объясняется тем, что измерения непрерывной случайной величины содержат больше информации, чем измерения категорийных данных. Иначе говоря, категорийные данные, принимающие лишь два значения, содержат недостаточно информации для оценки параметров их распределения.

В ычисление оценок, извлеченных из конечной генеральной совокупности

Оценка математического ожидания. Поправочный коэффициент для конечной генеральной совокупности (fpc ) использовался для уменьшения стандартной ошибки в раз. При вычислении доверительных интервалов для оценок параметров генеральной совокупности поправочный коэффициент применяется в ситуациях, когда выборки извлекаются без возвращения. Таким образом, доверительный интервал для математического ожидания, имеющий доверительный уровень, равный (1 – α)х100% , вычисляется по формуле:

Пример 4. Чтобы проиллюстрировать применение поправочного коэффициента для конечной генеральной совокупности, вернемся к задаче о вычислении доверительного интервала для средней суммы накладных, рассмотренной выше в примере 3. Предположим, что за месяц в компании выписываются 5000 накладных, причем =110,27долл., S = 28,95 долл., N = 5000, n = 100, α = 0,05, t 99 = 1,9842. По формуле (6) получаем:

Оценка доли признака. При выборе без возвращения доверительный интервал для доли признака, имеющий доверительный уровень, равный (1 – α)х100% , вычисляется по формуле:

Доверительные интервалы и этические проблемы

При выборочном исследовании генеральной совокупности и формулировании статистических выводов часто возникают этические проблемы. Основная из них - как согласуются доверительные интервалы и точечные оценки выборочных статистик. Публикация точечных оценок без указания соответствующих доверительных интервалов (как правило, имеющих 95%-ный доверительный уровень) и объема выборки, на основе которых они получены, может породить недоразумения. Это может создать у пользователя впечатление, что точечная оценка - именно то, что ему необходимо, чтобы предсказать свойства всей генеральной совокупности. Таким образом, необходимо понимать, что в любых исследованиях во главу угла должны быть поставлены не точечные, а интервальные оценки. Кроме того, особое внимание следует уделять правильному выбору объемов выборки.

Чаще всего объектами статистических манипуляций становятся результаты социологических опросов населения по тем или иным политическим проблемам. При этом результаты опроса выносят на первые страницы газет, а ошибку выборочного исследования и методологию статистического анализа печатают где-нибудь в середине. Чтобы доказать обоснованность полученных точечных оценок, необходимо указывать объем выборки, на основе которой они получены, границы доверительного интервала и его уровень значимости.

Следующая заметка

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 448–462

Центральная предельная теорема утверждает, что при достаточно большом объеме выборок выборочное распределение средних можно аппроксимировать нормальным распределением. Это свойство не зависит от вида распределения генеральной совокупности.

Вы можете использовать данную форму поиска, чтобы найти нужную задачу. Вводите слово, фразу из задачи или ее номер, если он вам известен.


Искать только в данном разделе


Доверительные интервалы: список решений задач

Доверительные интервалы: теория и задачи

Общие сведения о доверительных интервалах

Введем кратко понятие доверительного интервала, который
1) оценивает некоторый параметр числовой выборки непосредственно по данным самой выборки,
2) накрывает значение этого параметра с вероятностью γ.

Доверительным интервалом для параметра X (при вероятности γ) называется интервал вида , такой что , а значения вычисляются некоторым образом по выборке .

Обычно в прикладных задачах доверительную вероятность берут равной γ = 0,9; 0,95; 0,99.

Рассмотрим некоторую выборку объема n, сделанную из генеральной совокупности, распределенной предположительно по нормальному закону распределения . Покажем, по каким формулам находятся доверительные интервалы для параметров распределения - математического ожидания и дисперсии (среднего квадратического отклонения).

Доверительный интервал для математического ожидания

Случай 1. Дисперсия распределения известна и равна . Тогда доверительный интервал для параметра a имеет вид:
t определяется из таблицы распределения Лапласа по соотношению

Случай 2. Дисперсия распределения неизвестна, по выборке вычислена точечная оценка дисперсии . Тогда доверительный интервал для параметра a имеет вид:
, где - выборочное среднее, вычисленное по выборке, параметр t определяется из таблицы распределения Стьюдента

Пример. По данным 7 измерений некоторой величины найдены средняя результатов измерений, равная 30 и выборочная дисперсия, равная 36. Найдите границы, в которых с надежностью 0,99 заключено истинное значение измеряемой величины.

Решение. Найдем . Тогда доверительные границы для интервала, заключающего истинное значение измеряемой величины можно найти по формуле:
, где - выборочное среднее, - выборочная дисперсия. Подставляем все величины и получаем:

Доверительный интервал для дисперсии

Считаем, что вообще говоря, математическое ожидание неизвестно, а известна только точечная несмещенная оценка дисперсии . Тогда доверительный интервал имеет вид:
, где - квантили распределения , определяемые из таблиц.

Пример. По данным 7 испытаний найдено значение оценки для среднеквадратического отклонения s=12 . Найти с вероятностью 0,9 ширину доверительного интервала, построенного для оценки дисперсии.

Решение. Доверительный интервал для неизвестной дисперсии генеральной совокупности можно найти по формуле:

Подставляем и получаем:


Тогда ширина доверительного интервала равна 465,589-71,708=393,881.

Доверительный интервал для вероятности (доли)

Случай 1. Пусть в задаче известен объем выборки и выборочная доля (относительная частота) . Тогда доверительный интервал для генеральной доли (истинной вероятности) имеет вид:
, где параметр t определяется из таблицы распределения Лапласа по соотношению .

Случай 2. Если в задаче дополнительно известен общий объем совокупности , из которой была сделана выборка, доверительный интервал для генеральной доли (истинной вероятности) можно найти по скорректированной формуле:
.

Пример. Известно, что Найти границы, в которых с вероятностью заключена генеральная доля.

Решение. Используем формулу:

Найдем параметр из условия , получим Подставляем в формулу:


Другие примеры задач по математической статистике вы найдете на странице