stat-methods/Теория оценок/estimates.md

16 KiB
Raw Permalink Blame History

Понятие о точечной оценке

Математическая статистика имеет огромное количество разнообразнейших применений, но с точки зрения экспериментальной физики (и как следствие студентов, изучающих эту науку) наиболее интересным применением является оценка параметров закономерностей. Пусть есть некоторое явление природы, которое можно описать при помощи модели M(\theta). Здесь \theta - это некоторый набор параметров модели, которые могут принимать различные значения. На этом этапе мы не оговариваем, как именно модель описывает процесс и что мы можем принимать в качестве параметров. Положим теперь, что существует некоторый выделенный набор параметров \theta_0, который соответствует некоторому "истинному" состоянию природы. Далее мы будем исходить из того предположения, что при попытке предпринять некоторые измерения, мы будем получать результаты, соответствующие нашей модели именно с этим набором параметров.

**Замечание** Тут важно заметить, что мы также негласно предполагаем, что природа вообще действует согласно нашей модели, но этот вопрос мы пока оставим за кадром. В какой-то мере мы вернемся к нему, в главе 5, когда будем обсуждать теорию проверки гипотез.

Предоставим теперь, что мы провели некоторую серию экспериментов X = \{X_0, X_1,...X_N\}, в которых мы тем или иным способом изучаем состояние природы (будем дальше называть результаты этих экспериментов экспериментальной выборкой). Нашей задачей в этой главе будет описание процедуры, при помощи которой можно на основе выборки сделать вывод об истинном состоянии природы \theta_0. Важно понимать, что в общем случае, результаты измерений являются случайными величинами, поэтому полученное нами на основании этих данных состояние природы также будет случайной величиной в противовес истинному состоянию природы \theta_0, которое вообще говоря, истинно случайной величиной не является. Полученную величину будем называть точечной оценкой состояния природы \hat{\theta} или просто оценкой. Саму процедуру, в процессе которой получена оценка, будем называть оцениванием.

**Пример** Положим, что знания студента в области физики являются состоянием природы (а точнее данного конкретного студента). Очевидно, что досконально проверить этот факт не представляется возможным, поэтому для измерения этой величины мы проводим эксперимент - экзамен. То, что по результатам экзамена оказывается в ведомости является оценкой не только с точки зрения деканата, но и с точки зрения математической статистики.

В дальнейшем будем считать, что состояния природы описываются действительным числом или набором действительных чисел. Сама по себе теория этого не требует, но в противном случае довольно сложно сравнивать состояния между собой (требуется определять понятие близости в произвольном пространстве). В этом случае наша процедура оценивания:


    \hat{\theta} = f(X)

является действительной функцией на пространстве векторов X, состоящих из случайных переменных. Такие функции еще называют статистиками. Очевидно, что далеко не людая такая функция будет давать тот результат, которого мы хотим. Поэтому вводятся дополнительные обязательные свойства оценок.

##Свойства точечных оценок

Состоятельность

Естественное пожелание к оценщику, заключается в том, что качество оценки должно зависеть от объема выборки, числа измерений n случайных переменных X: чем больше выборка, тем качественней оценка \hat{\theta}. Иными словами, мы хотим, чтобы с ростом объема выборки значение оценки приближалось к истинному значению параметра. При использовании сходимости по вероятности оценку \hat{\theta} определяют как состоятельную, если при любых \varepsilon > 0 и \eta > 0, найдется такое N, что P \left( \left| \hat{\theta} - \theta \right| \right) < \eta при всех n > N.

**Замечание** Нужно заметить, что на практике оценки являются состоятельными только когда при построении оценки не учитывается систематическая ошибка. В противном случае, может наблюдаться сходимость по вероятности не к нулю, а к некоторой фиксированной константе.

Несмещенность

Рассмотрим набор измерений, каждое из которых состоит из k наблюдений X, характеризуемый функцией плотности вероятности P(\hat\theta | \theta) при фиксированном k и определим смещение как отклонение среднего по этому набору \hat{\theta_k} от истинного

$
  b = E[\hat{\theta_k}] - \theta

Оценка называется несмещенной, если b = 0.

Заметим, что смещение не зависит от измеренных величин, но зависит от размера образца, формы оценщика и от истинных (в общем случае неизвестных) свойств ФПВ f(x), включая истинное значение параметра. Если смещение исчезает в пределе n \to \infty, говорят об асимптотически несмещенной оценке. Заметим, что из состоятельности оценки не следует несмещенность. Это означает, что даже если \hat{\theta} сходится к истинной величине \theta в единичном эксперименте с большим числом измерений, нельзя утверждать, что среднее \hat{\theta} по бесконечному числу повторений эксперимента с конечным числом измерений n будет сходится к истинному \theta. Несмещенные оценки пригодны для комбинирования результатов разных экспериментов. В большинстве практических случаев смещение должно быть мало по сравнению со статистической ошибкой и им пренебрегают.

Эффективность

Для сравнения разных методов оценки, очень важным свойством является эффективность. Говоря простым языком, эффективность - это величина, обратная разбросу значений \hat{\theta} при применении к разным наборам данных. Для того, чтобы хорошо разобраться в этом свойстве, надо вспомнить, что оценка, как случайная величина, распределена с плотностью P(\hat\theta | \theta). Вид этого распределения может быть не известен полностью, но знать его свойства низшие моменты необходимо. Среднее по нему суть смещение, а дисперсия \sigma_{\hat\theta}^2 = \int{ (\hat\theta - \theta} ) P(\hat\theta | \theta) d\hat\theta суть мера ошибки в определении оценки. Выбирая между различными методами, мы, естественно, хотим, чтобы ошибка параметра была минимальной из всех доступных нам способов его определения для фиксированного эксперимента. Разные методы обладают разной эффективностью и в общем случае при конечной статистике дисперсия распределения оценки никогда не будет равна нулю. Разумеется, встает вопрос о том, можно ли построить оценку с максимальной возможной эффективностью.

Интервальные оценки

На практике применение точечных оценок сильно затруднено тем, что не известно, на сколько каждая такая оценка точна. Действительно, мы можем спокойно утверждать, что слон весит один килограмм если разброс нашей оценки составляет больше массы слона. Для того, чтобы решить эту проблему есть два пути. Первый путь - это на ряду с точечной оценки указывать меру эффективности этой оценки или ее разброс\sigma_{\hat\theta}. Но тут любой внимательный слушатель заметит, что для определения эффективности, вообще говоря, надо знать истинное значение параметра \theta, которого мы, разумеется не знаем. Следовательно приходится использовать не эффективность, а оценку этой эффективности, которая сама по себе является случайной величиной. Кроме того, часто случается, что распределение оценки является не симметричным и описать его одним числом не удается.

Более корректным способом является построение интервальной оценки (доверительного интервала). Формально определение интервальной оценки будет отличаться в зависимости от того, какое определение вероятности вы будете использовать.

Частотная интерпретация: интервальной оценкой параметра или группы параметров \theta с уровнем достоверности \alpha называется такая область на пространстве параметров (в одномерном случае - интервал), которая при многократном повторении эксперимента с вероятностью (частотой) \alpha перекрывает истинное значение \theta.

Субъективная интерпретация: доверительным интервалом для параметров \theta будем называть такую область в пространстве параметров, в которой интегральная апостериорная вероятность нахождения истинного значения параметра равна \alpha.

Для точного описания результата проведения анализа как правило в качестве результата приводят как точечную оценку, так и интервальную оценку с некоторым уровнем достоверности (в английском варианте Confidence Level или C. L.). В некоторых случаях приводят несколько интервальных оценок с разным уровнем достоверности. В случае, когда речь идет об определении верхней или нижней границы какого-то параметра, точечная оценка как правило не имеет смысла и в качестве результата дается только интервальная оценка.

**Замечание** Точечная оценка также не имеет смысла в случае, когда распределение оценки, скажем имеет вид однородного распределения на отрезке. В этом случае все параметры на этом отрезке равновероятны и не понятно, какой из них называть результатом.
**Замечание** Вполне очевидно, что для одних и тех же данных с использованием одного и того же метода оценивания можно построить бесконечное множество интервальных оценок с фиксированным уровнем достоверности. Действительно, мы можем двигать интервал в разные стороны таким образом, чтобы его вероятностное содержание не менялось. Обычно, если не оговорено иначе, используются так называемые центральные доверительные интервалы, в которых вероятностные содержание за границами интервалов с обеих сторон равны. **Добавить картинку**