# Общий случай
## Постановка задачи
Пусть есть параметрическая модель $M\left( \theta \right)$, где $\theta$ - параметры.
Функция правдоподобия $L\left( X | M\left( \theta \right) \right)$ определят достоверность получения набора данных $X$ при заданном наборе параметров и данной модели.
**Задача**: определить такой набор параметров $\theta$, для которого функция принимает наибольшее значение.
"## Классификация\n",
"По порядку производной:\n",
"* Не использует производных $L$\n",
"* Использует первую производную $\\frac{\\partial L}{\\partial \\theta_i}$ (градиент)\n",
"* Использует вторые прозиводные $\\frac{\\partial^2 L}{\\partial \\theta_i \\partial \\theta_j}$ (гессиан)"
## Без производных
"### Прямой перебор\n",
"(brute force)\n",
"* Строим сетку и ищем на ней максимум. \n",
"* Возможен только для одномерных, максимум двумерных задач. \n",
"* Точность ограничена размером ячкйки сетки."
"### Симплекс методы \n",
"1. Строим многоугольник в пространстве параметров с $n+1$ вершинами, где $n$ - размерность пространства. \n",
"2. Орпделеляем значения функции в каждой вершине. \n",
"3. Находим вершину с наименьшим значением и двигаем ее к центру масс многоугольника."
"Optimization terminated successfully.\n",
" Current function value: 0.000000\n",
" Iterations: 339\n",
" Function evaluations: 571\n"
" final_simplex: (array([[1. , 1. , 1. , 1. , 1. ],\n",
" [1. , 1. , 1. , 1. , 1. ],\n",
" [1. , 1. , 1. , 1.00000001, 1.00000001],\n",
" [1. , 1. , 1. , 1. , 1. ],\n",
" [1. , 1. , 1. , 1. , 1. ],\n",
" [1. , 1. , 1. , 1. , 0.99999999]]), array([4.86115343e-17, 7.65182843e-17, 8.11395684e-17, 8.63263255e-17,\n",
" 8.64080682e-17, 2.17927418e-16]))\n",
" fun: 4.861153433422115e-17\n",
" message: 'Optimization terminated successfully.'\n",
" nfev: 571\n",
" nit: 339\n",
" status: 0\n",
" success: True\n",
" x: array([1., 1., 1., 1., 1.])"
"import numpy as np\n",
"from scipy.optimize import minimize\n",
"def rosen(x):\n",
" \"\"\"The Rosenbrock function\"\"\"\n",
" return sum(100.0*(x[1:]-x[:-1]**2.0)**2.0 + (1-x[:-1])**2.0)\n",
"x0 = np.array([1.3, 0.7, 0.8, 1.9, 1.2])\n",
"minimize(rosen, x0, method='nelder-mead', options={'xtol': 1e-8, 'disp': True})"
## Первые производные
"### Наискорейший подъем (спуск)\n",
"Направление на максимум всегда в направлении градиента функции:\n",
"$$ \\theta_{k+1} = \\theta_k + \\beta_k \\nabla L $$\n",
"* Не понятно, как определять $\\beta$\n",
"* Не понятно, когда останавливаться."
Модификация метода - метод сопряженных градиентов на самом деле требует второй производной.
## Вторые производные
"Главная формула:\n",
"$$ L(\\theta) = L(\\theta_0) + \\nabla L( \\theta - \\theta_0) + \\frac{1}{2} (\\theta-\\theta_0)^T H (\\theta-\\theta_0) + o(\\theta-\\theta_0)$$"
"### Метод Ньютона\n",
"$$\\nabla f(\\theta_k) + H(\\theta_k)(\\theta_{k+1} - \\theta_k) = 0$$\n",
"$$ \\theta_{k+1} = \\theta_k - H^{-1}(\\theta_k)\\nabla L(\\theta_k) $$"
"Можно добавить выбор шага:\n",
"$$ \\theta_{k+1} = \\theta_k - \\lambda_i H^{-1}(\\theta_k)\\nabla L(\\theta_k) $$"
1.0
"from scipy import optimize\n",
"optimize.newton(lambda x: x**3 - 1, 1.5)"
"### Методы с переменной метрикой\n",
"* Вычислять $\\nabla L$ и $H$ очень дорого\n",
"* Давайте вычислять их итеративно.\n",
"Примеры: \n",
"* MINUIT\n",
"* scipy `minimize(method=’L-BFGS-B’)`"
# Случай наименьших квадратов
"В случае анализа спектров имеем:\n",
"$$ L(X | \\theta) = \\prod p_i (x_i | \\theta)$$\n",
"$$\\ln{ L(X | \\theta)} = \\sum \\ln{ p_i (x_i | \\theta)}$$\n",
"В случае нормальных распределений:\n",
"$$\\ln{ L(X | \\theta)} \\sim \\sum{ \\left( \\frac{y_i - \\mu(x_i, \\theta)}{\\sigma_i} \\right)^2 }$$"
"### Метод Гаусса-Ньютона\n",
"$$r_i = \\frac{y_i - \\mu(x_i, \\theta)}{\\sigma_i}$$ \n",
"$$J_{ij} = \\frac{\\partial r_i}{\\partial \\theta_j} = - \\frac{\\partial \\mu(x_i, \\theta)}{\\sigma_i \\partial \\theta_j}$$\n",
"$$ \\theta_{(k+1)} = \\theta_{(k)} - \\left( J^TJ \\right)^{-1}J^Tr(\\theta)$$"
"### Алгоритм Левенберга — Марквардта\n",
"$$ \\theta_{(k+1)} = \\theta_{(k)} + \\delta$$\n",
"$$ (J^TJ + \\lambda I)\\delta = J^Tr(\\theta)$$\n",
"При этом $\\lambda$ - фактор регуляризации, выбирается произвольным образом."
"### Метод квазиоптимальных весов\n",
" Есть некоторая статистика (функция данных) $f(x)$. Для оптимального решения среднее от этой функции по экспериментальным данным и по модели должны совпадать:\n",
"$$ E_\\theta(f(x)) = \\sum_i{f(x_i)} $$\n",
"Можно показать, что оптимальная эффективность получается когда\n",
"$$ f = \\frac{\\partial \\ln L}{\\partial \\theta} $$\n",
"В этом случае и если ошибки распределены по Гауссу или Пуассону, решение для оптмального $\\theta$ можно получить как:\n",
"$$ \n",
"\\sum_{i}{\\frac{\\mu_{i}\\left( \\mathbf{\\theta},E_{i} \\right) - x_{i}}{\\sigma_{i}^{2}}\\left. \\ \\frac{\\partial\\mu_{i}\\left( \\mathbf{\\theta},E_{i} \\right)}{\\partial\\mathbf{\\theta}} \\right|_{\\mathbf{\\theta}_{\\mathbf{0}}}} = 0. \n",
