В диференціальному численні метод Ньютона — це ітераційний метод пошуку коренів диференційовної функції, які є розв'язками рівняння . В оптимізації метод Ньютона застосовується до похідної подвійно диференційовної функції для пошуку коренів похідної (розв'язки ), також відомих як стаціонарні точки Ці розв'язки можуть бути мінімумами, максимумами або сідловими точками.[1]
Центральною задачею оптимізації є мінімізація функцій. Розглянемо спочатку випадок одновимірних функцій, тобто функцій однієї змінної. Пізніше ми розглянемо загальніший і корисніший багатовимірний випадок.
Маючи двічі диференційовну функцію , ми прагнемо вирішити оптимізаційну задачу
Метод Ньютона намагається вирішити цю проблему шляхом побудови послідовності з початкової здогадки (відправної точки) , котра збігається до мінімізатора функції , використовуючи послідовність наближень Тейлора другого порядку функції навколо точок послідовності. Розвинення Тейлора другого порядку функції в околі це
Наступна точка визначена таким чином, щоб мінімізувати це квадратичне наближення по і встановити . Якщо друга похідна додатна, то квадратичне наближення є опуклою функцією , і її мінімум можна знайти, прирівнявши похідну до нуля. Тому
мінімум досягається для
Збираючи все разом, метод Ньютона виконує ітерацію
Геометрична інтерпретація методу Ньютона полягає в тому, що при кожній ітерації ми допасовуємо параболоїд до поверхні у пробному значенні , що має ті ж нахил та кривину, що і поверхня в цій точці, а потім переходимо до максимуму або мінімуму цього параболоїда (у більш високих вимірах це також може бути сідлова точка). Зверніть увагу, що якщо це квадратична функція, то точний екстремум буде знайдений за один крок.
Наведену вище ітеративну схему можна узагальнити на вимірів за допомогою заміни похідної на градієнт (різні автори використовують різні позначення для градієнта включно з ) і оберненої другої похідної на оберненуматрицю Гесе (різні автори використовують різні позначення для матриці Гесе включно з ). Так отримуємо таку ітеративну схему
Часто метод Ньютона змінюють, щоб включити маленький розмір кроку замість :
Це часто роблять, щоб гарантувати, що умови Вольфе задовольняються на кожному кроці методу.
Цей розділ не містить посилань на джерела. Ви можете допомогти поліпшити цей розділ, додавши посилання на надійні (авторитетні) джерела. Матеріал без джерел може бути піддано сумніву та вилучено.(квітень 2021)
Нехай тобто Згідно з теоремою Тейлора, поклавши і для певного у проміжку від до маємо
Завдяки тому, що і маємо
Через те, що похідна неперервна з можна сказати, що якщо достатньо близько до Отже ми можемо поділити на
скориставшись означенням методу Ньютона маємо
Отже,
Завдяки неперервності, збігається до і, з того, що гніздиться між і випливає, що збігається до і тому збігається до отже, для достатньо великих