Метад максімальнай праўдападобнасці
Метад максімальнай праўдападобнасці (ММП) — метад ацэньвання параметраў меркаванага размеркавання імавернасцей на аснове выбаркі назіранняў. Ацэнка дасягаецца максімізацыяй функцыі праўдападобнасці такім чынам, каб згодна з меркаванай статыстычнай мадэллю назіранні былі найбольш праўдабадобнымі. Пункт у прасторы параметраў , які максімізуе функцыю праўдападобнасці, называецца ацэнкай максімальнай праўдападобнасці[1]. Логіка метаду адначасова інтуіцыйная і гнуткая, таму ён стаў дамінуючым сродкам статыстычнага высноўвання[2][3][4].
Калі функцыя праўдападобнасці дыферэнцавальная , можна прымяніць метад вытворнай для знаходжання яе максімумаў. У некаторых выпадках максімум функцыі праўдападобнасці можна знайсці аналітычна; напрыклад, ацэнка звычайным метадам найменшых квадратаў для мадэлі лінейнай рэгрэсіі максімізуе праўдападобнасць, калі мяркуецца, што ўсе назіранні маюць нармальнае размеркаванне з роўнай дысперсіяй[5].
З пункту гледжання баесаўскага высноўвання , ацэнка максімальнай праўдападобнасці, як правіла, эквівалентная ацэнцы апастэрыёрнага максімуму з раўнамерным апрыёрным размеркаваннем (або нармальным апрыёрным размеркаваннем з бесканечным стандартным адхіленнем). У частотным высноўванні метад максімальнай праўдападобнасці — асаблівы выпадак экстрэмальнай ацэнкі з мэтавай функцыяй роўнай праўдападобнасці.
Прынцыпы
[правіць | правіць зыходнік]Набор назіранняў мадэлюецца як выпадковая выбарка з невядомага супольнага размеркавання, якое задаецца наборам параметраў . Мэта метаду максімальнай праўдападобнасці — знайсці параметры, для якіх назіранні маюць найбольшую супольную імавернасць. Параметры, якія задаюць супольнае размеркаванне, запісваюцца як вектар , таму кажуць, што гэтае размеркаванне адносяцца да параметрычнага сямейства , дзе — прастора параметраў , канечнамернае падмноства Еўклідавай прасторы . Падстаўляючы назіранні у функцыю шчыльнасці супольнага размеркавання, атрымліваем рэчаісназначную функцыю
якая называецца функцыяй праўдападобнасці . Для незалежных і аднолькава размеркаваных выпадковых велічынь , можна запісаць як здабытак аднамерных функцый шчыльнасці імавернасці:
Мэта метаду максімальнай праўдападобнасці — знайсці такія значэнні параметраў мадэлі з прасторы параметраў, для якіх функцыя праўдападобнасці будзе максімальнай[6]:
Інтуітыўна, знойдзенае такім чынам значэнне параметраў робіць назіранні найбольш імавернымі. Значэнне , якое максімізуе функцыю праўдападобнасці , называецца значэннем ацэнкі максімальнай праўдападобнасці. Калі існуе вымерная функцыя , то такая функцыя называецца функцыяй ацэнкі максімальнай праўдападобнасці. Звычайна гэтая функцыя задаецца на прасторы элементарных падзей і яе аргументам выступае пэўная выбарка. Дастатковая, але не неабходная ўмова яе існавання — непарыўнасць функцыі праўдападобнасці на кампактнай прасторы параметраў[7]. Для адкрытага мноства , функцыя праўдападобнасці можа павялічвацца не дасягаючы супрэмуму.
На практыцы часта бывае зручна працаваць з натуральным лагарыфмам функцыі праўдападобнасці, які называецца лагарыфмам праўдападобнасці :
Праз тое што лагарыфм — манатонная функцыя , максімум дасягаецца пры тым самым значэнні , што і максімум [8]. Калі — дыферэнцавальная функцыя на , то неабходныя для максімуму (мінімуму) умовы
называюцца раўнаннямі праўдападобнасці. Для некаторых мадэляў удаецца знайсці іх аналітычныя развязкі , але агульнага аналітычнага развязка задачы максімізацыі не існуе, і ацэнка максімальнай праўдападобнасці можа быць знойдзена толькі з дапамогай лікавай аптымізацыі . Іншая праблема ў тым, што для канечных выбарак можа існаваць некалькі каранёў раўнанняў праўдападобнасці[9]. Гесіян , матрыца частковых вытворных другога парадку, можа выкарыстоўвацца каб зразумець ці з’яўляецца знойдзены максімум лакальным:
Калі гесіян адмоўна паўвызначаны ў , то функцыя лакальна ўвагнутая . Зручна тое, што найбольш вядомыя размеркаванні — у прыватнасці экспанентавае сямейства — лагарыфмічна ўвагнутыя[10][11].
Абмежаваная прастора параметраў
[правіць | правіць зыходнік]Хаця звычайна абсяг вызначэння функцыі праўдападобнасці (прастора параметраў ) — канечнамернае падмноства Еўклідавай прасторы , часам на яго могуць накладацца дадатковыя абмежаванні . У такім выпадку прастору параметраў можна запісаць як
дзе — вектар-функцыя з у . Тады знайсці ацэнку максімальнай праўдападобнасці параметра з мноства значыць знайсці , для якога дасягаецца максімум функцыі праўдападобнасці пры выкананні ўмоў .
Тэарэтычна, самы натуральны падыход да гэтай задачы ўмоўнай аптымізацыі — метад падстаноўкі. Гэта значыць дапаўненне ўмоў да мноства такім чынам, што — ін’екцыя з у , і рэпараметрызацыя функцыі праўдападобнасці ўвядзеннем [12]. Праз эквіварыянтнасць функцыі ацэнкі максімальнай праўдападобнасці, уласцівасці распаўсюджваюцца і на абмежаваныя ацэнкі[13]. Напрыклад, для многавымернага нармальнага размеркавання матрыца каварыяцыі мусіць быць дадатна вызначанай матрыцай ; гэта абмежаванне можна выканаць падстаноўкай , дзе — рэчаісная верхнетрохвугольная матрыца , а — транспанаваная (гл. раскладанне Халецкага для доказу ін’ектыўнасці)[14].
На практыцы ўмовы звычайна накладаюцца метадам множнікаў Лагранжа , які прыводзіць да раўнанняў абмежаванай праўдападобнасці:
- і
дзе — вектар-слупок множнікаў Лагранжа, а — матрыца Якобі частковых вытворных памеру k × r [12]. Натуральна, калі абмежаванні не ўплываюць на максімум, множнікі Лагранжа маюць быць роўнымі нулю[15]. Гэта, у сваю чаргу, дазваляе правесці статыстычную праверку валіднасці абмежавання, вядомую як тэст множнікаў Лагранжа .
Уласцівасці
[правіць | правіць зыходнік]Ацэнка максімальнай праўдападобнасці — ацэнка экстрэмуму , якая максімізуе па θ мэтавую функцыю . Калі назіранні незалежныя і аднолькава размеркаваныя , маем
што ёсць выбаркавым аналагам матэматычнага спадзявання лагарыфму праўдападобнасці , узятага па сапраўднай шчыльнасці.
Ацэнка максімальнай праўдападобнасці не мае аптымальных уласцівасцей для канечных выбарак у тым сэнсе, што іншыя ацэнкі на канечных выбарках могуць мець большую канцэнтрацыю вакол сапраўднага значэння параметру[16]. Аднак, як і іншыя метады ацэнкі, ацэнка максімальнай праўдападобнасці мае шэраг прывабных абмежавальных уласцівасцей : калі памер выбаркі павялічваецца да бясконцасці, паслядоўнасць ацэнак максімальнай праўдападобнасці мае наступныя ўласцівасці:
- Слушнасць : паслядоўнасць ацэнак максімальнай праўдападобнасці збягаецца паводле імавернасці да ацэньваемага значэння.
- Функцыянальная інварыянтнасць: Калі — ацэнка максімальнай праўдападобнасці для , а — адвольнае пераўтварэнне над , то ацэнка максімальнай праўдападобнасці для роўная .
- Эфектыўнасць : ацэнка дасягае ніжняй мяжы Крамера-Раа , калі памер выбаркі імкнецца к бесканечнасці. Гэта значыць, што ніводная слушная ацэнка не мае меншай асімптатычнай сярэднеквадратычнай памылкі , чым ацэнка максімальнай праўдападобнасці (або іншыя ацэнкі, якія дасягаюць гэтай мяжы). Гэта таксама значыць, што для ацэнкі максімальнай праўдападобнасці ўласцівая асімптатычная нармальнасць .
- Эфектыўнасць другога парадку пасля карэкцыі ўхілу.
Слушнасць
[правіць | правіць зыходнік]Пры выкананні прыведзеных ніжэй умоў, ацэнка максімальнай праўдападобнасці слушная . Гэта значыць, што калі даныя былі ўтвораны функцыяй і мы маем дастаткова вялікую колькасць назіранняў , то магчыма знайсці значэнне з адвольнай дакладнасцю. У матэматычных тэрмінах гэта значыць, што калі імкнецца да бесканечнасці, ацэнка збягаецца паводле імавернасці да сапраўднага значэння:
Пры трохі стражэйшых умовах, ацэнка збягаецца амаль напэўна (або моцна):
На практыцы, даныя ніколі не ўтвараюцца . Наадварот, — гэта мадэль, часта ў ідэалізаванай форме, працэсу, які ўтварае даныя. Паводле распаўсюджанага ў статыстыцы афарызму, усе мадэлі хібныя . Такім чынам, сапраўдная слушнасць ніколі не дасягаецца на практыцы. Тым не менш, слушнасць часта ўважаецца пажаданай уласцівасцю для ацэнак.
Для слушнасці дастаткова наступных умоў.[17]
- Ідэнтыфікавальнасць мадэлі: Іншымі словамі, розным параметрам адпавядаюць розныя размеркаванні мадэлі. Калі гэтая ўмова не выконваецца, існуе пэўнае значэнне , такое што і утвараюць роўныя размеркаванні даных. Тады немагчыма адрозніць гэтыя параметры нават з бясконцай колькасцю даных. Такія параметры называюцца назіральна эквівалентнымі .
Ідэнтыфікавальнасць неабходная для слушнасці ацэнкі максімальнай праўдападобнасці. Калі гэтая ўмова выконваецца, абмежаваная функцыя лагарыфму праўдападобнасці мае адзіны глабальны максімум у . - Кампактнасць: прастора параметраў мадэлі кампактная .
Умова ідэнтыфікавальнасці гарантуе, што ў лагарыфма праўдападобнасці існуе адзіны глабальны максімум. Кампактнасць азначае, што праўдападобнасць не можа імкнуцца к максімальнаму значэнню ў нейкім іншым месцы (напрыклад як паказана на рысунку справа).
Кампактнасць — толькі дастатковая, але не неабходная ўмова. Яна можа быць заменена некаторымі іншымі ўмовамі, такімі як:- адначасовая ўвагнутасць функцыі лагарыфму праўдападобнасці і кампактнасць некаторага з яе непустых мностваў узроўню , або
- існаванне кампактнага наваколля для , такога што па-за наваколлем функцыя лагарыфму праўдападобнасці меншая за максімум прынамсі на некаторы .
- Непарыўнасць: функцыя непарыўная ў для амаль усіх значэнняў : Непарыўнасць можа быць замененая слабейшай умовай верхняй паўнепарыўнасці .
- Дамінантнасць: існуе інтэгравальная па размеркаванні функцыя , такая што Паводле раўнамернага закона вялікіх лікаў, умова дамінантнасці разам з непарыўнасцю гарантуе раўнамерную збежнасць паводле імавернасці лагарыфма праўдападобнасці: Умова дамінантнасці можа быць выкарыстана ў выпадку незалежных аднолькава размеркаваных велічынь . Інакш, раўнамерная збежнасць паводле імавернасці можа быць забяспечана тым, што стахастычна роўнаступенна непарыўная .
Калі неабходна прадэманстраваць, што ацэнка максімальнай праўдападобнасці збягаецца да амаль напэўна , то мае выконвацца стражэйшая ўмова непарыўнай збежнасці амаль напэўна:
Акрамя таго, у дапушчэнні што даныя былі ўтвораны функцыяй , пры пэўных умовах можна паказаць, што ацэнка максімальнай праўдападобнасці збягаецца паводле размеркавання к нармальнаму размеркаванню[18]
- ,
дзе — матрыца інфармацыі Фішэра .
Функцыянальная інварыянтнасць
[правіць | правіць зыходнік]Калі — ацэнка максімальнай праўдападобнасці для , а — трансфармацыя над , то ацэнка максімальнай праўдападобнасці для роўная[19]
Яна максімізуе так званую профільную праўдападобнасць :
Акрамя таго, ацэнка максімальнай праўдападобнасці інварыянтная ў дачыненні некаторых трансфармацый даных. Калі , дзе — біекцыя, якая не залежыць ад ацэньваемых параметраў, то функцыя шчыльнасці адпавядае
і функцыі праўдападобнасці для і адрозніваюцца толькі множнікам, які не залежыць ад параметраў мадэлі.
Напрыклад, ацэнка максімальнай праўдападобнасці параметраў лог-нармальнага размеркавання такая самая як і ў нармальнага размеркавання, атрыманая на лагарыфмаваных даных.
Крыніцы
[правіць | правіць зыходнік]- ↑ Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227. ISBN 978-1-118-77104-4.
- ↑ Hendry, David F.; Nielsen, Bent (2007). Econometric Modeling: A Likelihood Approach. Princeton: Princeton University Press. ISBN 978-0-691-13128-3.
- ↑ Chambers, Raymond L.; Steel, David G.; Wang, Suojin; Welsh, Alan (2012). Maximum Likelihood Estimation for Sample Surveys. Boca Raton: CRC Press. ISBN 978-1-58488-632-7.
- ↑ Ward, Michael Don; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. New York: Cambridge University Press. ISBN 978-1-107-18582-1.
- ↑ Press, W.H.; Flannery, B.P.; Teukolsky, S.A.; Vetterling, W.T. (1992). "Least Squares as a Maximum Likelihood Estimator". Numerical Recipes in FORTRAN: The Art of Scientific Computing (2nd ed.). Cambridge: Cambridge University Press. pp. 651–655. ISBN 0-521-43064-X.
- ↑ Myung, I.J. (2003). "Tutorial on maximum likelihood Estimation". Journal of Mathematical Psychology. 47 (1): 90–100. doi:10.1016/S0022-2496(02)00028-7.
- ↑ Gourieroux, Christian; Monfort, Alain (1995). Statistics and Econometrics Models. Cambridge University Press. p. 161. ISBN 0-521-40551-3.
- ↑ Kane, Edward J. (1968). Economic Statistics and Econometrics. New York, NY: Harper & Row. p. 179.
- ↑ Small, Christoper G.; Wang, Jinfang (2003). "Working with roots". Numerical Methods for Nonlinear Estimating Equations. Oxford University Press. pp. 74–124. ISBN 0-19-850688-0.
- ↑ Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York, NY: John Wiley & Sons. p. 14. ISBN 0-471-82668-5.
- ↑ Papadopoulos, Alecos. Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)? . Stack Exchange (25 верасня 2013).
- ↑ а б Silvey, S. D. (1975). Statistical Inference. London, UK: Chapman and Hall. p. 79. ISBN 0-412-13820-4.
- ↑ Olive, David (2004). "Does the MLE maximize the likelihood?" (Document).
{{cite document}}
: Невядомы параметр|url=
ігнараваны (даведка); Шаблон цытавання document патрабуе|publisher=
(даведка) - ↑ Schwallie, Daniel P. (1985). "Positive definite maximum likelihood covariance estimators". Economics Letters. 17 (1–2): 115–117. doi:10.1016/0165-1765(85)90139-9.
- ↑ Magnus, Jan R. (2017). Introduction to the Theory of Econometrics. Amsterdam: VU University Press. pp. 64–65. ISBN 978-90-8659-766-6.
- ↑ Pfanzagl 1994, p. 206.
- ↑ Тэарэма 2.5 у Newey, Whitney K.; McFadden, Daniel (1994). "Chapter 36: Large sample estimation and hypothesis testing". In Engle, Robert; McFadden, Dan (рэд-ры). Handbook of Econometrics, Vol.4. Elsevier Science. pp. 2111–2245. ISBN 978-0-444-88766-5.
- ↑ Тэарэма 3.3 у Newey, Whitney K.; McFadden, Daniel (1994). "Chapter 36: Large sample estimation and hypothesis testing". In Engle, Robert; McFadden, Dan (рэд-ры). Handbook of Econometrics, Vol.4. Elsevier Science. pp. 2111–2245. ISBN 978-0-444-88766-5.
- ↑ Zacks, Shelemyahu (1971). The Theory of Statistical Inference. New York: John Wiley & Sons. p. 223. ISBN 0-471-98103-6.
Літаратура
[правіць | правіць зыходнік]- Pfanzagl, Johann (1994). Parametric Statistical Theory(англ.). Walter de Gruyter. pp. 207–208. doi:10.1515/9783110889765. ISBN 978-3-11-013863-4. MR 1291393.