Логістична регресія
Частина з циклу Статистика |
Регресійний аналіз |
---|
Моделі |
Оцінка |
Підґрунтя |
Логістична регресія (англ. logistic regression) або лоґіт-регресія (англ. logit model[1]) — статистичний регресійний метод, що застосовують у випадку, коли залежна змінна є бінарною[en], тобто може набувати тільки двох значень (0 або 1). При запровадженні порогового значення може знаходити застосування у класифікуванні.
Прикладом може слугувати класифікація електронних листів на «спам» або «не спам». Метод також використовується у медицині, наприклад, для визначення чи є пухлина злоякісною, чи доброякісною.
Нехай є деяка випадкова величина що може набувати лише двох значень, які, як правило, позначаються цифрами 0 і 1. Нехай ця величина залежить від деякої множини пояснювальних змінних Залежність від можна визначити ввівши додаткову змінну y*, де Тоді:
При визначенні логістичної моделі стохастичний доданок вважається випадковою величиною з логістичним розподілом ймовірностей. Відповідно для певних конкретних значень змінних одержується відповідне значення і ймовірність того, що така:
Передостання рівність випливає з симетричності логістичного розподілу, позначає логістичну функцію — функцію розподілу логістичного розподілу:
Таким чином для конкретного значення випадкова величина має розподіл Бернуллі:
Логіт-модель задовольняє наступній умові:
Оцінка параметрів на основі деякої вибірки , де — вектор значень незалежних змінних, а — відповідне їм значення як правило здійснюється за допомогою методу максимальної правдоподібності, згідно з яким вибираються параметри , що максимізують значення функції правдоподібності на вибірці:
Максимізація функції правдоподібності еквівалентна максимізації її логарифма:
Для максимізації цієї функції може бути застосований, наприклад, метод градієнтного спуску, метод Ньютона чи стохастичний градієнтний спуск.
- Alan. Agresti: Categorical Data Analysis. Wiley-Interscience, Nowy Jork, 2002. ISBN 0-471-36093-7.
- T. Amemiya: Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0.
- N. Balakrishnan: Handbook of the Logistic Distribution. Marcel Dekker, Inc., 1991. ISBN 978-0-8247-8587-1.
- William H. Green: Econometric Analysis, fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9.
- Hosmer, David W., Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley. ISBN 0-471-35632-8.
- Kleinbaum D.G., Logistic regression. A self-learning text, Springer-Verlag, 1994.