Немає перевірених версій цієї сторінки; ймовірно, її ще не перевіряли на відповідність правилам проекту.

У статистиці лінійна регресія — це метод моделювання залежності між скалярною змінною y та векторною (у загальному випадку) змінною X. У разі, якщо змінна X також є скаляром, регресію називають простою.

Приклад простої лінійної регресії з однією незалежною змінною

При використанні лінійної регресії взаємозв'язок між даними моделюється за допомогою лінійних функцій, а невідомі параметри моделі оцінюються за вхідними даними. Подібно до інших методів регресійного аналізу лінійна регресія повертає розподіл умовної імовірності y в залежності від X, а не розподіл спільної імовірності y та X, що стосується області мультиваріативного аналізу.

При розрахунках параметрів моделі лінійної регресії зазвичай застосовується метод найменших квадратів (МНК), але також можуть бути використані інші методи. Але метод найменших квадратів може бути використаний і для нелінійних моделей, тому МНК та лінійна регресія, хоч і є тісно пов'язаними, але не є синонімами.

Означення

ред.

Загальна лінійна регресійна модель має вигляд:

 
де   — залежна пояснювана змінна,   — незалежні пояснювальні змінні,   — випадкова похибка, розподіл якої в загальному випадку залежить від незалежних змінних, але математичне сподівання якої дорівнює нулеві.

Згідно з цією моделлю, математичне сподівання залежної змінної є лінійною функцією незалежних змінних:

 

Вектор параметрів   є невідомим і задача лінійної регресії полягає у пошуку цих параметрів на основі деяких експериментальних значень   і   Тобто для деяких n експериментів мають бути відомими значення   незалежних змінних і відповідні їм значення  залежної змінної.

Згідно з означенням моделі для кожного експериментального випадку залежність між змінними визначається формулою

 

або, у матричних позначеннях,  

де:
 

На основі цих даних потрібно оцінити значення параметрів   а також розподіл випадкової величини   Зважаючи на характеристики досліджуваних змінних, можуть додаватися різні додаткові специфікації моделі і застосовуватися різні методи оцінки параметрів. Серед найпоширеніших специфікацій лінійних моделей є класична модель лінійної регресії і узагальнена модель лінійної регресії.

Класична модель лінійної регресії

ред.

Згідно з класичною моделлю додатково вводяться такі вимоги щодо специфікації моделі і відомих експериментальних даних:

  •   (відсутність кореляції залишків)
  •   (гомоскедастичність)
попередні дві властивості можна також записати в матричних позначеннях   де  одинична матриця розмірності n.
  • Ранг матриці X дорівнює K 1.
  • Усі елементи матриці X є невипадковими.

Часто додається також умова нормальності випадкових відхилень, яка дозволяє провести значно ширший аналіз оцінок параметрів та їх значимості, хоча і не є обов'язковою для можливості використання наприклад методу найменших квадратів:

  •  

Для асимптотичних властивостей оцінок додатково вимагається виконання деяких додаткових умов на матрицю X коли її розмірність прямує до безмежності. Однією з таких умов може бути існування границі при прямуванні розмірності до нескінченності:

  •   де   позначає найменше власне значення матриці.

Узагальнена модель лінійної регресії

ред.

Умови гомоскедастичності та відсутності кореляції між випадковими залишками у моделі не часто виконуються на практиці. Якщо замість цих двох умов у визначенні моделі взяти загальнішу умову   де   — відома додатноозначена матриця, то одержана модель називається узагальненою моделлю лінійної регресії.

Оскільки для кожної додатноозначеної матриці   існує матриця   така що   то модель

 

вже буде класичною моделлю лінійної регресії.

Методи оцінювання

ред.

Залежно від об'єктів, що досліджуються за допомогою лінійної регресії, та конкретних цілей дослідження можуть використовуватися різні методи оцінки невідомих параметрів. Найпопулярнішим є звичайний метод найменших квадратів. Він приймає за оцінку параметра значення, що мінімізують суму квадратів залишків по всіх спостереженнях:

 

Метод найменших квадратів можна застосувати у будь-яких задачах, в яких ранг матриці   рівний кількості її стовпців. Також цей метод дає простий аналітичний вираз для оцінки параметрів:

 

У випадку класичної моделі лінійної регресії оцінка методу найменших квадратів є незміщеною, змістовною і найкращою лінійною незміщеною оцінкою (детальніше про ці статистичні властивості у статті метод найменших квадратів).

У випадку коли деякі з умов класичної лінійної регресії не виконуються метод найменших квадратів може не бути оптимальним. Так для узагальненої моделі лінійної регресії де   найкращою лінійною незміщеною оцінкою є оцінка, що одержується так званим узагальненим методом найменших квадратів:

 

Узагальнений метод найменших квадратів теж одержується мінімізацією деякої норми вектора відхилень:

 

Серед інших методів оцінювання:

  • Метод найменших модулів, що знаходить мінімум суми не квадратів відхилень, а їх абсолютних значень:
 
Цей метод є найкращим в сенсі максимальної правдоподібності у випадку коли відхилення мають розподіл Лапласа. Метод найменших модулів є значно менш чутливим до викидів значень, ніж метод найменших квадратів, проте може мати більш ніж один розв'язок і не має простої формули визначення оцінки.
  • Метод максимальної правдоподібності. Використовується коли відомі всі розподіли відхилень для всіх спостережень. При класичній і узагальненій моделях лінійної регресії з умовою нормальності відхилень приводить до того ж результату, що і метод найменших квадратів і узагальнений метод найменших квадратів відповідно.
  • Ортогональна регресія. Застосовується у випадках коли в значення пояснюючих змінних теж можуть містити випадкові складові і при оцінці враховуються можливі відхилення по всіх змінних.

Див. також

ред.

Джерела

ред.